Sunuyu indir
1
Veri Madenciliği Temel Bilgiler
21 Şubat 2006
2
Veri Ne Demektir? Bazı Örnekler? Veriyi Kimler Toplar? İhtiyaç?
Gerekli mi? Ne kadar bir süre için? Mahremiyet? Veri Depolama?
3
O Zaman Veri Madenciliği Nedir?
Büyük hacimli veri içerisinden; anlamlı, gizli kalmış ve kuruluşun karar destek sistemi için potansiyel olarak faydalı olabilecek, uygulanabilir bilgilerin (knowledge) çıkarıldığı ve geri planında istatistik, yapay zeka ve veritabanı yönetim sistemlerinin bulunduğu veri analiz tekniğine Veri Madenciliği (Data Mining) adı verilir. Alternatif İsimler: Veritabanlarında Bilgi Keşfi, Bilgi Çıkarımı, Veri Analizi, Veri Arkeolojisi, Bilgi Hasatı, İş Zekası, vb.
4
Niçin Veri Madenciliği?
Veri Analizi ve Karar Destek Pazar Araştırmaları ve Yönetimi Hedef Pazarlama, Müiteri İlişkileri Yönetimi, Sepet Analizi, Çapraz Satış, Pazar Gruplama Risk Analizi ve Yönetimi Tahmin, Müşteri Memnuniyeti, İleri Sigortacılık Yöntemleri, Kalite Kontrol, Rekabet Analizleri Hilekârlık ve Sahtekârlık Yakalama, Yaygın Olmayan Şablonların (desenlerin) Yakalanması (outliers) Diğer Uygulamalar Metin Madenciliği (haber ve chat grupları, , yazılı dökümanlar - metinler) ve Web Madenciliği Sürekli Veri Madenciliği DNA ve biyolojik veri analizi
5
Veri Madenciliği (Data Mining): Diğer Adlandırmalar
Information Harvesting Knowledge Mining Data Mining Knowledge Discovery in Databases Data Dredging Data Archaeology Data Pattern Processing Database Mining Knowledge Extraction Siftware Desen algılama (Pattern Recognition), istatistiksel ve matematiksel yöntemler yardımıyla, elektronik ortamda saklanmış çok büyük ölçekli (devasa) veri yığınlarını elden geçirerek anlamlı yeni korelasyonların, desenlerin ve eğilimlerin (trend) keşif süreci
6
Birçok Teknolojinin Bileşimi
Yapay Zeka Makina Öğrenmesi Veritabanı Yönetimi İstatistik Algoritmalar Görselleme Veri Madenciliği
7
Veri Madenciliğinin Sınıflandırılması
Fonksiyonel Açıdan Tanımlayıcı veri madenciliği Tahmin edici veri madenciliği Farklı görüşler, farklı sınıflandırmalar Kullanılan veriye, Keşif edilecek bilgiye, Kullanılan tekniklere, Kullanılması gereken uygulamalara göre.
8
Veritabanlarında Bilgi Keşfi Süreci
Yorumlama/ Değerlendirme Veri Madenciliği Bilgi Desenler Ön-İşleme İşlenmiş Veri Seçim Hedef Veri Veri Kaynak: U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press
9
Veri Madenciliğinin Çok-boyutlu Görünümü
Kullanılan Veriler İlişkisel, veri ambarı, muamele verisi, nesneye yönelik –ilişkisel, serileri, zaman, uzaysal veri, metin, çoklu-ortam, heterojen veritabanları, WWW Keşif Edilecek Bilgi Karakterizasyon, discriminasyon (ayırım), ilişki (bağlantı), sınıflandırma, gruplama, eğilim/sapma, aykırı değer (outlier), vs. Kullanılan Teknikler Veritabanına yönelik, veri ambarı (OLAP), makina öğrenmesi, istatistik, görselleştirme Uygulama Alanları Perakende, haberleşme, bankacılık, sahtekârlık analizi, biyolojik veri analizi, borsa analizler, Web madenciliği vb.
10
Problem hakkında bilgi
Etkin Bir KDD Sürecinin Bileşenleri Görselleştirme ve Insan-Bilgisayar Etkileşimi Öğrenme için planlama Hipotez kurma ve test etme Bilgi Keşfi Bilginin ilgisini de- ğerlendirme Bilgi/Verinin Değişimi Öğrenme için amaçlar Bilgi Tabanı Veritabanları Keşif Algoritmaları Problem hakkında bilgi
11
Pazar Araştırmaları ve Yönetimi
Veriler Nereden Gelir? Kredi kartı işlemleri, üyelik kartları, indirim kuponları, müşteri şikayetleri Hedef pazarlama “Model” müşterilerin gruplarını bul, öyle ki bu müşteriler aynı karateristikleri (gelir düzeyi, ilgi duydukları, harcama alışkanlıkları vs) paylaşsınlar. Müşterilerin satın alma desenlerini (profillerini) zamana bağlı olarak bul. Çapraz-Pazar Analizleri Ürün satışları arasındaki bağlantı ve ilişkileri bulma, ve bu bağlantılara dayalı tahmin geliştirme Müşteri Profilleme Hangi tip müşteriler ne tür ürün almakta? Müşteri gereksinim analizi Farklı müşteri grupları için en iyi ürünlerin bulunması Hangi faktörlerin yeni müşteri kazanımında etkili olacağını tahmin etme
12
Risk Yönetimi Finansal Planlama ve Varlık Değerlendirme
Nakit akışı planlama ve analizi Zaman serileri analizleri (finansal oranlar, trend analizi vb.) Kaynak Planlama Kaynak ve harcamaların özetlenip karşılaştırılması Rekabet Rakiplerin ve Pazar şartlarının takip edilmesi Müşterilerin sınıflara ayrılması ve buna göre fiyatlandırmanın yapılması Fiyatlandırma stratejilerinin çok rekabetçi bir ortamda belirlenmesi
13
Sahtekârlık Yakalama ve Yaygın Olmayan Desenlerin Bulunması
Yaklaşımlar: Sahtekârlık ve dış değer (outlier) analizi için gruplama ve model kurumu Uygulamalar: Sağlık, perakendecilik, kredi kartı servisleri, ve haberleşme Araç sigortalama: hasar halkaları Kara para aklama Sağlık sigortası Gereksiz veya birbiriyle ilgili sağlık testleri Haberleşme: Telefon görüşmelerindeki sahtekârlıklar Telefon görüşmelerinin modellenmesi: Aranan yer, arama süresi, aranan zaman. Beklenen değerlerden sapmanın olduğu konuşmaları detaylı bir şekilde incele. Perakendecilik sektörü Analistlerin bulgularına göre bu sektörde meydana gelebilecek küçülmelerin %38 sebebi dürüst olmayan çalışanlar yüzündendir. Anti-terrorizm
14
Veri Madenciliği Neler Yapabilir?
Gruplama Sınıflama Kategorik, regrseyon Özetleme Özet İstatistik ve Özet Kurallar Bağ Analizi ve Model Bağımlılıkları İlişki (bağlantı) kuralları Sıralama Analizi Zaman serileri, Sıralı bağlantılar (ilişkiler) Sapmaların bulunması
15
Gruplama Birbirine yakın şeylerin gruplarını bulmak
İstatistiksel teknikler bu bağlamda bazı “uzaklık” tanımlarının yapılamsını gerektirirken, kavramsal metodlar geri plandaki bilgilere ve mantıksal tanımlamalara dayanırlar Kulanım Yerleri: Demografik analizler, Pazar segmentasyonu “Seyahat tercihleri benzer olan kişileri aynı gruplara yerleştir” Kemal, Ali, Sevda, Ferhunde, Burak
16
Sınıflandırma Önceden tanımlanmış gruplar (sınıf) içine verilenleri ayrıştıracak metodun bulunması X ve Y’nin aynı grupta olduklarını biliyoruz. Acaba başka hangileri aynı grup içersinde “Eğitim verileri”ni gerektirir: Öyleki bu verilerin ait oldukları gruplar önceden bilinir Kullanım: Profilleme Teknikler: Karar Ağaçları Yapay Sinir Ağları
17
İlişki Kuralları “Birlikte yaygın olarak alınan ürünlerin bulunması”
Verilerdeki bağımlılıkların belirlenmesi: X, Y’i mümkün kılıyor Her bağımlılığın öneminin belirlenmesi Bayes Metodları Kullanım: Hedef pazarlama Teknikler: Apriori “Birlikte yaygın olarak alınan ürünlerin bulunması” Balık alanların marul alma ihtimalleri çok yüksektir Ketçap alanların makarna alma ihtimalleri?
Benzer bir sunumlar
© 2024 SlidePlayer.biz.tr Inc.
All rights reserved.