VERİ MADENCİLİĞİ Dr. Tuğrul TAŞCI
Ders Planı 8 1 9 2 10 3 11 4 12 5 13 6 14 7 Hafta Konu Başlığı Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 4 Veri Temizleme, İndirgeme, Bütünleştirme 5 Veri Ambarı Kısa Sınav 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 7 Birliktelik Analizi Hafta Konu Başlığı 8 Sınıflandırma 9 Kümeleme 10 Ara Sınav 11 MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools 12 13 14 VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav Sınıflandırma – Bayes, YSA, k-en yakın komşu yöntemi, SVM, Genetik algoritmalar, Karar ağaçları Kümeleme – Bölünmeli, Hiyerarşik, Yoğunluk tabanlı, Model tabanlı
Veri Madenciliği Ne Değildir? Bir telefon defterinden telefon numarası aramak Arama motorlarından anahtar kelime aramak Maaşların farklı yaş gruplarına göre dağılım grafiğini çıkarmak Bir SQL sorgusuyla veritabanından sonuç döndürmek İlişkisel bir veritabanından çok boyutlu veri küpleri oluşturmak
Veri Madenciliği Nedir? Mercedes sahibi kişiler ne tür özelliklere sahip? Bu müşteri için kredi geri ödemesi ne kadar olmalı? Bu işletme için iyi yeni müşteri kimdir? Bu makaleye benzeyen başka makaleler var mı? Borsa indeksinin değeri önümüzdeki ay ne olabilir? Otomobil alan müşterinin hangi öznitelikleri önemlidir? Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek? En iyi ürün dağıtım kanalı hangisi? Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Keşfedilen bu yeni canlı hangi sınıfa ait? Market raflarındaki ürünler nasıl dizilmeli? ATM’de günlük olarak ne kadar para tutulmalı?
Veri Madenciliği Nedir? Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.
Veri Artışı ( Gerçekleşen – Projeksiyon ) 1 zettabyte 1024 eksabyte 1048576 petabyte 1073741824 terabyte 1099511627776 gigabyte 1125899906842620 megabyte 1152921504606850000 kilobyte 1180591620717410000000 byte 1208925819614630000000000 bit
Veri Madenciliğine Olan İhtiyaç & Tetikleyici Etkenler Küresel Pazarlarda rekabet baskısının artması Bilimsel araştırmalarda yeni bulgular elde etme isteği Ürün / Hizmet Kalitesini artırma isteği Bilişim sistemlerindeki gelişmeler Veri tabanı sistemlerinin ve yaklaşımlarının / yöntemlerin gelişmesi Verilerin olağanüstü bir şekilde artması ve veri kaynaklarının çeşitlenmesi
Veri Madenciliğinin Önemi İşletmelerde verimlilik / karlılık artışı Giderlerinin azaltılması Zarar oluşmadan tahmin edip ortadan kaldırılması Risk Yönetimi / Hilekarlık Tespiti Bilimsel araştırmalarda hız ve etkinlik artışı İnsansız sistemlerin gelişimine destek Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme Müşterilikten çıkma eğilimindeki kişilerin tespit edilip promosyon ya da başka bir yolla bunların tekrar işletmeye bağlanması Müşterilerin satın alma davranışları öğrenilip, promosyon grupları oluşturulabilir, yeni müşteriler bulunabilir, müşteri bağlılığı artırılabilir E-ticaret ve Internet, Finans, Biyo-enformatik, Tarım ve Hayvancılık, Toplum, Siyaset ve Ekonomi, Mühendislik, Telekomünikasyon, Bankacılık, Sigortacılık, Borsa Sistemleri, Bilişim Sistemleri, Uzay Bilimleri
Veri Kaynakları Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar ) Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı ) İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri ) Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar ) Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler , Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar) Uydu ve Haberleşme Sistemleri Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları Dijital Medya: Dijital resim, müzik ve videolar ( Filmler ) Dijital Kütüphaneler Web Siteleri ve Mobil Uygulamalar E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp Tıbbi Kayıtlar ve Kişisel Veriler
Verilerle Ne Tür Uygulamalar Yapılabilir ? Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı Ayrıştırma: Belli sınıfları birbirinden ayırmak 30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır. Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir. Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların incelenir, ve beklentilerden neden sapma olduğu tespit edilir. Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün pazarlamasını buna göre yapmak isteyebilir.
Verilerle Ne Tür Uygulamalar Yapılabilir ? Kümeleme: Verilerin benzerliklerine göre gruplanması Tahmin: Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş sınıflardan hangisine girebileceğinin belirlenmesi Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet analizinde kullanılır. Değişken Tespiti Görselleştirme Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir bilgilerini anlık ve grafiksel olarak keşfetme
Veri Madenciliği Uygulamaları ( İşlevsel ) Birliktelik Analizi (Kural Keşfi) Mercedes sahibi kişilerin başka hangi araç ya da ürünleri var? Market sepet analizi: HepsiBurada size şu ürünü öneriyor. Yeterince müşteri tarafından bir arada alınan ürünleri tespit etme Sınıflandırma BMW sahibi kişilerin diğerlerine göre bariz özellikleri nelerdir? Kredi kartı borcunu ödememe ihtimali olan müşteriler kimlerdir? Daha sonra incelenmesi gereken şüpheli işlemler nelerdir? Kümeleme Her birine farklı bir ürün grubu kullanılarak kampanya yapılabilecek farklı müşteri grupları oluştur. İçindeki önemli terimlere bakarak birbirine en yakın/benzeyen belgeleri çıkar.
Veri Madenciliği Uygulamaları ( İşlevsel ) Sıralı Örneklem Tahmini İlk üç taksitinden iki veya daha fazlasını geç ödeyen müşteriler %60 takibe uğruyor. Borsa indeksinin zaman serisi tahmini Süpermarketlerde ürünlerin raflardaki yerlerinin belirlenmesi Tahmin Herhangi bir gün için dünya çapında test sürüşü isteklerimiz kaç tane olacak? Perakende mağazaları mevsim ve promosyonlara bağlı olarak hangi üründen kaç adet istemeli? Olay Tabanlı Modelleme Yeni bir ürün için promosyon kampanyasıyla ilgilenebilecek müşteriler kimler olabilir? Reklam harcamasına bağlı olarak yeni bir üründeki satış ne kadar olabilir?
Veri Madenciliği Uygulamaları ( İşlevsel ) Değer Tahmini Yeni bir otomobili satışa çıkarıldığında belli bir perakende satış mağazası bu otomobilden 1 yıl içinde kaç tane satabilir? Bu müşteri için kredi geri ödemesi kaç para olacak? Telefon, Mobil, TV ürünlerini birlikte satışa çıkarıldığında bunun satış fiyatı ne olacak? Sıra dışı Durum / Hilekarlık Tespiti Demografik bilgileri ve işlem geçmişi listelenen belli bir kişinin hangi işlemlerinin hileli olabileceğinin tespit edilmesi Değişken Belirleme Otomobil alırken, yaş gelir, ailedeki fert sayısı önemli iken saç rengi önemli değildir.
Veri Madenciliği Uygulamaları ( Sektörel ) Müşteri İlişkileri Yönetimi - Satış - Pazarlama: Müşterilerin satın alma davranışlarının belirlenmesi, Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması, Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak? Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek? En iyi dağıtım kanalı hangisi? Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi)
Veri Madenciliği Uygulamaları ( Sektörel ) Tıp Klinik testler ile hastalıkların erken teşhisi Hastalıkların teşhisi için görüntü analizi Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi Eczacılık Yeni ilaçların belirlenmesi Eczane açılabilecek yerlerin tespit edilmesi Bilimsel veri analizi Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi Keşfedilen yeni canlı türlerinin sınıflandırılması
Veri Madenciliği Uygulamaları ( Sektörel ) Bankacılık ve Sigortacılık Kredi kartı ve sigorta dolandırıcılıklarının tespiti, Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, Kredi skoru hesaplama Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi, Web Madenciliği Yeni satış stratejileri belirlenmesi Belli ürün grupları için uygun müşteri profilinin çıkarılması Müşterilerin satın alma davranışlarının öğrenilmesi Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi
Veri Madenciliği Uygulamaları ( Sektörel ) Güvenlik ve Hukuk Suç ve terörizm ile ilgili örüntülerin tespit edilmesi Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması Eğlence Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi Filmlerin finansal başarısının tahmini Seyahat Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması
Veri Madenciliği Uygulamaları ( Sektörel ) Bilişim Sistemleri İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması Borsa ve Menkul Kıymetler Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini Sermaye dalgalanmalarının yönü ve oranının tahmini Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi Perakendecilik ve Lojistik Market-sepet analizi Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini Tedarik zincirindeki ilginç örüntülerin keşfi Tedarik zincirindeki ilginç örüntülerin keşfi (özellikle raf ömrü sınırlı olan ürünler için) Lojistik optimizasyonu için farklı ürün tiplerine ait (çevresel ve mevsimsel faktör durumlarında) tüketim seviyelerinin tahmini
Veri Madenciliği Sürecindeki Zorluklar Yüksek Boyut Karmaşık ve Düzensiz Veri Veri Kalitesi Gizliliğin Korunması Veri Kalitesi problemi, yanlış veri, yanlış ölçüm yöntemi veya yanlış uygulama Aykırı değerler, Kayıp (Eksik) değerler Eksik kayıtların dikkate alınmaması Kayıp değerler yerine tahminlerinin yerleştirilmesi Tekrar eden kayıtlar, çok benzeyen kayıtlar
Veri Madenciliği Uygulama Araçları IBM SPSS Modeler / Clementine IBM DB2 Intelligent Miner IBM Cognos BI Oracle Data Mining Microsoft Analysis Services Microsoft SharePoint SAP Business Objects, BI R, MATLAB, SCILAB, Mathematica Selford Systems Viscovery Statistica Data Miner Orange KNIME Weka DataMinerXL XLMiner SQL Server Data Mining Add-ins for MSOffice Analysis Services (SSAS) delivers online analytical processing (OLAP) and data mining functionality for business intelligence applications. Analysis Services supports OLAP by letting you design, create, and manage multidimensional structures. Integration Services can extract and transform data from a wide variety of sources such as XML data files, flat files, and relational data sources, and then load the data into one or more destinations. With Reporting Services, you can create interactive, tabular, graphical, or free-form reports from relational, multidimensional, or XML-based data sources.
Bilgi Keşfi Süreci ve Veri Madenciliği
Veri Madenciliği Araştırma Eğilimleri Veritabanı, Veri Ambarı Web-tabanlı sistemlerin entegrasyonu Veri madenciliği sorgulama dilinin standardizasyonu Görsel Veri Madenciliği Karmaşık veri tipleri için yeni veri madenciliği yöntemleri Biyolojik veri madenciliği Veri madenciliği ve yazılım mühendisliği Web madenciliği Dağıtık veri madenciliği Gerçek-zamanlı veri madenciliği Veri madenciliğinde kişisel veri koruma ve bilgi güvenliği
Kaynaklar http://ocw.mit.edu/courses/sloan-school-of-management/15-062-data-mining-spring-2003/lecture-notes/ http://infolab.stanford.edu/~ullman/cs345-notes.html http://ceng464.cankaya.edu.tr/course.php?page=index http://www.cise.ufl.edu/class/cis4930fa07dm/notes.html http://www.stat.cmu.edu/~ryantibs/datamining/#schedule http://www.cs.bu.edu/~gkollios/dm07/lectnotes.html http://kt.ijs.si/PetraKralj/DataMining0809/DM-2008.pdf https://files.ifi.uzh.ch/boehlen/dis/teaching/DWDM08/#Lectures https://mineracaodedados.files.wordpress.com/2012/07/data-mining-in-excel.pdf http://www.uni-weimar.de/en/media/chairs/webis/teaching/lecturenotes/#machine-learning http://www.cs.uu.nl/docs/vakken/dm/schedule.html http://www.cse.cuhk.edu.hk/~taoyf/course/cmsc5724/spr15/cmsc5724.html http://eprints.fri.uni-lj.si/1150/1/DataMining-Kyoto.pdf
Kaynaklar https://msdn.microsoft.com/en-us/library/ms167167.aspx https://iaonline.theiia.org/data-mining-101-tools-and-techniques http://users.dsic.upv.es/~jorallo/dm/ http://michael.hahsler.net/SMU/EMIS7332/ http://dms.irb.hr/tutorial/tut_intro.php Han, J., Kamber, M., & Pei, J. (2011). Data mining: concepts and techniques. Elsevier. https://walton.uark.edu/enterprise/Microsoft/DataMining/downloads/Example_SQL_Server_Data_Tools_Data_Mining.pdf http://www.davidroihardoon.com/Professional/Speaking_files/tutorial2.pdf https://webdocs.cs.ualberta.ca/~zaiane/courses/cmput690/ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.120.9494&rep=rep1&type=pdf http://www.statsoft.com/portals/0/products/data-mining/shortcourseindatamining.pdf Yrd. Doç. Dr. Halil İbrahim Cebeci, Veri Madenciliği Ders Notları Yrd. Doç. Dr. Mustafa Yılmaz, Veri Madenciliği Ders Notları Tasci T., Intelligent Techniques for Data Analysis in Diverse Settings, Image Mining : Techniques for Feature Extraction, 2016
Ders Planı 8 1 9 2 10 3 11 4 12 5 13 6 14 7 Hafta Konu Başlığı Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 4 Veri Temizleme, İndirgeme, Bütünleştirme 5 Veri Ambarı Kısa Sınav 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 7 Birliktelik Analizi Hafta Konu Başlığı 8 Sınıflandırma 9 Kümeleme 10 Ara Sınav 11 MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools 12 13 14 VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav