Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi.

Benzer bir sunumlar


... konulu sunumlar: "VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi."— Sunum transkripti:

1 VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI

2 Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 4 Veri Temizleme, İndirgeme, Bütünleştirme 5 Veri AmbarıKısa Sınav 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 7 Birliktelik Analizi HaftaKonu Başlığı 8 Sınıflandırma 9 Kümeleme 10 Ara Sınav 11 MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav

3 Veri Madenciliği Nedir?  Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.

4 Veri Madenciliğinin Önemi  İşletmelerde verimlilik / karlılık artışı  Giderlerinin azaltılması  Zarar oluşmadan tahmin edip ortadan kaldırılması  Risk Yönetimi / Hilekarlık Tespiti  Bilimsel araştırmalarda hız ve etkinlik artışı  İnsansız sistemlerin gelişimine destek  Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme

5 Veri Kaynakları  Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar )  Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı )  İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri )  Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar )  Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler, Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar)  Uydu ve Haberleşme Sistemleri  Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları  Dijital Medya: Dijital resim, müzik ve videolar ( Filmler )  Dijital Kütüphaneler  Web Siteleri ve Mobil Uygulamalar  E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp  Tıbbi Kayıtlar ve Kişisel Veriler

6 Verilerle Ne Tür Uygulamalar Yapılabilir ?  Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler  Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı  Ayrıştırma : Belli sınıfları birbirinden ayırmak  30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı  Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır.  Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir.  Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların incelenir, ve beklentilerden neden sapma olduğu tespit edilir.  Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir.  Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün pazarlamasını buna göre yapmak isteyebilir.

7 Verilerle Ne Tür Uygulamalar Yapılabilir ?  Kümeleme : Verilerin benzerliklerine göre gruplanması  Tahmin : Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş sınıflardan hangisine girebileceğinin belirlenmesi  Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi  Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet analizinde kullanılır.  Değişken Tespiti  Görselleştirme  Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir bilgilerini anlık ve grafiksel olarak keşfetme

8 Veri Madenciliği Uygulamaları ( Sektörel )  Müşteri İlişkileri Yönetimi - Satış - Pazarlama:  Müşterilerin satın alma davranışlarının belirlenmesi,  Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması,  Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması  Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak?  Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek?  En iyi dağıtım kanalı hangisi?  Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması  Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi)

9 Veri Madenciliği Uygulamaları ( Sektörel )  Tıp  Klinik testler ile hastalıkların erken teşhisi  Hastalıkların teşhisi için görüntü analizi  Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi  Eczacılık  Yeni ilaçların belirlenmesi  Eczane açılabilecek yerlerin tespit edilmesi  Bilimsel veri analizi  Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi  Keşfedilen yeni canlı türlerinin sınıflandırılması

10 Veri Madenciliği Uygulamaları ( Sektörel )  Bankacılık ve Sigortacılık  Kredi kartı ve sigorta dolandırıcılıklarının tespiti,  Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,  Kredi skoru hesaplama  Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi,  Web Madenciliği  Yeni satış stratejileri belirlenmesi  Belli ürün grupları için uygun müşteri profilinin çıkarılması  Müşterilerin satın alma davranışlarının öğrenilmesi  Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi

11 Veri Madenciliği Uygulamaları ( Sektörel )  Güvenlik ve Hukuk  Suç ve terörizm ile ilgili örüntülerin tespit edilmesi  Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması  Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması  Eğlence  Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi  Filmlerin finansal başarısının tahmini  Seyahat  Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini  En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması

12 Veri Madenciliği Uygulamaları ( Sektörel )  Bilişim Sistemleri  İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi  Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması  Borsa ve Menkul Kıymetler  Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini  Sermaye dalgalanmalarının yönü ve oranının tahmini  Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi  Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi  Perakendecilik ve Lojistik  Market-sepet analizi  Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini  Tedarik zincirindeki ilginç örüntülerin keşfi

13 Bilgi Keşfi Süreci ve Veri Madenciliği

14 Veri Madenciliği Sürecindeki Zorluklar  Problemin doğru tespiti  Yüksek Boyut  Karmaşık ve Düzensiz Veri  Farklı ve uyumsuz veri kaynaklarından gelen verilerin birleştirilmesi  Veri Kalitesi  Tekrarlı, geçersiz, eksik veri, veri tipinin yanlış seçimi, örneklemenin yanlış yapılması  Gizliliğin Korunması  Veri Akışı  Sürekli yeni veri gereksinimi  Etkin Yöntemler  Büyük miktarda verilerden anlamlı bilgi çıkarmak için etkin yöntemlere olan gereksinim  Karmaşık Uygulama Yazılımları

15 Veri Madenciliği Uygulama Araçları  IBM SPSS Modeler / Clementine  IBM DB2 Intelligent Miner  IBM Cognos BI  Oracle Data Mining  Microsoft Analysis Services  Microsoft SharePoint  SAP Business Objects, BI  R, MATLAB, SCILAB, Mathematica  Selford Systems  Viscovery  Statistica Data Miner  Orange  KNIME  Weka  DataMinerXL  XLMiner  SQL Server Data Mining Add-ins for MSOffice

16 Veri Seti Tipleri  Kayıtlar  İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler  Çoklu Ortam Verileri  Ses, Resim, Video  Web ve Sosyal Ağlar  Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar  Sıralanmış Veri Setleri  Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri  Konum Verileri  Haritalar ve GPS verileri  Alana Özel Veriler  Dil, Kimya, Tıp, Jeoloji vb.

17 Veri Matrisi  Matris çok boyutlu uzayda bir nokta olarak düşünülebilir.  Veri çoğunlukla n×d boyutundaki bir matrisle temsil edilir.  n verinin miktarını, d ise boyutsallığını temsil eder.  Satırlar veri setindeki kayıtları, sütunlar ise verinin kullanılabilecek özelliklerini gösterir. KişiYaşKiloBoyCinsiyet K Erkek K Bayan K Erkek K Bayan K Erkek K Bayan K Erkek K Bayan K Bayan

18 İlişkisel Veri

19 İşlem Verisi & Sıralı Veri İşlem VerisiSıralı Veri (A B) (D) (C E) (B D) (C) (E) (C D) (B) (A E) (D E) (A) (C) Müşteriİşlem M01Ekmek, peynir, süt M02Sigara, çakmak M03Ekmek, çikolata M04Yoğurt, Sucuk, Mısır M05Un, nişasta M06Yağ, şeker M07Çay

20 Metin Verisi Uluslararası hakemli dergilerde yayınlanan makaleler Tasci T., Oz C. (2014), "A Closer Look to Probabilistic State Estimation – Case: Particle Filtering", Optoelectronics & Advanced Materials – Rapid Communications, Vol. 8(5-6), pp. 521 – 534. Tasci T., Parlak Z., Kibar A., Tasbasi N. &, Cebeci H.I. (2014), " A Novel Agent-Supported Academic Online Examination System", Educational Technology & Society, Vol.17 (1), pp. 154 – 168. Uluslararası Diğer Hakemli Dergilerde Yayınlanan Makaleler Hiziroglu K., Tasci T. & Ozcelik T. O. (2012), "Analysis of Current Occupational Health and Safety Situation and Needs of SMEs in Turkey", Journal of Labor Relations, Vol. 3(2), pp. 66 – 89. Uluslararası Bildiriler Yolcu G., Oz C. & Tasci T., "Developing and Establishing a Painting Program Controlled by Hand Motions Using Kinect", 2nd International Symposium On Innovative Technologies In Engineering And Science (ISITES), Karabuk University, June 18-20, 2014, Karabuk, Turkey. Tasci T., Tasbasi N., Velichkov A., Kloos U. & Tullius G., "A Comparative Evaluation of Two 3D Optical Tracking Systems",JVRC Joint Virtual Reality Conference of ICAT - EGVE - EuroVR, October 17-19,2012, Madrid, Spain Ulusal hakemli dergilerde yayınlanan makaleler Ulusal bilimsel toplantılarda sunulan ve bildiri kitabında basılan bildiriler Tasci, T., Goksu A. & Kantoglu B., "E-Dönüşümde Bilgi ve İletişim Teknolojilerinin Kullanımı", Akademik Bilişim Konferansı, February 11-13, 2004, Trabzon, Turkey Diğer Yayınlar Tuğrul TAŞCI "Temel Bilgi Teknolojisi Kullanımı - İşletim Sistemleri",Sakarya Üniversitesi, , Gen Dizisi Verisi

21 Infografik VerisiHarita ve Konum Verisi

22 Resim & Video Verisi Resim VerisiVideo Verisi Kare 65Kare 70

23 Tıbbi & Kimyasal Veri Tıbbi Veri (MR)Kimyasal Veri

24 Değişken Tipleri  Nominal (Kategorik)  Ordinal (Sıralı)  Interval (Aralık)  Ratio (Oran)  Continuous (Sürekli)  Discrete (Kesikli)

25 Kesikli & Sürekli Değişken Kesikli (Discrete) Değişken  Sadece sayılabilir değerler alan değişkenler.  Çok fazla olası değer alan değişkenler:  Bir gündeki şikayet sayısı  Hane halkını sahip oldukları telefon sayısı  Telefon açılmadan önce çalma sayısı  İki değer alan değişkenler:  Cinsiyet: Kız veya Erkek  Sorunlu Parça: Evet veya Hayır Sürekli (Continuous) Değişken  Sürekli (sayılamayan) değerler alan değişkenler.  Bir parçanın kalınlığı  Bir işi tamamlamak için geçen süre  Solüsyonun ısısı  Ağırlık  Ölçümlerin doğruluk ve hassasiyetlerine bağlı olarak herhangi bir değer alabilirler.

26 Kategorik & Sıralı Değişken Kategorik (Nominal) Değişken  Sayısal büyüklük ifade etmeyen kategorik veri. Nominal değişkenler sadece niteliksel sınıflandırmalarda kullanılırlar. Bu değişkenlerin ölçümü ve sıralanması mümkün değildir.  İnsanların medeni hali, cinsiyeti, mesleği, göz rengi buna örnek olarak gösterilebilir. Sıralı (Ordinal) Değişken  Bu değişken ölçülen değerlerin birbirlerine göre büyüklüklerini belirleyen ancak bir değişkenin diğerinden ne kadar büyük ya da küçük olduğunu ifade edemeyen değişkenlerdir.  Rütbe, derece, yükseklik (uzun, orta, kısa) gibi sıralı verileri içerir.

27 Aralık & Oran Değişken Aralık (Interval) Değişken  Sıcaklık, başarı, performans gibi niceliksel değişkenleri ölçmek için kullanılır. Aralık ölçeğinin oran ölçeğinden temel farkı bir başlangıç noktasının bulunmamasıdır. Diğer bir ifade ile “0” değeri aralık ölçeğinde yokluk ifade etmez. Örneğin termometrede görülen “0°C” belirli bir anlam taşır. Oran (Ratio) Değişken  Ratio değişkenler interval değişkenlere benzerler, interval değişkenlerin özelliklerine ek olarak, tanımlanabilen bir sıfır noktasına sahiplerdir, böylece “X Y’den 2 kat daha fazladır” gibi ifadeler de kullanabiliriz. Aylık gelir, ağırlık, uzunluk, hız gibi değişkenleri ölçmek için kullanılır. Bu ölçekte başlangıç “0” noktasıdır.

28 Veriyi Anlama – Görsel Teknikler  Nominal Veri  Frekans Dağılımı  Sütun Grafikleri  Pasta diyagramı  Pareto diyagramı  Nümerik Veri  Çizgi Grafikleri  Frekans Dağılımı  Histogram ve Ogive  Stemplot Diyagramı  Serpilme Diyagramı DepartmanSayıOran Muhasebe Finans Yönetim Satış Diğer Toplam253100

29 Veriyi Anlama – Görsel Teknikler  Nominal Veri  Frekans Dağılımı  Sütun Grafikleri  Pasta diyagramı  Pareto diyagramı  Nümerik Veri  Çizgi Grafikleri  Frekans Dağılımı  Histogram ve Ogive  Stemplot Diyagramı  Serpilme Diyagramı

30 Veriyi Anlama – Sayısal Teknikler Merkezi Eğilim Ölçütleri: Ortalama :  Basit şekli ile bütün gözlem değerlerinin toplam gözlem adedine bölünmesi ile hesaplanır. Aykırı değerlerden çok etkilenir. Medyan :  Sıralı veri setlerindeki ortanca değerdir. Aykırı değerlerden daha az etkilenir. Mod :  Bir veri setinde en çok tekrarlanan değerdir. Ancak veri seti çok büyükse anlamlıdır. Değişkenlik Ölçütleri: Değişim Aralığı:  Veri setinin dağıldığı aralıktır. (Max-Min). Varyans:  Gözlenen değer ile beklenen değer arasındaki farktır.  Standart Sapma:  Varyansın ortalama düzeyine normalleştirilmiş halidir. Doğrusal İlişki Ölçütleri: Kovaryans:  İki değişkenin birlikte değişme derecesini gösterir. Korelasyon Katsayısı:  Kovaryans değerinin -1 ile +1 arasında normalleştirilmiş halidir.

31 Veri Kalitesi  Verinin kalitesi temelde aşağıdaki üç etkenle belirlenir.  Gürültü ve aykırı değerler  Kayıp değerler  Veri tekrarı 31

32 Veri Kalitesi / Gürültü  Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültülü denir  Kullanıcı tarafından sisteme verilerin yanlış girilmesi, ölçüm yönteminin yanlış seçilmesi veya doğru uygulanamaması sonucunda ortaya çıkar.  Ancak günümüzde kullanılan ilişkisel veri tabanları bu tip hataların olasılıkları oldukça azalmaktadır. 32

33 Veri Kalitesi / Aykırı Değer  Veri kümesinde, diğer nesnelerden ciddi şekilde farklı olan veri nesnelerinin gösterdiği karakteristiktir. 33

34 Veri Kalitesi / Eksik Değer  Kayıp (Eksik) değerler için çeşitli sebepler vardır:  Bilgi toplanamaması (Örn., insanlar yaşları ve kiloları ile ilgili bilgi vermeyi istemezler)  Öznitelikler bütün durumlar için uygun olmayabilir (Örn., yıllık gelir çocuklar için uygun değildir)  Kayıp değerlerle mücadele  Eksik kayıtların dikkate alınmaması  Kayıp değerler yerine tahminlerinin yerleştirilmesi  Analizler müsaade ediyorsa eksik değerlerin es geçilmesi 34

35 Veri Kalitesi / Tekrar Eden Veri  Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen tamamen diğerine eşittir  Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde meydana gelir.  Aynı kişiye ait birden fazla mail adresinin bulunması  Çözüm:  Veri temizleme (Tekrar eden verilerin islenmesi ile ilgili bir prosestir.) 35

36 Elde Edilen Kirli Veri & Nedenler  Eksik: Bazı nitelik değerleri girilmemiş.  Meslek = “ ”  Gürültülü: Mantıksal hatalar var.  Maaş= “-10”  Tutarsız: Nitelik değerleri veya isimleri uyumsuz.  Yaş= “35”, Doğum tarihi: “03/10/2004”  Önceki oylama değerleri: “1,2,3”, yeni oylama değerleri: “A,B,C”  Bir kaynakta nitelik değeri ‘ad’, diğerinde ‘isim’  Eksik veri kayıtlarının nedenleri  Veri toplandığı sırada bir nitelik değerinin elde edilememesi, bilinmemesi  Veri toplandığı sırada bazı niteliklerin gerekliliğinin göru ̈ lememesi  İnsan, yazılım ya da donanım problemleri  Hatalı veri kayıtlarının nedenleri  Hatalı veri toplama gereçleri  İnsan, yazılım ya da donanım problemleri  Veri iletimi sırasında problemler  Tutarsız veri kayıtlarının nedenleri  Verinin farklı veri kaynaklarında tutulması  İşlevsel bağımlılık kurallarına uyulmaması 36


"VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi." indir ppt

Benzer bir sunumlar


Google Reklamları