VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI
Kısa Sınav Çözümleri (1 – 2) 1. Veri ve Bilgiye birer örnek veriniz. (5) Veri: 170 Bilgi: Boyum 170 cm. Veri: Kısa Bilgi: 150 cm’den küçük boy kısadır. 2. Veri madenciliği nedir? Tanımlayınız. (10) Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.
Kısa Sınav Çözümleri (3) 8 bit 1 byte 1024 byte 1 kilobyte (KB) byte 1 megabyte ( MB) byte 1 gigabyte ( GB) byte 1 terabyte (TB) byte 1 petabyte (PB)
Kısa Sınav Çözümleri (4 – 5) 4. Veri madenciliğini tetikleyen etkenlerden 2 tanesini yazınız. (5) Küresel Pazarlarda rekabet baskısının artması Bilimsel araştırmalarda yeni bulgular elde etme isteği Ürün / Hizmet Kalitesini artırma isteği 5. Veri madenciliğinin önemini gösteren 3 uygulama yazınız. (5) İşletmelerde verimlilik / karlılık artışı Giderlerinin azaltılması Zarar oluşmadan tahmin edip ortadan kaldırılması Risk Yönetimi / Hilekarlık Tespiti Bilimsel araştırmalarda hız ve etkinlik artışı
Kısa Sınav Çözümleri (6 – 7) 6. Veri kaynakları nelerdir? 4 tane örnek yazınız. (5) Müşteri Alış-veriş Kayıtları Müşteri İşlem Kayıtları Bilimsel Araştırma Verileri Güvenlik ve Gözetleme Sistemleri Uydu ve Haberleşme Sistemleri Dijital Medya ve Kütüphaneler Web Siteleri ve Mobil Uygulamalar E-Posta & Sosyal Medya Tıbbi Kayıtlar ve Kişisel Veriler 7. Veri madenciliği ile yapılabilecek uygulama türlerine 3 örnek veriniz. (5) Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler Ayrıştırma : Belli sınıfları birbirinden ayırmak Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır. Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Kümeleme : Verilerin benzerliklerine göre gruplanması Tahmin : Bilinmeyen değerlerin tahmin edilmesi Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi.
Kısa Sınav Çözümleri (8 – 9) 8. Veri madenciliği uygulamalarının kullanıldığı 4 sektör ismi yazınız. (5) Müşteri İlişkileri Yönetimi Tıp & Eczacılık Bankacılık ve Sigortacılık Güvenlik ve Hukuk Eğlence 9. Bilgi keşfi sürecindeki adımları yazınız. (10) Seçim & Örnekleme Veri Temizleme & Ön-İşleme Veri Dönüştürme & Azaltma Veri Madenciliği Bilgi Çıkarımı
Kısa Sınav Çözümleri (10 – 11) 10. Veri tiplerine 3 örnek veriniz. (5) Kayıtlar İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler Çoklu Ortam Verileri Ses, Resim, Video Web ve Sosyal Ağlar Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar Sıralanmış Veri Setleri Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri Konum Verileri Haritalar ve GPS verileri Alana Özel Veriler Dil, Kimya, Tıp, Jeoloji vb. 11. Sürekli ve kesikli değişkenlere birer örnek veriniz. (5) Sürekli Değişken Boy, Ağırlık Kesikli Değişken Aylık satış miktarı, günlük cevaplanan şikayet sayısı
Kısa Sınav Çözümleri (12 – 13) Kategorik ve sıralı değişkenlere birer örnek veriniz. (5) Kategorik Değişken {Erkek, Bayan} Sıralı Değişken {Kısa, Orta, Uzun} mesafe Merkezi eğilim ölçülerinin isimlerini yazınız? Bir tanesini açıklayınız. (5) Ortalama Bir değişkenin beklenen değeri olarak ya da bir veri dizini temsil eden tek bir orta değer olarak düşünülebilir. Medyan (Ortanca) Veri setindeki sıralamada ortada bir yerde bulunan eleman Mod Veri setinde en çok tekrar eden eleman
Kısa Sınav Çözümleri (14 – 15) A dizisinin ağırlıklı ortalamasını hesaplayınız? (10) Veri ön-işleme sürecinin adımlarını yazınız. (5) Veri Temizleme (Data Cleaning) Veri Bütünleştirme (Data Integration) Veri Dönüştürme (Data Transformation) Veri Azaltma (Data Reduction) Veriyi Kesikli Hale Getirme (Data Discretization) Dizi A 1,320,62,83,1340,9 Toplam Ağırlık Çarpım 10,4181,219,618,615129,9 104,7 Ağırlıklı Ortalama
Kısa Sınav Çözümleri (16 – 17) Veri temizleme işleminin adımlarını yazınız. (5) Veri Temizleme (Data Cleaning) Eksik Değerleri Doldurma Gürültülü Veri Düzleştirme (Smoothing) Aykırı Değerleri Tespit Etme ve Ortadan Kaldırma Tutarsızlıkları Giderme Tekrarlı Verileri Silme Veri düzleştirme için kullanılabilecek yöntemlerden 2 tanesini yazınız. (5) Kova Yöntemi (Binning): Sıralanmış değerleri komşuluğundaki değerlerle değiştirerek daha makul veriler elde etme işlemi. Kümeleme (Clustering): Aykırı değerleri tespit ederek ortadan kaldırma Regresyon (Regression): Verileri bir fonksiyona uydurarak düzleştirme
Veri Ambarı (Data Warehouse) Veri ambarı, çeşitli iç ve dış veri kaynaklarından elde edilen verilerin uygun dönüşümler yapılarak birleştirilmesiyle oluşturulan veri kaynağıdır. Aktif veri kaynağı en son haliyle veri ambarına yansıtılır. Veri ambarına girmiş veriler üzerinde değişiklik yapılamaz. Veri ambarı raporlama, analiz ve veri madenciliği amaçlı olarak kullanılır. Veri ambarı, kritik kararlar için üst yöneticilere bilgi sağlayan karar destek sisteminin veri kaynağıdır. Veri ambarı hedef yönelimlidir. Veri ambarı belli bir konuyu analiz etmek üzere kullanılır. ( Data Mart ) Satış verileri gibi. Veri ambarı bütünleşiktir. Veri ambarı farklı kaynakların birleştirilmesiyle elde edilir. A ve B veri kaynaklarında belli bir ürünün öznitelikleri farklı olabilir, ancak veri ambarında bunlar tek olmalıdır. Veri ambarının zaman boyutu vardır. Tarihsel veriler veri ambarında tutulur. Online sistemde müşterinin son adresi tutulurken, veri ambarında önceki adresleri de tutulur. Veri ambarındaki veriler kalıcıdır. Veri ambarına giren bir veri değiştirilemez.
Veri Ambarı – Veri Kaynakları İç Veri Kaynakları Kurumsal kaynak planlama sistemi Envanter ve lojistik veritabanları Çağrı merkezi verileri Pazarlama ve kampanya verileri Anketler E-Ticaret sistemi ve Web sitesi erişim kayıtları Kişisel veri kaynakları (Çalışanlar tarafından tutulan kayıtlar) Dış Veri Kaynakları Siyasal, Ekonomik, Sosyal ve Demografik veriler Rekabet ve pazar verileri Coğrafi bilgi sistemleri Diğer ulusal ve uluslararası istatistiki veriler (TÜİK)
Raporlama Veri Madenciliği OLAP Veri Ambarı – Geliştirme & Uygulama Süreçleri Veri Kaynakları ERP POS WEB Dış Veri … Seç Çıkar Dönüştür Birleştir Yükle Veri Ambarı Üretim Pazarlama … Finans API / Ara Yazılımlar ETL Erişim Uygulama
Meta Veri Veri hakkında veri demektir. Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür. Kullanımına göre ikiye ayrılır: İşletme Açısından Meta Veri : Verinin ne anlama geldiğini izah eder. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? sorularının cevabıdır. Teknik Açıdan Meta Veri : Teknik personel için gerekli bilgilerin bulunduğu kütüktür. Biçim, uzunluk, tanım aralığı, veritabanı Bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları tutuluyor olsun. Bu veriler veri ambarına aktarılırken ürün adedi ve birim fiyatı çarpılarak aktarılsın. Meta Veri : MH1 = Müşteri 1. Ay Hasılatı, Yöntem= Fiyat * Adet, Pazarlama Data Martı Sipariş Tarihi Ürün Adedi Birim Fiyat MüşteriMH1MH2MH3 Mus Mus Mus
ETL (Extraction – Transformation – Loading) İşlemleri Çıkarım (Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınması işlemidir. Veri ambarının ilk oluşturulması sürecinde eski sistemlerdeki tüm veriler tümüyle veri ambarına aktarılır. Aktarım işlemleri daha sonraki zamanlarda aktif sistemlerdeki verilerin güncellenmesine bağlı olarak yapılır. Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir. Dönüştürmedeki amaç, verilerin kalitesinin arttırılmasıdır. Tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve birleştirme yapılır. Yükleme (Loading): Verilerin fiziksel olarak veri ambarına yüklenmesi işlemidir.
OLAP – OLTP (Online Analytical Processing – Online Transactional Processing) Veri ambarı ile sağlanan veri kaynağı temelinde karar vermeye yardımcı olacak şekilde yapılan veri analizi ve sorgulama işlemlerine OLAP denir. OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır. OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır. OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır. OLTP tarzı veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir. Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir. Firmalar için günlük bütün işlem kayıtları ilişkisel tablolar halinde OLTP veri tabanlarında tutulur. Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır.
OLAP – Temel Kavramlar Küp : Herhangi bir OLAP veritabanı içinde kaydetme ve geri alma işlemleri için kullanılan temel veri yapısıdır. Boyut : Bağımsız mantıksal bölümlerle veriyi organize etme yolunu sağlar. Boyutu bir bilgi kategorisi gibi düşünmek uygundur. Zaman, Yerleşim, Ürün Eleman : Boyutun alt kategorisi olarak düşünülebilir. Asya, Türkiye, İstanbul Ölçü (Measure) : Analiz edilmek istenen verilerdir.. Satış sayısı, k â r, çalışan sayısı Ölçü kendi başına anlam ifade etmeyen bir değerdir. Ancak boyutlarla kullanıldığında anlamlı hale gelir. K â r = 300 | Asya 2015 K â rı 300 Öznitelik : Boyutun iç hiyerarşiye sahip olmayan bir özelliğidir. (Müşteri – Şehir) Bu ilişki başka durumlarda da kullanılabilir. (Kıta – Ülke – Şehir, Şehir – Cinsiyet – Eğitim)
OLAP Klasik raporlardan farklı olarak, OLAP ile kuruluşa ilişkin bilgiler hızlı ve etkileşimli bir şekilde incelenebilir. OLAP, paylaşılan çok boyutlu bilginin hızlı analizi ( FASMI ) olarak da tanımlanır. F ast (Hızlı) A nalysis (Analiz) S hared (Paylaşımlı) M ultidimensional (Çok Boyutlu) I nformation (Bilgi) Bir OLAP küpü üzerinde aşağıdaki işlemler yapılabilir: Dice (Çevir) Yer – Zaman Ürün – Zaman Slice (Dilimle) Son 1 yılın verileri Drill Up / Down (Birleştir / Detaylandır) Yıl Ay, Kıta Ülke Şehir
OLAP Tipleri Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz. İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur. Hibrid OLAP (HOLAP): Açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir.
OLAP / OLTP Karşılaştırması KriterOLTPOLAP AmaçGünlük iş fonksiyonlarını yerine getirmek Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri kaynağı İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) RaporlamaRutin, periyodik, odaklanılmış raporlar Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Kaynak ihtiyaçlarıOlağan ilişkisel veri tabanları Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Sistem yönelimi Müşteri odaklıdır, işlemler ve sorgular IT personeli veya müşteriler tarafından yapılır. Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından kullanılır. TasarımVarlık-ilişki modeliYıldız, Kar Tanesi veya Galaksi modeli
İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme Çok Boyutlu Veri Modeli – Veri Küpü
İki Boyutlu TabloÜç Boyutlu Tablo Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Ankara Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme
Yıldız & Kar Tanesi Şemaları Yıldız ŞemasıKar Tanesi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte Fact Tablosu Ölçü Boyutlar Bağlı Boyut
Galaksi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte AktDers OgrID AktID Not Devam Aktivite AktID Tip Yıldız Şeması her bir boyutu için geniş bir merkezi tablo ve ona bağlı küçük yardımcı tabloları (boyut tabloları) bulunduran şema tasarımıdır. Kar Tanesi Şeması, yıldız şema modelinin bir çeşididir. Yıldız şemasına göre en önemli farklılık boyutların normalize değerlerden oluşmasıdır. Galaksi Şeması, karmaşık uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulan tasarımdır. Fact Tablosu
Birliktelik Kuralları (Association Rules) Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya çıkarılması ve aralarındaki bağlantının büyüklüğünün tespit edilmesine yöneliktir. Uygulama Alanları Pazarlama Tıbbi tanı Bilimsel veri analizi Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar. Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi) Satış ve Satın alma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar
Birliktelik Kuralları – Ölçüler Birliktelik kuralları, veri seti içindeki kayıtlara ait birlikte bulunma ve/veya bulunmama sıklığı ve/veya olasılığı gibi çeşitli istatistiki ölçü değerlerini hesaplayıp bunlar arasında oransal bir ilişki kuran çeşitli algoritma ve yöntemler ile oluşturulur. Birliktelik kuralları oluşturmada en çok kullanılan ölçüler Destek (Support) ve Güven (Confidence) ölçüleridir. Destek, bir ilişkinin tüm veri seti içinde hangi oranda tekrarlandığını belirler. Güven, X değişkeninin Y değişkeni ile birlikte bulunma olasılığını ortaya koyar. Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven (eşik) değerlerini sağlaması gereklidir. Birliktelik kurallarının oluşturulmasında destek ve güven dışında çok sayıda farklı istatistiki ölçüler de kullanılır. Bu ölçülerin çoğu destek ve güvene dayalı olarak hesaplanır.
Birliktelik Kurallarının Yorumlanması
Birliktelik Kuralları / Destek Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi RamsesYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter
Birliktelik Kuralları / Güven Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter
Bütün Destek değerleri aynı olmasına rağmen güven değerleri farklılık gösterebilir. Birliktelik Kuralları / Örnek İşlemParçalar 1A, B 2A, C, D, E 3 B, C, D, F 4 A, B, C, D 5 A, B, C, F ParçaGüven 2/3 = 0,67 1/1 = 1,00 2/3 = 0,67 2/4 = 0,50 ParçaDestek 2/5 = 0,40
Birliktelik Kuralları / Kaldıraç (Lift) İşlem NoSütEkmekTereyağıÇayPeynir X ve Y nin bağımsız olup olmadığını gösteren oransal destek değeri Eğer iki değişken birbirinden bağımsız ise, bunlarla ilişkili bir kural çıkarılmaz. Eğer Kaldıraç değeri 1’den büyük ise değişkenler birbirine bağımlıdır ve bunlarla ilişkili kural oluşturulabilir.
Birliktelik Kuralları / İnanç (Conviction) İşlem NoSütEkmekTereyağıÇayPeynir X’ in Y ‘nin olmadığı durumdaki oransal frekans değeri Eğer İnanç değeri 1 ise X ve Y değişkenleri birbirinden bağımsızdır. Eğer İnanç değeri 1’den uzak ise ilişkili kural oluşturulabilir.
Birliktelik Kuralları / Diğer Ölçüler Difference of ConfidenceExample and Counterexample RateFisher's Exact TestGini IndexHyper-ConfidenceHyper-LiftImbalance RatioJaccard coefficientJ-MeasureKappaKlosgenKulczynskiGoodman-KruskalLaplace Corrected Confidence Least ContradictionLerman SimilarityLeverage, Piatetsky-Shapiro MeasureMutual InformationOdds Ratio Correlation CoefficientRalambrodrainy MeasureRelative Linkage DisequilibriumSebag-Schoenauer measureVarying Rates LiaisonYule's Q and Yule's Y Added Value (AV), Centered ConfidenceAll-confidence Casual ConfidenceCasual SupportCertainty FactorChi-Squared Cross-Support RatioCollective StrengthCosine CoverageDescriptive Confirmed Confidence
Birliktelik Kuralı Oluşturma Yöntemleri Brute-Force YöntemiApriori Yöntemi Destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir. Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır. Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir. Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürdürülür. Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir.
Birliktelik Kuralı Oluşturma Yöntemleri ECLAT Yöntemi Dikey yönlü veri seti üzerinde işleyen bir yapıya sahiptir. İlişki kuralları çıkarmak için küme kesişimleri kullanılır. Küçük boyutlu veri setleri için uygundur ve Apriori yöntemine göre daha az zaman gerektirir. Veri setinin büyük olduğu durumlarda geçici kümeler için depolama ihtiyacı çok yüksek olur ve kesişim kümelerinin üretilmesi oldukça fazla zaman alır. FP-Growth Yöntemi Her bir ürün için destek değeri hesaplanır. Eşik değerinin altında desteğe sahip ürünler çıkarılır. Sık tekrar eden ürünler destek değerlerine göre büyükten küçüğe sıralanır. Bir ağaç yapısı oluşturularak ürünler bu ağaç üzerinde yerleştirilir. Veri setinin büyük olması durumunda çok yüksek bellek ihtiyacı oluşur. Karmaşık veri yapısından dolayı çok fazla zamana gereksinim duyar.