Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm.

Benzer bir sunumlar


... konulu sunumlar: "VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm."— Sunum transkripti:

1 VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI

2 Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm.  Veri: Kısa  Bilgi: 150 cm’den küçük boy kısadır.  2. Veri madenciliği nedir? Tanımlayınız. (10) Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.

3 Kısa Sınav Çözümleri (3) 8 bit 1 byte 1024 byte 1 kilobyte (KB) 1024 2 byte 1 megabyte ( MB) 1024 3 byte 1 gigabyte ( GB) 1024 4 byte 1 terabyte (TB) 1024 5 byte 1 petabyte (PB)

4 Kısa Sınav Çözümleri (4 – 5)  4. Veri madenciliğini tetikleyen etkenlerden 2 tanesini yazınız. (5)  Küresel Pazarlarda rekabet baskısının artması  Bilimsel araştırmalarda yeni bulgular elde etme isteği  Ürün / Hizmet Kalitesini artırma isteği  5. Veri madenciliğinin önemini gösteren 3 uygulama yazınız. (5)  İşletmelerde verimlilik / karlılık artışı  Giderlerinin azaltılması  Zarar oluşmadan tahmin edip ortadan kaldırılması  Risk Yönetimi / Hilekarlık Tespiti  Bilimsel araştırmalarda hız ve etkinlik artışı

5 Kısa Sınav Çözümleri (6 – 7)  6. Veri kaynakları nelerdir? 4 tane örnek yazınız. (5)  Müşteri Alış-veriş Kayıtları  Müşteri İşlem Kayıtları  Bilimsel Araştırma Verileri  Güvenlik ve Gözetleme Sistemleri  Uydu ve Haberleşme Sistemleri  Dijital Medya ve Kütüphaneler  Web Siteleri ve Mobil Uygulamalar  E-Posta & Sosyal Medya  Tıbbi Kayıtlar ve Kişisel Veriler  7. Veri madenciliği ile yapılabilecek uygulama türlerine 3 örnek veriniz. (5)  Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler  Ayrıştırma : Belli sınıfları birbirinden ayırmak  Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır.  Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir.  Kümeleme : Verilerin benzerliklerine göre gruplanması  Tahmin : Bilinmeyen değerlerin tahmin edilmesi  Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi  Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi.

6 Kısa Sınav Çözümleri (8 – 9)  8. Veri madenciliği uygulamalarının kullanıldığı 4 sektör ismi yazınız. (5)  Müşteri İlişkileri Yönetimi  Tıp & Eczacılık  Bankacılık ve Sigortacılık  Güvenlik ve Hukuk  Eğlence  9. Bilgi keşfi sürecindeki adımları yazınız. (10)  Seçim & Örnekleme  Veri Temizleme & Ön-İşleme  Veri Dönüştürme & Azaltma  Veri Madenciliği  Bilgi Çıkarımı

7 Kısa Sınav Çözümleri (10 – 11)  10. Veri tiplerine 3 örnek veriniz. (5)  Kayıtlar  İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler  Çoklu Ortam Verileri  Ses, Resim, Video  Web ve Sosyal Ağlar  Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar  Sıralanmış Veri Setleri  Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri  Konum Verileri  Haritalar ve GPS verileri  Alana Özel Veriler  Dil, Kimya, Tıp, Jeoloji vb.  11. Sürekli ve kesikli değişkenlere birer örnek veriniz. (5)  Sürekli Değişken  Boy, Ağırlık  Kesikli Değişken  Aylık satış miktarı, günlük cevaplanan şikayet sayısı

8 Kısa Sınav Çözümleri (12 – 13)  Kategorik ve sıralı değişkenlere birer örnek veriniz. (5)  Kategorik Değişken  {Erkek, Bayan}  Sıralı Değişken  {Kısa, Orta, Uzun} mesafe  Merkezi eğilim ölçülerinin isimlerini yazınız? Bir tanesini açıklayınız. (5)  Ortalama  Bir değişkenin beklenen değeri olarak ya da bir veri dizini temsil eden tek bir orta değer olarak düşünülebilir.  Medyan (Ortanca)  Veri setindeki sıralamada ortada bir yerde bulunan eleman  Mod  Veri setinde en çok tekrar eden eleman

9 Kısa Sınav Çözümleri (14 – 15)  A dizisinin ağırlıklı ortalamasını hesaplayınız? (10)  Veri ön-işleme sürecinin adımlarını yazınız. (5)  Veri Temizleme (Data Cleaning)  Veri Bütünleştirme (Data Integration)  Veri Dönüştürme (Data Transformation)  Veri Azaltma (Data Reduction)  Veriyi Kesikli Hale Getirme (Data Discretization) Dizi A 1,320,62,83,1340,9 Toplam Ağırlık 892765311 51 Çarpım 10,4181,219,618,615129,9 104,7 Ağırlıklı Ortalama

10 Kısa Sınav Çözümleri (16 – 17)  Veri temizleme işleminin adımlarını yazınız. (5)  Veri Temizleme (Data Cleaning)  Eksik Değerleri Doldurma  Gürültülü Veri Düzleştirme (Smoothing)  Aykırı Değerleri Tespit Etme ve Ortadan Kaldırma  Tutarsızlıkları Giderme  Tekrarlı Verileri Silme  Veri düzleştirme için kullanılabilecek yöntemlerden 2 tanesini yazınız. (5)  Kova Yöntemi (Binning): Sıralanmış değerleri komşuluğundaki değerlerle değiştirerek daha makul veriler elde etme işlemi.  Kümeleme (Clustering): Aykırı değerleri tespit ederek ortadan kaldırma  Regresyon (Regression): Verileri bir fonksiyona uydurarak düzleştirme

11 Veri Ambarı (Data Warehouse)  Veri ambarı, çeşitli iç ve dış veri kaynaklarından elde edilen verilerin uygun dönüşümler yapılarak birleştirilmesiyle oluşturulan veri kaynağıdır.  Aktif veri kaynağı en son haliyle veri ambarına yansıtılır. Veri ambarına girmiş veriler üzerinde değişiklik yapılamaz.  Veri ambarı raporlama, analiz ve veri madenciliği amaçlı olarak kullanılır.  Veri ambarı, kritik kararlar için üst yöneticilere bilgi sağlayan karar destek sisteminin veri kaynağıdır.  Veri ambarı hedef yönelimlidir.  Veri ambarı belli bir konuyu analiz etmek üzere kullanılır.  ( Data Mart ) Satış verileri gibi.  Veri ambarı bütünleşiktir.  Veri ambarı farklı kaynakların birleştirilmesiyle elde edilir.  A ve B veri kaynaklarında belli bir ürünün öznitelikleri farklı olabilir, ancak veri ambarında bunlar tek olmalıdır.  Veri ambarının zaman boyutu vardır.  Tarihsel veriler veri ambarında tutulur.  Online sistemde müşterinin son adresi tutulurken, veri ambarında önceki adresleri de tutulur.  Veri ambarındaki veriler kalıcıdır. Veri ambarına giren bir veri değiştirilemez.

12 Veri Ambarı – Veri Kaynakları İç Veri Kaynakları  Kurumsal kaynak planlama sistemi  Envanter ve lojistik veritabanları  Çağrı merkezi verileri  Pazarlama ve kampanya verileri  Anketler  E-Ticaret sistemi ve Web sitesi erişim kayıtları  Kişisel veri kaynakları (Çalışanlar tarafından tutulan kayıtlar) Dış Veri Kaynakları  Siyasal, Ekonomik, Sosyal ve Demografik veriler  Rekabet ve pazar verileri  Coğrafi bilgi sistemleri  Diğer ulusal ve uluslararası istatistiki veriler (TÜİK)

13 Raporlama Veri Madenciliği OLAP Veri Ambarı – Geliştirme & Uygulama Süreçleri Veri Kaynakları ERP POS WEB Dış Veri … Seç Çıkar Dönüştür Birleştir Yükle Veri Ambarı Üretim Pazarlama … Finans API / Ara Yazılımlar ETL Erişim Uygulama

14 Meta Veri  Veri hakkında veri demektir.  Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür.  Kullanımına göre ikiye ayrılır:  İşletme Açısından Meta Veri : Verinin ne anlama geldiğini izah eder. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? sorularının cevabıdır.  Teknik Açıdan Meta Veri : Teknik personel için gerekli bilgilerin bulunduğu kütüktür.  Biçim, uzunluk, tanım aralığı, veritabanı  Bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları tutuluyor olsun.  Bu veriler veri ambarına aktarılırken ürün adedi ve birim fiyatı çarpılarak aktarılsın.  Meta Veri : MH1 = Müşteri 1. Ay Hasılatı, Yöntem= Fiyat * Adet, Pazarlama Data Martı Sipariş Tarihi Ürün Adedi Birim Fiyat 15.01.20163010 15.02.2016409 15.03.2016508 MüşteriMH1MH2MH3 Mus01300360400 Mus02400450480 Mus03700720800

15 ETL (Extraction – Transformation – Loading) İşlemleri  Çıkarım (Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınması işlemidir.  Veri ambarının ilk oluşturulması sürecinde eski sistemlerdeki tüm veriler tümüyle veri ambarına aktarılır.  Aktarım işlemleri daha sonraki zamanlarda aktif sistemlerdeki verilerin güncellenmesine bağlı olarak yapılır.  Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir.  Dönüştürmedeki amaç, verilerin kalitesinin arttırılmasıdır. Tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve birleştirme yapılır.  Yükleme (Loading): Verilerin fiziksel olarak veri ambarına yüklenmesi işlemidir.

16 OLAP – OLTP (Online Analytical Processing – Online Transactional Processing)  Veri ambarı ile sağlanan veri kaynağı temelinde karar vermeye yardımcı olacak şekilde yapılan veri analizi ve sorgulama işlemlerine OLAP denir.  OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır.  OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır.  OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır.  OLTP tarzı veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir.  Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir.  Firmalar için günlük bütün işlem kayıtları ilişkisel tablolar halinde OLTP veri tabanlarında tutulur.  Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır.

17 OLAP – Temel Kavramlar  Küp : Herhangi bir OLAP veritabanı içinde kaydetme ve geri alma işlemleri için kullanılan temel veri yapısıdır.  Boyut : Bağımsız mantıksal bölümlerle veriyi organize etme yolunu sağlar.  Boyutu bir bilgi kategorisi gibi düşünmek uygundur.  Zaman, Yerleşim, Ürün  Eleman : Boyutun alt kategorisi olarak düşünülebilir.  Asya, Türkiye, İstanbul  Ölçü (Measure) : Analiz edilmek istenen verilerdir..  Satış sayısı, k â r, çalışan sayısı  Ölçü kendi başına anlam ifade etmeyen bir değerdir. Ancak boyutlarla kullanıldığında anlamlı hale gelir.  K â r = 300 | Asya 2015 K â rı 300  Öznitelik : Boyutun iç hiyerarşiye sahip olmayan bir özelliğidir. (Müşteri – Şehir)  Bu ilişki başka durumlarda da kullanılabilir. (Kıta – Ülke – Şehir, Şehir – Cinsiyet – Eğitim)

18 OLAP  Klasik raporlardan farklı olarak, OLAP ile kuruluşa ilişkin bilgiler hızlı ve etkileşimli bir şekilde incelenebilir.  OLAP, paylaşılan çok boyutlu bilginin hızlı analizi ( FASMI ) olarak da tanımlanır.  F ast (Hızlı)  A nalysis (Analiz)  S hared (Paylaşımlı)  M ultidimensional (Çok Boyutlu)  I nformation (Bilgi) Bir OLAP küpü üzerinde aşağıdaki işlemler yapılabilir:  Dice (Çevir)  Yer – Zaman  Ürün – Zaman  Slice (Dilimle)  Son 1 yılın verileri  Drill Up / Down (Birleştir / Detaylandır)  Yıl  Ay, Kıta  Ülke  Şehir

19 OLAP Tipleri  Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz.  İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur.  Hibrid OLAP (HOLAP): Açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir.

20 OLAP / OLTP Karşılaştırması KriterOLTPOLAP AmaçGünlük iş fonksiyonlarını yerine getirmek Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri kaynağı İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) RaporlamaRutin, periyodik, odaklanılmış raporlar Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Kaynak ihtiyaçlarıOlağan ilişkisel veri tabanları Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Sistem yönelimi Müşteri odaklıdır, işlemler ve sorgular IT personeli veya müşteriler tarafından yapılır. Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından kullanılır. TasarımVarlık-ilişki modeliYıldız, Kar Tanesi veya Galaksi modeli

21 İstanbul Ankara İzmir Bursa Adana 2015 2014 2013 2012 2011 Beyaz Kaşar Tulum Labne Süzme İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme Çok Boyutlu Veri Modeli – Veri Küpü

22 İki Boyutlu TabloÜç Boyutlu Tablo Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme 2015 9380 7558 2014 6778736555 2013 587367 58 2012 6371666054 2011 6059564564 Ankara Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme 4340352520 4138333525 453337 28 2341363024 3029362524 Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme 2015 9380 7558 2014 6778736555 2013 587367 58 2012 6371666054 2011 6059564564

23 Yıldız & Kar Tanesi Şemaları Yıldız ŞemasıKar Tanesi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte Fact Tablosu Ölçü Boyutlar Bağlı Boyut

24 Galaksi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte AktDers OgrID AktID Not Devam Aktivite AktID Tip  Yıldız Şeması her bir boyutu için geniş bir merkezi tablo ve ona bağlı küçük yardımcı tabloları (boyut tabloları) bulunduran şema tasarımıdır.  Kar Tanesi Şeması, yıldız şema modelinin bir çeşididir. Yıldız şemasına göre en önemli farklılık boyutların normalize değerlerden oluşmasıdır.  Galaksi Şeması, karmaşık uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulan tasarımdır. Fact Tablosu

25 Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya çıkarılması ve aralarındaki bağlantının büyüklüğünün tespit edilmesine yöneliktir.  Uygulama Alanları  Pazarlama  Tıbbi tanı  Bilimsel veri analizi  Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi  Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar.  Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi)  Satış ve Satın alma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar

26 Birliktelik Kuralları – Ölçüler  Birliktelik kuralları, veri seti içindeki kayıtlara ait birlikte bulunma ve/veya bulunmama sıklığı ve/veya olasılığı gibi çeşitli istatistiki ölçü değerlerini hesaplayıp bunlar arasında oransal bir ilişki kuran çeşitli algoritma ve yöntemler ile oluşturulur.  Birliktelik kuralları oluşturmada en çok kullanılan ölçüler Destek (Support) ve Güven (Confidence) ölçüleridir.  Destek, bir ilişkinin tüm veri seti içinde hangi oranda tekrarlandığını belirler.  Güven, X değişkeninin Y değişkeni ile birlikte bulunma olasılığını ortaya koyar.  Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven (eşik) değerlerini sağlaması gereklidir.  Birliktelik kurallarının oluşturulmasında destek ve güven dışında çok sayıda farklı istatistiki ölçüler de kullanılır. Bu ölçülerin çoğu destek ve güvene dayalı olarak hesaplanır.

27 Birliktelik Kurallarının Yorumlanması

28 Birliktelik Kuralları / Destek  Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi RamsesYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

29 Birliktelik Kuralları / Güven  Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

30  Bütün Destek değerleri aynı olmasına rağmen güven değerleri farklılık gösterebilir. Birliktelik Kuralları / Örnek İşlemParçalar 1A, B 2A, C, D, E 3 B, C, D, F 4 A, B, C, D 5 A, B, C, F ParçaGüven 2/3 = 0,67 1/1 = 1,00 2/3 = 0,67 2/4 = 0,50 ParçaDestek 2/5 = 0,40

31 Birliktelik Kuralları / Kaldıraç (Lift) İşlem NoSütEkmekTereyağıÇayPeynir 1 11000 2 00100 3 00011 4 11100 5 01000  X ve Y nin bağımsız olup olmadığını gösteren oransal destek değeri  Eğer iki değişken birbirinden bağımsız ise, bunlarla ilişkili bir kural çıkarılmaz.  Eğer Kaldıraç değeri 1’den büyük ise değişkenler birbirine bağımlıdır ve bunlarla ilişkili kural oluşturulabilir.

32 Birliktelik Kuralları / İnanç (Conviction) İşlem NoSütEkmekTereyağıÇayPeynir 1 11000 2 00100 3 00011 4 11100 5 01000  X’ in Y ‘nin olmadığı durumdaki oransal frekans değeri  Eğer İnanç değeri 1 ise X ve Y değişkenleri birbirinden bağımsızdır.  Eğer İnanç değeri 1’den uzak ise ilişkili kural oluşturulabilir.

33 Birliktelik Kuralları / Diğer Ölçüler Difference of ConfidenceExample and Counterexample RateFisher's Exact TestGini IndexHyper-ConfidenceHyper-LiftImbalance RatioJaccard coefficientJ-MeasureKappaKlosgenKulczynskiGoodman-KruskalLaplace Corrected Confidence Least ContradictionLerman SimilarityLeverage, Piatetsky-Shapiro MeasureMutual InformationOdds Ratio Correlation CoefficientRalambrodrainy MeasureRelative Linkage DisequilibriumSebag-Schoenauer measureVarying Rates LiaisonYule's Q and Yule's Y Added Value (AV), Centered ConfidenceAll-confidence Casual ConfidenceCasual SupportCertainty FactorChi-Squared Cross-Support RatioCollective StrengthCosine CoverageDescriptive Confirmed Confidence http://michael.hahsler.net/research/association_rules/measures.html

34 Birliktelik Kuralı Oluşturma Yöntemleri Brute-Force YöntemiApriori Yöntemi  Destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir.  Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır.  Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir.  Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürdürülür.  Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir.

35 Birliktelik Kuralı Oluşturma Yöntemleri ECLAT Yöntemi  Dikey yönlü veri seti üzerinde işleyen bir yapıya sahiptir.  İlişki kuralları çıkarmak için küme kesişimleri kullanılır.  Küçük boyutlu veri setleri için uygundur ve Apriori yöntemine göre daha az zaman gerektirir.  Veri setinin büyük olduğu durumlarda geçici kümeler için depolama ihtiyacı çok yüksek olur ve kesişim kümelerinin üretilmesi oldukça fazla zaman alır. FP-Growth Yöntemi  Her bir ürün için destek değeri hesaplanır. Eşik değerinin altında desteğe sahip ürünler çıkarılır.  Sık tekrar eden ürünler destek değerlerine göre büyükten küçüğe sıralanır.  Bir ağaç yapısı oluşturularak ürünler bu ağaç üzerinde yerleştirilir.  Veri setinin büyük olması durumunda çok yüksek bellek ihtiyacı oluşur.  Karmaşık veri yapısından dolayı çok fazla zamana gereksinim duyar.


"VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Kısa Sınav Çözümleri (1 – 2)  1. Veri ve Bilgiye birer örnek veriniz. (5)  Veri: 170  Bilgi: Boyum 170 cm." indir ppt

Benzer bir sunumlar


Google Reklamları