Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar Bölüm 6 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren.

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar Bölüm 6 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren."— Sunum transkripti:

1 Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar Bölüm 6 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete Çelik © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1

2 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Birliktelik Kural Madenciliği l Verilen kayıt (transaction) kümesinden, kayıtlar içerisinde bir elemanın oluşunun diğer elemanların oluşuna bağlı olarak tahmin edilmesini sağlayan kuralları bul. Market-Sepeti Kayıtları Birlikteli Kuralı Örnekleri {Bebk Bezi }  {Bira}, {Süt, Ekmek}  {Yumurta,Kola}, {Bira, Ekmek}  {Süt}, Gerektirme işlemi eş-oluşumu gösterir, nedenselliği göstermez.

3 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Tanım: Sık Eleman Kümesi l Eleman_Kümesi (Itemset) –Bir veya birden fazla elemanın bir kolleksiyonu  Örnek: {Süt, Ekmek, Bebek Bezi} –K-elemen_kümesi  k tane eleman içeren eleman kümsesi l Destek Sayısı (Support Count) (  ) –Bir eleman_kümesinin oluşunun frekansı –Örnek  ({Süt, Ekmek, Bebek Bezi}) = 2 l Destek (Support) –Bir eleman kümesini içeren kayıtların toplam kayıtlara oranı –Örnek: s({Süt, Ekmek, Bebek Bezi}) = 2/5 l Sık Eleman Kümesi –Destek değeri minsup değerine eşit veya bu değerden yüksek olan eleman kümesidir.

4 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Tanım: Birliktelik Kuralı Örnek: l Birliktelik Kuralı –X  Y, şeklinde olan ifadelerdir (C ve Y eleman kümelerini gösterir. –Örnek: {Süt, Bebek Bezi}  {Bira} l Kural Değerlendirme Metrikleri –Destek (s)  X ve Y’nin herikisini de içeren kayıtların toplam kayıtlara oranı –Güven (Confidence= (c)  X’i içeren kayıtların kaç tanesinin Y’yi de içerdiğini gösteren ölçüt.

5 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Birliktelik Kural Madenciliği İşlemi l Verilen T kayıt kümesi için,birliktelik kural madenciliğinin amacı aşağıdaki şartı sağlayan bütün kuralların bulunmasıdır –destek≥ minsup (mindes) eşik değeri –güven ≥ minconf (mingüv) eşik değeri l Kaba (Brute-force) yaklaşım: –Bütün mühtemel birliktelik kurallarını listele –Herbir kuralın destek ve güvenini hesapla –Prune rules that fail the minsup ve minconf eşik değerlerini sağlamayan kuralları ele  Hesaplama maliyeti yüksek!

6 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Birliktelik Kurallarının Madenciliği Kural Örnekleri : {Süt, Bebek Bezi}  {Bira} (s=0.4, c=0.67) {Süt, Bira}  {Bebek Bezi} (s=0.4, c=1.0) {Bebek Bezi, Bira}  {Süt} (s=0.4, c=0.67) {Bira}  {Süt, Bebek Bezi} (s=0.4, c=0.67) {Bebek Bezi}  {Süt, Bira} (s=0.4, c=0.5) {Süt}  {Bebek Bezi, Bira} (s=0.4, c=0.5) Gözlemler: Yukarıdaki bütün kurallar aynı eleman kümesinin ikili bölümlemeleridir: {Süt, Bebek Bezi, Bira} Aynı elemen kümesinden oluşan kurallar aynı destek değerlerine sahiptir fakat güvenleri farklı olabilir. Bu nedenle, destek ve güven ihtiyaçlarını ayırı ayrı değerlendiririz.

7 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Birliktelik Kurallarının Madenciliği l İki-adımlı yaklaşım.: 1.Sık Eleman Kümesi Üretimi – Destek değeri minsup’a eşit veya minsup’tan büyük olanları (destek  minsup) üret. 2.Kural Üretimi – Herbir sık eleman kümesinden yüksek güvene sahip olan kuralları üret. Herbir kural, sık eleman kümelerinin ikili bölümlemesidir. l Sık elemen kümesi üretiminin maliyeti hala yüksektir.

8 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Sık Eleman Kümesi Üretimi Verilen d adet eleman için 2 d muhtemel aday eleman kümesi vardır.

9 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Sık Eleman Kümesi Üretimi l Kaba (Brute-force) yaklaşım: –Kafes (lattice) yapısındaki herbir eleman kümesi bir aday sık eleman kümesidir. –Veritabanını tarayarak herbir adayın destek değerini hesapla. –Herbir kayıdı bütün adaylar ile eşleştir. –Karmaşıklık~ O(NMw) => Pahali çünkü M = 2 d !!!

10 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Hesaplama Karmaşıklığı l Verilen d adet tekil eleman olsun : –Toplam eleman kümesi sayısı= 2 d –Toplam muhtemel birliktelik kuralı sayısı: Eğer d=6, R = 602 kural

11 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Sık Eleman Kümesi Üretme Stratejileri l Aday sayısını azalt (M) –Toplam arama: M=2 d –M’i azaltmak için budama (azaltma) tekniklerini kullan l Kayıt sayısını azalt (N) –Eleman kümesi boyutu artıyorken N boyutunu azalt –DHP ve dikey-tabanlı (vertical-based) madencilik algoritmaları tarafından kullanıldı l Karşılaştırma sayısını azalt (NM) –Adayları veya kayıtları depolamak için etkili veri yapıları kullan –Her adayı her kayıt ile karşılaştırmaya gerek yoktur.

12 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Aday Sayısını Azaltmak l Apriori prensibi: –Eğer bir eleman kümesi sık ise onun bütün altkümeleri de sık olmalı. l Destek ölçütünün aşağıdaki özelliği nedeniyle Apriori prensibi geçerlidir: –Bir eleman kümesinin destek değeri onun altkümelerinin destek değerlerini asla aşmaz. –Bu destek ölçütünün anti-monoton özelliği olarak bilinir.

13 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Sık olmadığı bulundu Apriori Prensibinin Çalışması Elenen üstkümeler

14 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Apriori Prensibinin Çalışması Elemanlar (1-eleman_kümesi) İkililer (2-eleman_kümesi) (Kola ve Yumurtayı içeren adayları üretmeye gerek yok) Üçlüler (3-eleman_kümesi) Minimum Destek= 3 Eğer her alt küme hesaba katılırsa, 6 C C C 3 = 41 Destek-tabanlı eleme ile, = 13

15 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Apriori Algoritması l Yöntem: –k=1 –1 uzunluğundaki sık eleman kümelerini üret –Yeni sık eleman kümesi üretilmeyene kadar devam et  k uzunluğundaki sık elemen kümelerini kullanarak (k+1) uzunluğundaki aday eleman kümelerini üret.  Sık olmayan k uzunluğundaki alt kümeleri içeren aday eleman kümelerini ele  Veritabanını tarayarak herbir adayın desteğini hesapla  Sadece sık eleman kümeleri kalacak şekilde sık olmayan adayları ele

16 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Karşılaştırma Sayısını Azaltma l Aday hesaplama : –Heribir aday eleman kümesinin desteğini belirlemek için veritabanını tara –Karşılaştırma sayısını azaltmak için adayları bir hash (çırpı veya küme) veri yapısında depola

17 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Karmaşıklığı Etkileyen Etmenler l Minimum destek eşik değerinin seçimi – destek eşik değerini azaltmak daha fazla sık eleman kümesinin üretimine neden olacaktır –Bu durum aday sayısını ve sık eleman kümesinin maksimum uzunluğunu arttırabilir l Veri kümesinin boyutluluğu (eleman sayısı) – herbir elemanın destek değerini depolamak için daha çok alana ihtiyaç vardır – eğer sık elemanların sayısı artarsa, hesaplama ve I/O maliyeti de artabilir l Veritabanı boyutu – Apriori birden fazla okuma yapacağı için kayıt sayısına bağlı olarak algortima çalışma zamanı da artar l Ortalama kayıt genişliği – yoğun veri kümelerine bağlı olarak kayıt genişliği artar –Bu sık eleman kümesinin maksimum uzunluğunu ve hash ağacının gezilmasını (bir kayıttaki altküme sayısı kayıdın genişliği ile artar) arttırabilir

18 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Maximal Sık Eleman Kümesi Sınır Sık olmayan eleman kümeleri Maksimal eleman kümesi Hiçbir üst kümesi sık olmayan elaman kümesi maksimal sık eleman kümesidir.

19 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ FP-growth (FP-büyüme) Algoritması l FP-ağacı (FP-tree) kullanarak veritabanının sıkıştırılmış gösterimini kullanır l FP-ağaç oluşturulduktan sonra sık eleman kümelerini keşfetmek için tekrarlamalı böl-ve- yönet (divide-and-conquer) yaklaşımı kullanır.

20 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ FP-ağacı yapılışı null A:1 B:1 null A:1 B:1 C:1 D:1 TID=1’i okuduktan sonra: TID=2’yi okuduktan sonra:

21 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ FP-ağacı yapılışı null A:7 B:5 B:3 C:3 D:1 C:1 D:1 C:3 D:1 E:1 İşaretçiler, sık eleman kümelerinin üretimine yardım etmek için kullanılır D:1 E:1 Kayıt veritabanı Başlık tablosu

22 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ FP-growth null A:7 B:5 B:1 C:1 D:1 C:1 D:1 C:3 D:1 D için şartlı örüntü tabanı : P = {(A:1,B:1,C:1), (A:1,B:1), (A:1,C:1), (A:1), (B:1,C:1)} P üzerine FP-growth’u tekrarlamalı olarak uygula Sık eleman kümeleri bulundu (destek değeri > 1 olanlar): AD, BD, CD, ACD, BCD D:1

23 © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Literatürde çok sayıda metrik önerilmiştir. Bazıları, bazı uygulamalar için iyidir, bazı uygulamalar için iyi değildir


"Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar Bölüm 6 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren." indir ppt

Benzer bir sunumlar


Google Reklamları