Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya.

Benzer bir sunumlar


... konulu sunumlar: "VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya."— Sunum transkripti:

1 VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI

2 Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya çıkarılması ve aralarındaki bağlantının büyüklüğünün tespit edilmesine yöneliktir.  Uygulama Alanları  Pazarlama  Tıbbi tanı  Bilimsel veri analizi  Sıklıkla tekrar eden kalıpların belirlenmesi ve bu kalıplar sayesinde tahmin gerçekleştirilmesi  Acaba X ve Y ürününü alan müşteriler aynı zamanda hangi ürünü almayı tercih ediyorlar.  Eğer X ve Y alanlar genellikle Z alıyorsa, bu durumda X ve Y alan ama Z almayanlar potansiyel Z müşterisidir. (Pazar Sepet Analizi)  Satış ve Satın alma Tahminleri, Reyon organizasyonu, kampanyalar ve promosyonlar

3 Birliktelik Kuralları – Ölçüler  Birliktelik kuralları, veri seti içindeki kayıtlara ait birlikte bulunma ve/veya bulunmama sıklığı ve/veya olasılığı gibi çeşitli istatistiki ölçü değerlerini hesaplayıp bunlar arasında oransal bir ilişki kuran çeşitli algoritma ve yöntemler ile oluşturulur.  Birliktelik kuralları oluşturmada en çok kullanılan ölçüler Destek (Support) ve Güven (Confidence) ölçüleridir.  Destek, bir ilişkinin tüm veri seti içinde hangi oranda tekrarlandığını belirler.  Güven, X değişkeninin Y değişkeni ile birlikte bulunma olasılığını ortaya koyar.  Birliktelik kurallarının geçerli olabilmesi için minimum destek ve güven (eşik) değerlerini sağlaması gereklidir.  Birliktelik kurallarının oluşturulmasında destek ve güven dışında çok sayıda farklı istatistiki ölçüler de kullanılır. Bu ölçülerin çoğu destek ve güvene dayalı olarak hesaplanır.

4 Birliktelik Kurallarının Yorumlanması

5 Birliktelik Kuralları / Destek  Toplam Müşterilerin ancak % 30 u Harry Potter kitabı ile Yüzüklerin Efendisi DVD lerini birlikte almışlardır. (Klasik Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi RamsesYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

6 Birliktelik Kuralları / Güven  Harry Potter kitabını alan müşterilerin %60 ı Yüzüklerin Efendisi DVD sini almıştır. (Şartlı Olasılık) KitapDVD RamsesHarry Potter Yüzüklerin EfendisiHarry Potter Yüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry PotterYüzüklerin Efendisi Harry Potter Yüzüklerin EfendisiHarry Potter RamsesHarry Potter

7  Bütün Destek değerleri aynı olmasına rağmen güven değerleri farklılık gösterebilir. Birliktelik Kuralları / Örnek İşlemParçalar 1A, B 2A, C, D, E 3 B, C, D, F 4 A, B, C, D 5 A, B, C, F ParçaGüven 2/3 = 0,67 1/1 = 1,00 2/3 = 0,67 2/4 = 0,50 ParçaDestek 2/5 = 0,40

8 Birliktelik Kuralları / Kaldıraç (Lift) İşlem NoSütEkmekTereyağıÇayPeynir  X ve Y nin bağımsız olup olmadığını gösteren oransal destek değeri  Eğer iki değişken birbirinden bağımsız ise, bunlarla ilişkili bir kural çıkarılmaz.  Eğer Kaldıraç değeri 1’den büyük ise değişkenler birbirine bağımlıdır ve bunlarla ilişkili kural oluşturulabilir.

9 Birliktelik Kuralları / İnanç (Conviction) İşlem NoSütEkmekTereyağıÇayPeynir  X’ in Y ‘nin olmadığı durumdaki oransal frekans değeri  Eğer İnanç değeri 1 ise X ve Y değişkenleri birbirinden bağımsızdır.  Eğer İnanç değeri 1’den uzak ise ilişkili kural oluşturulabilir.

10 Birliktelik Kuralları / Diğer Ölçüler Difference of ConfidenceExample and Counterexample RateFisher's Exact TestGini IndexHyper-ConfidenceHyper-LiftImbalance RatioJaccard coefficientJ-MeasureKappaKlosgenKulczynskiGoodman-KruskalLaplace Corrected Confidence Least ContradictionLerman SimilarityLeverage, Piatetsky-Shapiro MeasureMutual InformationOdds Ratio Correlation CoefficientRalambrodrainy MeasureRelative Linkage DisequilibriumSebag-Schoenauer measureVarying Rates LiaisonYule's Q and Yule's Y Added Value (AV), Centered ConfidenceAll-confidence Casual ConfidenceCasual SupportCertainty FactorChi-Squared Cross-Support RatioCollective StrengthCosine CoverageDescriptive Confirmed Confidence

11 Birliktelik Kuralı Oluşturma Yöntemleri Brute-Force YöntemiApriori Yöntemi  Destek ve güven ölçülerini karşılaştırmak için eşik değerleri belirlenir.  Her bir ürün için destek sayıları hesaplanır. Eşik değeri ile karşılaştırılan destek değerlerinin içinden eşik değerinden düşük olanlar çıkarılır.  Kalan ürünler ikişerli gruplanarak, grup destek sayıları hesaplanır. Tekrar eşik değerleri ile karşılaştırılan destek değerlerinden eşik değerinin altında kalanlar iptal edilir.  Daha sonra üçerli, dörderli, beşerli, vb. biçimde gruplar için aynı karşılaştırma ve eleme işlemi devam ettirilir. Eşik değerlere uygun olduğu sürece işlemler sürdürülür.  Belirlenen ürün grubunun destek ölçülerine bakarak birliktelik kuralları türetilir ve bu kurallarının her biri için güven ölçüleri belirlenir.

12 Birliktelik Kuralı Oluşturma Yöntemleri ECLAT Yöntemi  Dikey yönlü veri seti üzerinde işleyen bir yapıya sahiptir.  İlişki kuralları çıkarmak için küme kesişimleri kullanılır.  Küçük boyutlu veri setleri için uygundur ve Apriori yöntemine göre daha az zaman gerektirir.  Veri setinin büyük olduğu durumlarda geçici kümeler için depolama ihtiyacı çok yüksek olur ve kesişim kümelerinin üretilmesi oldukça fazla zaman alır. FP-Growth Yöntemi  Her bir ürün için destek değeri hesaplanır. Eşik değerinin altında desteğe sahip ürünler çıkarılır.  Sık tekrar eden ürünler destek değerlerine göre büyükten küçüğe sıralanır.  Bir ağaç yapısı oluşturularak ürünler bu ağaç üzerinde yerleştirilir.  Veri setinin büyük olması durumunda çok yüksek bellek ihtiyacı oluşur.  Karmaşık veri yapısından dolayı çok fazla zamana gereksinim duyar.

13 Apriori Algoritması Örnek – 1 Yandaki örnek veri seti için birliktelik kurallarını Apriori algoritması ile çıkaralım. (TID)Alınan Ürünler 10A, B, E 20B, D 30B, C 40A, B, D 50A, C 60B, C 70A, C 80A, B, C, E 90A, B, C

14 Apriori Algoritması / Örnek – 1

15  İkinci adımda her bir ürün için yandaki tabloda gösterildiği şekilde destek sayıları hesaplanır. Ürün AdıDestek A6 B7 C6 D2 E2 (TID)Alınan Ürünler 10A, B, E 20B, D 30B, C 40A, B, D 50A, C 60B, C 70A, C 80A, B, C, E 90A, B, C Şartlar sağlandığı için eleme yapılmaz.

16 Apriori Algoritması / Örnek – 1  İkili eşleştirmeler için destek sayıları hesaplanır. Ürün AdıDestek A6 B7 C6 D2 E2 Ürün AdıDestek A, B4 A, C4 A, D1 A, E2 B, C4 B, D2 B, E2 C, D0 C, E1 D, E0 (TID)Alınan Ürünler 10A, B, E 20B, D 30B, C 40A, B, D 50A, C 60B, C 70A, C 80A, B, C, E 90A, B, C

17 Apriori Algoritması / Örnek – 1  Üçlü eşleştirmeler için destek sayıları hesaplanır.  Sadece yandaki tabloda verilen ikililerle yazılan üçlüler dikkate alınır. Ürün AdıDestek A, B4 A, C4 A, E2 B, C4 B, D2 B, E2 Ürün AdıDestek A, B, E2 A, B, C2 (TID)Alınan Ürünler 10A, B, E 20B, D 30B, C 40A, B, D 50A, C 60B, C 70A, C 80A, B, C, E 90A, B, C

18 Apriori Algoritması / Örnek – 1 Birliktelik Kuralı Güven 2/4=0,50 2/2=1,00 2/6=0,33 2/7=0,28 2/2=1,00 Birliktelik Kuralı Güven 2/4=0,50 2/6=0,33 2/7=0,28 2/6=0,33

19 Apriori Algoritması / Örnek – 1  Örnekte güven eşik değeri % 70 olarak verilmişti.  Bu durumda sadece 3 kuralın bu değerden daha yüksek güven değerine ulaştığı görülmektedir.  Değerlendirme sonucunda kurallar aşağıdaki gibi elde edilir.  A ve E ürününü alanlar %100 ihtimalle B ürününü de alırlar.  B ve E ürününü alanlar %100 ihtimalle A ürününü de alırlar.  E ürününü alanlar % 100 ihtimalle A ve B ürününü de alırlar.

20 Apriori Algoritması / Örnek – 2 Müşteri ID (TID)Alınan Ürünler Gofret, Kola, Su, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek

21 Apriori Algoritması / Örnek – 2  İkinci adımda ise her bir ürün için aşağıdaki gibi destek sayıları hesaplanır. Ürün AdıDestek Gofret5 Kola4 Su7 Çekirdek8 Antep Fıstığı2 Çikolata4 Kahve1 Süt2 Cips1 Patlamış Mısır2 Müşteri ID (TID)Alınan Ürünler Gofret, Kola, Su, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek

22 Apriori Algoritması / Örnek – 2  İkili eşleştirmeler için destek sayıları hesaplanır. Ürün AdıDestek Gofret5 Kola4 Su7 Çekirdek8 Çikolata4 İkiliDestek Gofret, Kola1 Gofret, Su 3 Gofret, Çekirdek5 Gofret, Çikolata2 Kola, Su3 Kola, Çekirdek 3 Kola, Çikolata1 Su, Çekirdek5 Su, Çikolata3 Çekirdek, Çikolata3 Alınan Ürünler Gofret, Kola, Su, Çekirdek Antep Fıstığı, Çekirdek, Çikolata, Kola Gofret, Çekirdek, Antep Fıstığı Kola, Su, Çekirdek, Kahve Gofret, Çekirdek, Çikolata, Su Süt, Çekirdek, Su Gofret, Cips, Çekirdek Çikolata, Patlamış Mısır, Su Patlamış Mısır, Kola, Su Su, Süt, Gofret, Çikolata, Çekirdek

23 Apriori Algoritması / Örnek – 2  Üçlü eşleştirmel er için destek sayıları hesaplanır. İkiliDestek Gofret, Su3 Gofret, Çekirdek5 Kola, Su3 Kola, Çekirdek3 Su, Çekirdek5 Su, Çikolata3 Çekirdek, Çikolata3 İkiliDestek Gofret, Su, Çekirdek3 Gofret, Su, Kola1 Gofret, Su, Çikolata2 Gofret, Çekirdek, Kola1 Gofret, Çekirdek, Çikolata2 Kola, Su, Çekirdek2 Kola, Su, Çikolata0 Kola, Çekirdek, Çikolata1 Su, Çekirdek, Çikolata2

24 Apriori Algoritması / Örnek – 2  Bu adımda ise Gofret, Su ve Çekirdek için birliktelik kuralları türetilir. Kurallar alt kümeler dikkate alınarak türetilir.  (Gofret, Su), (Gofret, Çekirdek), (Su, Çekirdek), (Gofret), (Su), (Çekirdek) Birliktelik KuralıAçıklama (Şartlı Olasılık)Güven Gofret & Su  Çekirdek Gofret ve Su alanların Çekirdek alma ihtimali 3/3=1,00 Gofret & Çekirdek  Su Gofret ve Çekirdek alanların Su alma ihtimali 3/5=0,60 Su & Çekirdek  Gofret Su ve Çekirdek alanların Gofret alma ihtimali 3/5=0,60 Gofret  Su & Çekirdek Gofret alanların Su ve Çekirdek alma ihtimali 3/5=0,60 Su  Gofret & Çekirdek Su alanların Gofret ve Çekirdek alma ihtimali 3/7=0,42 Çekirdek  Gofret & Su Çekirdek Alanların gofret ve Su alma ihtimali 3/8=0,38

25 Apriori Algoritması / Örnek – 2  Örnekte güven eşik değeri % 80 olarak verilmişti.  Bu durumda elimizde sadece Gofret ve Su alanların, çekirdek te aldığı bilgi mevcuttur.  Güven değeri 1,00 olduğundan, Gofret ve Su alan herkes mutlaka (%100) ihtimalle çekirdekte alacaktır.

26 ECLAT Algoritması / Örnek – 3  ECLAT Algoritmasında öncelikli olarak, yatay olarak biçimlendirilmiş veri seti dikey yönlü olacak şekilde düzenlenir.  Sonraki adımda, sırasıyla ikişerli, üçerli ya da daha yüksek sayıdaki birliktelik durumları hesaplanır.  Her adımda asgari destek sayısından daha düşük sayıda desteğe sahip olan birliktelikler veri setinden çıkarılır.  Yüksek desteğe sahip olan birlikteliklerle ilişkili kurallar elde edilir.

27 ECLAT Algoritması / Örnek – 3 TIDAlınan Ürünler 197Gofret, Kola, Su, Çekirdek 198Antep Fıstığı, Çekirdek, Çikolata, Kola 199Gofret, Çekirdek, Antep Fıstığı 200Kola, Su, Çekirdek, Kahve 201Gofret, Çekirdek, Çikolata, Su 202Süt, Çekirdek, Su 203Gofret, Cips, Çekirdek 204Çikolata, Patlamış Mısır, Su 205Patlamış Mısır, Kola, Su 206Su, Süt, Gofret, Çikolata, Çekirdek ÜrünTID Listesi Gofret{197, 199, 201, 203, 206} Kola{197, 198, 200, 205} Su{197, 200, 201, 202, 204, 205, 206} Çekirdek{197, 198, 199, 200, 201, 202, 203, 206} Antep Fıstığı{198, 199} Çikolata{198, 201, 204, 206} Kahve{200} Süt{202, 206} Cips{203} Patlamış Mısır{204, 205}

28 ECLAT Algoritması / Örnek – 3 TIDAlınan Ürünler 197Gofret, Kola, Su, Çekirdek 198Antep Fıstığı, Çekirdek, Çikolata, Kola 199Gofret, Çekirdek, Antep Fıstığı 200Kola, Su, Çekirdek, Kahve 201Gofret, Çekirdek, Çikolata, Su 202Süt, Çekirdek, Su 203Gofret, Cips, Çekirdek 204Çikolata, Patlamış Mısır, Su 205Patlamış Mısır, Kola, Su 206Su, Süt, Gofret, Çikolata, Çekirdek ÜrünTID Listesi Gofret, Kola{197} Gofret, Su{197, 201, 206} Gofret, Çekirdek{197, 199, 201, 203, 206} Gofret, Antep Fıstığı{199} Gofret, Çikolata{201, 206} Gofret, Kahve{ } Gofret, Süt{206} Gofret, Cips{203} Gofret, Patlamış Mısır{ }

29 ECLAT Algoritması / Örnek – 3 ÜrünTID Listesi Gofret, Su, Çekirdek{197, 201, 206} Gofret, Su, Çikolata{201, 206} ÜrünTID Listesi Gofret, Su{197, 201, 206} Gofret, Kola{197} Gofret, Çekirdek{197, 199, 201, 203, 206} Gofret, Antep Fıstığı{199} Gofret, Çikolata{201, 206} Gofret, Kahve{ } Gofret, Süt{206} Gofret, Cips{203} Gofret, Patlamış Mısır{ } ÜrünTID Listesi Gofret, Su, Çekirdek, Çikolata{201, 206}

30 ECLAT Algoritması / Örnek – 3  Bu adımda ise Gofret, Su ve Çekirdek için birliktelik kuralları türetilir. Kurallar alt kümeler dikkate alınarak türetilir.  (Gofret, Su), (Gofret, Çekirdek), (Su, Çekirdek), (Gofret), (Su), (Çekirdek) Birliktelik KuralıAçıklama (Şartlı Olasılık)Güven Gofret & Su  Çekirdek Gofret ve Su alanların Çekirdek alma ihtimali 3/3=1,00 Gofret & Çekirdek  Su Gofret ve Çekirdek alanların Su alma ihtimali 3/5=0,60 Su & Çekirdek  Gofret Su ve Çekirdek alanların Gofret alma ihtimali 3/5=0,60 Gofret  Su & Çekirdek Gofret alanların Su ve Çekirdek alma ihtimali 3/5=0,60 Su  Gofret & Çekirdek Su alanların Gofret ve Çekirdek alma ihtimali 3/7=0,42 Çekirdek  Gofret & Su Çekirdek Alanların gofret ve Su alma ihtimali 3/8=0,38

31 ECLAT Algoritması / Örnek – 3  Örnekte güven eşik değeri % 80 olarak verilmişti.  Bu durumda elimizde sadece Gofret ve Su alanların, çekirdek te aldığı bilgi mevcuttur.  Güven değeri 1,00 olduğundan, Gofret ve Su alan herkes mutlaka (%100) ihtimalle çekirdekte alacaktır.


"VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Birliktelik Kuralları (Association Rules)  Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya." indir ppt

Benzer bir sunumlar


Google Reklamları