Pozitif ve Negatif Ürün İlişkilerini İncelemek için Bir Çerçeve: Yeniden Madencilik (Re-mining) Ayhan Demiriz G. Ertek, T. Atan ve U. Kula 30 Haziran 2010, YA/EM 2010 Sabancı Üniversitesi
İçerik Kavramlar ▫Giriş ▫Negatif İlişki Madenciliği Metodoloji ▫Kısa Tanım Yeniden Madencilik Sürecinin Perakendecilik Verileri Üzerine Uygulanması ▫Veri Modeli ▫İlişki Madenciliğinin Uygulanması ▫Betimsel Yeniden Madencilik ▫Görsel Keşife Yönelik Yeniden Madencilik Sonuç
Çalışmanın Temeli Pozitif ve negatif ilişki madenciliği yaygın olarak büyük ölçekli perakendecilik verilerini incelemede başarılı olarak kullanılmaktadır Fiyat verileri operasyonel verilerin bir parçası olduğu halde veri madenciliğinde çok az kullanılmıştır. Hem pozitif hem de negatif ilişki madenciliğinde fiyat verilerinin kullanılmasına olanak sağlamak Yurt genelinde 200’den fazla mağazası olan bir hazır giyim perakendecisine ait verileri analiz etmek
Terminoloji İlişki madenciliği şeklinde kuralları bulmaya çalışır. Destek ve Güven kuralın gücünü belirler. Negatif ilişki madenciliği ise şeklindeki kuralları bulmaya çalışır. Öyle ki, Y’nin yokluğu (alınmadığı) anlamına gelir. Ürün ikamelerini bulmada negatif ilişki madenciliği kullanılabilir.
Negatif İlişki Madenciliği Aday negatif ilişkiler üç farklı yöntemle elde edilebilir ▫Sık ürün kümelerinin çocukları örneğin {DJ} ▫Sık ürün kümesinden bir ürün ve sık ürün kümesininin çocuğu örneğin {CJ} ▫Sık ürün kümesinden bir ürün ve diğer sık ürünün kardeşi örneğin {CH} A B C DE F G H JK Frequent Itemset
Dolaylı İlişki {AB} ve {AC} ürün kümelerinin herikisi de sıktır. Fakat {BC} ürün kümesi sık değildir. O zaman {BC} ürün kümesi hakkında A ürünü üzerinden dolaylı ilişkiye sahiplerdir hükmüne varabiliriz. {BC} ürün kümesi negatif ilişki için bir aday kümedir. A B C
Ana Adımlar Pozitif ve negatif ilişkileye sahip ürün çiftleri elde edilir. Pozitif ve negatif ilişkiye sahip ürün çiftleri sırasıyla ‘+’ ve ‘-’ olarak etiketlenir Ürün ve ürün çiftlerine ait özelliklere dayanarak yeni bir veri seti hazırlanır Yeni veri seti üzerinde keşfe dayalı görsel analiz, betimsel ve tahmine yönelik yeniden veri madenciliği (re-mining) gerçekleştirilir
Muhtemel Kullanım Alanları Alana özgü bilgiyi yeni veri madenciliği adımında kullanma Alana özgü bilgiyi orjinal veri madenciliği adımında kullanmayarak karmaşıklığın azaltılması Sadece ilişki madenciliğine özgü değildir başka yöntemlerle de birlikte kullanılabilir Veri madenciliği sonuçlarını anlamak ve analiz etmek için kullanılabilir
Vaka Çalışması Türkiye’nin önde gelen hazır giyim perakende zincirinden veriler elde edilmiştir Veriler, 2007 yaz sezonunda bir merchandise grubuna (örneğin erkek) ait tüm satış, iade ve stok hareketlerini içermektedir SKU seviyesinde analiz büyük değişkenliğe sahip olduğundan ürün hiyerarşisinde bir üst kademe olan model bazında analizler yapılmıştır Toplam 710 modelden 600 tanesi analizlerde kullanılmıştır Toplam satış işleminde ürün satışı gerçekleşmiştir
İlişki Madenciliği Sonuçları Destek seviyesi 100 kabul edildiğinde 600 ürün de sıktır 3930 pozitif ve 2433 negatif ilişkiye sahip ürün çifti bulunmuştur Ürün 1Ürün 2Destek Seviyesi AB22131 BF17247 AE17155 BE14224 CB11968
Yeni Bir Öğrenme Problemi Pozitif ve negatif ilişkilerden öğrenebilir miyiz? İlişkileri açıklamak için kurallar bulabilir miyiz? Ürün çiftleri için yeni değişkenler nasıl oluşturulmalıdır (örneğin AB için mi yoksa BA için mi?) Rastgele mi sıralanmalı? Yoksa belli bir düzende mi? Yüksek fiyatlı ürün ve düşük fiyatlı ürün?
Betimsel Yeniden Madencilik Karar ağaçları bu amaç için kullanılabilir C5.0, negatif ilişkiler için 53 kural ve pozitif ilişkiler içinse 11 kural bulmuştur `-' sınıf için bir örnek: If StartWeekH > 11 and AvgPriceL_H0_L1 > and CategoryL = 0208 and CorrNormPrice_HL ≤ Then `-'. ▫Yüksek fiyatlı ürün 11. haftadan sonra satılırsa ve ▫Ortalama normalize edilmiş düşük ürünün fiyatı tek başına satıldığında 0.844’ten büyük ise ve ▫Düşük fiyatlı ürünün kategorisi “0208” ise ve ▫Normalize edilmiş fiyatlar arasındaki korelasyon tan küçük veya eşit ise, hedef sınıf ‘-’ tır
Betimsel Yeniden Madencilik Başka bir örnek kural: if LifeTimeL ≤ 21 and MinPriceH > and CategoryH = 0271 and CorrNormPrice_HL ≤ then ‘-’ ‘+’ sınıf için örnek: if MaxPriceH ≤ and StdDevPriceH_H1_L0 ≤ 0.05 then ‘+’. ‘+’ sınıf için diğer bir örnek : if LifeTimeH > 23 and LifeTimeL ≤ 21 and MaxPriceH > and CorrNormPrice_HL > then ‘+’.
Betimsel Yeniden Madencilik: İnteraktif Karar Ağacı Modeli
Keşfe Yönelik Görsel Analiz
Sonuç Veri madenciliği sürecini, ek adım ve yeni bir veri seti ile zenginleştirebilen bir çerçeve önerilmiştir Bu yöntemle, ilk veri madenciliği sonuçlarının açıklanmasını sağlayan kurallar bulunabilmektedir Dolaylı olarak pozitif ve negatif kantitatif ilişki madenciliği yapılabilmektedir Potansiyel olarak ilişki madenciliğinin yanında diğer veri madenciliği yaklaşımlarında da kullanılabilir