Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

KARAR TEORİSİ.
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
YRD.DOÇ.DR Turgay tugan bİlgİn
AVL-Ağaçları (Trees).
İkili Ağaçlar İkili Arama Ağaçları
Pozitif ve Negatif Ürün İlişkilerini İncelemek için Bir Çerçeve: Yeniden Madencilik (Re-mining) Ayhan Demiriz G. Ertek, T. Atan ve U. Kula 30 Haziran 2010,
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Eşkenar Dörtgenin Özellikleri
İşletmeler için Veri Madenciliği
Yalınlaştırma İle İlgili Tanımlar
Yamuğun Özellikleri.
ve Denklik İlişkileri Kümelerde Eşitlik HAZIRLAYANLAR:
Veritabanı Yönetim Sistemleri Hızlı ve Kısa Giriş
En Küçük Yol Ağacı (Minimum Spanning Tree)
İstatistiksel Sınıflandırma
MADDENİN TANECİKLİ YAPISI
BAŞARIM’09, Nisan 2009, ODTÜ, Ankara PARALEL VER İ MADENC İ L İĞİ ALGOR İ TMALARI.
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
1/10 BÖLME İŞLEMİ Aşağıdaki kümenin elemanları 3’ er gruplandırılırsa kaç grup elde edilir? 32 4 AB C.
DOĞAL SAYILAR VE TAM SAYILAR
KONULAR ÜÇGENLERE GİRİŞ ÜÇGEN ÇEŞİTLERİ ÖRNEKLER.
ÜÇGENDE AÇI - KENAR BAĞINTILARI ÖZELLİKLERİ
Temel Bilgi Teknolojileri
Yrd. Doç. Dr. Mustafa AKKOL
İşlem Yönetimi (Kilitlenme)
KÜME ÇEŞİTLERİ 2. Sonlu ve Sonsuz Küme 1.Boş Küme 3. Evrensel Küme
BOŞ KÜME DENK KÜME EVRENSEL KÜME EŞİT KÜME İÇİNDEKİLER.
PRİZMALAR.
Microsoft Office Access
SQL’ e Giriş Uzm. Murat YAZICI.
Metot Etütleri Montaj Hattı Zaman Etütleri
Yrd. Doç. Dr. Mustafa Akkol
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Veri Madenciliği Rümeysa İhvan
ÜÇGENLER SAYFA:1 SAYFA:14 SAYFA:2 SAYFA:15 SAYFA:3 SAYFA:16 SAYFA:4
BAĞINTI & FONKSİYONLAR.
BAH TABLOSU.
Veri Madenciliği Giriş.
Sıklık Tabloları ve Tek Değişkenli Grafikler
Veri Madenciliği: İlişki Analizi ve Birliktelik Kuralları
Veritabanı Kavramları
KISIM II Matematiksel Kavram ve Prosedürlerin Gelişimi
Kümeleme Algoritmaları
Temel Bilgi Teknolojileri Yrd. Doç. Dr. Doğan Aydoğan.
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Bölüm 4 için Ders Notları Introduction to Data Mining
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
Yapısal Sorgulama Dili SQL Hafta 7. TEKRARLI SATIRLARI ÖNLEMEK  DISTINCT komutu ile sorgu sonucunda birden fazla kayıt aynı verileri içeriyorsa tekrarlı.
BİL551 – YAPAY ZEKA Kümeleme
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
Bölüm10 İteratif İyileştirme Copyright © 2007 Pearson Addison-Wesley. All rights reserved.
1 Sayısal Data’nın Sunumu. 2 Data Sunumu Özet Tablo Nokta Grafik Pasta Grafik Sayısal Data Sunumu Çubuk Grafik Nitel Data Gövde&Yaprak Gösterim Frekans.
Association Rules and Sequential Patterns
Algoritmalar II Ders 6 Açgözlü Algoritmalar.
Bölüm 4 için Ders Notları Introduction to Data Mining
Karar Ağaçları (Decision trees)
Algoritmalar II Ders 1: Alan zaman takası yöntemi.
Algoritmalar II Ders 4 Dinamik Programlama Yöntemi.
İleri Algoritma Analizi
İleri Algoritma Analizi
İKTİSADA GİRİŞ I DERS 12 Y.Doç.Dr.Umut Öneş.
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
Veri Tabanı Yönetim Sistemleri I
“1250 TL Gelir” ifadesini gösteren tam sayı hangisidir? A) (+1250) B) (-1250) =a (d) C) (+250) D) (-250) Soru 26.Sınıf Tam Sayılar Çözümlü Test Soruları.
İleri Algoritma Analizi
Sunum transkripti:

Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar Bölüm 6 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete Çelik © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1

Birliktelik Kural Madenciliği Verilen kayıt (transaction) kümesinden, kayıtlar içerisinde bir elemanın oluşunun diğer elemanların oluşuna bağlı olarak tahmin edilmesini sağlayan kuralları bul. Market-Sepeti Kayıtları Birlikteli Kuralı Örnekleri {Bebk Bezi }  {Bira}, {Süt, Ekmek}  {Yumurta,Kola}, {Bira, Ekmek}  {Süt}, Gerektirme işlemi eş-oluşumu gösterir, nedenselliği göstermez.

Tanım: Sık Eleman Kümesi Eleman_Kümesi (Itemset) Bir veya birden fazla elemanın bir kolleksiyonu Örnek: {Süt, Ekmek, Bebek Bezi} K-elemen_kümesi k tane eleman içeren eleman kümsesi Destek Sayısı (Support Count) () Bir eleman_kümesinin oluşunun frekansı Örnek ({Süt, Ekmek, Bebek Bezi}) = 2 Destek (Support) Bir eleman kümesini içeren kayıtların toplam kayıtlara oranı Örnek: s({Süt, Ekmek, Bebek Bezi}) = 2/5 Sık Eleman Kümesi Destek değeri minsup değerine eşit veya bu değerden yüksek olan eleman kümesidir.

Tanım: Birliktelik Kuralı X  Y, şeklinde olan ifadelerdir (C ve Y eleman kümelerini gösterir. Örnek: {Süt, Bebek Bezi}  {Bira} Kural Değerlendirme Metrikleri Destek (s) X ve Y’nin herikisini de içeren kayıtların toplam kayıtlara oranı Güven (Confidence= (c) X’i içeren kayıtların kaç tanesinin Y’yi de içerdiğini gösteren ölçüt. Örnek:

Birliktelik Kural Madenciliği İşlemi Verilen T kayıt kümesi için,birliktelik kural madenciliğinin amacı aşağıdaki şartı sağlayan bütün kuralların bulunmasıdır destek≥ minsup (mindes) eşik değeri güven ≥ minconf (mingüv) eşik değeri Kaba (Brute-force) yaklaşım: Bütün mühtemel birliktelik kurallarını listele Herbir kuralın destek ve güvenini hesapla Prune rules that fail the minsup ve minconf eşik değerlerini sağlamayan kuralları ele  Hesaplama maliyeti yüksek!

Birliktelik Kurallarının Madenciliği Kural Örnekleri : {Süt, Bebek Bezi}  {Bira} (s=0.4, c=0.67) {Süt, Bira}  {Bebek Bezi} (s=0.4, c=1.0) {Bebek Bezi, Bira}  {Süt} (s=0.4, c=0.67) {Bira}  {Süt, Bebek Bezi} (s=0.4, c=0.67) {Bebek Bezi}  {Süt, Bira} (s=0.4, c=0.5) {Süt}  {Bebek Bezi, Bira} (s=0.4, c=0.5) Gözlemler: Yukarıdaki bütün kurallar aynı eleman kümesinin ikili bölümlemeleridir: {Süt, Bebek Bezi, Bira} Aynı elemen kümesinden oluşan kurallar aynı destek değerlerine sahiptir fakat güvenleri farklı olabilir. Bu nedenle, destek ve güven ihtiyaçlarını ayırı ayrı değerlendiririz.

Birliktelik Kurallarının Madenciliği İki-adımlı yaklaşım.: Sık Eleman Kümesi Üretimi Destek değeri minsup’a eşit veya minsup’tan büyük olanları (destek  minsup) üret. Kural Üretimi Herbir sık eleman kümesinden yüksek güvene sahip olan kuralları üret. Herbir kural, sık eleman kümelerinin ikili bölümlemesidir. Sık elemen kümesi üretiminin maliyeti hala yüksektir.

Sık Eleman Kümesi Üretimi Verilen d adet eleman için 2d muhtemel aday eleman kümesi vardır.

Sık Eleman Kümesi Üretimi Kaba (Brute-force) yaklaşım: Kafes (lattice) yapısındaki herbir eleman kümesi bir aday sık eleman kümesidir. Veritabanını tarayarak herbir adayın destek değerini hesapla. Herbir kayıdı bütün adaylar ile eşleştir. Karmaşıklık~ O(NMw) => Pahali çünkü M = 2d !!!

Hesaplama Karmaşıklığı Verilen d adet tekil eleman olsun : Toplam eleman kümesi sayısı= 2d Toplam muhtemel birliktelik kuralı sayısı: Eğer d=6, R = 602 kural

Sık Eleman Kümesi Üretme Stratejileri Aday sayısını azalt (M) Toplam arama: M=2d M’i azaltmak için budama (azaltma) tekniklerini kullan Kayıt sayısını azalt (N) Eleman kümesi boyutu artıyorken N boyutunu azalt DHP ve dikey-tabanlı (vertical-based) madencilik algoritmaları tarafından kullanıldı Karşılaştırma sayısını azalt (NM) Adayları veya kayıtları depolamak için etkili veri yapıları kullan Her adayı her kayıt ile karşılaştırmaya gerek yoktur.

Aday Sayısını Azaltmak Apriori prensibi: Eğer bir eleman kümesi sık ise onun bütün altkümeleri de sık olmalı. Destek ölçütünün aşağıdaki özelliği nedeniyle Apriori prensibi geçerlidir: Bir eleman kümesinin destek değeri onun altkümelerinin destek değerlerini asla aşmaz. Bu destek ölçütünün anti-monoton özelliği olarak bilinir.

Apriori Prensibinin Çalışması Sık olmadığı bulundu Elenen üstkümeler

Apriori Prensibinin Çalışması Elemanlar (1-eleman_kümesi) İkililer (2-eleman_kümesi) (Kola ve Yumurtayı içeren adayları üretmeye gerek yok) Minimum Destek= 3 Üçlüler (3-eleman_kümesi) Eğer her alt küme hesaba katılırsa, 6C1 + 6C2 + 6C3 = 41 Destek-tabanlı eleme ile, 6 + 6 + 1 = 13

Apriori Algoritması Yöntem: k=1 1 uzunluğundaki sık eleman kümelerini üret Yeni sık eleman kümesi üretilmeyene kadar devam et k uzunluğundaki sık elemen kümelerini kullanarak (k+1) uzunluğundaki aday eleman kümelerini üret. Sık olmayan k uzunluğundaki alt kümeleri içeren aday eleman kümelerini ele Veritabanını tarayarak herbir adayın desteğini hesapla Sadece sık eleman kümeleri kalacak şekilde sık olmayan adayları ele

Karşılaştırma Sayısını Azaltma Aday hesaplama : Heribir aday eleman kümesinin desteğini belirlemek için veritabanını tara Karşılaştırma sayısını azaltmak için adayları bir hash (çırpı veya küme) veri yapısında depola

Karmaşıklığı Etkileyen Etmenler Minimum destek eşik değerinin seçimi destek eşik değerini azaltmak daha fazla sık eleman kümesinin üretimine neden olacaktır Bu durum aday sayısını ve sık eleman kümesinin maksimum uzunluğunu arttırabilir Veri kümesinin boyutluluğu (eleman sayısı) herbir elemanın destek değerini depolamak için daha çok alana ihtiyaç vardır eğer sık elemanların sayısı artarsa, hesaplama ve I/O maliyeti de artabilir Veritabanı boyutu Apriori birden fazla okuma yapacağı için kayıt sayısına bağlı olarak algortima çalışma zamanı da artar Ortalama kayıt genişliği yoğun veri kümelerine bağlı olarak kayıt genişliği artar Bu sık eleman kümesinin maksimum uzunluğunu ve hash ağacının gezilmasını (bir kayıttaki altküme sayısı kayıdın genişliği ile artar) arttırabilir

Maximal Sık Eleman Kümesi Hiçbir üst kümesi sık olmayan elaman kümesi maksimal sık eleman kümesidir. Maksimal eleman kümesi Sık olmayan eleman kümeleri Sınır

FP-growth (FP-büyüme) Algoritması FP-ağacı (FP-tree) kullanarak veritabanının sıkıştırılmış gösterimini kullanır FP-ağaç oluşturulduktan sonra sık eleman kümelerini keşfetmek için tekrarlamalı böl-ve- yönet (divide-and-conquer) yaklaşımı kullanır.

FP-ağacı yapılışı null TID=1’i okuduktan sonra: A:1 B:1 TID=2’yi okuduktan sonra: null B:1 A:1 B:1 C:1 D:1

FP-ağacı yapılışı null B:3 A:7 B:5 C:3 C:1 D:1 D:1 C:3 E:1 D:1 E:1 D:1 Kayıt veritabanı null B:3 A:7 B:5 C:3 C:1 D:1 Başlık tablosu D:1 C:3 E:1 D:1 E:1 D:1 E:1 D:1 İşaretçiler, sık eleman kümelerinin üretimine yardım etmek için kullanılır

FP-growth D için şartlı örüntü tabanı : P = {(A:1,B:1,C:1), (A:1,B:1), (A:1,C:1), (A:1), (B:1,C:1)} P üzerine FP-growth’u tekrarlamalı olarak uygula Sık eleman kümeleri bulundu (destek değeri > 1 olanlar): AD, BD, CD, ACD, BCD null A:7 B:1 B:5 C:1 C:1 D:1 D:1 C:3 D:1 D:1 D:1

Literatürde çok sayıda metrik önerilmiştir. Bazıları, bazı uygulamalar için iyidir, bazı uygulamalar için iyi değildir