Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliği Sınıflandırma: Temel Tanımlar, Karar Ağaçları ve Model Değerlendirmesi Bölüm 4 için Ders Notları Introduction to Data Mining by Tan, Steinbach,

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliği Sınıflandırma: Temel Tanımlar, Karar Ağaçları ve Model Değerlendirmesi Bölüm 4 için Ders Notları Introduction to Data Mining by Tan, Steinbach,"— Sunum transkripti:

1 Veri Madenciliği Sınıflandırma: Temel Tanımlar, Karar Ağaçları ve Model Değerlendirmesi Bölüm 4 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar, Çeviren Mete Çelik © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1

2 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Sınıflandırma: Tanım l Bir kayıt kolleksiyonu verilsin (eğitim kümesi) –Herbir kayıt parametreler grubu ( x, y ) ile karakterize edilir. Buradaki x özellik kümesidir ve y ise sınıf etiketidir.  x : özellik, kestirici, bağımsız değişken, giriş  y : etiket, cevap, bağımlı değişken, çıkış l Görev: –Herbir özellik kümesi x’ i, daha önceden tanımlanmış sınıf etiketi y ’den birine eşleştiren bir modeli öğren.

3 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Sınıflandırma Görevi Örnekleri GörevÖzellik kümesi, x Sınıf etiketi, y E-posta mesajlarını kategorilere ayırmak Eposta üstbilgisinden veya içeriginden çıkarılan özellikler İstenmeyen e-posta (spam) veya değil ( non-spam) Tümör hücrelerini belirleme MRI görüntülerinden çıkarılan özellikler Kötü huylu veya iyi huylu hücreler Galaksileri kataloglama Teleskop resimlerinden çıkarılan özellikler Oval, spiral, or düzensiz-şekilli galaksiler

4 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Sınıflandırma Modelinin Oluşturulması için Genel Yaklaşım

5 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Sınıflandırma Teknikleri l Temel Sınıflandırıcılar –Karar Ağacı tabanlı Yöntemler –Kural-tabanlı Yöntemler –En yakın komşu –Sinir Ağları –Naïve Bayes ve Bayesian Belief Ağları –Destek Vektör Makineleri l Topluluk Sınıflandırıcıları (Ensemble Classifiers) –Hızlandırma, Çuvallama, Rastgele Ağaçlar (Boosting, Bagging, Random Forests)

6 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Bir Karar Ağacı Örneği kategorik sürekli sınıf Home Owner MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Ayrılan Özellikler Eğitim Verisi Model: Karar Ağacı

7 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Başka Bir Karar Ağacı Örneği MarSt Home Owner Income YES NO Yes No Married Single, Divorced < 80K> 80K Aynı veriye uyan birden fazla ağaç olabilir. kategorik sürekli sınıf

8 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Karar Ağacı Sınıflandırma Görevi Decision Tree

9 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması Home Owner MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Test Verisi Kökten başla

10 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Home Owner Test Verisi

11 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Home Owner Test Verisi

12 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Home Owner Test Verisi

13 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Home Owner Test Verisi

14 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Modelin Test Verisine Uygulanması MarSt Income YES NO YesNo Married Single, Divorced < 80K> 80K Atanan değer “No” Home Owner Test Verisi

15 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Karar Ağacı Sınıflandırma Görevi Decision Tree

16 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Karar Ağacı Algoritmaları l Çok Sayıda Algoritma : –Hunt Algorithması (ilk algoritmalardan) –CART –ID3, C4.5 –SLIQ,SPRINT

17 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Karar Ağaçları Algoritmalarının Tasarım Meseleleri l Eğitim verilerinin nasıl ayrılması gerekir? –Test durumunu belirlemek için bir metot belirle  özellik tiplerine bağlı olabilir –Bir test durumunun iyiliğini değerlendirmek için ölçme yap l Ayırma işleminin nasıl durması gerekir? –Bütün kayıtlar aynı sınıfa ait olunca veya benzer özellik değerlerine sahip olunca dur. –Erken durdurma

18 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Test Durumlarını İfade Eden Metotlar l Özellik tipine bağlı –İkili –Nominal –Ordinal –Sürekli l Ayırma sayısına bağlı –2-yönlü ayırma –Çok-yönlü ayırma

19 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Nominal Değerler için Test Durumları l Çok-yölü ayırma : –Ayrık değerler olarak çok sayıda bölme kullanılır. l İkili ayırma –Değerleri iki altkümeye ayırır –Optimal bölümlemeyi bulmak gerekir.

20 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Ornidall Değerler için Test Durumları l Çok-yönlü ayırma: –Ayrık değerler olarak çok sayıda bölme kullanılır. l İkili ayırma : –Değerleri iki altkümeye ayırır –Optimal bölümlemeyi bulmak gerekir. –Özellik değerleri arasındaki sıralamayı koru Bu gruplama sırayı bozar

21 © Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Sürekli Değerler için Test Durumları


"Veri Madenciliği Sınıflandırma: Temel Tanımlar, Karar Ağaçları ve Model Değerlendirmesi Bölüm 4 için Ders Notları Introduction to Data Mining by Tan, Steinbach," indir ppt

Benzer bir sunumlar


Google Reklamları