Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Bölüm 4 için Ders Notları Introduction to Data Mining

Benzer bir sunumlar


... konulu sunumlar: "Bölüm 4 için Ders Notları Introduction to Data Mining"— Sunum transkripti:

1 Bölüm 4 için Ders Notları Introduction to Data Mining
Veri Madenciliği Sınıflandırma: Temel Tanımlar, Karar Ağaçları ve Model Değerlendirmesi Bölüm 4 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar, Çeviren Mete Çelik © Tan,Steinbach, Kumar Introduction to Data Mining /18/

2 Sınıflandırma: Tanım Bir kayıt kolleksiyonu verilsin (eğitim kümesi)
Herbir kayıt parametreler grubu (x,y) ile karakterize edilir. Buradaki x özellik kümesidir ve y ise sınıf etiketidir. x: özellik, kestirici, bağımsız değişken, giriş y: etiket, cevap, bağımlı değişken, çıkış Görev: Herbir özellik kümesi x’i, daha önceden tanımlanmış sınıf etiketi y’den birine eşleştiren bir modeli öğren.

3 Sınıflandırma Görevi Örnekleri
Özellik kümesi, x Sınıf etiketi, y E-posta mesajlarını kategorilere ayırmak Eposta üstbilgisinden veya içeriginden çıkarılan özellikler İstenmeyen e-posta (spam) veya değil ( non-spam) Tümör hücrelerini belirleme MRI görüntülerinden çıkarılan özellikler Kötü huylu veya iyi huylu hücreler Galaksileri kataloglama Teleskop resimlerinden çıkarılan özellikler Oval, spiral, or düzensiz-şekilli galaksiler

4 Sınıflandırma Modelinin Oluşturulması için Genel Yaklaşım

5 Sınıflandırma Teknikleri
Temel Sınıflandırıcılar Karar Ağacı tabanlı Yöntemler Kural-tabanlı Yöntemler En yakın komşu Sinir Ağları Naïve Bayes ve Bayesian Belief Ağları Destek Vektör Makineleri Topluluk Sınıflandırıcıları (Ensemble Classifiers) Hızlandırma, Çuvallama, Rastgele Ağaçlar (Boosting, Bagging, Random Forests)

6 Bir Karar Ağacı Örneği Model: Karar Ağacı Eğitim Verisi
kategorik kategorik sürekli sınıf Ayrılan Özellikler Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES Eğitim Verisi Model: Karar Ağacı

7 Başka Bir Karar Ağacı Örneği
kategorik kategorik sürekli sınıf MarSt Single, Divorced Married NO Home Owner No Yes NO Income < 80K > 80K NO YES Aynı veriye uyan birden fazla ağaç olabilir.

8 Karar Ağacı Sınıflandırma Görevi
Decision Tree

9 Modelin Test Verisine Uygulanması
Kökten başla Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES

10 Modelin Test Verisine Uygulanması
Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES

11 Modelin Test Verisine Uygulanması
Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES

12 Modelin Test Verisine Uygulanması
Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES

13 Modelin Test Verisine Uygulanması
Home Owner Yes No NO MarSt Single, Divorced Married Income NO < 80K > 80K NO YES

14 Modelin Test Verisine Uygulanması
Home Owner Yes No NO MarSt Single, Divorced Married Atanan değer “No” Income NO < 80K > 80K NO YES

15 Karar Ağacı Sınıflandırma Görevi
Decision Tree

16 Karar Ağacı Algoritmaları
Çok Sayıda Algoritma : Hunt Algorithması (ilk algoritmalardan) CART ID3, C4.5 SLIQ,SPRINT

17 Karar Ağaçları Algoritmalarının Tasarım Meseleleri
Eğitim verilerinin nasıl ayrılması gerekir? Test durumunu belirlemek için bir metot belirle özellik tiplerine bağlı olabilir Bir test durumunun iyiliğini değerlendirmek için ölçme yap Ayırma işleminin nasıl durması gerekir? Bütün kayıtlar aynı sınıfa ait olunca veya benzer özellik değerlerine sahip olunca dur. Erken durdurma

18 Test Durumlarını İfade Eden Metotlar
Özellik tipine bağlı İkili Nominal Ordinal Sürekli Ayırma sayısına bağlı 2-yönlü ayırma Çok-yönlü ayırma

19 Nominal Değerler için Test Durumları
Çok-yölü ayırma : Ayrık değerler olarak çok sayıda bölme kullanılır. İkili ayırma Değerleri iki altkümeye ayırır Optimal bölümlemeyi bulmak gerekir.

20 Ornidall Değerler için Test Durumları
Çok-yönlü ayırma: Ayrık değerler olarak çok sayıda bölme kullanılır. İkili ayırma : Değerleri iki altkümeye ayırır Optimal bölümlemeyi bulmak gerekir. Özellik değerleri arasındaki sıralamayı koru Bu gruplama sırayı bozar

21 Sürekli Değerler için Test Durumları


"Bölüm 4 için Ders Notları Introduction to Data Mining" indir ppt

Benzer bir sunumlar


Google Reklamları