Karar Ağaçları İle Sınıflandırma

Slides:



Advertisements
Benzer bir sunumlar
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
Advertisements

DÖRTGENLER.
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Hafta 10: Sürekli Rassal Değişkenler (Yrd.Doç.Dr. Levent AKSOY)
Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
MATEMATİKSEL PROGRAMLAMA
TIP FAKÜLTESİ VE SINIF ÖĞRETMENLİĞİ ÖĞRENCİLERİNİN BİRBİRLERİNE BAKIŞ AÇILARI.
Hafta 03: Verinin Numerik Analizi (Yrd.Doç.Dr. Levent AKSOY)
Karar Ağaçları.
MIT505 İnternet ve Web Programlama: Dinamik web sayfaları, javascript
En Küçük Yol Ağacı (Minimum Spanning Tree)
Yeni Test Teknikleri Sabiha Odabaşı Çimer.
İstatistiksel Sınıflandırma
YAPAY ZEKA ve UZMAN SİSTEMLER
Sürekli Olasılık Dağılım (Birikimli-Kümülatif)Fonksiyonu
Entalpi - Entropi - Serbest Enerji
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
SPORUN OKUL BAŞARISI ÜZERİNDEKİ ETKİSİ
Yrd. Doç. Dr. MURAT TUNCER Yrd. Doç. Dr. Mustafa DOĞAN
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
MAKİNE ÖĞRENİMİ-Machine learning
BENZETİM Prof.Dr.Berna Dengiz 9. Ders.
Temel Bilgisayar Bilimleri Dersi
ALGORİTMA VE AKIŞ ŞEMASI
Yrd. Doç. Dr. Ayhan Demiriz
BİL551 – YAPAY ZEKA BİLGİSİZ ARAMA YÖNTEMLERİ
Rekabet ortamında arama Adversarial Search
Arama ile sorun çözme Ders 3.
BİR ORGAN BİR HAYAT.
Yrd. Doç. Dr Hamit ACEMOĞLU
HANGİ ÖĞRENİM SİSTEMİ DAHA MEMNUN EDİCİ?
Microsoft Office Access
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
1/22 GEOMETRİ (Dikdörtgen) Aşağıdaki şekillerden hangisi dikdörtgendir? AB C D.
C# Veri Tipleri ve Değişkenler
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Makİne Öğrenmesİ İle Ürün SInIflandIrma İncelemesi
ALGORİTMA.
DEĞİŞKEN TİPLERİ ve SPSS’ de VERİTABANI HAZIRLANMASI.
Sınıflandırma ve Tahmin
Sayısal Tanımlayıcı Teknikler
Bilişim Teknolojileri için İşletme İstatistiği
İstatistik Bilimine Giriş
Nicel Analizlere Giriş
Bölüm 4 için Ders Notları Introduction to Data Mining
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
İÇİNDEKİLER 2.1 Örneklem Uzayı ve Olaylar Sonucu önceden bilinmeyen bir deney göz önünde bulundurulsun. Deneyin örneklem uzayı olarak bilinen tüm olası.
Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ B.
Adım Adım Algoritma.
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
BİL3112 Makine Öğrenimi (Machine Learning)
BİLGİSAYAR PROGRAMLAMA Ders 5: Döngüler
Akış Diyagramları - 1. Akış Diyagramı  Algoritmalar doğal dille yazıldıklarında herkes tarafından aynı biçimde anlaşılmayabilir.  Ancak, akış diyagramlarında.
Örüntü Tanıma.
Sınıflandırma ve Tahmin
Gökhan SİLAHTAROĞLU, Zehra Nur CANBOLAT
Bölüm 4 için Ders Notları Introduction to Data Mining
Karar Ağaçları (Decision trees)
VERİLERİN DEĞERLENDİRİLMESİ VE ANALİZİ
Yeni Test Teknikleri Sabiha Odabaşı Çimer.
GİRESUN ÜNİVERSİTESİ 2017 ŞUBAT AYLIK BÜTÇE GERÇEKLEŞMELERİ RAPORU
VERİ TÜRLERİ.
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi)
NİŞANTAŞI ÜNİVERSİTESİ
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Sunum transkripti:

Karar Ağaçları İle Sınıflandırma Yrd. Doç. Dr. Ayhan Demiriz 14 Mart 2006

Yaş=40, Araç Tipi=Sedan  Sınıf=Düşük Karar Ağaçları İle Sınıflandırma Yaş < 27.5 Araç Tipi  {Spor} Yüksek Yüksek Düşük Yaş=40, Araç Tipi=Sedan  Sınıf=Düşük Sayısal Kategorik

Örnek Veri Seti

Örnek Karar Ağacı yaş? <=30 overcast >40 öğrenci? evet 31..40 >40 öğrenci? evet kredi durumu? hayır evet mükemmel vasat hayır evet hayır evet

Karar Ağaçları İçin Bir Algoritma Temel Algoritma (miyobik bir algoritma) Karar ağacı yukarıdan aşağıya, yinelemeli olarak böl ve kazan yöntemine göre inşa edilirler. Başlangıçta bütün noktalar ağacın kökünde toplanmaktadır Kategorik veriler kullanılır, sürekli değişkenlerin önceden kesikli hale getirilmesi gerekir. Örnekler, seçilen değişkenlere (karakteristik) göre yinelemeli olarak bölümlenir Değişkenlerin seçimi sezgisel veya belli bir istatistiksel ölçüye (mesela bilgi kazanımı) dayanır Bölümlemenin durması için şartlar Bir düğümde bulunan bütün örnekler aynı sınıfa aittir Bölümlenin yapılacağı değişken kalmamıştır. Yani o düğüme (yaprak) gelene kadar bütün değişkenler kullanılmıştır. Başka örnek kalmamıştır.

Değişken Seçimi Ölçüsü: Bilgi Kazanımı (ID3/C4.5) En yüksek bilgi kazanımını veren değişkeni seç S, Ci sınıfından si satır içerir. i = {1, …, m} Herhangi bir satırı sınıflandırmak için gereken bilgi Bir A değişkenin {a1,a2,…,av} değerleri ile düzensizliği (entropi) A değişkeni kullanılarak ağacın dallanmasıyla kazanılan bilgi Then how can we decide a test attribute on each node? One of the popular methods is using information gain measure, which we covered in chapter 5. It involves rather complicated equations, and I’ll not present the details here. Just basic ideas. The basic idea is that we select the attribute with the highest information gain. This information gain can be calculated from the expected information I and entropy of each attribute, E I : the expected information needed to classify a given sample E (entropy) : expected information based on the partitioning into subsets by A

Değişken Seçimi Ölçüsü: Bilgi Kazanımı - Hesaplama P Sınıfı: Bilgisayar Alır? = “evet” N Sınıfı: Bilgisayar Alır? = “no” I(p, n) = I(9, 5) =0.940 Yaş için entropiyi hesaplayalım: ‘ın manası, 14 örnekten, 2’si evet ve 3’ü de hayır olmak üzere toplam 5 “yaş <=30” örneği vardır. Böylece Buna benzer,

Diğer Değişken Seçme Ölçüleri Gini indeks (CART, IBM IntelligentMiner) Bütün değişkenlerin sürekli olduğu varsayılır Her değişken için mümkün olan birçok ayrımın olduğu varsayılır Değişkenlerin ayrım noktaları için gruplama gibi diğer araçlara ihtiyaç duyulabilir Kategorik değişkenler için kullanıldığında değiştirilmelidir

Gini Indeks (CART v.d.) Eğer bir T veri seti n farklı sınıftan N örnek içeriyorsa, gini indeks, gini(T) aşağıdaki gibi hesaplanır, pj, j sınıfının T içindeki izafi sıklığını ifade eder Eğer T veri seti T1 ve T2 olarak sırasıyla N1 ve N2 büyüklüğünde ikiye ayrılırsa, ayrılan veri için gini indeksi En düşük gini değerini veren ayrıma sahip degişken seçilir

Ağaç yapılarından kuralların çıkarımı Bilgiyi Eğer-O Zaman kuralları ile temsil et Kökten yapraklara giden heryol için bir kural üretilir Bir yol üzerindeki her bir değişken-değer çifti bir bağlaç oluşturur Yapraklar sınıf tahminini içerir Kuralların analşılması çok kolaydır Örnek Eğer yaş = “<=30” ve öğrenci = “hayır” O Zaman Bilgisayar Alır? = “hayır” Eğer yaş = “<=30” ve öğrenci = “evet” O Zaman Bilgisayar Alır? = “evet” Eğer yaş = “31…40” O Zaman Bilgisayar Alır? = “evet” Eğer yaş = “>40” ve kredi durumu = “mükemmel” O Zaman Bilgisayar Alır? = “evet” Eğer yaş = “<=30” ve kredi durumu = “vasat” O Zaman Bilgisayar Alır? = “hayır”

Sınıflandırmada Aşırı Öğrenmeden Kaçınma Öğrenme seti kullanılarak tümevarım ile bulunmuş bir karar ağacı aşırı öğrenmiş olabilir Verideki gürültüden ve sapmalardan ötürü çok fazla dal mevcut olabilir Görülmeyen veriler için çok zayıf bir tahmin yeteneği olabilir Aşırı öğrenmeden kaçınmak için iki yol Önceden budama: Ağaç en büyük şekline ulaşmadan öğrenmenin durdurulması Ağaç tam büyüklüğe ulaştıktan sonra budanması