Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

ZAMAN SERİLERİ -1 ÖNGÖRÜ :
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
Kalibrasyon.
MIT563 Yapay Zeka ve Makine Öğrenmesi
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
ELEKTRONİK ORTAMLARDA PAZARLAMA
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Bellek Tabanlı Sınıflandırma
İşletmeler için Veri Madenciliği
Karar Ağaçları.
Yeditepe Üniversitesi Hastanesi/ İş Geliştirme Yöneticisi
Karar Ağaçları İle Sınıflandırma
İstatistiksel Sınıflandırma
Kalp-Damar Sistemi Hastalıkları Hakkında Bilgi
ELEKTRONİK ORTAMDA DENETİME GENEL BAKIŞ Prof. Dr
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
PARAMETRİK ANALİZ TEKNİKLERİ
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
PAZARLAMA ARAŞTIRMALARI Prof. Dr. İsmail Üstel.
Endüstride Veri Madenciliği Uygulamaları Yrd. Doç. Dr. Ayhan Demiriz 28/2/2006.
Yrd. Doç. Dr. Ayhan Demiriz
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ
ARAŞTIRMA TÜRLERİ Araştırma Nedir? Araştırma Türleri
Makine Öğrenmesinde Yeni Problemler
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
Veri Madenciliği Rümeysa İhvan
SÜREKLİ ŞANS DEĞİŞKENLERİ
Veri Madenciliği Giriş.
Bilişim Teknolojileri için İşletme İstatistiği
İstatistik Bilimine Giriş
ARAŞTIRMA YÖNTEMLERİ.
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
Bölüm 4 için Ders Notları Introduction to Data Mining
Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ B.
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
HİPOTEZ TESTLERİNE GİRİŞ
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
BİL3112 Makine Öğrenimi (Machine Learning)
Bölüm 7 Coklu regresyon.
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
Korelasyon testleri Pearson korelasyon testi Spearman korelasyon testi Regresyon analizi Basit doğrusal regresyon Çoklu doğrusal regresyon BBY252 Araştırma.
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
 Bölüm 6: Talep Tahmini Kaynak: Yönetim Ekonomisi – Prof. Dr. İ. Özer Ertuna.
O R T L G İ M A A Ve Akış şemaları.
Bölüm 4 : VERİ MADENCİLİĞİ
INBOUND PAZARLAMADA SOSYAL MEDYA VE KADIN TÜKETİCİLERDE SATIN ALMA DAVRANIŞINA OLAN ETKİSİ Yrd. Doç. Dr. Pınar Bacaksız.
Lineer Regresyon. Amaç: Bu konu sonunda Tıp Fakültesi 1. sınıf öğrencilerinin çeşitli bağımsız değişkenleri kullanarak bir nümerik değişkenin değerini.
REGRESYON VE KORELASYON ANALİZLERİ
Gökhan SİLAHTAROĞLU, Zehra Nur CANBOLAT
VERİLERİN DÜZENLENMESİ VE ORGANİZASYONU
BİLİMSEL SÜREÇ BECERİLERİ
İSTATİSTİK II BAĞIMSIZLIK TESTLERİ VE İYİ UYUM TESTLERİ “ c2 Kİ- KARE TESTLERİ “
Sayı Sistemleri.
C Programlama Yrd.Doç.Dr. Ziynet PAMUK BMM211-H11
Yapay Zeka Nadir Can KAVKAS
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
GAS 208 PAZARLAMANIN TEMEL İLKELERİ ve HİZMET PAZARLAMASI
Hastane Bilgi Sistemlerinde Veri Madenciliği
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Yapay Öğrenme Teorisi Bölüm-1
MADDE VE YAPISI TEST.
Yapay Öğrenme Teorisi Bölüm-2
Sunum transkripti:

Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART ) CART =Classification And Regression Trees ( Sınıflandırma ve Regresyon Ağaçları) Sınıflandırma ve Regresyon Ağaçları ( CART ) Veri Madenciliği [ 6.hft ]

Karar ağaçları sınıflandırma yöntemlerinden biridir. Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Verinin içerdiği ortak özelliklere göre ayrıştırılması işlemi sınıflandırma olarak anılır. Karar ağaçları sınıflandırma yöntemlerinden biridir. Bilimsel çalışmalardan elde edilen verilerin analizinde sınıflama ve regresyon modelleri sıkça kullanılmaktadır. Ancak bu tür modellerin gerektirdiği varsayım gerektirmemesi nedeniyle , sınıflama ve regresyon ağaçları (CART) bu tür istatistiksel sınıflama ve regresyon tekniklerine karşı güçlü bir alternatif olarak ortaya çıkmaktadır. Veri setinin çok karmaşık olduğu durumlarda bile CART , bağımlı değişkeni etkileyen değişkenleri ve bu değişkenlerin modeldeki önemini basit bir ağaç yapısı ile görsel olarak sunabilmektedir. Veri Madenciliği [ 6.hft ]

Sınıflama (Classification) ve regresyon (Regression) , Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Gerek tanımlayıcı, gerekse tahmin edici modellerde yoğun olarak kullanılan belli başlı istatistiksel yöntemler; Sınıflama (Classification) ve regresyon (Regression) , Kümeleme (Clustering), Birliktelik Kuralları (Association Rules) Ardışık Zamanlı Örüntüler (Sequential Patterns) , Bellek tabanlı yöntemler , Yapay sinir ağları ve karar ağaçları olmak üzere altı ana başlık altında incelemek mümkündür. Sınıflama ve regresyon modelleri Tahmin edici , Kümeleme , Birliktelik kuralları , Ardışık zamanlı örüntü modelleri tanımlayıcı modellerdir. Veri Madenciliği [ 6.hft ]

Sınıflama ve Regresyon Modelleri Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Sınıflama ve Regresyon Modelleri Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği teknikleri içerisinde en çok kullanıma sahip olan sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon (multinominal logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan tekniklerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır. Veri Madenciliği [ 6.hft ]

Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Sınıflama kategorik değerleri tahmin ederken, regresyon süreklilik gösteren değerlerin tahmin edilmesinde kullanılır Örnek : Bir sınıflama modeli banka kredi uygulamalarının güvenli veya riskli olmalarını kategorize etmek amacıyla kurulurken, regresyon modeli geliri ve mesleği verilen potansiyel müşterilerin bilgisayar ürünleri alırken yapacakları harcamaları tahmin etmek için kurulabilir. Veri Madenciliği [ 6.hft ]

Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Karar ağaçları, veri madenciliğinde kuruluşlarının ucuz olması, yorumlanmalarının kolay olması, veri tabanı sistemleri ile kolayca entegre edilebilmeleri ve güvenilirliklerinin iyi olması nedenleri ile sınıflama modelleri içerisinde en yaygın kullanıma sahip tekniktir. Karar ağacı, adından da anlaşılacağı gibi bir ağaç görünümünde, tahmin edici bir tekniktir Ağaç yapısı ile, kolay anlaşılabilen kurallar oluşturan, bilgi teknolojileri işlemleri ile kolay entegre olabilen en popüler sınıflama tekniğidir. Her test örneğinde bilinen sınıf, model tarafından tahmin edilen sınıf ile karşılaştırılır. Eğer modelin doğruluğu kabul edilebilir bir değer ise model, sınıfı bilinmeyen yeni verileri sınıflama amacıyla kullanılabilir. Örneğin, bir eğitim verisi incelenerek kredi duruma sınıfını tahmin edecek bir model oluşturuluyor. Bu modeli oluşturan bir sınıflama kuralı IF yas = "41...50" AND gelir = yüksek THEN kredi durumu = mükemmel şeklindedir. Bu kural gereğince yaşı "41...50" kategorisinde olan (yası 41 ile 50 arasında olan) ve gelir düzeyi yüksek bir kişinin kredi durumunun mükemmel olduğu görülür. Olusturulan bu modelin doğruluğu, bir test verisi aracılığı ile onaylandıktan sonra model, sınıfı belli olmayan yeni bir veriye uygulanabilir ve sınıflama kuralı gereği yeni verinin sınıfı "mükemmel" olarak belirlenebilir. Tekrarlamak ğerekirse bir karar ağacı, bir alandaki testi belirten karar düğümlerinden, testteki değerleri belirten dallardan ve sınıfı belirten yapraklardan olusan akıs diyağramı seklindeki ağaç yapısıdır. Ağaç yapısındaki en üstteki düğüm kök düğümüdür. Belirli bir sınıfın muhtemel üyesi olacak elemanların belirlenmesi, çesitli durumların yüksek, orta, düsük risk ğrupları ğibi çesitli kateğorilere ayrılması, ğelecekteki olayların tahmin edilebilmesi için kurallar olusturulması, sadece belirli alt ğruplara özğü olan iliskilerin tanımlanması, kateğorilerin birlestirilmesi ğibi alanlarda karar ağaçları kullanılmaktadır [2]. Veri Madenciliği [ 6.hft ]

Ağacın her bir dalı sınıflama işlemini tamamlamaya adaydır. Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Karar düğümü, gerçekleştirilecek testi belirtir. Bu testin sonucu ağacın veri kaybetmeden dallara ayrılmasına neden olur. Her düğümde test ve dallara ayrılma işlemleri ardışık olarak gerçekleşir ve bu ayrılma işlemi üst seviyedeki ayrımlara bağımlıdır. Ağacın her bir dalı sınıflama işlemini tamamlamaya adaydır. Karar ağacı tekniğini kullanarak verinin sınıflanması iki basamaklı bir işlemdir İlk basamak öğrenme basamağıdır. Öğrenme basamağında önceden bilinen bir eğitim verisi, model oluşturmak amacıyla sınıflama algoritması tarafından analiz edilir. Öğrenilen model, sınıflama kuralları veya karar ağacı olarak gösterilir. İkinci basamak ise sınıflama basamağıdır. Sınıflama basamağında test verisi, sınıflama kurallarının veya karar ağacının doğruluğunu belirlemek amacıyla kullanılır. Eğer doğruluk kabul edilebilir oranda ise, kurallar yeni verilerin sınıflanması amacıyla kullanılır. Eğer bir dalın ucunda sınıflama işlemi gerçekleşemiyorsa, o daim sonucunda bir karar düğümü oluşur. Ancak daim sonunda belirli bir sınıf oluşuyorsa, o dalın sonunda yaprak vardır. Bu yaprak, veri üzerinde belirlenmek istenen sınıflardan biridir. Karar ağacı işlemi kök düğümünden baslar ve yukarıdan aşağıya doğru yaprağa ulasana dek ardışık düğümleri takip ederek gerçekleşir. Veri Madenciliği [ 6.hft ]

Karar ağaçlarına ait bazı kullanım alanları; Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Karar ağaçlarına ait bazı kullanım alanları; Hangi demografik grupların mektupla yapılan pazarlama uygulamalarında yüksek cevaplama oranına sahip olduğunun belirlenmesi (Direct Mail), Bireylerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi (Credit Scoring), Geçmişte işletmeye en faydalı olan bireylerin özelliklerini kullanarak işe alma süreçlerinin belirlenmesi, Tıbbi gözlem verilerinden yararlanarak en etkin kararların verilmesi, Hangi değişkenlerin satışları etkilediğinin belirlenmesi, üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin belirlenmesi . Veri Madenciliği [ 6.hft ]

İkili bölünmeler şeklinde gerçekleşen bir sınıflandırma yöntemidir. Veri Madenciliği Gini Algoritması Sınıflandırma ve Regresyon Ağaçları İkili bölünmeler şeklinde gerçekleşen bir sınıflandırma yöntemidir. Gini , ikili yinelemeli ,bölümleme için en iyi bilinen kurallardandır. Çünkü her kural karar ağacı amacı olarak, farklı bir felsefeyi temsil eder. Her bir ağaç farklı bir stil ile gelişir. Algoritma nitelik değerlerinin sol ve sağda olmak üzere ikili bölünmeler şeklinde ayrılması temeline dayanır. Uygulama Şekli : Nitelik değerlerinin her biri ikili bölünmeler olacak şekilde sınıflanır. Elde edilen sol ve sağ bölünmelere karşılık gelen sınıf değerleri gruplandırılır. Her bir düğümde ilgili sol ve sağ bölünmeler için ayrı ayrı hesaplamalar yapılır. Veri Madenciliği [ 7.hft ] 9 9

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 10 10

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 11 11

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 12 12

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Sonuç Risk Sağlık Cinsiyet 1.seviye 2. ve 3. seviye İyi Orta ve Kötü Bayan Erkek Evet 1 3 4 Hayır 2 Veri Madenciliği [ 7.hft ] 13 13

Gini Algoritması Sonuç Risk Sağlık Cinsiyet 1.seviye 2. ve 3. seviye Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Gini Algoritması Sonuç Risk Sağlık Cinsiyet 1.seviye 2. ve 3. seviye İyi Orta ve Kötü Bayan Erkek Evet 1 3 4 Hayır 2 Veri Madenciliği [ 7.hft ] 14 14

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Sonuç Risk Sağlık Cinsiyet 1.seviye 2. ve 3. seviye İyi Orta ve Kötü Bayan Erkek Evet 1 3 4 Hayır 2 Sonuç Risk Sağlık Cinsiyet 1.seviye 2. ve 3. seviye İyi Orta ve Kötü Bayan Erkek Evet 1 3 4 Hayır 2 Veri Madenciliği [ 7.hft ] 15 15

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 16 16

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 17 17

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 18 18

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 19 19

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 20 20

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 21 21

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 22 22

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 23 23

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 24 24

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 25 25

Elde Edilen Karar Ağacı Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Gini Algoritması Elde Edilen Karar Ağacı Veri Madenciliği [ 7.hft ] 26 26

Gini Algoritması Veri Madenciliği Sınıflandırma ve Regresyon Ağaçları Veri Madenciliği [ 7.hft ] 27 27

Kaynaklar : Veri Madencilği Yöntemleri Dr. Yalçın Özkan 06’2008 Veri Madenciliği DR ğökhan Silahtaroğlu 06’2008 İstanbul Ticaret Üniversitesi Derğisi Ver Madenclğ Modeller Veuyğulama Alanları (Serhat ÖZEKES) Veri Madenciliği [ 6.hft ]