Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun

Benzer bir sunumlar


... konulu sunumlar: "Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun"— Sunum transkripti:

1 Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması Yrd. Doç. Dr. Abdullah BAYKAL Uzman Cengiz COŞKUN Konuşmacı : Cengiz Coşkun

2 Kullanılan Araçlar WEKA (Waikato Environment for Knowledge Analysis)
SEER (Surveillance Epidomology and End Results)

3 WEKA Ücretsiz Açık Kaynak Kodlu
Geniş bir Veri Madenciliği Yöntemleri yelpazesi Kullanıcı dostu arayüzü Metin tabanlı dosyalarına, jdbc sürücüsü bulunan veri tabanlarına ve http protokolü kullanarak web üzerinde dosyalara erişim imkanı

4

5 SEER Veri Kaynağı NCI (National Cancer Institute) tarafından sağlanan akademik kullanıma açık veri kaynağı 1973 tarihi itibarı ile başlanmış Farklı Kanser Hastalıklarına ilişkin veriler Metin tabanlı veri dosyaları Dokümante edilmiş İnternet üzerinden erişimi bir sözleşme ile kullanıma açık

6 Çalışmada Kullanılan SEER veri Kaynağı
yıllarına ait Greater California, Kentucky, Louisiana ve New Jersey bölgelerindeki Göğüs kanseri hastalıkları verisi (2008 yılı versiyonu) Metin Tabanlı (ayıraçsız) 204,949 kayıt 118 Nitelik 264 karakterli satırlardan oluşmaktadır

7 Model Başarımı - I Karışıklık Matrisi Öngörülen Sınıf Doğru Sınıf
a (TP) b (FN) c(FP) d (TN)

8 Model Başarımı - II Ölçütler Hata Oranı Kesinlik Duyarlılık F-ölçütü

9 Karşılaştırma Öncesi İşlemler
Kaynak Araştırması Veri Önişleme Nitelik seçilmesi (Uzman yardımı ile) Veri Kaynağının Arff formatına çevrilmesi (C programlama ile) Eksik verilerin doldurulması Sınıfların belirlenmesi Nitelik azaltma Veri azaltma ile Kayıt sayısı 60,948’a indirgendi

10 Sınıf Tayini Hasta savaşı kazandı mı?
Kazanamadı – 2 Sınıfı Belirlemede kullanılan nitelikler VSR – Vital Status recode (Hasta hayatta mı?) STR – Survival Time recode (Hayatta kalma süresi - ay) COD – Cause of Death (Ölüm Sebebi)

11 Sınıf Tayininde Kullanılan Metod
if (VSR ==1) /* Hayatta mı? VSR=1 ise hayatta*/ { /* Hayatta ve 5 yıldan fazla ise 1 sınıfına ata */ if (STR >60) Sınıf =1 } else { /* Hayatta Değil ve kanser sebepli ölüm ise 2 sınıfına ata */ if (COD == “KANSER”) Sınıf =2

12 Karşılaştırılan Algoritmalar
Karşılaştırılacak Sınıflandırma Algoritmalarının seçimi Literatürdeki benzer çalışmalar Popülerlik Karar Ağaçları – J48 Bayes – NaiveBayes Regresyon – Lojistik Regresyon Örnek Tabanlı Sınıflandırma - KStar

13 Karar Ağaçları – J48 40629 1459 | a = 1 6849 12011 | b = 2
Karışıklık Matrisi a b <-- Öngörülen Sınıf | a = 1 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %86.36 %85.57 %96.53 %90.72

14 İstatistiksel Sınıflandırma - NaiveBayes
Karışıklık Matrisi a b <-- classified as | a = 1 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.21 %85.80 %94.15 %89.78

15 Regresyon – LojistikRegresyon
Karışıklık Matrisi a b <-- classified as | a = 1 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.36 %86.30 %93.66 %89.83

16 Örnek Tabanlı Sınıflandırma- KStar
Karışıklık Matrisi a b <-- classified as | a = 1 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.44 %83.70 %98.00 %90.28

17 Modellerin Karşılaştırılması
Karşılaştırma Tablosu Algoritma Ölçüt J48 NaiveBayes Lojistik Regresyon KStar Doğruluk Kesinlik Duyarlılık F-Ölçütü Sıralma : J48, Kstar, LojistikRegresyon ve NaiveBayes

18 Bulgular ve Tartışma-I
Birbirine yakın doğruluk derecesinde sonuçlar J48 algoritması en iyi doğruluk derecesine sahip SEER göğüs kanseri üzerinde yapılan diğer akademik çalışmalarla aynı sonucu vermiştir. (C4.5, J48) Diğer çalışmalarda doğruluk dereceleri daha iyi Farklı veri kullanılmış olması Önişleme prosedürü Uygulama aşamasındaki parametre seçimi

19 Bulgular ve Tartışma - II
Veri Madenciliği Algoritma Karşılaştırmalarına yönelik eleştiriler Prof. Dr. D.J. Hand; Institute of Mathematical Science “Classifier Technology and the Illusion of Progress” Başarım kullanılan veriye bağlıdır. Başarım veri önişleme basamağına bağlıdır Başarım kullanıcıya bağlıdır Literatürdeki pekçok çalışma illuzyon yaratmaktadır Aslında, klasik istatistiksel metotlar yeni kompleks algoritmalardan daha başarılı olabilirler.

20 Bulgular ve Tartışma - III
Eleştirilerde haklılık payı büyüktür Ancak, Karşılaştırma yöntemi Veri madenciliği uygulamalarında başarımı arttıracak bir metot olarak kullanılmalıdır. Yeni geliştirilen metotların başarım derecesinin ve geçerliliğinin testinde büyük önem arz edecektir.

21 İleriye Dönük Çalışmalar - I
Bu çalışma farklı kategorilerdeki veri grupları üzerinde yapılabilir Daha geniş sayıda algoritmalar kullanılarak farklı algoritmalar karşılaştırılabilir Bu çalışmada Weka Aracı kullanılmıştır. Farklı Veri Madenciliği Araçları kullanılarak çalışma genişletilebilir.

22 İleriye Dönük Çalışmalar - II
Her Algoritmanın başarımını maximize edecek parametreler bulunarak karşılaştırma bu şekilde yapılabilir. Algoritmaların başarımı dışında, hızı ve hafıza kullanımı gibi diğer metrikler üzerinde bir karşılaştırma da ayrı bir çalışma konusu olarak ele alınabilir.

23 Dinlediğiniz için Teşekkürler…


"Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun" indir ppt

Benzer bir sunumlar


Google Reklamları