Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun

Slides:



Advertisements
Benzer bir sunumlar
Kurumsal Talep Yönetim Sistemi İstemci Uygulaması
Advertisements

Unsupervised Learning (Kümeleme)
Copyright 2007 Thomson Corporation 1 ISI Web of Knowledge EndNote ® Web 2.0.
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
MIT504 İnternet ve Web Programlama: Javascript programlama devam Yrd. Doç. Dr. Yuriy Mishchenko.
MIT504 İnternet ve Web Programlama: Javascript programlama devam Yrd. Doç. Dr. Yuriy Mishchenko.
Görme Engelliler İçin Servis Platformu
TUVDBS VİDEO VERİTABANI YÖNETİM SİSTEMİ
KONTROL ÖZELLİKLERİ.
İhalelerde Uygun Teklif Bedelinin Grafikler ve Regresyon Analizi Yardımı ile Belirlenmesi.
ITY529S İTY’DE KARAR VERME
Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.
EKO308 İKTİSADİ PLANLAMA 1. Hafta: Giriş.
Bellek Tabanlı Sınıflandırma
Uzman Sistemler Karar Veriyor Gizli – Hizmete Özel – Tasnif Dışı
Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı
SOME-Bus Mimarisi Üzerinde Mesaj Geçişi Protokolünün Başarımını Artırmaya Yönelik Bir Algoritma Çiğdem İNAN, M. Fatih AKAY Çukurova Üniversitesi Bilgisayar.
NESNELER ARASINDAKİ UZAYSAL İLİŞKİLER ÜZERİNE BİR UYGULAMA
PROGRAMLAMA DİLLERİNE GİRİŞ Ders 3: Döngüler
BPR152 ALGORİTMA VE PROGRAMLAMA - II
Karar Ağaçları İle Sınıflandırma
Kalp-Damar Sistemi Hastalıkları Hakkında Bilgi
OPENCV İLE STEREO GÖRÜNTÜLERDEN DERİNLİK KESTİRİMİ
 2006 Pearson Education, Inc. All rights reserved. Görsel C# ile Windows Programlama Güz 2009 (5. Hafta)
T H O M S O N S C I E N T I F I C CAB ABSTRACTS ™ Comprehensive Agriculture & Applied Life Science Research.
YMT219: Veri Yapıları Ders Saatleri: Pazartesi 9:15-12, 17:30-20:15
Quest Atlantis Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel Bir Bilgisayar Oyununun Teknik Yapısı.
Tanecikler Ararsı Etkileşmeler Seher DEMİRAY 2013 Materyal Metot Yapılandırmacı tabanlı etkileşimli doğrudan öğretim(YÖTEDÖ) metodu, geleneksel öğretime.
Türkiye’deki Üniversitelerde İnternet Tabanlı Akademik Kayıt ve Not Takip Sistemleri (IANTS) Y.Doç.Dr.Ender Özcan Yeditepe Üniversitesi.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
MESLEK ANALİZİ İLE İLGİLİ BAZI HATIRLATMALAR Görev Meslek elemanın tarafından icra edilen işin en büyük / ana bölümüdür. Bir sorumluluk alanı altındaki.
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
KNN ALGORİTMASI TABANLI MOBİL DEVAM TAKİP YAZILIMI -Mehmet BİLEN -Ali Hakan IŞIK -Tuncay YİĞİT.
Trans Tech Publications (TTP) 1967 yılında ünlü bir Avrupalı bilim adamı ve eğitimci tarafından kurulmuştur. Malzeme bilimi ve mühendisliği alanlarında.
Veri Madenciliği Giriş.
HUKUKTA BİLGİ YÖNETİMİ BBY Veri Tabanları (Uluslararası) Nazan Özenç Uçak Güz.
ARAŞTIRMA TÜRLERİ.
VERİ MADENCİLİĞİ UYGULAMALARI
ITY529S İTY’DE KARAR VERME
YURTTA KALAN ÖĞRENCİLERİN KAYGI DÜZEYİNİN DEPRESYONA ETKİSİ NEDİR ?
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
Göl Su Kütlelerinde Ötrofikasyon Değerlendirmesi
Uç Öğrenme Makineleri Kullanılarak Internet Trafik Bilgisinin Sınıflandırılması Fatih ERTAM Engin AVCI AB2016-Aydın.
ÖTÖ 451 Okul Yönetiminde Bilgisayar Uygulamaları R. Orçun Madran.
XML ve XML WEB SERVİSLERİ Volkan ALTINTAŞ. XML Bağımsız bir kuruluş olan W3C tarafından tasarlanmıştır. Herhangi bir kurumun tekelinde değildir. Kişilerin.
Bölüm 4 : VERİ MADENCİLİĞİ
Bir 802.1x Kimlik Kanıtlama Uygulaması: EDUROAM Figen Bozkurt Şule Toker
KIRKLARELİ DEVLET HASTANESİ UZAKTAN EĞİTİM MERKEZİ Nisan 2017
DOĞRULAMA KONTROLLERİ
Araş. Gör. Dinçer göksülük
Karar Ağaçları (Decision trees)
Bilimsel Çıktıları ve Performans Analizi
Algoritmalar II Ders 1: Alan zaman takası yöntemi.
DynaMed ‘in İçeriği DynaMed klinik olarak özetlenmiş yaklaşık 3,000 konu başlığını sunmaktadır. Konu başlıkları temel olarak: Genel ve genel olmayan hastalıklar.
Servet ÖZMEN Karabük Üniversitesi, Fen Bilimleri Enstitüsü,
Çevre Görevlisi Eğitimi
Yazılım Mühendisliği Temel Süreçler - Sistem Analizi
ITY529S İTY’DE KARAR VERME
DynaMed ‘in İçeriği DynaMed klinik olarak özetlenmiş yaklaşık 3,000 konu başlığını sunmaktadır. Konu başlıkları temel olarak: Genel ve genel olmayan hastalıklar.
Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1
Bitirme tezi nasıl yazılır
Literatür Araştırması
Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel
YÖNLENDİRİLMİŞ ÇALIŞMA I-II
Hastane Bilgi Sistemlerinde Veri Madenciliği
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Algoritmalar II Ders 16 Prim algoritması.
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek üzerinde Karşılaştırılması Yrd. Doç. Dr. Abdullah BAYKAL Uzman Cengiz COŞKUN Konuşmacı : Cengiz Coşkun 02.02.2011

Kullanılan Araçlar WEKA (Waikato Environment for Knowledge Analysis) SEER (Surveillance Epidomology and End Results)

WEKA Ücretsiz Açık Kaynak Kodlu Geniş bir Veri Madenciliği Yöntemleri yelpazesi Kullanıcı dostu arayüzü Metin tabanlı dosyalarına, jdbc sürücüsü bulunan veri tabanlarına ve http protokolü kullanarak web üzerinde dosyalara erişim imkanı

SEER Veri Kaynağı NCI (National Cancer Institute) tarafından sağlanan akademik kullanıma açık veri kaynağı 1973 tarihi itibarı ile başlanmış Farklı Kanser Hastalıklarına ilişkin veriler Metin tabanlı veri dosyaları Dokümante edilmiş İnternet üzerinden erişimi bir sözleşme ile kullanıma açık

Çalışmada Kullanılan SEER veri Kaynağı 2000-2006 yıllarına ait Greater California, Kentucky, Louisiana ve New Jersey bölgelerindeki Göğüs kanseri hastalıkları verisi (2008 yılı versiyonu) Metin Tabanlı (ayıraçsız) 204,949 kayıt 118 Nitelik 264 karakterli satırlardan oluşmaktadır

Model Başarımı - I Karışıklık Matrisi Öngörülen Sınıf Doğru Sınıf a (TP) b (FN) c(FP) d (TN)

Model Başarımı - II Ölçütler Hata Oranı Kesinlik Duyarlılık F-ölçütü

Karşılaştırma Öncesi İşlemler Kaynak Araştırması Veri Önişleme Nitelik seçilmesi (Uzman yardımı ile) Veri Kaynağının Arff formatına çevrilmesi (C programlama ile) Eksik verilerin doldurulması Sınıfların belirlenmesi Nitelik azaltma Veri azaltma ile Kayıt sayısı 60,948’a indirgendi

Sınıf Tayini Hasta savaşı kazandı mı? Kazanamadı – 2 Sınıfı Belirlemede kullanılan nitelikler VSR – Vital Status recode (Hasta hayatta mı?) STR – Survival Time recode (Hayatta kalma süresi - ay) COD – Cause of Death (Ölüm Sebebi)

Sınıf Tayininde Kullanılan Metod if (VSR ==1) /* Hayatta mı? VSR=1 ise hayatta*/ { /* Hayatta ve 5 yıldan fazla ise 1 sınıfına ata */ if (STR >60) Sınıf =1 } else { /* Hayatta Değil ve kanser sebepli ölüm ise 2 sınıfına ata */ if (COD == “KANSER”) Sınıf =2

Karşılaştırılan Algoritmalar Karşılaştırılacak Sınıflandırma Algoritmalarının seçimi Literatürdeki benzer çalışmalar Popülerlik Karar Ağaçları – J48 Bayes – NaiveBayes Regresyon – Lojistik Regresyon Örnek Tabanlı Sınıflandırma - KStar

Karar Ağaçları – J48 40629 1459 | a = 1 6849 12011 | b = 2 Karışıklık Matrisi a b <-- Öngörülen Sınıf 40629 1459 | a = 1 6849 12011 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %86.36 %85.57 %96.53 %90.72

İstatistiksel Sınıflandırma - NaiveBayes Karışıklık Matrisi a b <-- classified as 39627 2461 | a = 1 6555 12305 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.21 %85.80 %94.15 %89.78

Regresyon – LojistikRegresyon Karışıklık Matrisi a b <-- classified as 39420 2668 | a = 1 6255 12605 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.36 %86.30 %93.66 %89.83

Örnek Tabanlı Sınıflandırma- KStar Karışıklık Matrisi a b <-- classified as 41247 841 | a = 1 8031 10829 | b = 2 Karşılaştırma Ölçütleri Doğruluk Kesinlik Duyarlılık F-Ölçütü %85.44 %83.70 %98.00 %90.28

Modellerin Karşılaştırılması Karşılaştırma Tablosu Algoritma Ölçüt J48 NaiveBayes Lojistik Regresyon KStar Doğruluk 0.863687 0.852071 0.853597 0.854433 Kesinlik 0.855744 0.858062 0.863054 0.837027 Duyarlılık 0.965335 0.941527 0.936609 0.980018 F-Ölçütü 0.907242 0.897859 0.898328 0.902896 Sıralma : J48, Kstar, LojistikRegresyon ve NaiveBayes

Bulgular ve Tartışma-I Birbirine yakın doğruluk derecesinde sonuçlar J48 algoritması en iyi doğruluk derecesine sahip SEER göğüs kanseri üzerinde yapılan diğer akademik çalışmalarla aynı sonucu vermiştir. (C4.5, J48) Diğer çalışmalarda doğruluk dereceleri daha iyi Farklı veri kullanılmış olması Önişleme prosedürü Uygulama aşamasındaki parametre seçimi

Bulgular ve Tartışma - II Veri Madenciliği Algoritma Karşılaştırmalarına yönelik eleştiriler Prof. Dr. D.J. Hand; Institute of Mathematical Science “Classifier Technology and the Illusion of Progress” Başarım kullanılan veriye bağlıdır. Başarım veri önişleme basamağına bağlıdır Başarım kullanıcıya bağlıdır Literatürdeki pekçok çalışma illuzyon yaratmaktadır Aslında, klasik istatistiksel metotlar yeni kompleks algoritmalardan daha başarılı olabilirler.

Bulgular ve Tartışma - III Eleştirilerde haklılık payı büyüktür Ancak, Karşılaştırma yöntemi Veri madenciliği uygulamalarında başarımı arttıracak bir metot olarak kullanılmalıdır. Yeni geliştirilen metotların başarım derecesinin ve geçerliliğinin testinde büyük önem arz edecektir.

İleriye Dönük Çalışmalar - I Bu çalışma farklı kategorilerdeki veri grupları üzerinde yapılabilir Daha geniş sayıda algoritmalar kullanılarak farklı algoritmalar karşılaştırılabilir Bu çalışmada Weka Aracı kullanılmıştır. Farklı Veri Madenciliği Araçları kullanılarak çalışma genişletilebilir.

İleriye Dönük Çalışmalar - II Her Algoritmanın başarımını maximize edecek parametreler bulunarak karşılaştırma bu şekilde yapılabilir. Algoritmaların başarımı dışında, hızı ve hafıza kullanımı gibi diğer metrikler üzerinde bir karşılaştırma da ayrı bir çalışma konusu olarak ele alınabilir.

Dinlediğiniz için Teşekkürler…