Danışman Öğretim Üyesi: Erdem KARABULUT

Slides:



Advertisements
Benzer bir sunumlar
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
Advertisements

ALTIN FİYATININ VE İŞLEM HACMİNİN TAHMİNİ
MIT563 Yapay Zeka ve Makine Öğrenmesi
Enerji Sistemlerinde Yöneylem Araştırması EBT Bahar Yarıyılı
Pozitif ve Negatif Ürün İlişkilerini İncelemek için Bir Çerçeve: Yeniden Madencilik (Re-mining) Ayhan Demiriz G. Ertek, T. Atan ve U. Kula 30 Haziran 2010,
Support Vector Machines
YMT 222 SAYISAL ANALİZ (Bölüm 6a)
Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı
Karar Ağaçları.
MIT563 Yapay Zeka ve Makine Öğrenmesi
Karar Ağaçları İle Sınıflandırma
Mükemmel İletken Yüzeyler Üzerindeki Hedeflerin Yapay Sinir Ağı İle Sınıflandırılması SENEM MAKAL
5.GRUP Şule Şahin Tuğba Karakuş Gizem Osan
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü
KARAKTER TANIMA Utku Cevre Barış Özkan.
Yrd. Doç. Dr. Ayhan Demiriz
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Neden İki Faktörlü Anova Yapıyoruz?
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Makine Öğrenmesinde Yeni Problemler
Meta Analizinde Son Gelişmeler
Sıklık Tabloları ve Tek Değişkenli Grafikler
Sınıflandırma ve Tahmin
SİStem ANALİZİ Ders Hakkında Bilgi.
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
POLATLILILAR FER İ YA NUR TA Ş KAYA-EZG İ M İ HR İ BAN TARHAN.
IMGK 207-Bilimsel araştırma yöntemleri
Bölüm 4 için Ders Notları Introduction to Data Mining
VERİ MADENCİLİĞİ UYGULAMALARI
YURTTA KALAN ÖĞRENCİLERİN KAYGI DÜZEYİNİN DEPRESYONA ETKİSİ NEDİR ?
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
Uç Öğrenme Makineleri Kullanılarak Internet Trafik Bilgisinin Sınıflandırılması Fatih ERTAM Engin AVCI AB2016-Aydın.
BİL3112 Makine Öğrenimi (Machine Learning)
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
Enerji Sistemlerinde Akıllı Sistem Uygulamaları Akademik Yılı Bahar yarıyılı Doç.Dr. Raşit ATA
YAPAY SİNİR AĞLARI.
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
Bölüm 2 : Yapay Zeka nedir?
Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok
Lineer Regresyon. Amaç: Bu konu sonunda Tıp Fakültesi 1. sınıf öğrencilerinin çeşitli bağımsız değişkenleri kullanarak bir nümerik değişkenin değerini.
Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.
1. Ders: Ders İşleyişi Hazırlayan ve Sunan:
Engin Kaya Kontrol Mühendisliği İstanbul Teknik Üniversitesi
Örüntü Tanıma.
Sınıflandırma ve Tahmin
Araş. Gör. Dinçer göksülük
Bölüm 4 için Ders Notları Introduction to Data Mining
Engin Kaya Kontrol Mühendisliği İstanbul Teknik Üniversitesi
Prof. Dr. Hamit Acemoğlu Tıp Eğitimi Anabilim Dalı
Karar Ağaçları (Decision trees)
YAPAY SİNİR AĞLARININ YAPISI VE TEMEL ELEMANLARI
DEĞİŞİM ÖLÇÜLERİ.
Öğrenme ve Sınıflama.
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
S. Haykin, “Neural Networks- A Comprehensive Foundation”,
Servet ÖZMEN Karabük Üniversitesi, Fen Bilimleri Enstitüsü,
Makine Öğrenmesinde Yeni Problemler
Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun
BENZETİM 2. Ders Prof.Dr.Berna Dengiz Sistemin Performans Ölçütleri
Yapay Zeka Nadir Can KAVKAS
ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Yapay Öğrenme Teorisi Bölüm-2
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
Sunum transkripti:

Danışman Öğretim Üyesi: Erdem KARABULUT ÖRNEKLEM GENİŞLİĞİ, Değişken sayısı VE KORELASYON YAPISI DEĞİŞİMİNİN SINIFLAMA YÖNTEMLERİNİN PERFORMANSLARI ÜZERİNE ETKİSİ Duygu AYDIN HAKLI Danışman Öğretim Üyesi: Erdem KARABULUT Hacettepe Üniversitesi, Biyoistatistik ABD

AMAÇ Hem kategorik hem de sayısal değişkenlerin bir arada olduğu gerçek veri setleri ve benzetim çalışmasında farklı korelasyon yapısı, değişken sayısı ve örneklem genişlikleri kullanılarak elde edilen veriler üzerinde, Sınıflandırma ve Regresyon Ağaçları (CART), Destek Vektör Makineleri (SVM), Random Forest (RF) ve Çok Katmanlı Algılayıcı (MLP) sınıflama yöntemlerinin performanslarını karşılaştırmak amaçlanmıştır.

İÇERİK Giriş Yöntem Bulgular Sonuç ve Tartışma Sınıflama Kullanılan Sınıflama Yöntemleri Gerçek veri setleri Benzetim çalışması Bulgular Gerçek veri setlerinden elde edilen sonuçlar Benzetim çalışmasından elde edilen sonuçlar Sonuç ve Tartışma

SINIFLAMA %70 %30 Sınıflamanın temel kuralları: Veride birçok değişken vardır ve bunlardan bir tanesi sınıf bilgisidir. Sınıflama işlemi genelde iki ana adımdan oluşmaktadır. Eğitim veri setine göre veriyi sınıflandırır(model kurar) Oluşturulan model öğrenme kümesinde yer almayan veri seti (test seti) ile denenerek başarısı ölçülür. Genellikle EĞİTİM SETİ %70 TEST SETİ %30

KULLANILAN SINIFLAMA YÖNTEMLERİ Sınıflama Sınıflama ve Regresyon Ağaçları (CART) Random Forest(RF) Çok Katmanlı Algılıyıcı(MLP) Destek Vektör Makineleri (SVM)

SINIFLANDIRMA VE REGRESYON AĞAÇLARI(CART) Karar düğümü Sayısal veya kategorik değişkenleri, bir grup sayısal veya kategorik değişkenler yardımı ile tahmin etmeye yarayan bir algoritmadır. Karar düğümleri yapılacak olan testi, dallar testteki değerleri, yapraklar ise sınıfı belirtmektedir. Karar düğümleri ile belirtilen testin sonucu ağacın veri kaybetmeden dallara ayrılmasını sağlar. Bilgi ölçütü olarak “Gini indeksi” kullanmaktadır. Girdi değişkenler, ağacın bölünme aşamasında sadece 2’ye bölünebilir. Bu nedenle fazla sayıda kategori içeren girdi değişken olduğunda dezavantaja sahiptir. Dallar Yapraklar

RANDOM FOREST(RF) RF, çok sayıda karar ağacının bir araya gelmesiyle oluşan bir tekniktir. Sınıflama yapan her bir karar ağacı bireysel oy almakta ve işlem sonunda en yüksek oyu alan karar ağacının yaptığı sınıflama kullanılmaktadır. Her bir karar ağacı eğitildiği veri grubundan farklı bir veri grubuyla karşılaştığında aynı performansı gösteremeyeceği için, yöntem çok sayıda karar ağacını birleştirmekte ve bu sayede sınıflama performansını ve doğru sınıflama oranını artırmaktadır. RF yönteminde ağaç, bütün verinin oluşturduğu tek bir düğümle başlamakta, eğer örneklerin hepsi aynı sınıfa ait ise düğüm, yaprak olarak sonlanmakta ve sınıf etiketi verilmektedir. Eğer örnekler aynı sınıfa dahil değilse, örnekleri sınıflara en iyi bölecek olan özellik seçilmektedir.

ÇOK KATMANLI ALGILAYICI(MLP) Çok katmanlı algılayıcı ağlar, birçok tek katmanlı yapının girdi ve çıktı katmanları arasında yer alan bir veya daha fazla gizli katman bulunduran ileri beslemeli yapay sinir ağları yöntemlerinden birisidir. Gizli katman sayıları ve her katmandaki nöron sayısı uygulamaya göre değişkenlik göstermektedir. Girdi ve çıktıları arasındaki ilişkilerin doğrusal olmaması durumunda çok katmanlı modeller kullanılır.

DESTEK VEKTÖR MAKİNELERİ(SVM) Son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için sıklıkla kullanılmaktadır. Bu yöntem, temelde iki sınıflı problemlerin çözümünde doğrusal bir sınıflayıcı olarak düşünülmüş, daha sonra doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genelleştirilmiştir. Doğrusal olarak ayrılamayan verileri sınıflandırmak için, veri çeşitli yollarla farklı bir boyuta taşınır ve burada en iyi ayırıcı hiperdüzlem bulunarak veri sınıflandırılır.

Örneklem Genişlikleri GERÇEK VERİ SETLERİ Veri Setleri Örneklem Genişlikleri Değişken Sayısı Diyabet hastalığı 500/268=768 8 Karaciğer hastalığı 414/165=579 10 Meme Kanseri 444/239=683 http://archive.ics.uci.edu/ml/ UCI Machine Learning Datasets

GERÇEK VERİ SETLERİ(korelasyon) class Num. times pregnant Plasma glucose Diastolic BP Skin fold thickness 2-Hour serum insulin Body mass index Diabetes pedigree Age 1.000 0.222 0.467 0.129 0.065 0.141 0.153 simetrik 0.075 -0.082 0.057 0.207 0.131 -0.074 0.331 0.089 0.437 0.293 0.018 0.221 0.282 0.393 0.198 0.174 -0.034 0.137 0.042 0.185 0.238 0.544 0.264 0.240 -0.114 -0.042 0.036 0.034 class Alkaline phosphotase Alamine aminotransferase Aspartate aminotransferase Gamma-glutamyl transpeptidase Drinks per day 1.000 -0.098 -0.035 0.076 simetrik 0.157 0.146 0.740 0.133 0.503 0.528 -0.022 0.101 0.207 0.280 0.341

Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion class Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses 1.000 0.716 0.818 0.645 0.819 0.655 0.907 simetrik 0.697 0.486 0.706 0.683 0.522 0.752 0.720 0.600 0.823 0.593 0.692 0.714 0.671 0.586 0.757 0.558 0.756 0.736 0.667 0.616 0.681 0.712 0.536 0.723 0.719 0.603 0.629 0.584 0.666 0.423 0.350 0.459 0.439 0.418 0.479 0.339 0.344 0.428

Zayıf – Orta - Yüksek -Gerçek BENZETİM ÇALIŞMASI Veri türetme, R programında ‘BinNor’ paketi kullanılarak yapılmıştır. Bu paketin kullanılmasının amacı, gerçeğe yakın bir veri seti türetebilmektir. Ayrıca pozitif tanımlı matris elde edebilmek için psych paketi kullanılmıştır. örneklem genişliği 100 – 250 – 500 ve 1000 korelasyon düzeyi Zayıf – Orta - Yüksek -Gerçek Sınıflama Yöntemleri Değerlendirme caret Prevalans %50 alındı Analizler 1000 kez tekrarlanmış, sınıflama yöntemleri 5 katlı çapraz geçerlik Değişken sayısı: 15 25 50

BENZETİM ÇALIŞMASI İÇİN KORELASYON MATRİSLERİ (birkaç örnek) Düşük Orta y x1 x2 x3 x4 x5 x6 1 0.4 -0.5 0.0 -0.1 y x1 x2 x3 x4 x5 1 0.1 Yüksek Gerçek y x1 x2 x3 x4 x5 x6 1.00 0.38 -0.38 0.32 -0.28 0.19 0.01 0.28 0.33 0.26 0.07 -0.33 0.35 0.03 -0.37 0.08 0.09 0.13 y x1 x2 x3 x4 x5 1 0.75 0.45 0.0 0.60 -0.23

GERÇEK VERİ SETLERİ SONUÇLARI Yöntemler F-ölçüsü diyabet SVM 0.64 CART 0.69 RF 0.48 MLP karaciğer 0.77 0.76 meme kanseri 0.95 0.90

GERÇEK VERİ SETLERİ SONUÇLARI

BENZETİM ÇALIŞMASI SONUÇLARI Korelasyon Değişken sayısı SVM CART RF MLP 100 250 500 1000 DÜŞÜK 15 0.550 0.563 0.577 0.586 0.520 0.523 0.531 0.541 0.530 0.535 0.544 0.514 0.537 0.543 25 0.568 0.579 0.589 0.597 0.516 0.538 0.539 0.545 0.518 0.532 0.546 0.511 0.534 50 0.582 0.599 0.609 0.610 0.549 0.521 0.540 0.548 0.547 ORTA 0.766 0.808 0.824 0.829 0.717 0.782 0.800 0.820 0.780 0.819 0.722 0.801 0.818 0.755 0.777 0.793 0.707 0.775 0.786 0.795 0.704 0.776 0.706 0.784 0.678 0.735 0.763 0.700 0.773 0.796 0.698 0.703 YÜKSEK 0.690 0.701 0.709 0.697 0.714 0.716 0.712 0.699 0.715 0.713 0.668 0.720 0.705 0.723 0.710 0.724 0.719 0.650 0.814 0.730 0.718 GERÇEK 0.737 0.745 0.595 0.656 0.692 0.598 0.653 0.693 0.721 0.594 0.659 0.695 0.778 0.606 0.655 0.677 0.601 0.607 0.657

Sonuç ve Tartışma Genel olarak bakıldığında, benzetim çalışmamızda; örneklem genişliği arttıkça performans değerleri de artmıştır. Düşük korelasyon ile üretilmiş verilerde (15-25-50 değişkenli) değişken sayısı arttıkça performans değerleri artış gösterirken diğer korelasyon düzeylerinde performans değerleri düşmüştür. Korelasyon düzeyi arttıkça, performansların arttığı söylenebilir. Düşük korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerinin performansından yaklaşık %5 daha başarılı bulunmuştur. Gerçek korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerine göre %10 daha başarılı bulunmuştur.

TARTIŞMA MLP yöntemi, doğrusal olmayan ilişki yapısı olduğunda daha çok tercih edilen bir yöntemdir. Benzetim çalışmamızda, doğrusal ilişkili veri türettiğimiz için MLP’ nin performans sonuçları, SVM’ ye göre biraz daha düşük bulunmuştur. Literatürdeki çoğu çalışmada veri türetilirken, ya sadece sayısal değişken ya da nitel ve sayısal değişkenler ayrı ayrı türetilmiştir. Bizim çalışmamızda, iki veri türü bir arada türetilmiştir.

KAYNAKLAR Coşkun Hamzaçebi, Yapay Sinir Ağları ile Tahmin, Ekin Basım Yayın, İstanbul, 2011. Ercan Öztemel, Yapay Sinir Ağları, Papatya Yayıncılık, İstanbul, 2011. Burges, C. (1998). A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining And Knowledge Discovery, 2, 121-167. Osuna, E. E., Freund, R., & Girosi, F. (1997). Support Vector Machines: Training and Applications. Massachusetts Institute of Technology and Artificial Intelligence Laboratory, 144. Ivan Galkin, Crash Introduction to Artificial Neural Network, 2003,http://ulcar.uml.edu/~iag/CS/Intro-to-ANN.html James A. Freeman, David M. Skapura. Neural Networks: Algorithms, Applications, and Programming Techniques,1. Basım, Addison Wesley,1991. Gerard Dreyfus, Neural Networks Methodology and Appplications, 1.Basım,Paris: Springer, 2005. Laurene Fausett, Fundamentals of Neural Networks: Architectures, Algorithms and Applications, 1. Basım, New Jersey: Prentice Hall,1994. https://cran.r-project.org/web/packages/BinNor/BinNor.pdf http://topepo.github.io/caret/index.html http://archive.ics.uci.edu/ml/

Teşekkürler…