Danışman Öğretim Üyesi: Erdem KARABULUT ÖRNEKLEM GENİŞLİĞİ, Değişken sayısı VE KORELASYON YAPISI DEĞİŞİMİNİN SINIFLAMA YÖNTEMLERİNİN PERFORMANSLARI ÜZERİNE ETKİSİ Duygu AYDIN HAKLI Danışman Öğretim Üyesi: Erdem KARABULUT Hacettepe Üniversitesi, Biyoistatistik ABD
AMAÇ Hem kategorik hem de sayısal değişkenlerin bir arada olduğu gerçek veri setleri ve benzetim çalışmasında farklı korelasyon yapısı, değişken sayısı ve örneklem genişlikleri kullanılarak elde edilen veriler üzerinde, Sınıflandırma ve Regresyon Ağaçları (CART), Destek Vektör Makineleri (SVM), Random Forest (RF) ve Çok Katmanlı Algılayıcı (MLP) sınıflama yöntemlerinin performanslarını karşılaştırmak amaçlanmıştır.
İÇERİK Giriş Yöntem Bulgular Sonuç ve Tartışma Sınıflama Kullanılan Sınıflama Yöntemleri Gerçek veri setleri Benzetim çalışması Bulgular Gerçek veri setlerinden elde edilen sonuçlar Benzetim çalışmasından elde edilen sonuçlar Sonuç ve Tartışma
SINIFLAMA %70 %30 Sınıflamanın temel kuralları: Veride birçok değişken vardır ve bunlardan bir tanesi sınıf bilgisidir. Sınıflama işlemi genelde iki ana adımdan oluşmaktadır. Eğitim veri setine göre veriyi sınıflandırır(model kurar) Oluşturulan model öğrenme kümesinde yer almayan veri seti (test seti) ile denenerek başarısı ölçülür. Genellikle EĞİTİM SETİ %70 TEST SETİ %30
KULLANILAN SINIFLAMA YÖNTEMLERİ Sınıflama Sınıflama ve Regresyon Ağaçları (CART) Random Forest(RF) Çok Katmanlı Algılıyıcı(MLP) Destek Vektör Makineleri (SVM)
SINIFLANDIRMA VE REGRESYON AĞAÇLARI(CART) Karar düğümü Sayısal veya kategorik değişkenleri, bir grup sayısal veya kategorik değişkenler yardımı ile tahmin etmeye yarayan bir algoritmadır. Karar düğümleri yapılacak olan testi, dallar testteki değerleri, yapraklar ise sınıfı belirtmektedir. Karar düğümleri ile belirtilen testin sonucu ağacın veri kaybetmeden dallara ayrılmasını sağlar. Bilgi ölçütü olarak “Gini indeksi” kullanmaktadır. Girdi değişkenler, ağacın bölünme aşamasında sadece 2’ye bölünebilir. Bu nedenle fazla sayıda kategori içeren girdi değişken olduğunda dezavantaja sahiptir. Dallar Yapraklar
RANDOM FOREST(RF) RF, çok sayıda karar ağacının bir araya gelmesiyle oluşan bir tekniktir. Sınıflama yapan her bir karar ağacı bireysel oy almakta ve işlem sonunda en yüksek oyu alan karar ağacının yaptığı sınıflama kullanılmaktadır. Her bir karar ağacı eğitildiği veri grubundan farklı bir veri grubuyla karşılaştığında aynı performansı gösteremeyeceği için, yöntem çok sayıda karar ağacını birleştirmekte ve bu sayede sınıflama performansını ve doğru sınıflama oranını artırmaktadır. RF yönteminde ağaç, bütün verinin oluşturduğu tek bir düğümle başlamakta, eğer örneklerin hepsi aynı sınıfa ait ise düğüm, yaprak olarak sonlanmakta ve sınıf etiketi verilmektedir. Eğer örnekler aynı sınıfa dahil değilse, örnekleri sınıflara en iyi bölecek olan özellik seçilmektedir.
ÇOK KATMANLI ALGILAYICI(MLP) Çok katmanlı algılayıcı ağlar, birçok tek katmanlı yapının girdi ve çıktı katmanları arasında yer alan bir veya daha fazla gizli katman bulunduran ileri beslemeli yapay sinir ağları yöntemlerinden birisidir. Gizli katman sayıları ve her katmandaki nöron sayısı uygulamaya göre değişkenlik göstermektedir. Girdi ve çıktıları arasındaki ilişkilerin doğrusal olmaması durumunda çok katmanlı modeller kullanılır.
DESTEK VEKTÖR MAKİNELERİ(SVM) Son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için sıklıkla kullanılmaktadır. Bu yöntem, temelde iki sınıflı problemlerin çözümünde doğrusal bir sınıflayıcı olarak düşünülmüş, daha sonra doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genelleştirilmiştir. Doğrusal olarak ayrılamayan verileri sınıflandırmak için, veri çeşitli yollarla farklı bir boyuta taşınır ve burada en iyi ayırıcı hiperdüzlem bulunarak veri sınıflandırılır.
Örneklem Genişlikleri GERÇEK VERİ SETLERİ Veri Setleri Örneklem Genişlikleri Değişken Sayısı Diyabet hastalığı 500/268=768 8 Karaciğer hastalığı 414/165=579 10 Meme Kanseri 444/239=683 http://archive.ics.uci.edu/ml/ UCI Machine Learning Datasets
GERÇEK VERİ SETLERİ(korelasyon) class Num. times pregnant Plasma glucose Diastolic BP Skin fold thickness 2-Hour serum insulin Body mass index Diabetes pedigree Age 1.000 0.222 0.467 0.129 0.065 0.141 0.153 simetrik 0.075 -0.082 0.057 0.207 0.131 -0.074 0.331 0.089 0.437 0.293 0.018 0.221 0.282 0.393 0.198 0.174 -0.034 0.137 0.042 0.185 0.238 0.544 0.264 0.240 -0.114 -0.042 0.036 0.034 class Alkaline phosphotase Alamine aminotransferase Aspartate aminotransferase Gamma-glutamyl transpeptidase Drinks per day 1.000 -0.098 -0.035 0.076 simetrik 0.157 0.146 0.740 0.133 0.503 0.528 -0.022 0.101 0.207 0.280 0.341
Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion class Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses 1.000 0.716 0.818 0.645 0.819 0.655 0.907 simetrik 0.697 0.486 0.706 0.683 0.522 0.752 0.720 0.600 0.823 0.593 0.692 0.714 0.671 0.586 0.757 0.558 0.756 0.736 0.667 0.616 0.681 0.712 0.536 0.723 0.719 0.603 0.629 0.584 0.666 0.423 0.350 0.459 0.439 0.418 0.479 0.339 0.344 0.428
Zayıf – Orta - Yüksek -Gerçek BENZETİM ÇALIŞMASI Veri türetme, R programında ‘BinNor’ paketi kullanılarak yapılmıştır. Bu paketin kullanılmasının amacı, gerçeğe yakın bir veri seti türetebilmektir. Ayrıca pozitif tanımlı matris elde edebilmek için psych paketi kullanılmıştır. örneklem genişliği 100 – 250 – 500 ve 1000 korelasyon düzeyi Zayıf – Orta - Yüksek -Gerçek Sınıflama Yöntemleri Değerlendirme caret Prevalans %50 alındı Analizler 1000 kez tekrarlanmış, sınıflama yöntemleri 5 katlı çapraz geçerlik Değişken sayısı: 15 25 50
BENZETİM ÇALIŞMASI İÇİN KORELASYON MATRİSLERİ (birkaç örnek) Düşük Orta y x1 x2 x3 x4 x5 x6 1 0.4 -0.5 0.0 -0.1 y x1 x2 x3 x4 x5 1 0.1 Yüksek Gerçek y x1 x2 x3 x4 x5 x6 1.00 0.38 -0.38 0.32 -0.28 0.19 0.01 0.28 0.33 0.26 0.07 -0.33 0.35 0.03 -0.37 0.08 0.09 0.13 y x1 x2 x3 x4 x5 1 0.75 0.45 0.0 0.60 -0.23
GERÇEK VERİ SETLERİ SONUÇLARI Yöntemler F-ölçüsü diyabet SVM 0.64 CART 0.69 RF 0.48 MLP karaciğer 0.77 0.76 meme kanseri 0.95 0.90
GERÇEK VERİ SETLERİ SONUÇLARI
BENZETİM ÇALIŞMASI SONUÇLARI Korelasyon Değişken sayısı SVM CART RF MLP 100 250 500 1000 DÜŞÜK 15 0.550 0.563 0.577 0.586 0.520 0.523 0.531 0.541 0.530 0.535 0.544 0.514 0.537 0.543 25 0.568 0.579 0.589 0.597 0.516 0.538 0.539 0.545 0.518 0.532 0.546 0.511 0.534 50 0.582 0.599 0.609 0.610 0.549 0.521 0.540 0.548 0.547 ORTA 0.766 0.808 0.824 0.829 0.717 0.782 0.800 0.820 0.780 0.819 0.722 0.801 0.818 0.755 0.777 0.793 0.707 0.775 0.786 0.795 0.704 0.776 0.706 0.784 0.678 0.735 0.763 0.700 0.773 0.796 0.698 0.703 YÜKSEK 0.690 0.701 0.709 0.697 0.714 0.716 0.712 0.699 0.715 0.713 0.668 0.720 0.705 0.723 0.710 0.724 0.719 0.650 0.814 0.730 0.718 GERÇEK 0.737 0.745 0.595 0.656 0.692 0.598 0.653 0.693 0.721 0.594 0.659 0.695 0.778 0.606 0.655 0.677 0.601 0.607 0.657
Sonuç ve Tartışma Genel olarak bakıldığında, benzetim çalışmamızda; örneklem genişliği arttıkça performans değerleri de artmıştır. Düşük korelasyon ile üretilmiş verilerde (15-25-50 değişkenli) değişken sayısı arttıkça performans değerleri artış gösterirken diğer korelasyon düzeylerinde performans değerleri düşmüştür. Korelasyon düzeyi arttıkça, performansların arttığı söylenebilir. Düşük korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerinin performansından yaklaşık %5 daha başarılı bulunmuştur. Gerçek korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerine göre %10 daha başarılı bulunmuştur.
TARTIŞMA MLP yöntemi, doğrusal olmayan ilişki yapısı olduğunda daha çok tercih edilen bir yöntemdir. Benzetim çalışmamızda, doğrusal ilişkili veri türettiğimiz için MLP’ nin performans sonuçları, SVM’ ye göre biraz daha düşük bulunmuştur. Literatürdeki çoğu çalışmada veri türetilirken, ya sadece sayısal değişken ya da nitel ve sayısal değişkenler ayrı ayrı türetilmiştir. Bizim çalışmamızda, iki veri türü bir arada türetilmiştir.
KAYNAKLAR Coşkun Hamzaçebi, Yapay Sinir Ağları ile Tahmin, Ekin Basım Yayın, İstanbul, 2011. Ercan Öztemel, Yapay Sinir Ağları, Papatya Yayıncılık, İstanbul, 2011. Burges, C. (1998). A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining And Knowledge Discovery, 2, 121-167. Osuna, E. E., Freund, R., & Girosi, F. (1997). Support Vector Machines: Training and Applications. Massachusetts Institute of Technology and Artificial Intelligence Laboratory, 144. Ivan Galkin, Crash Introduction to Artificial Neural Network, 2003,http://ulcar.uml.edu/~iag/CS/Intro-to-ANN.html James A. Freeman, David M. Skapura. Neural Networks: Algorithms, Applications, and Programming Techniques,1. Basım, Addison Wesley,1991. Gerard Dreyfus, Neural Networks Methodology and Appplications, 1.Basım,Paris: Springer, 2005. Laurene Fausett, Fundamentals of Neural Networks: Architectures, Algorithms and Applications, 1. Basım, New Jersey: Prentice Hall,1994. https://cran.r-project.org/web/packages/BinNor/BinNor.pdf http://topepo.github.io/caret/index.html http://archive.ics.uci.edu/ml/
Teşekkürler…