Danışman Öğretim Üyesi: Erdem KARABULUT

Slides:

Advertisements

Benzer bir sunumlar

ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI

Advertisements

ALTIN FİYATININ VE İŞLEM HACMİNİN TAHMİNİ

MIT563 Yapay Zeka ve Makine Öğrenmesi

Enerji Sistemlerinde Yöneylem Araştırması EBT Bahar Yarıyılı

Pozitif ve Negatif Ürün İlişkilerini İncelemek için Bir Çerçeve: Yeniden Madencilik (Re-mining) Ayhan Demiriz G. Ertek, T. Atan ve U. Kula 30 Haziran 2010,

Support Vector Machines

YMT 222 SAYISAL ANALİZ (Bölüm 6a)

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Karar Ağaçları.

MIT563 Yapay Zeka ve Makine Öğrenmesi

Karar Ağaçları İle Sınıflandırma

Mükemmel İletken Yüzeyler Üzerindeki Hedeflerin Yapay Sinir Ağı İle Sınıflandırılması SENEM MAKAL

5.GRUP Şule Şahin Tuğba Karakuş Gizem Osan

Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü

KARAKTER TANIMA Utku Cevre Barış Özkan.

Yrd. Doç. Dr. Ayhan Demiriz

BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ

Neden İki Faktörlü Anova Yapıyoruz?

YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI

Makine Öğrenmesinde Yeni Problemler

Meta Analizinde Son Gelişmeler

Sıklık Tabloları ve Tek Değişkenli Grafikler

Sınıflandırma ve Tahmin

SİStem ANALİZİ Ders Hakkında Bilgi.

ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.

POLATLILILAR FER İ YA NUR TA Ş KAYA-EZG İ M İ HR İ BAN TARHAN.

IMGK 207-Bilimsel araştırma yöntemleri

Bölüm 4 için Ders Notları Introduction to Data Mining

VERİ MADENCİLİĞİ UYGULAMALARI

YURTTA KALAN ÖĞRENCİLERİN KAYGI DÜZEYİNİN DEPRESYONA ETKİSİ NEDİR ?

Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )

Yapay Zeka Desteği ile Parfüm Öneri Sistemi

Uç Öğrenme Makineleri Kullanılarak Internet Trafik Bilgisinin Sınıflandırılması Fatih ERTAM Engin AVCI AB2016-Aydın.

BİL3112 Makine Öğrenimi (Machine Learning)

Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,

Enerji Sistemlerinde Akıllı Sistem Uygulamaları Akademik Yılı Bahar yarıyılı Doç.Dr. Raşit ATA

YAPAY SİNİR AĞLARI.

Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)

Bölüm 2 : Yapay Zeka nedir?

Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok

Lineer Regresyon. Amaç: Bu konu sonunda Tıp Fakültesi 1. sınıf öğrencilerinin çeşitli bağımsız değişkenleri kullanarak bir nümerik değişkenin değerini.

Makine Öğrenmesinde Yeni Problemler YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ.

1. Ders: Ders İşleyişi Hazırlayan ve Sunan:

Engin Kaya Kontrol Mühendisliği İstanbul Teknik Üniversitesi

Örüntü Tanıma.

Sınıflandırma ve Tahmin

Araş. Gör. Dinçer göksülük

Bölüm 4 için Ders Notları Introduction to Data Mining

Engin Kaya Kontrol Mühendisliği İstanbul Teknik Üniversitesi

Prof. Dr. Hamit Acemoğlu Tıp Eğitimi Anabilim Dalı

Karar Ağaçları (Decision trees)

YAPAY SİNİR AĞLARININ YAPISI VE TEMEL ELEMANLARI

DEĞİŞİM ÖLÇÜLERİ.

Öğrenme ve Sınıflama.

Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)

Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme

S. Haykin, “Neural Networks- A Comprehensive Foundation”,

Servet ÖZMEN Karabük Üniversitesi, Fen Bilimleri Enstitüsü,

Makine Öğrenmesinde Yeni Problemler

Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun

BENZETİM 2. Ders Prof.Dr.Berna Dengiz Sistemin Performans Ölçütleri

Yapay Zeka Nadir Can KAVKAS

ÖDE5024 DAVRANIŞ BİLİMLERİNDE İSTATİSTİK Yüksek Lisans

Karar Ağaçları Destekli Vadeli Mevduat Analizi

Yapay Öğrenme Teorisi Bölüm-2

Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)

Sunum transkripti:

Danışman Öğretim Üyesi: Erdem KARABULUT ÖRNEKLEM GENİŞLİĞİ, Değişken sayısı VE KORELASYON YAPISI DEĞİŞİMİNİN SINIFLAMA YÖNTEMLERİNİN PERFORMANSLARI ÜZERİNE ETKİSİ Duygu AYDIN HAKLI Danışman Öğretim Üyesi: Erdem KARABULUT Hacettepe Üniversitesi, Biyoistatistik ABD

AMAÇ Hem kategorik hem de sayısal değişkenlerin bir arada olduğu gerçek veri setleri ve benzetim çalışmasında farklı korelasyon yapısı, değişken sayısı ve örneklem genişlikleri kullanılarak elde edilen veriler üzerinde, Sınıflandırma ve Regresyon Ağaçları (CART), Destek Vektör Makineleri (SVM), Random Forest (RF) ve Çok Katmanlı Algılayıcı (MLP) sınıflama yöntemlerinin performanslarını karşılaştırmak amaçlanmıştır.

İÇERİK Giriş Yöntem Bulgular Sonuç ve Tartışma Sınıflama Kullanılan Sınıflama Yöntemleri Gerçek veri setleri Benzetim çalışması Bulgular Gerçek veri setlerinden elde edilen sonuçlar Benzetim çalışmasından elde edilen sonuçlar Sonuç ve Tartışma

SINIFLAMA %70 %30 Sınıflamanın temel kuralları: Veride birçok değişken vardır ve bunlardan bir tanesi sınıf bilgisidir. Sınıflama işlemi genelde iki ana adımdan oluşmaktadır. Eğitim veri setine göre veriyi sınıflandırır(model kurar) Oluşturulan model öğrenme kümesinde yer almayan veri seti (test seti) ile denenerek başarısı ölçülür. Genellikle EĞİTİM SETİ %70 TEST SETİ %30

KULLANILAN SINIFLAMA YÖNTEMLERİ Sınıflama Sınıflama ve Regresyon Ağaçları (CART) Random Forest(RF) Çok Katmanlı Algılıyıcı(MLP) Destek Vektör Makineleri (SVM)

SINIFLANDIRMA VE REGRESYON AĞAÇLARI(CART) Karar düğümü Sayısal veya kategorik değişkenleri, bir grup sayısal veya kategorik değişkenler yardımı ile tahmin etmeye yarayan bir algoritmadır. Karar düğümleri yapılacak olan testi, dallar testteki değerleri, yapraklar ise sınıfı belirtmektedir. Karar düğümleri ile belirtilen testin sonucu ağacın veri kaybetmeden dallara ayrılmasını sağlar. Bilgi ölçütü olarak “Gini indeksi” kullanmaktadır. Girdi değişkenler, ağacın bölünme aşamasında sadece 2’ye bölünebilir. Bu nedenle fazla sayıda kategori içeren girdi değişken olduğunda dezavantaja sahiptir. Dallar Yapraklar

RANDOM FOREST(RF) RF, çok sayıda karar ağacının bir araya gelmesiyle oluşan bir tekniktir. Sınıflama yapan her bir karar ağacı bireysel oy almakta ve işlem sonunda en yüksek oyu alan karar ağacının yaptığı sınıflama kullanılmaktadır. Her bir karar ağacı eğitildiği veri grubundan farklı bir veri grubuyla karşılaştığında aynı performansı gösteremeyeceği için, yöntem çok sayıda karar ağacını birleştirmekte ve bu sayede sınıflama performansını ve doğru sınıflama oranını artırmaktadır. RF yönteminde ağaç, bütün verinin oluşturduğu tek bir düğümle başlamakta, eğer örneklerin hepsi aynı sınıfa ait ise düğüm, yaprak olarak sonlanmakta ve sınıf etiketi verilmektedir. Eğer örnekler aynı sınıfa dahil değilse, örnekleri sınıflara en iyi bölecek olan özellik seçilmektedir.

ÇOK KATMANLI ALGILAYICI(MLP) Çok katmanlı algılayıcı ağlar, birçok tek katmanlı yapının girdi ve çıktı katmanları arasında yer alan bir veya daha fazla gizli katman bulunduran ileri beslemeli yapay sinir ağları yöntemlerinden birisidir. Gizli katman sayıları ve her katmandaki nöron sayısı uygulamaya göre değişkenlik göstermektedir. Girdi ve çıktıları arasındaki ilişkilerin doğrusal olmaması durumunda çok katmanlı modeller kullanılır.

DESTEK VEKTÖR MAKİNELERİ(SVM) Son yıllarda özellikle veri madenciliğinde değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için sıklıkla kullanılmaktadır. Bu yöntem, temelde iki sınıflı problemlerin çözümünde doğrusal bir sınıflayıcı olarak düşünülmüş, daha sonra doğrusal olarak ayrılamayan veya çok sınıflı sınıflama problemlerinin çözümüne de genelleştirilmiştir. Doğrusal olarak ayrılamayan verileri sınıflandırmak için, veri çeşitli yollarla farklı bir boyuta taşınır ve burada en iyi ayırıcı hiperdüzlem bulunarak veri sınıflandırılır.

Örneklem Genişlikleri GERÇEK VERİ SETLERİ Veri Setleri Örneklem Genişlikleri Değişken Sayısı Diyabet hastalığı 500/268=768 8 Karaciğer hastalığı 414/165=579 10 Meme Kanseri 444/239=683 http://archive.ics.uci.edu/ml/ UCI Machine Learning Datasets

GERÇEK VERİ SETLERİ(korelasyon) class Num. times pregnant Plasma glucose Diastolic BP Skin fold thickness 2-Hour serum insulin Body mass index Diabetes pedigree Age 1.000 0.222 0.467 0.129 0.065 0.141 0.153 simetrik 0.075 -0.082 0.057 0.207 0.131 -0.074 0.331 0.089 0.437 0.293 0.018 0.221 0.282 0.393 0.198 0.174 -0.034 0.137 0.042 0.185 0.238 0.544 0.264 0.240 -0.114 -0.042 0.036 0.034 class Alkaline phosphotase Alamine aminotransferase Aspartate aminotransferase Gamma-glutamyl transpeptidase Drinks per day 1.000 -0.098 -0.035 0.076 simetrik 0.157 0.146 0.740 0.133 0.503 0.528 -0.022 0.101 0.207 0.280 0.341

Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion class Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses 1.000 0.716 0.818 0.645 0.819 0.655 0.907 simetrik 0.697 0.486 0.706 0.683 0.522 0.752 0.720 0.600 0.823 0.593 0.692 0.714 0.671 0.586 0.757 0.558 0.756 0.736 0.667 0.616 0.681 0.712 0.536 0.723 0.719 0.603 0.629 0.584 0.666 0.423 0.350 0.459 0.439 0.418 0.479 0.339 0.344 0.428

Zayıf – Orta - Yüksek -Gerçek BENZETİM ÇALIŞMASI Veri türetme, R programında ‘BinNor’ paketi kullanılarak yapılmıştır. Bu paketin kullanılmasının amacı, gerçeğe yakın bir veri seti türetebilmektir. Ayrıca pozitif tanımlı matris elde edebilmek için psych paketi kullanılmıştır. örneklem genişliği 100 – 250 – 500 ve 1000 korelasyon düzeyi Zayıf – Orta - Yüksek -Gerçek Sınıflama Yöntemleri Değerlendirme caret Prevalans %50 alındı Analizler 1000 kez tekrarlanmış, sınıflama yöntemleri 5 katlı çapraz geçerlik Değişken sayısı: 15 25 50

BENZETİM ÇALIŞMASI İÇİN KORELASYON MATRİSLERİ (birkaç örnek) Düşük Orta y x1 x2 x3 x4 x5 x6 1 0.4 -0.5 0.0 -0.1 y x1 x2 x3 x4 x5 1 0.1 Yüksek Gerçek y x1 x2 x3 x4 x5 x6 1.00 0.38 -0.38 0.32 -0.28 0.19 0.01 0.28 0.33 0.26 0.07 -0.33 0.35 0.03 -0.37 0.08 0.09 0.13 y x1 x2 x3 x4 x5 1 0.75 0.45 0.0 0.60 -0.23

GERÇEK VERİ SETLERİ SONUÇLARI Yöntemler F-ölçüsü diyabet SVM 0.64 CART 0.69 RF 0.48 MLP karaciğer 0.77 0.76 meme kanseri 0.95 0.90

GERÇEK VERİ SETLERİ SONUÇLARI

BENZETİM ÇALIŞMASI SONUÇLARI Korelasyon Değişken sayısı SVM CART RF MLP 100 250 500 1000 DÜŞÜK 15 0.550 0.563 0.577 0.586 0.520 0.523 0.531 0.541 0.530 0.535 0.544 0.514 0.537 0.543 25 0.568 0.579 0.589 0.597 0.516 0.538 0.539 0.545 0.518 0.532 0.546 0.511 0.534 50 0.582 0.599 0.609 0.610 0.549 0.521 0.540 0.548 0.547 ORTA 0.766 0.808 0.824 0.829 0.717 0.782 0.800 0.820 0.780 0.819 0.722 0.801 0.818 0.755 0.777 0.793 0.707 0.775 0.786 0.795 0.704 0.776 0.706 0.784 0.678 0.735 0.763 0.700 0.773 0.796 0.698 0.703 YÜKSEK 0.690 0.701 0.709 0.697 0.714 0.716 0.712 0.699 0.715 0.713 0.668 0.720 0.705 0.723 0.710 0.724 0.719 0.650 0.814 0.730 0.718 GERÇEK 0.737 0.745 0.595 0.656 0.692 0.598 0.653 0.693 0.721 0.594 0.659 0.695 0.778 0.606 0.655 0.677 0.601 0.607 0.657

Sonuç ve Tartışma Genel olarak bakıldığında, benzetim çalışmamızda; örneklem genişliği arttıkça performans değerleri de artmıştır. Düşük korelasyon ile üretilmiş verilerde (15-25-50 değişkenli) değişken sayısı arttıkça performans değerleri artış gösterirken diğer korelasyon düzeylerinde performans değerleri düşmüştür. Korelasyon düzeyi arttıkça, performansların arttığı söylenebilir. Düşük korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerinin performansından yaklaşık %5 daha başarılı bulunmuştur. Gerçek korelasyon ile üretilmiş verilerde SVM’nin performansı diğer sınıflama yöntemlerine göre %10 daha başarılı bulunmuştur.

TARTIŞMA MLP yöntemi, doğrusal olmayan ilişki yapısı olduğunda daha çok tercih edilen bir yöntemdir. Benzetim çalışmamızda, doğrusal ilişkili veri türettiğimiz için MLP’ nin performans sonuçları, SVM’ ye göre biraz daha düşük bulunmuştur. Literatürdeki çoğu çalışmada veri türetilirken, ya sadece sayısal değişken ya da nitel ve sayısal değişkenler ayrı ayrı türetilmiştir. Bizim çalışmamızda, iki veri türü bir arada türetilmiştir.

KAYNAKLAR Coşkun Hamzaçebi, Yapay Sinir Ağları ile Tahmin, Ekin Basım Yayın, İstanbul, 2011. Ercan Öztemel, Yapay Sinir Ağları, Papatya Yayıncılık, İstanbul, 2011. Burges, C. (1998). A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining And Knowledge Discovery, 2, 121-167. Osuna, E. E., Freund, R., & Girosi, F. (1997). Support Vector Machines: Training and Applications. Massachusetts Institute of Technology and Artificial Intelligence Laboratory, 144. Ivan Galkin, Crash Introduction to Artificial Neural Network, 2003,http://ulcar.uml.edu/~iag/CS/Intro-to-ANN.html James A. Freeman, David M. Skapura. Neural Networks: Algorithms, Applications, and Programming Techniques,1. Basım, Addison Wesley,1991. Gerard Dreyfus, Neural Networks Methodology and Appplications, 1.Basım,Paris: Springer, 2005. Laurene Fausett, Fundamentals of Neural Networks: Architectures, Algorithms and Applications, 1. Basım, New Jersey: Prentice Hall,1994. https://cran.r-project.org/web/packages/BinNor/BinNor.pdf http://topepo.github.io/caret/index.html http://archive.ics.uci.edu/ml/

Teşekkürler…