Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Yeni Makine Öğrenmesi Metotları ve İlaç Tasarımında Uygulamaları M. Fatih Amasyalı İstanbul,2008 Tez Yürütücüsü: Prof. Dr. Oya KALIPSIZ İkinci Danışman:

Benzer bir sunumlar


... konulu sunumlar: "Yeni Makine Öğrenmesi Metotları ve İlaç Tasarımında Uygulamaları M. Fatih Amasyalı İstanbul,2008 Tez Yürütücüsü: Prof. Dr. Oya KALIPSIZ İkinci Danışman:"— Sunum transkripti:

1 Yeni Makine Öğrenmesi Metotları ve İlaç Tasarımında Uygulamaları M. Fatih Amasyalı İstanbul,2008 Tez Yürütücüsü: Prof. Dr. Oya KALIPSIZ İkinci Danışman: Prof. Dr. Okan ERSOY YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

2 Sunum Planı Makine Öğrenmesi Nedir? İlaç nedir? Nasıl tasarlanır? Sınıflandırma Sınıflandırma Komiteleri Kümeleme Kümeleme Komiteleri Özellik Seçimi Regresyon Regresyon Komiteleri Meta-Regresyon

3 Doktora tez çalışması olarak bu konunun seçilmesinin sebepleri Türkiye’nin gelecek vizyonunda bilgisayar destekli ilaç tasarımı konusunun yer alması ve çalışmanın bu konudaki araştırmacılara fayda sağlayacak olması Makine öğrenmesi metotlarının elde ettikleri birçok başarı olmasına rağmen QSAR ve QSPR gibi genelde zor modellenebilen veri tabanları için çalışmaların hala yoğun bir şekilde devam ediyor olması Geliştirilen metotların sadece ilaç tasarımı uygulamaları için değil her türlü sınıflandırma, kümeleme ve regresyon problemlerine uygulanabilecek yapıda olması

4 Makine Öğrenmesi Makine öğrenmesi metotları geçmişteki verileri kullanarak veriye en uygun modeli bulmaya çalışırlar. Yeni gelen verileri de bu modele göre analiz ederler ve sonuç üretirler.

5 Makine Öğrenmesinin İlgilendiği Problemler Sınıflandırma Kümeleme Eğri Uydurma (Regresyon) Özellik seçimi/çıkarımı

6 Makineler, insanlığın işgücüne sağladıkları katkıyı, makine öğrenmesi metotları sayesinde insanlığın beyin gücüne de sağlamaya başlamışlardır.

7 İlaç Nedir? WHO (Dünya Sağlık Örgütü) ‘nun Tanımı: “Patolojik Olguları Ve Fizyolojik Sistemleri Bireyin Yararı Için Değiştirmek Ya Da İncelemek Amacıyla Kullanılması Öngörülen Ürün”

8 İlaçlar Nasıl Çalışır? İlaçların etki mekanizmalarına bir örnek

9 İlaçlardan Beklenen Özellikler Proteine çok sıkı ya da çok gevşek bağlanmama Vücutta yan etkileri olmama Vücutta hedefin haricindeki bölgelere gitmeme Kan dolaşımına girebilme Hastalığa iyi yönde etki edebilme

10 İlaç geliştirme aşamaları Yaklaşık 800 milyon $ yıl

11 İlaç tasarımında makine öğrenmesi metotlarının kullanımı Makine Öğrenmesi Metotları

12 Moleküllerden Sayılara-1 Moleküllerin SDF formatlarından hesaplanan özellikleri 3 grupta toplanmaktadır. –Genel Özellikler: Molekül Ağırlığı, Erime noktası, Kaynama noktası –2D Özellikler: Molekülü oluşturan atomların birbirlerine bağılılıkları, bağ türleri, belirli fonksiyonel grupların molekülde bulunma sayıları, halka sayıları –3D Özellikler: Yüzey özellikleri

13 Moleküllerden Sayılara-2 MolekülÖzellik1Özellik2…ÖzellikNSınıf NH H2OH2O NCI … C4HC4H467N MOE Adriana vs.

14 Sınıflandırma Karar Ağaçları Cline Algoritma Ailesi Deneysel Sonuçlar

15 Karar Ağaçları

16 Cline Algoritma Ailesi CL2 CL4 CLPCACLM CLLDA

17 CLLVQ ? CLLDA CLM CLLVQ ? CLLDA CLM CLLVQ ? CLLDA CLM CLLVQ CLMIX CLMIX, her bölgede en iyi sonucu verecek metodu bulup kullanır.

18 Cline Sınıflandırma Türleri Yaprak = yapraklardaki sınıf etiketlerinin kullanılması Dal = her bir düğümdeki sınıf olasılıklarının kullanılması –Test örneği ağaç üzerinde ilerlerken geçtiği her bir düğümdeki bu olasılıkları da toplayarak ilerler ve olasılığı yüksek olan sınıfa atanır.

19 Veri Kümeleri Veri KümesiKod Özellik Sayısı Sınıf Sayısı Örnek Sayısı Rasgele Başarı (%) Breast cancer WisconsinBcw Boston housingBos Congressional votingVot Bupa liver disordersBld StatLog heart diseaseHea Pima Indians diabetesPid StatLog imageSeg StatLog vehicle silhouetteVeh

20 Cline ağaçlarıyla elde edilen sonuçlar MetotBaşarı OranıVaryans Yaprak Dal Budanmamış Budanmış CL CL CLLDA CLLVQ CLM CLMIX Başarılarına göre: Dal>Yaprak Budanmış>Budanmamış CLMIX>diğer Cline’lar Varyanslarına göre: Dal>Yaprak Budanmış>Budanmamış CLLVQ>diğer Cline’lar

21 CL2 %41 CLM %30 CLLDA %30 CLMIX %20 %60 eğitim, %40 test, optimum hata %21

22 CLMIX daha başarılı, çünkü: Bölgesel kararlar verebiliyor. Ağacın tüm karar düğümlerinde aynı algoritmaya bağımlı değil. Her Cline algoritmasını daha başarılı olduğu bölgeye uyguluyor. Gürültüye daha dayanıklı.

23 Sınıflandırma Komiteleri Karar Ağaçları Karar Ormanları

24 CLM Forest CLLDA Forest CLLVQ Forest CLMIX Forest CLMIX ForestBS Random Forest Ormandaki ağaç sayısı ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ±1.03 Ağaçların karar düğümlerinde kullanılan özellik sayısı log 2 M81.84 ± ± ± ± ± ±1.05 2log 2 M82.52 ± ± ± ± ± ±1.06 Test örneklerinin Sınıflandırılmasında kullanılan yöntem Yaprak81.90 ± ± ± ± ± Dal82.46 ± ± ± ± ±1.62 Toplu Sonuçlar

25 Toplu sonuçlardan elde edilen çıkarımlar En başarılı algoritma bootstrapping kullanılmış Cline ormanlarıdır. Ormandaki ağaç sayısı arttıkça Cline ve Random ormanların başarısı artarken varyansı da genelde azalıyor. Ormanlarda kullanılan özellik sayısı arttıkça Cline ormanlarının başarısı artarken, varyansı azalıyor. Random ormanlarının ise başarısı azalıyor ve varyansında önemli bir değişiklik yok. Bootstrapping Cline ormanlarında başarıyı arttırıyor. Cline ormanlarında dal kullanımı başarıyı arttırıyor.

26 Veri Kümeleri Ort. Başarı Ort. std * Sayısı ? Sayısı Algoritmalar bcwbosvotbldheapidsegveh CLMIX_forestBS_100_y_2log 2 M** ***** CLMIX_forestBS_100_d_2log 2 M* ***** CLMIX_forestBS_30_d_2log 2 M** ***** CLMIX_forestBS_30_y_2log 2 M** ***** Random Forest_100 _log 2 M** ***** Random Forest_30_ log 2 M** ** ** QLO* * **** Random Forest_20_ log 2 M**** ** Random Forest_100_ 2log 2 M * * *** QL1* **** LMT* * ** C4R* * ** C4T * * IM0* * * IB0* * * IM ** IC0 (CART) * IB * ST0 ** OCM ?* * OCU * IC1 (CART) * ST1 * QU0* * ** FTL *** FTU * QU1 ** OCL? * ?* CAL ?* T1 ? ?? ??

27 Bireysel sonuçlardan elde edilen çıkarımlar En başarılı 4 Cline ormanı ve Random orman konfigürasyonları, 22 karar ağacı ile karşılaştırılmıştır. En başarılı 4 algoritma Cline ailesindendir. Tek bir karar ağacı kullanmak yerine karar ormanı kullanmak daha başarılı sonuçlar üretmektedir. Cline ormanlarının varyansları, Random ormanlardan daha azdır. Cline ormanları 8 veri kümesinden 7’sinde ilk standart sapma aralığına girebilmiştir. Bu da algoritmanın çeşitli veri kümelerinde başarısını kanıtlamaktadır. Cline ormanlarında dal kullanımı varyansı arttırmaktadır.

28 Eğitim Zamanları Algoritmaların eğitimi için gereken zaman arttıkça, performansları da genelde artmaktadır. CLMIX ormanı, en fazla zaman gerektiren Cline algoritmasıdır. CLMIX ormanı, en başarılı algoritma olmasına rağmen, en fazla eğitim zamanına sahip algoritma değildir.

29 Ağaç Kararlarını Ağırlıklandırma Karar ağaçlarının verdikleri kararlara eşit ağırlık vermek yerine ağaçların çeşitli özelliklerine göre kararları ağırlıklandırılmıştır: Doğrulama-validation setindeki en başarılı X tane ağaç kullanılarak: Eğitim verisinden bir kısmı doğrulama verisi olarak ayrılmış ve ormandaki her ağacın bu doğrulama setindeki başarısı ölçülmüştür. Ormanın kararı, en başarılı X tanesinin kararının ortalamasıdır. Ağaçtaki karar düğümü sayısıyla doğru/ters orantılı olarak kararını ağırlıklandırmak: Ormandaki her ağacın karar düğüm sayısı bulunmuş ve ağaçların kararları normalize edilmiş karar düğüm sayısıyla ya da tersiyle çarpılarak ağaçların kararları ağırlıklandırılmıştır.

30 İlaç verilerindeki sonuçlar Algoritmabbp2monoClean1camutag232,00 Ort RandomForest ,1791,9586,7668,4287,7656,8978,99 RandomForest ,1793,187,6171,9288,8257,3280,16 RandomForest ,9293,7990,1370,3788,8258,1880,54 RandomForest ,7893,2991,0371,9790,8259,8781,46 RandomForest ,6192,3786,8969,4690,3957,8579,43 RandomForest ,0893,4289,1270,8790,4958,5780,59 RandomForest ,9493,6589,6571,0890,8259,6580,97 RandomForest ,3293,8690,6171,7790,4559,3681,23 CLMforest_100_yaprak_ ,66 CLLVQ4_forest_100_yaprak_16 (ağırlıklı – yaprak sayısı ile doğru orantılı ) 81,293,3592,2972,1290,559,2581,45 CLLVQ_forest_100_yaprak_16 (ağırlıklı – yaprak sayısı ile doğru orantılı ) 81,4193,2391,3671,288,2556,0980,26 CLM_forest_100_yaprak_16 (ağırlıklı – yaprak sayısı ile doğru orantılı ) 83,4193,8191,1673,7689,2560,4781,98

31 İlaç verilerinden elde edilen çıkarımlar İlaç verilerinde, en başarılı algoritma yine Cline ailesindendir. Ağaç sayısının arttıkça Cline ve Random ormanlarda performans yükseliyor. Ağaçlarda kullanılan özellik sayısı arttıkça Cline ormanlarında performans yükselirken Random ormanlarda pek değişmiyor. CLLDA kötü (Çünkü ilaç verilerindeki özelliklerin birbiriyle yüksek korelasyonu LDA’deki matris tersi alma işlemini rasgeleleştiriyor). Bootstrapping kötü (Sebebi bulunamadı) Dal kötü (Sebebi bulunamadı) Budama kötü (Sebebi bulunamadı) Kararların yaprak sayısıyla doğru orantılı olarak ağırlıklandırılması, hepsinin ortalamasının alınmasından daha iyi sonuç veriyor (Çünkü büyük – budanmamış – ağaçlar daha başarılı).

32 Veri koleksiyonlarına göre karşılaştırmalar UCI verileriİlaç verileri Ağaç sayısıArttıkça başarı da artıyor. Ağaçlarda kullanılan özellik sayısı Arttıkça başarı da artıyor. En başarılı algoritmaCLMIX ormanı CLM ormanı BootstrappingDaha başarılıDaha başarısız DalDaha başarılıDaha başarısız BudamaDaha başarılıDaha başarısız Karar AğırlıklandırmaDenenmediDaha başarılı

33 ClineToolbox

34 Kümeleme Clusline Algoritmaları Deneysel Sonuçlar

35 ClusLine Karar ağacı yapısındadır (verileri hiper düzlemlerle alt uzaylara böler). Bölme işlemi bittiğinde her alt uzaydaki örneklerin merkezlerini küme merkezleri olarak belirler. Bir örneğin ait olduğu kümeyi belirlerken, oluşan ağacı kullanmaz, örneğe en yakın küme merkezinin kümesine atar.

36 ClusLine 1. adım2.adımOluşan kümelerOluşan ağaç Durma koşulu: Veri kümesindeki tüm örneklerin tüm özelliklerinin varyanslarının toplamı, her bir düğümdeki örneklerin tüm özelliklerinin varyanslarının toplamının X katından küçükse bölmeyi durdur. Küme sayısı: Algoritma kendisi bulur. Tek parametre: X>1 olmalı.

37 Clusline Versiyonları CLus2CLus4 CLusW

38 14 veri kümesinden elde edilmiş 37 kümeleme problemindeki performanslar

39 Sınıflandırma başarıları kriterine göre kümeleme alg. karşılaştırılmaları ClusLine2ClusLine4ClusLineW Farthest First K- Means SOM Ort. Sınıflandırma Başarıları (%) 73,472,773,361,575,174,2 Ort. rankları

40 ClusLine2 ClusLine4 ClusLineW Farthest First Kmeans SOM Silüet genişliği ve DB indeksi kriterlerine göre kümeleme alg. karşılaştırılmaları DB indeks, küme içi varyansların azlığını, kümeler arası uzaklıkların fazlalığını ölçer. Siluet genişliği, her bir örneğin kendi kümesindeki diğer örneklere uzaklığının azlığını, diğer kümelerdeki örneklere uzaklığının fazlalığını ölçer.

41 Sınıflandırma başarısı ve ranka göre : K-means>SOM>diğer Siluet Genişliğine göre: Clusline2>Clusline4>diğer Davies-Bouldin indeksine göre: SOM>Clusline2>diğer Clusline basitliğine rağmen başarılı sonuçlar elde etmiştir. Sadece SOM ve Clusline2, 3 kriterin 2’sinde ilk 2’ye girebilmişlerdir. Siluet genişliği ve DB indeks, tanımlarındaki benzerliğe rağmen oldukça farklı sonuçlar üretmiştir. Çıkarımlar

42 Kümeleme Komiteleri

43 Graf tabanlı Örnek tabanlı yaklaşım: Grafın köşeleri örnekler, kenar ağırlıkları kenarın bağladığı iki köşedeki örneklerin kaç kümeleme sonucunda aynı küme içinde yer aldıklarıdır.

44 Küme tabanlı yaklaşım: Grafın köşeleri kümeler, kenar ağırlıkları kenarın bağladığı iki köşedeki kümenin birbirlerine Jaccard ölçümüne göre benzerliğidir ve Eşitlik teki şekilde bulunur. Jaccard ölçümü, ortak eleman sayılarının, birleşim kümesinin eleman sayısına oranı olarak tanımlanmıştır. Birçok kümeleyici sonucundan, kümeler arası benzerlik matrisi elde edilir.

45 Graf tabanlı: Elde edilen matrisleri graf olarak düşünüp graf bölümleme algoritmalarını kullanırlar. Hiyerarşik: –Elde edilen matrislerden hiyerarşik kümeleme yaparlar. –Kümelerin benzerlikleri hesaplanırken en başarılı sonucu “centroid” yaklaşımı (küme merkezlerinin öklid uzaklığı) vermektedir.

46 Karşılaştırılan yaklaşımlar GrafHiyerarşik Örnek tabanlı√√ Küme tabanlı√ Meta Küme tabanlı √

47 Sonuçlar Küme sayısı= Sınıf sayısıKüme sayısı= 2*Sınıf sayısı En başarılı kümeleme alg.Fuzzy KmeansKmeans En başarısız kümeleme alg.Hiyerarşik En başarılı sonucu üreten karar birleştirme alg. Hiyerarşik (2log 2 M adet özellik ve SOM ile) Hiyerarşik (2log 2 M adet özellik ve Kmeans ile) Ortalama en başarılı karar birleştirme alg. Graf tabanlı (2log 2 M adet özellik ile) Orijinal / birleştirme sonuçlarının performans sıralaması: orijinal

48 Kümeleyici sayısının performansa ve standart sapmaya etkisi (özellik sayısı 2log2M) (özellik sayısı log2M)

49 Özellik sayısının performansa ve standart sapmaya etkisi

50 Kümeleyici sayısının artışı performansı arttırırken standart sapması azaltmıştır. Özellik sayısının artışı performansı arttırırken standart sapması azaltmıştır. Özellik sayısı fazla iken kümeleyici sayısı artarken performans daha hızlı yükselirken, standart sapma daha hızlı azalmaktadır. Çıkarımlar

51 Özellik Seçimi Özellik seçimi karar ağaçlarıyla yapılabilir mi? Sorusuna cevap aranmıştır. Geliştirilen metotla, 6 özellik seçimi algoritması 13 sınıflandırma veri kümesi üzerinde karşılaştırılmıştır. Her bir veri kümesinin önce 7 özellik seçimi metoduyla boyutları indirgenmiş daha sonra 5 farklı sınıflandırma algoritmasının bu veri kümeleri üzerindeki performansları (10 CV) ölçülmüştür.

52 x1 x2 1x2-0.33x1+0.13=0

53 SVMeval Kullanıcının istediği kadar özellik kalıncaya kadar aşağıdaki 2 adımı tekrar et: 1.Sınıflandırma yapan hiper düzlemi SVM’le bul. 2.Hiper düzlemin katsayısı mutlak değerce en küçük olan özelliği veri kümesinden sil.

54 Cline Özellik Seçim Ormanı Cline karar ağaçlarında birçok hiper düzlem bulunmaktadır. Cline karar ormanlarında birçok ağaç bulunmaktadır. Yeni metotla, hiper düzlem parametrelerinden özellik seçimi yapılırken 2 adımlı bir işlem yapılır: 1.Her bir ağaçtaki hiper düzlem parametreleri kullanılarak kullanıcının istediği adet özellik döndürülür. 2.Ormandaki tüm ormanlardan gelen seçilmiş özelliklerden en fazla seçilmiş olanlardan kullanıcının istediği adedi seçilen özellikler olarak döndürülür. Her bir ağaçtan özellik seçimi için iki metot geliştirilmiştir: –Ağacın her düğümünde bulunan hiper düzlemlerin parametrelerinin mutlak değerlerinin ortalaması alınarak özellikler, parametrelerin mutlak değerlerine göre büyükten küçüğe sıralanıp, en büyük katsayıya sahip olanlar seçilir. –Ağacın kök düğümünde bulunan hiper düzlemin parametrelerinin mutlak değeri büyükten küçüğe sıralanıp, en büyük katsayıya sahip olanlar seçilir. (kullanılan)

55 Veri setiSınıf sayısıÖrnek sayısı Özellik sayısı Seçilen özellik sayısı Amlall Ann bi75ds derma gkanser Hava Pima Seg Wine Colon Mll Nerv Spam

56 Özellik seçimsizRAEInfoGainGainRatioSUAEOneRAChiKare Karar ormanlı özellik seçimi amlall8892,67891,60691,89291,60891,32291,3294,44 ann96,1296,35496,62296,87896,63496,22496,6295,456 bi75ds375,00866,1665,8861,30665,62860,5866,6550,154 derma97,41677,15276,94284,41675,056 84,4990,902 gkanser94,85495,16293,75893,67493,89293,80693,8991,488 hava88,2590,4788,66890,31489,67890,10688,5288,18 pima75,2675,7776,13 75,77 75,202 seg86,76275,71475,90485,33675,52470,57475,8180,4736 wine96,45497,64 96,21497,6493,896 colon76,52281,72884,73885,86483,8884,96283,484,19 mll85,26891,68890,77494,3690,25492,69490,5790,872 nerv61,66673,179,76669,96873,16873,83476,6376,996 spam89,61879,53888,53888,15489,82687,87887,7486,856 ortalama85,47784,08985,15185,84184,53283,77185,31284,55 Tablodaki her değer (son satır hariç), 5 algoritma *10 CV=50 denemenin sonucudur.

57 Çıkarımlar Özellik seçimi metotları arasında çok büyük performans farklılıkları yok. Ayrıca özellik seçimi 13 veri kümesinden 4’ünde başarıyı azaltmıştır. Özellik seçimi metotları arasında en başarılısı GainRatio’dur ve özellik seçimi yapılmadığında elde edilen ortalama başarıdan daha yüksek başarı elde eden tek metottur. Yeni geliştirilen metot sadece tek bir veri kümesinde başarılı sonuçlar vermiştir ve geliştirilmeye ihtiyacı vardır.

58 Regresyon Algoritma.Kmeans Regresyon. Eğitim: 1.Merkezleri rasgele ata. 2.Karesel hata bir eşik değerinin altına ininceye kadar ya da maksimum tekrar sayısına erişilene kadar 3.,4. ve 5. adımları tekrar et. 3.Örnekleri giriş verilerine göre en yakın oldukları merkezlere ata. 4.Merkezleri kendi kümelerine dâhil edilen örneklerin ortalamasına çek. 5.Merkezlere model olarak kendi kümelerindeki örneklerden geçen lineer bir fonksiyon ata. Algoritma.Kmeans Regresyon. Test: Verilen örneğe en yakın merkezi bul. Merkezdeki lineer modele göre örneğin çıkışını hesapla.

59 KMreg (K=3) KNN (K=3) ANN-10

60 KMreg (K=2) KNN (K=2) ANN-10

61 KMreg’in problemi KMreg KNN ANN

62 Veri kümesi deladelehouskineMachstoctriawisc KmregK=62,80975E-082,0937E-0615,705910, ,84410, , ,94 KmregK=52,85886E-082,09641E-0622, , ,82161, , ,38 KmregK=42,87865E-082,09466E-0615, , ,14841, , ,2873 KmregK=32,94481E-082,09165E-0614, , ,61841, , ,8612 KmregK=22,96207E-082,09933E-0614, , ,10322, , ,5286 KmregK=12,96619E-082,09967E-0624, , ,99555, , ,7495 KNNregK=63,74256E-082,6645E-0640, , ,95030, , ,0418 KNNregK=53,82845E-082,70896E-0641, , ,14990, , ,2698 KNNregK=43,96111E-082,79697E-0638, , ,71210, , ,1997 KNNregK=34,28769E-082,95249E-0640,128410, ,70170, , ,1165 KNNregK=24,63232E-083,26563E-0642, , ,32080, , ,5325 KNNregK=19,17237E-085,63869E-0685, , ,11542, , ,8018 m5p2,70603E-082,03082E-0613, , ,072040, , ,09851 Pacereg2,95565E-082,09737E-0622, , ,101455, , ,13189 Lineerreg2,95668E-082,09772E-0623, , ,480305, , ,65417 m5rules2,74631E-082,04041E-0614, , ,769920, , ,22476 Svmreg3,02169E-082,10616E-0624, , ,249075, , ,71176 m5'5,3824E-082,26576E-0512,81640, ,729313, , ,37471 Smoti4,00001E-082,6569E-0618, , ,339161, , ,74479 Sarılar birinciler, Yeşiller ikinciler.

63 Çıkarımlar Her bir özellik için elde edilen sonuçların birleştirilmesinde, ortalama alma gibi basit bir mekanizma kullanılmasına rağmen umut vaad eden sonuçlar elde edilmiştir. Karşılaştırıldığı algoritmalar literatürde en başarılı olarak gösterilen algoritmalardır. Geliştirilmeye ihtiyacı var.

64 Regresyon Komiteleri 25 komite-algoritma ikilisinin 36 ilaç veri kümesi üzerindeki performans sıralama ortalamaları BGADDATTRSOrjOrt Rep M5P PLS SLR KS Ort

65 Komite-Alg. ikililerinin 36 veri kümesindeki performanslarına göre hiyerarşik kümelenmeleri Algoritmaların performansları, komite metotlarına göre değil, komitelerdeki algoritmalara göre kümelenmiş.

66 İlaç veri kümelerinden elde edilen sonuçlar SoruCevap Orijinal algoritmalar yerine komiteleri kullanmak daha başarılı sonuçlar üretir mi? Genelde hayır. Hangi komite daha başarılı sonuçlar üretmektedir? Sıralama: ADD > Orj > ATT > BG =RS Hangi algoritma – komite ikilisi en iyi/kötü sonuçları üretmektedir? En iyi: ADD - Rep En kötü: BG - PLS Hangi algoritmalar komitelerle daha iyi çalışmaktadır? M5P ve PLS, 2 komitede (ADD, ATT) tek başına kullanıldıklarından daha başarılı sonuçlar vermiştir. Hangi algoritmalar daha iyi çalışmaktadır?Sıralama: Rep > SLR > KS > M5P > PLS2 Algoritmaların birbirlerine benzerlikleri (performanslarına göre) nasıldır? Temelde algoritmalar komite türlerine göre değil komitelerde kullanılan algoritmalara göre gruplanmıştır. Bu nedenle performansı komite türünün değil komitede kullanılan algoritmanın belirlediği söylenebilir.

67 Meta Regresyon Her veri kümesinde en iyi performansı veren bir algoritma yok. Performanslar veri kümesine bağımlı. Bu durumda deneme yanılma metodu kaçınılmaz mı?

68 Sorular Bir algoritmanın performansını tahmin etmek mümkün müdür? Veri kümesinin hangi özellikleri performansı etkiliyor? Veri kümesinin hangi özelliklerine bakarak algoritmaların performansını tahmin edebiliriz?

69 Meta veri kümesi Meta özellik1 Meta özellik2 Meta özellik3... Alg. performası Veri kümesi1 Veri kümesi2 Veri kümesi3... Veri kümesiN

70 Meta Özellik Grubu İçerdiği meta özellik sayısı Açıklama STA15 Veri kümesinin ilk başta göze çarpan istatistiki özellikleri (örnek sayısı, özellik sayısı vs.) ST2220 Veri kümesinin Kurtosis, skewnes, 3. ve 4. dereceden moment, korelasyon matrisleri gibi istatistiki özellikleri CLUS5 Yapılan kümeleme işlemleri sonucunda elde edilen özellikler (örneklerin kümelere dağılımları, küme sayıları) REGT18 Üretilen Karar ağaçlarının çeşitli özellikleri (yaprak sayısı, düğüm sayısı) RMSE15 Çeşitli algoritmaların yaptıkları hataların RMSE değerleri PCA22Temel bileşen analiziyle bulunan özellikler Toplam295

71 Friedman

72 Friedman’da yüksek korelasyonlu özellikler CLUSRMSEREGTST2STAPCAcolli CLUS152 RMSE REGT 2412 ST STA 13 PCA 57

73 Çıkarımlar PLS ailesi birbiriyle ilişkilidir. Ancak PLS’nin bileşen sayısı arttıkça ilişki azalmaktadır. Örnek sayısı M5P, Reptree ve M5rules ile ters ilişkili. Yani örnek sayısı arttıkça algoritmaların performansı düşmüş. Colinearity derecesi skewness, kurtosis, 3. ve 4. dereceden momentlerle ilişkilidir. Bu ilişki colinearity derecesi bilinmeyen veri kümelerinin colinearity tahmininde kullanılabilir.

74 Lineer karakteristiğe sahip algoritmalar bir kümede toplanmış Karar ağacı algoritmaları aynı kümede toplanmış Friedman koleksiyonunda algoritmaların performanslarına göre kümelenmesi Örnek tabanlı algoritmalar bir kümede toplanmış

75 Genelde boyut sayısı, örnek sayısı göre kümelenmişler. Colinearity=0 olanlar ve olmayanlar ayrı ayrı kümelenmişler. Friedman koleksiyonunda veri kümelerinin performanslarına göre kümelenmesi

76 ilaç

77 İlaç verilerinde yüksek korelasyonlu özellikler CLUSRMSEREGTST2STAPCA CLUS1 RMSE 36 4 REGT ST STA 105 PCA 62

78 Çıkarımlar Korelasyon, friedman koleksiyonundan daha az. Ekstrem örnek sayısı ile, M5R kurallarında geçen özellik sayısı çok ilişkili (0.96). Veri ne kadar dağılmışsa, kurallar o kadar kompleksleşiyor. Özelliklerin birbirleriyle korelasyonu ne kadar büyükse, cfs ile seçilen özellik oranı o kadar azalıyor (-0.91). PCA’le varyansın %95 ini açıklayan boyut sayısı ne kadar büyükse cfs ile seçilen özellik oranı o kadar büyük (0.9). Çıkışın standart sapması ne kadar büyükse REPTree, RBF, ConjunctiveRule algoritmaları o kadar başarılı sonuçlar üretiyor.

79 Algoritmalar birbirinden çok uzak iki kümeye bölünmüş. İlaç koleksiyonunda algoritmaların performanslarına göre kümelenmesi PLS’ler bir araya toplanmış Lineer tabanlı alg. aynı grup içindeler

80 Özellik sayısı 1142 olan veri kümeleri bir grupta toplanmışlar. İlaç koleksiyonunda veri kümelerinin performanslarına göre kümelenmesi

81 UCI

82 UCI verilerinde yüksek korelasyonlu özellikler CLUSRMSEREGTST2STAPCA CLUS1 RMSE 55 8 REGT 28 3 ST STA 7 PCA 43

83 Çıkarımlar Korelasyon, friedman koleksiyonundan daha az. Çıkışın standart sapması ne kadar büyükse ZeroRule, RBF, ConjunctiveRule, PLS1, Decstump, LMS algoritmaları o kadar başarılı sonuçlar üretiyor. Örnek sayısı ne kadar çoksa, karar ağaçlarının boyutu da o kadar büyük oluyor (0.88).

84 PLS’ler aynı kümedeler. UCI koleksiyonunda algoritmaların performanslarına göre kümelenmesi Örnek tabanlı algoritmalar bir kümede toplanmış

85 Örnek sayıları ve özellik sayılarına göre bir kümelenme yok. UCI koleksiyonunda veri kümelerinin performanslarına göre kümelenmesi

86 Zero rule’un RMSE Ort. En başarılı algoritma ve RMSE Ortalaması En başarılı algoritmalar (RMSE ortalamalarına göre sırasıyla) Yapay veri kümesi koleksiyonu (80 veri kümesi) 0.995meta.Bagging meta.Bagging M5P M5rules meta.AttrSelClas meta.RndSubSpc Reptree İlaç veri kümesi koleksiyonu (41 veri kümesi) 0.25Kstar Kstar PLS1 PLS2 PLS4 PLS3 M5P IBK PLS5 ConjunctiveRule UCI veri kümesi koleksiyonu (60 veri kümesi) 0.195M5P M5P M5R PLS2 Kstar Isotonic Reg PLS1

87 Friedman verilerinde algoritma performans tahminleri Performansı tahmin edilen algoritma Meta Özellik sayısı Korelasyon katsayıları Meta.Bagging Meta.Bagging M5P M5P meta.AttriSelectedClassifier meta.AttriSelectedClassifier meta.RandomSubSpace meta.RandomSubSpace Reptree Reptree

88 İlaç verilerinde algoritma performans tahminleri Performansı tahmin edilen algoritma Meta Özellik sayısı Korelasyon katsayıları PLS PLS Kstar Kstar M5P M5P IBK IBK60.585

89 UCI verilerinde algoritma performans tahminleri Performansı tahmin edilen algoritma Meta Özellik sayısı Korelasyon katsayısı M5P M5P PLS PLS Kstar Kstar Isotonic Reg Isotonic Reg

90 Algoritma performans tahminleri Meta özellik 3 koleksiyondan kaçında kullanıldığı REGT.Veri kümesi üzerinde M5rules ile bulunan kural sayısının örnek sayısına oranı 3 RMSE.Decstump algoritmasının veri kümesi üzerindeki RMSE değeri 3 REGT.Veri kümesi üzerinde oluşturulan M5P karar ağacının yapraklarında (kararlarında) en az 1 kere kullanılmış özellik sayısı 2 REGT. Veri kümesi üzerinde oluşturulan M5P karar ağacındaki yaprak sayısının örnek sayısına oranı 2 REGT. Veri kümesi üzerinde oluşturulan M5P karar ağacının yapraklarında en az 1 kere kullanılmuş özellik sayısının özellik sayısına oranı 2 STA. Veri kümesinde cfs ile seçilen özellik sayısı 2 STA. Veri kümesindeki örnek sayısı 2

91 Her veri koleksiyonunda en başarılı algoritma farklı bir algoritmadır, dolayısıyla hiçbir algoritmanın tüm veriler üzerinde en başarılı olmadığı görülmüştür. İlaç veri kümelerinde, algoritmaların rasgele hatayı (zero rule hatası) çok az düşürebildikleri görülmüştür. Bu nedenle en zor modellenebilen veri kümeleri oldukları söylenebilir. M5P algoritması her 3 veri kümesi koleksiyonunda da en iyi performans gösteren algoritmalar arasındadır. Bir algoritmanın veri kümesindeki hatası büyükse, onu tahmin etmek zordur. Başarılı sonuçları tahmin etmek daha kolaydır.

92 PLS’in bileşen sayısının analizi K sayısının değişiminin performansa etkileri K değerinin hata üzerinde oluşturduğu değişimin standart sapmalarının histogramı Veri kümesi sayısı

93 PLS algoritmasında kullanılacak optimum bileşen sayısı meta öğrenme yaklaşımı ile belirlenemez. Bileşen sayısı çoğu veri kümesi üzerinde PLS’in performansı üzerinde etkili değildir. Minumum hataya sahip olan K değerleri incelendiğinde ve en fazla minimum hataya sahip K değerinin 10 veri kümesi ile 2 değeridir. Onu 5’er veri kümesiyle 1 ve 5 değerleri takip etmektedir.

94 Ne zaman hangi algoritma 60 UCI verisi en başarılı algoritma isimleriyle etiketlendi (7 sınıf) –Rasgele başarı %40 –En başarılı sonuç %53 (10 CV) Bu algoritma uygun mu sorusuna cevap veren 2 sınıflı veri kümeleri oluşturuldu. –M5 için rasgele başarı %60, en başarılı sonuç %95 –SVM için rasgele başarı %88, en başarılı sonuç %95 –PLS için rasgele başarı %90, en başarılı sonuç %97

95 Hangi özellikler En başarılı algoritmayı tahmin ederken kurallar üreten sınıflandırıcılarda en çok kullanılan özellikler REGT, STA grubundan RMSE haricinde, algoritma performans tahminleriyle paralel

96 Genel Sonuç Tezin amaçları ve gerçekleştirilenler: –Makine öğrenmesi alanında yeni ve daha başarılı algoritmalar geliştirmek: Cline, Clusline Daha da ileriye görütülebilecek algoritmalar (KmeanReg, Karar ormanlı özellik seçimi, Hiyerarşik kümeleme komiteleri, Meta regresyon) –İlaç tasarımı alanına uygulamak: Sayısal ilaç veri kümeleri oluşturuldu. Başarılı sonuçlar bu alanda da elde edildi. –Makine öğrenmesi araştırmacıları için veri tabanları oluşturulması: Meta regresyon

97 Bazı Kaynaklar Alpaydın, E., (2004), “Introduction to Machine Learning”, The MIT Press. Breiman L., (2001), “Random Forests”, Machine Learning 45 (1), Strehl A. ve J. Ghosh, (2002), “Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions”, Journal of Machine Learning Research, vol.3, Tjen-Sien Lim, Wei-Yin Loh ve Yu-Shan Shih, (2000), “A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms”, Machine Learning, vol.40, Witten I. H. ve Eibe Frank, (2005), “Data Mining: Practical machine learning tools and techniques”, 2nd Edition, Morgan Kaufmann, San Francisco.

98 Teşekkürler


"Yeni Makine Öğrenmesi Metotları ve İlaç Tasarımında Uygulamaları M. Fatih Amasyalı İstanbul,2008 Tez Yürütücüsü: Prof. Dr. Oya KALIPSIZ İkinci Danışman:" indir ppt

Benzer bir sunumlar


Google Reklamları