Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 23.

Benzer bir sunumlar


... konulu sunumlar: "VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 23."— Sunum transkripti:

1 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 23 Kasım 2014 Pazar

2 2 Konular : 1. Veri Madenciliği (Data Mining) 2. Kümeleme (Clustering) 3. Gerçeklenen Algoritmalar 4. Sonuçlar ve Yorumlar

3 3 1. Veri Madenciliği (Data Mining) Veri Madenciliği büyük miktarda veri içinden; Bilgi’nin aranmasıdır. Veri → → Bilgi Bu da; KÜMELEME, veri özetleme, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımları içerir. VERİ ANALİZİ

4 4 Dikkat VERİNİN ÖNEMİ: UZMANIN ÖNEMİ: SABRIN ÖNEMİ:

5 5 2. Kümeleme (Clustering)  Öğreticisiz Öğrenme (Unsupervised Learning).  Amaç, elemanların birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere (gruplara) bölünmesidir.

6 6 Peki Nasıl Yapılıyor…? (Verilerin Toplanması)  Seçilen herhangi bir ilgi alanına göre ölçümler yapılarak öznitelikler belirlenebilir.  3 farklı çiçek türü  Her tür için 50 örnek (sample)  Her örnek için 4 öznitelik (feature) Iris Setosa Iris Versicolor Iris Virginica

7 7 Peki Nasıl Yapılıyor…? (Uzaklıkların Hesaplanması ve Yakınlık Matrisinin Oluşturulması)  Öklit Uzaklık Ölçütü  Manhattan Uzaklık Ölçütü  Supremium Uzaklık Ölçütü

8 8 4. Gerçeklenen Algoritmalar 4.1. En Yakın Komşu (Nearest Neighbor) 4.2. Karşılıklı Komşuluk Değeri (Mutual Neighborhood Value) 4.3. Minimum Tarama Ağacı (Minimum Spanning Tree) 4.4. Delaunay Üçgen (Delaunay Triangulation) Metodu 4.5. Gabriel Çizgeleri (Gabriel Graphs) 4.6. Bağıl Komşuluk Çizgesi (Relative Neighborhood Graph) 4.7. Destek Vektörleri (Support Vectors)

9 Küme 2. Küme 3. Küme 4.1. En Yakın Komşu (Nearest Neighbor) HH er nokta kendisi ile en yakın kümeye yerleştirilmelidir. EE şik değeri (threshold - t), yeni bir komşuyu veya yeni bir kümeyi belirler. TT üm noktalar herhangi bir kümeye yerleştirilinceye kadar işlemlere devam edilir.

10 Karşılıklı Komşuluk Değeri (M.N.V.) Tüm noktalar için karşılıklı en yakın komşuluk değerleri (MNV) belirlenir. Eşik değeri yerine en yakın komşu sayısı (k) belirlenir ’nin en yakın 3. komşusu 5. 5’in en yakın 3. komşusu 2. MNV(5,2) = MNV(2,5) = = 6 MNV = 2,3,…2k için kümeler oluşturulur k2k

11 Minimum Örten Ağaç (M.S.T.) İki nokta arasındaki uzaklık = ağırlık Ağırlıklar toplamı en küçük olan ağaç seçilir. Eşik değerinden büyük ağırlığa sahip dallar ağaçtan kaldırılır. Eşik değeri yerine uyuşmayan kenar (inconsistent edge) seçimi ile de kümeler belirlenebilir Eşik değerinden büyük değerler kaldırılıyor 4 1. Küme 2. Küme 3. Küme

12 Delaunay Üçgen Metodu (D.T.)  Voronoi Diyagramı (Dirichlet Mozaiği)  Uygulamaların çoğu sadece iki boyutlu veriler için yapılmıştır.  Sınır – Kenar ilişkileri göz önünde bulundurulmaktadır. Çizge yapısı bu ilişkilere göre belirlenmektedir.  Çizge yapısını oluşturan farklı algoritmalar bulunmaktadır. (Daha fazla bilgi için,http://www.ics.uci.edu/~eppstein/gina/delaunay.html)

13 13 Voronoi DiyagramıDelaunay Triangulation Voronoi & Delaunay Eşik değerine göre çizgeden kenarların silinerek kümelerin belirlenmesi

14 Gabriel Çizgeleri (G.G.)  Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir.  DT yapısına göre daha basit yapıdadır.  Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları GG’de birbirine bağlıdır. DISK, GG’nin etki bölgesidir. GG etki bölgesi

15 Bağıl Komşuluk Çizgeleri (R.N.G.)  Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir.  DT ve GG yapısına göre daha basit yapıdadır.  Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları RNG’de birbirine bağlıdır. LUNE, RNG’nin etki bölgesidir. RNG etki bölgesi

16 Destek Vektörleri (Support Vectors)  Veriler doğrusal olarak ayrılabiliyor :  Sınırı (margin) maksimize eden düzlemin (Hyperplane) bulunması  (Optimal Seperating Hyperplane, Maximal Margine Classifier). Maksimum Margin Support Vectors Optimum Düzlem Prof. Dr. Vladimir VAPNIK (1995)

17 17 x  (x) ;  : X F X F Doğrusal olmayan Dönüşüm SVs  Veriler doğrusal olarak ayrılamıyor :  Uygun bir doğrusal olmayan dönüşüm kullanarak doğrusal olarak ayrılabilir hale getiren ve optimizasyon tabanlı bir eğitim algoritması kullanarak öğrenebilen sistemlerdir. (Kernel Trick)... q = Gaussian fonksiyonunun genişliği

18 18 5. Sonuçlar Iris veri seti için FLOP Sayıları

19 19 Iris veri seti için Küme Sayıları Gürültüsüz 45 Db 24 Db

20 20 Eşik değeri (threshold value)... Histogramlar... Çizge tabanlı algoritmalar vs. direk kümeleme yapan algoritmalar… (işlem süresi ve flop sayısı) Farklı uzaklık ölçümleri (manhattan, supremium, v.b.) farklı sonuçlar… En iyi algoritma “En Yakın Komşu Algoritması (N.N.)”... En kötü algoritma “Karşılıklı Komşuluk Değeri Algoritması (M.N.V.)”… Tüm algoritmalar verilerin dağılımına bağlıdır… Farklı veri setleri için en iyi kümelemeyi (düşük flop sayısı, gürültüye dayanıklılık) yapabilen tek bir algoritma bulunmamaktadır… Boyut arttıkça işlemler zorlaşmaktadır… bu nedenle yeni nesil algoritma ve bilgisayarlar kullanılmaktadır(B.I.R.C.H., DBSCAN,...)… Çizge algoritmaları gürültülü verileri kümeleme de daha başarılı… Sonuçlar ve Yorumlar…

21 21 S O R U L A R S O R U L A R

22 22 !!!TEŞEKKÜRLER!!! SABIRLA DİNLEDİĞİNİZ İÇİN... Mustafa Seçkin DURMUŞ


"VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 23." indir ppt

Benzer bir sunumlar


Google Reklamları