Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ 07.04.2017 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 07 Nisan 2017 Cuma
Konular : 1. Veri Madenciliği (Data Mining) 2. Kümeleme (Clustering) 3. Gerçeklenen Algoritmalar 4. Sonuçlar ve Yorumlar
1. Veri Madenciliği (Data Mining) Veri Madenciliği büyük miktarda veri içinden; Bilgi’nin aranmasıdır. Veri → → Bilgi Bu da; KÜMELEME, veri özetleme, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımları içerir. VERİ ANALİZİ
Dikkat VERİNİN ÖNEMİ: UZMANIN ÖNEMİ: SABRIN ÖNEMİ:
2. Kümeleme (Clustering) Öğreticisiz Öğrenme (Unsupervised Learning). Amaç, elemanların birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere (gruplara) bölünmesidir.
Peki Nasıl Yapılıyor…? (Verilerin Toplanması) Seçilen herhangi bir ilgi alanına göre ölçümler yapılarak öznitelikler belirlenebilir. 3 farklı çiçek türü Her tür için 50 örnek (sample) Her örnek için 4 öznitelik (feature) Iris Setosa Iris Versicolor Iris Virginica
07.04.2017 Peki Nasıl Yapılıyor…? (Uzaklıkların Hesaplanması ve Yakınlık Matrisinin Oluşturulması) Öklit Uzaklık Ölçütü Manhattan Uzaklık Ölçütü Supremium Uzaklık Ölçütü
4. Gerçeklenen Algoritmalar 4.1. En Yakın Komşu (Nearest Neighbor) 4.2. Karşılıklı Komşuluk Değeri (Mutual Neighborhood Value) 4.3. Minimum Tarama Ağacı (Minimum Spanning Tree) 4.4. Delaunay Üçgen (Delaunay Triangulation) Metodu 4.5. Gabriel Çizgeleri (Gabriel Graphs) 4.6. Bağıl Komşuluk Çizgesi (Relative Neighborhood Graph) 4.7. Destek Vektörleri (Support Vectors)
4.1. En Yakın Komşu (Nearest Neighbor) Her nokta kendisi ile en yakın kümeye yerleştirilmelidir. Eşik değeri (threshold - t), yeni bir komşuyu veya yeni bir kümeyi belirler. Tüm noktalar herhangi bir kümeye yerleştirilinceye kadar işlemlere devam edilir. 3 3 4 4 5 5 1. Küme 2. Küme 6 6 3. Küme 1 2 1 2
4.2. Karşılıklı Komşuluk Değeri (M.N.V.) Tüm noktalar için karşılıklı en yakın komşuluk değerleri (MNV) belirlenir. Eşik değeri yerine en yakın komşu sayısı (k) belirlenir. 2’nin en yakın 3. komşusu 5. 5’in en yakın 3. komşusu 2. MNV(5,2) = MNV(2,5) = 3 + 3 = 6 MNV = 2,3,…2k için kümeler oluşturulur. 3 4 5 2 2 3 6 1 2k
Eşik değerinden büyük değerler kaldırılıyor 07.04.2017 4.3. Minimum Örten Ağaç (M.S.T.) İki nokta arasındaki uzaklık = ağırlık Ağırlıklar toplamı en küçük olan ağaç seçilir. Eşik değerinden büyük ağırlığa sahip dallar ağaçtan kaldırılır. Eşik değeri yerine uyuşmayan kenar (inconsistent edge) seçimi ile de kümeler belirlenebilir. 4 6 Eşik değerinden büyük değerler kaldırılıyor 3 5 1. Küme 2. Küme 1 3. Küme 8 2 7 9
4.4. Delaunay Üçgen Metodu (D.T.) Voronoi Diyagramı (Dirichlet Mozaiği) Uygulamaların çoğu sadece iki boyutlu veriler için yapılmıştır. Sınır – Kenar ilişkileri göz önünde bulundurulmaktadır. Çizge yapısı bu ilişkilere göre belirlenmektedir. Çizge yapısını oluşturan farklı algoritmalar bulunmaktadır. (Daha fazla bilgi için,http://www.ics.uci.edu/~eppstein/gina/delaunay.html)
Delaunay Triangulation Voronoi Diyagramı Eşik değerine göre çizgeden kenarların silinerek kümelerin belirlenmesi Voronoi & Delaunay
4.5. Gabriel Çizgeleri (G.G.) Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. DT yapısına göre daha basit yapıdadır. Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları GG’de birbirine bağlıdır. DISK, GG’nin etki bölgesidir. GG etki bölgesi
4.6. Bağıl Komşuluk Çizgeleri (R.N.G.) Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. DT ve GG yapısına göre daha basit yapıdadır. Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları RNG’de birbirine bağlıdır. LUNE, RNG’nin etki bölgesidir. RNG etki bölgesi
4.7. Destek Vektörleri (Support Vectors) Veriler doğrusal olarak ayrılabiliyor : Sınırı (margin) maksimize eden düzlemin (Hyperplane) bulunması (Optimal Seperating Hyperplane, Maximal Margine Classifier). Prof. Dr. Vladimir VAPNIK (1995) Support Vectors Optimum Düzlem Maksimum Margin
x f(x) ; f : X F F X SVs Veriler doğrusal olarak ayrılamıyor : Uygun bir doğrusal olmayan dönüşüm kullanarak doğrusal olarak ayrılabilir hale getiren ve optimizasyon tabanlı bir eğitim algoritması kullanarak öğrenebilen sistemlerdir. (Kernel Trick)... F X Doğrusal olmayan Dönüşüm SVs q = Gaussian fonksiyonunun genişliği x f(x) ; f : X F
5. Sonuçlar Iris veri seti için FLOP Sayıları
Iris veri seti için Küme Sayıları Gürültüsüz 45 Db 24 Db Iris veri seti için Küme Sayıları
Sonuçlar ve Yorumlar… Eşik değeri (threshold value)... Histogramlar... Çizge tabanlı algoritmalar vs. direk kümeleme yapan algoritmalar… (işlem süresi ve flop sayısı) Farklı uzaklık ölçümleri (manhattan, supremium, v.b.) farklı sonuçlar… En iyi algoritma “En Yakın Komşu Algoritması (N.N.)”... En kötü algoritma “Karşılıklı Komşuluk Değeri Algoritması (M.N.V.)”… Tüm algoritmalar verilerin dağılımına bağlıdır… Farklı veri setleri için en iyi kümelemeyi (düşük flop sayısı, gürültüye dayanıklılık) yapabilen tek bir algoritma bulunmamaktadır… Boyut arttıkça işlemler zorlaşmaktadır… bu nedenle yeni nesil algoritma ve bilgisayarlar kullanılmaktadır(B.I.R.C.H., DBSCAN, ...)… Çizge algoritmaları gürültülü verileri kümeleme de daha başarılı…
SORULAR SORULAR
SABIRLA DİNLEDİĞİNİZ İÇİN... !!!TEŞEKKÜRLER!!! SABIRLA DİNLEDİĞİNİZ İÇİN... Mustafa Seçkin DURMUŞ msdurmus@pau.edu.tr