Sunuyu indir
1
Veri Madenciliğinde Kümeleme Slink Algoritması
Hazırlayan:Erdal Çelik
2
Kümeleme Analizine Dayalı Modeller
Kümelemeye dayalı modellerin, Sınıflandırmaya dayalı modellerden farkı eldeki mevcut verilerin daha önceden belirli olan bir sınıflandırmaya göre değil de belirli olmayan bir sınıfa göre gruplandırmasıdır. Yani kümeleme analizine dayalı bir modelde daha önceden belirlenmemiş kıstaslara göre veriler gruplara ayrılıp kümelenmektedir.
3
Kümeleme Analizine Dayalı Modeller
Kümeleme yabancı kaynaklarda clustering yada segmentation olarak geçmektedir. Verilerin belirli gruplara dahil edilmesi için bazı hesaplamalara tabii tutulması gerekmektedir. Bunlar benzerlik ve mesafe ölçümleridir.
4
Benzerlik ve Mesafenin Ölçülmesi
Mesafenin ölçülmesi için genellikle euclid yönteminden yararlanılmaktadır. Euclid yöntemine göre mesafe aşağıdaki formül yardımıyla hesaplanmaktadır • Kullanılan diğer bazı yöntemler; Mahalanobis, Manhattan…
5
Bir diğer hesaplanması gereken ise Benzerliktir
Bir diğer hesaplanması gereken ise Benzerliktir. Benzerlik kavramı mesafenin tersi bir anlam içerir ve iki veri arasındaki yakınlığı gösterir. Benzerlik hesabı genel olarak aşağıdaki formül yardımıyla hesaplanabilmektedir. ben(Xm,Xj)= 1 / (1 + d(x,y) ) • Benzerlik hesabında kullanılan bazı yöntemler; Dice, Overlap, Jaccard …
6
Hiyerarşik Modeller Hiyerarşik kümeleme teknikleri, kümeleri peşpeşe birleştirme sürecidir ve bir grup, diğeri ile bir kez birleştirildikten sonra, daha sonraki adımlarda kesinlikle ayrılamaz(Fırat, 1995). Hiyerarşik tekniklerin ağaç diyagramları ile gösterilen sonuçlarına dendogram denir(Lorr,1983).
7
Hiyerarşik Modeller Hiyerarşik kümeleme teknikleri, toplama ve ayırma teknikleri olmak üzere iki grupta toplanır. Toplaşım kümeleme algoritmaları, başlangıçta veritabanındaki her bir noktayı bir küme olarak görür. Bu kümeleri birleştire birleştire birbirinden ayrı kümeler oluşturur. Ayrışım kümeleme algoritmaları ise başlangıçta veri tabanındaki tüm noktaları tek bir kümeymiş gibi görür.Veritabanını taradıkça, birbirine benzemeyen noktaları kümeden dışarı atarak k kadar kümeye dağıtır.
8
Slink Algoritması Slink algoritması hiyerarşik modelleri kullanan bir algoritmadır. Slink algoritması tek bağlantı ya da en yakın komşu tekniğini kullanır[Sibson,1973]. Tek Bağlantı Tekniği; iki küme arasındaki en kısa mesafeyi,kümeler arası mesafe kabul eder.Yani birbirine en yakın iki düğümü ya da noktayı kullanarak kümeler arasındaki mesafeyi bulur.
9
Slink Algoritması SLINK algoritması temelde 2 küme grubunun en dışında olan ve birbirine yakın olan noktalar arasındaki mesafeye göre benzerlik teoremleri geliştirerek kümeleme işlemini gerçekleştirmektedir. Buradaki mesafenin ve benzerliğin ölçümünde bilinen formüllerden yararlanılmaktadır(Euclid, Overlap …). Tek bağlantı tekniği ve SLINK algoritması toplaşımlı algoritmaların tipik özelliklerini taşır.
10
Slink algoritmasının adımları:
Öncelikle eldeki verilerin, mesafe/benzerlik matrisi çıkartılır. Bu matrisi bir ağaç haline dönüştürür. Şebeke modellerinden en küçük maliyetli ağaç çıkartılarak,verilen eşik değerine göre kümeler oluşturulur.
11
Konuyu bir örnek dahilinde incelersek aşağıdaki Tablo mesafe tablomuz olsun.
12
Tablo da A, B, C, D ile gösterilen 4 noktamız ve bu noktalar arasındaki uzaklıklar verilmiştir.Bu tabloyu şebeke diyagramı şeklinde Şekil-1 deki gibi gösterebiliriz. Şekil-1
13
Şekil-2 de ise eşik değeri 1 iken, eşik değerinden büyük olan bağlar kopartılmış ve kümelerin oluşmuş olduğu görülür.Burada A, B, C ve D noktaları başlangıçta herbiri bir küme olarak ele alınmış,daha sonra birbirlerine(kümeler arasındaki mesafe) uzaklıklarına göre bir araya toplanarak kümeler oluşturulmuştur. B ve D noktaları bir kümeye toplanırken C ve A ayrı birer küme olarak kabul edilmişlerdir.Toplamda 3 tane küme ortaya çıkarılmıştır. {A}, {C}, {B,D}
14
Kümeler {A}, {C}, {B,D} Şekil-2 Şebeke diyagramı eşik değeri 1
15
Şekil 3’te ise eşik değeri 2 olarak alınmıştır
Şekil 3’te ise eşik değeri 2 olarak alınmıştır.Bu durumda A, B, C ve D noktalarının tamamı aynı kümede toplanmıştır. Şekil-3 şebeke diyagramı eşik değeri 2
16
Kaynaklar 1- İş Zekam “İş Zekasında Kullanılan Veri Madenciliği Modelleri – 6 (Kümeleme) Kullanilan-Veri-Madenciligi-Modelleri-6.aspx 2- Silahtaroğlu, G. (2008). “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim,
17
SORULAR
18
!!! TEŞEKKÜRLER !!!
Benzer bir sunumlar
© 2024 SlidePlayer.biz.tr Inc.
All rights reserved.