Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Hazırlayan:Erdal Çelik Veri Madenciliğinde Kümeleme Slink Algoritması.

Benzer bir sunumlar


... konulu sunumlar: "Hazırlayan:Erdal Çelik Veri Madenciliğinde Kümeleme Slink Algoritması."— Sunum transkripti:

1 Hazırlayan:Erdal Çelik Veri Madenciliğinde Kümeleme Slink Algoritması

2 Kümeleme Analizine Dayalı Modeller  Kümelemeye dayalı modellerin, Sınıflandırmaya dayalı modellerden farkı eldeki mevcut verilerin daha önceden belirli olan bir sınıflandırmaya göre de ğ il de belirli olmayan bir sınıfa göre gruplandırmasıdır. Yani kümeleme analizine dayalı bir modelde daha önceden belirlenmemi ş kıstaslara göre veriler gruplara ayrılıp kümelenmektedir.

3 Kümeleme Analizine Dayalı Modeller  Kümeleme yabancı kaynaklarda clustering yada segmentation olarak geçmektedir. Verilerin belirli gruplara dahil edilmesi için bazı hesaplamalara tabii tutulması gerekmektedir. Bunlar benzerlik ve mesafe ölçümleridir.

4 Benzerlik ve Mesafenin Ölçülmesi Mesafenin ölçülmesi için genellikle euclid yönteminden yararlanılmaktadır. Euclid yöntemine göre mesafe a ş a ğ ıdaki formül yardımıyla hesaplanmaktadır • Kullanılan di ğ er bazı yöntemler; Mahalanobis, Manhattan…

5  Bir di ğ er hesaplanması gereken ise Benzerliktir. Benzerlik kavramı mesafenin tersi bir anlam içerir ve iki veri arasındaki yakınlı ğ ı gösterir. Benzerlik hesabı genel olarak a ş a ğ ıdaki formül yardımıyla hesaplanabilmektedir. ben(Xm,Xj)= 1 / (1 + d(x,y) ) • Benzerlik hesabında kullanılan bazı yöntemler; Dice, Overlap, Jaccard …

6 Hiyerarşik Modeller  Hiyerar ş ik kümeleme teknikleri, kümeleri pe ş pe ş e birle ş tirme sürecidir ve bir grup, di ğ eri ile bir kez birle ş tirildikten sonra, daha sonraki adımlarda kesinlikle ayrılamaz(Fırat, 1995). Hiyerar ş ik tekniklerin a ğ aç diyagramları ile gösterilen sonuçlarına dendogram denir(Lorr,1983).

7 Hiyerarşik Modeller  Hiyerar ş ik kümeleme teknikleri, toplama ve ayırma teknikleri olmak üzere iki grupta toplanır.  Topla ş ım kümeleme algoritmaları, ba ş langıçta veritabanındaki her bir noktayı bir küme olarak görür. Bu kümeleri birle ş tire birle ş tire birbirinden ayrı kümeler olu ş turur.  Ayrı ş ım kümeleme algoritmaları ise ba ş langıçta veri tabanındaki tüm noktaları tek bir kümeymi ş gibi görür.Veritabanını taradıkça, birbirine benzemeyen noktaları kümeden dı ş arı atarak k kadar kümeye da ğ ıtır.

8 Slink Algoritması  Slink algoritması hiyerar ş ik modelleri kullanan bir algoritmadır. Slink algoritması tek ba ğ lantı ya da en yakın kom ş u tekni ğ ini kullanır[Sibson,1973].  Tek Ba ğ lantı Tekni ğ i; iki küme arasındaki en kısa mesafeyi,kümeler arası mesafe kabul eder.Yani birbirine en yakın iki dü ğ ümü ya da noktayı kullanarak kümeler arasındaki mesafeyi bulur.

9 Slink Algoritması  SLINK algoritması temelde 2 küme grubunun en dı ş ında olan ve birbirine yakın olan noktalar arasındaki mesafeye göre benzerlik teoremleri geli ş tirerek kümeleme i ş lemini gerçekle ş tirmektedir.  Buradaki mesafenin ve benzerli ğ in ölçümünde bilinen formüllerden yararlanılmaktadır(Euclid, Overlap …).  Tek ba ğ lantı tekni ğ i ve SLINK algoritması topla ş ımlı algoritmaların tipik özelliklerini ta ş ır.

10 Slink algoritmasının adımları:  Öncelikle eldeki verilerin, mesafe/benzerlik matrisi çıkartılır.  Bu matrisi bir a ğ aç haline dönü ş türür.  Ş ebeke modellerinden en küçük maliyetli a ğ aç çıkartılarak,verilen e ş ik de ğ erine göre kümeler olu ş turulur.

11 Konuyu bir örnek dahilinde incelersek a ş a ğ ıdaki Tablo mesafe tablomuz olsun.

12 Tablo da A, B, C, D ile gösterilen 4 noktamız ve bu noktalar arasındaki uzaklıklar verilmi ş tir.Bu tabloyu ş ebeke diyagramı ş eklinde Ş ekil-1 deki gibi gösterebiliriz. Ş ekil-1

13  Ş ekil-2 de ise e ş ik de ğ eri 1 iken, e ş ik de ğ erinden büyük olan ba ğ lar kopartılmı ş ve kümelerin olu ş mu ş oldu ğ u görülür.Burada A, B, C ve D noktaları ba ş langıçta herbiri bir küme olarak ele alınmı ş,daha sonra birbirlerine(kümeler arasındaki mesafe) uzaklıklarına göre bir araya toplanarak kümeler olu ş turulmu ş tur.  B ve D noktaları bir kümeye toplanırken C ve A ayrı birer küme olarak kabul edilmi ş lerdir.Toplamda 3 tane küme ortaya çıkarılmı ş tır.  {A}, {C}, {B,D}

14 Kümeler {A}, {C}, {B,D} Ş ekil-2 Ş ebeke diyagramı e ş ik de ğ eri 1

15 Ş ekil 3’te ise e ş ik de ğ eri 2 olarak alınmı ş tır.Bu durumda A, B, C ve D noktalarının tamamı aynı kümede toplanmı ş tır. Ş ekil-3 ş ebeke diyagramı e ş ik de ğ eri 2

16 Kaynaklar 1- İ ş Zekam “ İ ş Zekasında Kullanılan Veri Madencili ğ i Modelleri – 6 (Kümeleme) Kullanilan-Veri-Madenciligi-Modelleri-6.aspx Kullanilan-Veri-Madenciligi-Modelleri-6.aspx 2- Silahtaro ğ lu, G. (2008). “Kavram ve Algoritmalarıyla Temel Veri Madencili ğ i”, Papatya Yayıncılık E ğ itim, http://en.wikipedia.org/wiki/Single-linkage_clustering

17 SORULAR

18 !!! TEŞEKKÜRLER !!!


"Hazırlayan:Erdal Çelik Veri Madenciliğinde Kümeleme Slink Algoritması." indir ppt

Benzer bir sunumlar


Google Reklamları