Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd.

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd."— Sunum transkripti:

1 Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete Çelik 10/30/2007 Introduction to Data Mining 1

2 10/30/2007 Introduction to Data Mining 2 Kümeleme Analizi Nedir? l Bir grup içerindeki nesneler birbirlerine benzer ve diğer gruplardaki nesnelerden farklı olacak şekilde nesnelerin gruplarının bulunmasıdır. Küme-arası mesafeler maksimize edilecek Küme-içi mesafeler minimize edilecek

3 10/30/2007 Introduction to Data Mining 3 Kümeleme Analizinin Uygulamaları l Anlama –Tarama için ilişkili belgelerin gruplandırılması –Benzer işlevi olak genlerin ve proteinlerin gruplandırılması –Benzer fiyat dalgalanmalarına sahip hisselerin gruplandırılması l Özetleme –Büyük veri kümelerinin boyutlarıın azaltılması Avustralyadaki yağışın kümelenmesi

4 10/30/2007 Introduction to Data Mining 4 Kümeleme Analizi Ne Değildir? l Basit Parçalama (Segmentasyon) –Öğrencileri soyisimlerine göre alfabetik olarak farklı gruplara gölme l Bir sorgu sonucu –Gruplama dışarıdan tanımlamalara göre yapılır. –Kümeleme veriye bağlı olarak nesnelerin gruplara ayrılmasıdır. l Danışmanlı Sınıflandırma –Sınıf etiket bilgisinin olması durumu l Birliktelik Analizi –Yerel – küresel bağlantılar

5 10/30/2007 Introduction to Data Mining 5 Küme Kavramı Belirsiz Olabilir Kaç küme var? Dört Kümeİki Küme Altı Küme

6 10/30/2007 Introduction to Data Mining 6 Kümeleme Tipleri l Kümeleme kümelerin bir kümesidir l Hiyerarşik ve bölümlemeli kümeler arasındaki önemli fark l Bölümlemeli Kümeleme –Herbir veri nesnesinin sadece bir altkümede yer almasını sağlayacak şekilde üstüste gelmeyen altkümeler halinde verinin bölünmesidir. l Hiyerarşik Kümeleme –Bir hiyerarşık ağaç olarak organize edilen iç içe olan küme yapılarıdır

7 10/30/2007 Introduction to Data Mining 7 Bölümlemeli Kümeleme Orjinal Noktalar Bölümlemeli Kümeleme

8 10/30/2007 Introduction to Data Mining 8 Hiyerarşik Kümeleme Geleneksel Hiyerarşik Kümeleme Geleneksel olmayan Hüherarşik KümelemeGeleneksel olmayan Dendrogram Geleneksel Dendrogram

9 10/30/2007 Introduction to Data Mining 9 Küme Takımları Arasındaki Diğer Farklar l Mühnasır - münhasır olmama (Exclusive versus non- exclusive) –Münhasır olmayan kümelemede, noktalar birden fazla kümeye ait olabilir. –Birden fazla kümeyi veya “sınır” noktasını gösterebilir l Bulanık – Bulanık olmayan (Fuzzy versus non-fuzzy) –Bulanık kümelemede, bir nokta, 0 ve 1 arasındaki ağırlık değerleri ile her sınıfa ait olur. –Ağırlıklar toplamı 1 olmalıdır –Olasılıklı kümelemede de benzer karakteristik vardır. l Kısmı – tam (Partial versus complete) –Bazı durumlarda, sadece verinin bir kısmını kümelemek isteriz l Heterojen – Homojen (Heterogeneous versus homogeneous) –Çok faklı boyutlarda, şekillerde ve yoğunluklarda olan kümeler

10 10/30/2007 Introduction to Data Mining 10 Küme Tipleri l İyi-ayrılmış kümeler l Merkez-tabanlı kümeler l Sürekli kümeler l Yoğunluk-tabanlı kümeler l Özellik veya Kavramsal l Amaç fonksiyonu ile tanımlanmış

11 10/30/2007 Introduction to Data Mining 11 Küme Tipleri: İyi-Ayrılmış l İyi-Ayrılmış Kümeler: –Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki herhangi bir nokta kümede bulunan diğer noktalara, kümede olmayan noktalardan, daha yakındır (daha benzerdir). 3 iyi-ayrılmış küme

12 10/30/2007 Introduction to Data Mining 12 Küme Tipleri: Merkez-Tabanlı l Merkez-tabanlı –Bir küme nesneler kümesidir (grubudur), öyleki, bir kümedeki bir nesne bulunduğu kümenin merkezine, diğer kümelerin merkezlerinden, daha yakındır (daha benzerdir). –Bir kümenin merkezi genellikle ağırlık merkezi (centroid), kümedeki tüm noktalarının ortalaması, ya da bir kümenin en "temsilcisi" noktasıdır olan bir medoid olabilir. 4 merkez-tabanlı küme

13 10/30/2007 Introduction to Data Mining 13 Küme Tipleri: Süreklilik-Tabanlı l Sürekli Kümeler (En Yakın Komşu veya Geşişli) –Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki bir nokta bulunduğu kümedeki bir veya birden fazla noktaya bulunduğu küme içinde olmayan diğer noktalardan daha yakındır (daha benzerdir). 8 contiguous clusters

14 10/30/2007 Introduction to Data Mining 14 Küme Tipleri: Yoğunluk-tabanlı l Yoğunluk-tabanlı –Bir küme, yüksek yoğunluğa sahip diğer bölgelerden düşük yoğunluklu bölgeler ile ayrılan, noktaların oluşturduğu yoğun bir bölgesidir –Kümeler düzensiz veya sarılmış olduğu durumlarda veya gürüldü ve anomalinin olduğu durumlarda kullanılır. 6 yoğunluk-tabanlı küme

15 10/30/2007 Introduction to Data Mining 15 Küme Tipleri: Kavramsal Kümeler l Paylaşımlı Özellik veya Kavramsal Kümeler –Aynı özellikleri paylaşan kümeleri veya belirli bir kavramı temsil eden kümeleri bul.. 2 üstüste kesişen küme

16 10/30/2007 Introduction to Data Mining 16 Küme Tipleri: Amaç Fonksiyonu l Kümeler bir Amaç Fonksiyonu ile Tanımlanır –Bir amaç fonksiyonu minimize veya maksimize eden kümeleri bul. –Noktaları kümelere ayıran bütün muhtamal yolları ortaya koy ve verilen amaç fonksiyonunu kullanarak herbir potansiyel küme grubunun “iyiliğini” değerlendir (NP Zor – NP Hard) – Küresel ve yerel amaçlar olabilir.  Hiyerarşık kümeleme algoritmaları tipik olarak yerel amaçlara sahiptir.  Bölümlemeli algoritmalar tipik olarak küresel amaçlara sahiptir. –Küresel amaç fonksiyonu yaklaşımının bir varyasyonu, veriyi parametreli bir modele uygulanmasıdır.  Model için parametreler veriden belirlenebilir.  Karışık (mixture) modeller, verinin birkaç istatistiksel modelin karışımından oluştuğunu varsayarlar

17 10/30/2007 Introduction to Data Mining 17 Kümeleme Probleminin Faklı Bir Probleme Benzetilmesi l Kümeleme problemini farklı bir alana uyarla ve bu alandaki ilgili problemi çöz –Yakınlık matrisi, düğümlerin noktalar olduğu ve noktalar arasındaki uzaklıkların da ağırlıklandırılmış kenarlar olduğu bir ağırlıklandırılmış graf tanımlar. – Kümeleme, grafı, herbiri bir küme olan bağlantılı bileşenlerine bölme işlemine eşittir. –Kümeler arasındaki kenar ağırlıklarının minimize edilmesi ve kümeler içindeki kenar ağırlıklarının maksimize edilmesi amaçlanmaktadır.

18 10/30/2007 Introduction to Data Mining 18 Giriş Verisinin Karakteristiği Önemlidir l Yakınlığın veya yoğunluk ölçütünün tipi –Kümeleme merkez l Seyreklik –Benzerlik tipini belirler –Verime (etkililiğe ) katkılar l Özellik tipi –Benzerlik tipini belirler l Veri tipi –Benzerlik tipini belirler –Diğer karakteristikler, otokorelasyon gibi l Boyutluluk l Gürültü ve anomali l Dağılım tipi

19 10/30/2007 Introduction to Data Mining 19 Kümeleme Algoritmaları l K-ortalamalar ve Türevleri l Hiyerarşik Kümeleme l Yoğunluk-tabanlı Kümeleme

20 10/30/2007 Introduction to Data Mining 20 K-ortalamalar Kümeleme l Bölümlemeli kümeleme yaklaşımı l Küme sayısı K, verilmelidir l Herbir küme bir ağırlık merkezine bağlıdır (centroid – merkez nokta) l Herbir nokta en yakın ağırlık merkezine atanır l Temel algoritma oldukça basittir.

21 K-ortalamalar Kümeleme Örneği

22 10/30/2007 Introduction to Data Mining 22 K-ortalamalar Kümeleme Örneği

23 10/30/2007 Introduction to Data Mining 23 K-Ortalamalar Kümeleme - Detaylar l İlk ağırlık merkezleri genellikle random olarak atanır. –Her çalışmada üretilen kümeler değişir. l Ağırlık merkezi genellikle kümedeki noktaların ortalamalarından oluşur. l “Yakınlık” öklit mesafesi, kosinüs benzerliği, korelasyon gibi ölçütlerle ölçülür. l K-ortalamalar yukarıda bahsedilen yaygın benzerlik ölçütleri için yakınsayacaktır. l Yakınsama genellikle ilk birkaç iterasyondan sonra biter. –Durdurma kriteri genellikle “ Göreceli olarak kümeler değişmeyene kadar” şeklindedir. l Karmaşıklık O( n * K * I * d ) –n = nokta sayısı, K = küme sayısı, I = iterasyon sayısı, d = özellik sayısı

24 10/30/2007 Introduction to Data Mining 24 K-Ortalamalar Kümelerin Değerlendirilmesi l En yaygın ölçüt Hataların Karelerinin Toplamıdır (Sum of Squared Error (SSE)) –Heribr nokta için, hata en yakın kümeye olan uzaklıktır. –SSE’yi hesaplamak için bu hataların kareleri toplanır. –x, C i kümesi içerisindeki veri noktası ve m i, C i kümesi için temsili noktadır.  m i küme merkezine ortalamasına) denk gelir –Verilen iki küme için, en küçük hatası olan tercih edilir. –SSE’yi azaltmanın en kolay yollarından birisi, K’yı, küme sayısını, arttırmaktır.

25 10/30/2007 Introduction to Data Mining 25 İki Farklı K-ortalamalar Kümeleme Vasat Kümelemeİdeal Kümeleme Orjinal Noktalar

26 10/30/2007 Introduction to Data Mining 26 K-ortalamaların Eksiklikleri l K-ortalamaların kümelerin aşağıdaki farklılıklarından dolayı bazı problemleri vardır. –Boyut –Yoğunluk –Küresel (yuvarlak)- olmayan şekiller l Veri anormal veri içerirse K-ortalamalar algoritmasında problem oluşur.

27 10/30/2007 Introduction to Data Mining 27 K-ortalamaların Eksiklikleri: Farklı Boyutlar Orjinal Noktalar K-ortalamalar (3 Küme)

28 10/30/2007 Introduction to Data Mining 28 K-ortalamaların Eksiklikleri: Farklı Yoğunluk Orjinal Noktalar K-ortalamalar (3 Küme)

29 10/30/2007 Introduction to Data Mining 29 K-ortalamaların Eksiklikleri: Küresel-olmayan Şekiller Orjinal Noktalar K-ortalamalar (2 Küme)

30 10/30/2007 Introduction to Data Mining 30 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri Çok fazla sayıda küme kullanmak çözümlerden birisidir. Kümelerin parçaları bulunur, fakat bir araya konulmaları gerekir.

31 10/30/2007 Introduction to Data Mining 31 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri

32 10/30/2007 Introduction to Data Mining 32 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri

33 İlk Ağırlık Merkezlerinin Seçiminin Önemi

34 10/30/2007 Introduction to Data Mining 34 İlk Ağırlık Merkezlerinin Seçiminin Önemi

35 İlk Ağırlık Merkezlerinin Seçiminin Önemi…

36 10/30/2007 Introduction to Data Mining 36 İlk Ağırlık Merkezlerinin Seçiminin Önemi…

37 10/30/2007 Introduction to Data Mining 37 İlk Ağırlık Merkezlerinin)Seçimi ile İlgili Sorunlar l Eğer ‘K’ adet gerçek küme varsa her kümeden birinin ağırlık merkezini seçme şansı azdır. –K büyük olduğu zaman şans göreceli olarak küçüktür. –Eğer kümeler aynı boyutta, n, ise –Örnek olarak, Eğer K = 10, ise, ihtimal= 10!/10 10 = –Bazen, ilk ağırlık merkezleri kendi kendilerini doğru yönde ayarlayacaktır ve bazen ise ayarlayamayacaktır. –Beş çift kümeyi örnek olarak alırsak

38 10/30/2007 Introduction to Data Mining Küme Örneği Her çift küme için iki tane ilk ağırlık merkezinin atanması ile başlandığında

39 10/30/2007 Introduction to Data Mining Küme Örneği Her çift küme için iki tane ilk ağırlık merkezinin atanması ile başlandığında

40 10/30/2007 Introduction to Data Mining Küme Örneği Bazı çift kümeler için üç tane ve diğerleri için bir tane ilk ağırlık merkezinin atanması ile başlandığında

41 10/30/2007 Introduction to Data Mining Küme Örneği Bazı çift kümeler için üç tane ve diğerleri için bir tane ilk ağırlık merkezinin atanması ile başlandığında

42 10/30/2007 Introduction to Data Mining 42 İlk Ağırlık Merkezi Problemi için Çözümler l Birden fazla çalıştırma (koşma) –Yardımcı olur, fakat muhtemelen pek istenmez l Örnekle ve ilk ağırlık merkezlerini belirlemek için hiyerarşik kümeleme kullan l K‘dan fazla ilk ağırlık merkezi seç ve bunların arasından ilk ağırlık merkezlerini seç –En yaygın olarak ayrılmışlar seçilebilir. l Son-işleme l İkiye Bölmeli (Bisecting) K-ortalamalar –İlklendirme konularında çok duyarlı değil

43 10/30/2007 Introduction to Data Mining 43 Boş Kümeler l K-ortalamalar ile boş kümeler oluşturabilir. Boş Küme

44 10/30/2007 Introduction to Data Mining 44 Boş Kümeleri Gidermek l Temel K-ortalamalar algoritması boş kümeler oluşturabilir. l Stratejilerden bazıları –SSE’ye en çok katkı veren noktayı seç –En yüksek SSE’si olan kümeden bir nokta seç –Eğer birkaç tane boş küme varsa yukarıdakiler birkaç kez tekrarlanabilir.

45 10/30/2007 Introduction to Data Mining 45 Merkezleri Artırımlı olarak Güncelleme l Temel K-ortalamalar algoritmasında, bütün noktalar merkezlere atandıkdan sonra merkezler güncellenir. l Diğer bir yol ise herbir atamadan sonra merkezi güncellemektir (artırımlı yaklaşım) –Herbir atama sıfır veya iki merkezi günceller –Daha maliyetli –Sıraya bağımlıdır –Boş küme asla oluşturmaz –Etkiyi değiştirmek için ‘ağırlıklar’ kullanabilir

46 10/30/2007 Introduction to Data Mining 46 Ön-işleme ve Son-işleme l Ön-işleme –Veriyi normalize et –Gürültü/Aykırılıkları temizle l So-işleme –Aykırılıkları/anormallikleri gösterebilecek küçük kümeleri ele –Gevşek kümeleri ayır. Gevşek kümelere örnek olarak yüksek SSE’si olan kümeler verilebilir. –Yakın kümeleri ve düşük SSE’si olan kümeleri birleştir –Bu adımlar kümeleme işlemi sırasında kullanılabilir.  ISODATA

47 10/30/2007 Introduction to Data Mining 47 İkiye Bölmeli (Bisecting) K-ortalamalar l İkiye Bölmeli K-ortalamalar algoritması –Bir bölümlemeli veya hiyerarşik kümeleme üretebilecek bir K-ortalamalar algoritması türevidir.

48 10/30/2007 Introduction to Data Mining 48 İkiye Bölmeli (Bisecting) K-ortalamalar Örneği

49 10/30/2007 Introduction to Data Mining 49 Hiyerarşik Kümeleme l Hiyerarşik ağaç şeklinde organize edilmiş iç içe kümeler üretir. l Dendrogram olarak görselleştirilebilir. –Birleşme veya ayrılma sıralarını kaydeden ağaç benzeri diyagrama denir.

50 10/30/2007 Introduction to Data Mining 50 Hiyerarşik Kümelemenin Güçlü Yanları l Küme sayısının belirlenmesine gerek yoktur –Uygun bir seviyeden dendrogramı keserek istenilen sayıda küme bulunabilir l Anlamlı taksonomilere karşılık gelebilir –Biyolojik bilimlerdekiler örnek verilebilir (örnek, hayvanlar alemi, filogeni rekonstrüksiyon, …)

51 10/30/2007 Introduction to Data Mining 51 Hiyerarşik Kümeleme l Hiyerarşik kümelemenin iki ana çeşidi vardır –Aglomeratif (Agglomerative):  Herbir nokta küme kabul edilerek başlanır  Herbir adımda, en sonda tek küme (veya k küme) kalacak şekilde en yakın küme çiflerini birleştir –Bölücü (Divisive):  Tek küme ile başla  Herbir adımda, herbir kümede tek nokta kalana kadar (veya k küme kalana kadar) kümeyi böl. l Geleneksel hiyerarşik algoritmalar benzerlik veya uzaklık matrisi kullanırlar. –Her adımda bir küme birleştir veya böl

52 10/30/2007 Introduction to Data Mining 52 Aglomeratif Kümeleme Algoritması l En pobüler hiyerarşik kümeleme tekniğidir. l Temel algoritma basittir 1.Yakınlık matrisini hesapla 2.Herbir noktayı bir küme olarak alcluster 3.Repeat 4.En yakın iki kümeyi birleştir 5.Yakınlık matrisini güncelle 6.Until tek küme kalana kadar l İki kümenin yakınlığını hesaplamak önemli işlemdir. –Kümeler arasındaki mesafeyi tanımlamada kullanılan farklı yaklaşımlar algoritmaları birbirlerinden ayırır

53 10/30/2007 Introduction to Data Mining 53 Başlangıç Durumu l Herbir noktanın kendi kümesi ile ve yakınlık matrisi ile başla p1 p3 p5 p4 p2 p1p2p3p4p Yakınlık Matrisi

54 10/30/2007 Introduction to Data Mining 54 Ara Durum l Birkaç birleştirme adımından sonra, bazı kümeler oluşur C1 C4 C2 C5 C3 C2C1 C3 C5 C4 C2 C3C4C5 Yakınlık Matrisi

55 10/30/2007 Introduction to Data Mining 55 Ara Durum l İki en yakın kümeyi (C2 ve C5) birleştirmek ve yakınlık matrisini güncellemek istiyoruz. C1 C4 C2 C5 C3 C2C1 C3 C5 C4 C2 C3C4C5 Yakınlık Matrisi

56 10/30/2007 Introduction to Data Mining 56 Birleştirmeden Sonra l Soru “Yakınlık matrisinin nasıl güncelleneceğidir?” C1 C4 C2 U C5 C3 ? ? ? ? ? C2 U C5 C1 C3 C4 C2 U C5 C3C4 Yakınlık Matrisi

57 10/30/2007 Introduction to Data Mining 57 Küme-arası Mesafe Nasıl Tanımlanır p1 p3 p5 p4 p2 p1p2p3p4p Benzerlik? l MİN l MAX l Grup Ortalama l Ağırlık Merkezleri Arasındaki Mesafe l Bir amaç fonksiyonu oluşturulan yöntemler –Ward’s Metodu karesi alınmış hatayı kullanır Yakınlık Matrisi

58 10/30/2007 Introduction to Data Mining 58 Küme-arası Benzerlik Nasıl Tanımlanır p1 p3 p5 p4 p2 p1p2p3p4p Yakınlık Matrisi l MİN l MAX l Grup Ortalama l Ağırlık Merkezleri Arasındaki Mesafe l Bir amaç fonksiyonu oluşturulan yöntemler –Ward’s Metodu karesi alınmış hatayı kullanır

59 10/30/2007 Introduction to Data Mining 59 Küme-arası Benzerlik Nasıl Tanımlanır p1 p3 p5 p4 p2 p1p2p3p4p Yakınlık Matrisi l MİN l MAX l Grup Ortalama l Ağırlık Merkezleri Arasındaki Mesafe l Bir amaç fonksiyonu oluşturulan yöntemler –Ward’s Metodu karesi alınmış hatayı kullanır

60 10/30/2007 Introduction to Data Mining 60 Küme-arası Benzerlik Nasıl Tanımlanır p1 p3 p5 p4 p2 p1p2p3p4p Yakınlık Matrisi l MİN l MAX l Group Average l Ağırlık Merkezleri Arasındaki Mesafe l Bir amaç fonksiyonu oluşturulan yöntemler –Ward’s Metodu karesi alınmış hatayı kullanır

61 10/30/2007 Introduction to Data Mining 61 Küme-arası Benzerlik Nasıl Tanımlanır p1 p3 p5 p4 p2 p1p2p3p4p Yakınlık Matrisi l MIN l MAX l Grup Ortalama l Ağırlık Merkezleri Arasındaki Mesafe l Bir amaç fonksiyonu oluşturulan yöntemler –Ward’s Metodu karesi alınmış hatayı kullanır 

62 10/30/2007 Introduction to Data Mining 62 MİN veya Tek Bağlantı l İki kümenin yakınlığı farklı kümelerdeki iki en yakın noktaya bağlıdır. –Bir çift nokta ile belirlenir, örnek olarak, yakınlık grafındaki bir bağlantı ile belirlenir l Örnek: Yakınlık Matrisi

63 10/30/2007 Introduction to Data Mining 63 Hiyerarşik Kümeleme: MİN İçiçe kümelerDendrogram

64 10/30/2007 Introduction to Data Mining 64 MİN’in Güçlü Yanları Orjinal NoktalarAltı Küme Dairesel-olmayan kümeleri tespit edebilir

65 10/30/2007 Introduction to Data Mining 65 MİN’in Eksiklikleri Orjinal Noktalar İki Küme Gürültü ve aykırılara çok duyarlı Üç Küme

66 10/30/2007 Introduction to Data Mining 66 MAX veya Tam Bağlantı l İki kümenin yakınlığı farklı kümelerdeki iki en uzak noktaya bağlıdır. –İki kümedeki bütün nokta çiftleri tarafından belirlenir Distance Matrix:

67 10/30/2007 Introduction to Data Mining 67 Hiyerarşik Kümeleme: MAX İçiçe KümelerDendrogram

68 10/30/2007 Introduction to Data Mining 68 MAX’ın Güçlü Yanları Orjinal Noktalarİki Küme Gürültü ve aykırılara karşı daha az duyarlı

69 10/30/2007 Introduction to Data Mining 69 MAX’ın Eksiklikleri Orjinal Noktalarİki Küme Büyük kümeleri bölmeye meyleder Dairesel kümeler bulur

70 10/30/2007 Introduction to Data Mining 70 Grup Ortalama l İki kümenin yakınlığı iki kümedeki noktaların ikili yakınlıklarının ortalamasıdır l Ölçeklenebilirlik için ortalama bağlılık kullanması gerekir çünkü toplam yakınlık büyük kümelere meyleder. large clusters Yakınlık Matrisi

71 10/30/2007 Introduction to Data Mining 71 Hiyerarşik Kümeleme: Grup Ortalaması İçiçe KümelerDendrogram

72 10/30/2007 Introduction to Data Mining 72 Hiyerarşik Kümeleme: Grup Ortalama l Tek ve Tam Bağlantının arasında bir algoritmadır. İyi yaklaşımın eksikliklerini karşılar. l Güçlü Yönleri –Gürültü ve aykırılara karşı daha az duyarlı l Eksiklikler –Dairesel kümeler bulmaya çalışır

73 10/30/2007 Introduction to Data Mining 73 Küme Benzerliği : Ward Metodur l İki kümenin benzerliği iki küme birleştirildiği zaman karesi alınmış hatadaki artışa bağlıdır –Noktalar arasındaki mesave mesafelerin karesi olsaydı grup ortalamaya benzerdir. l Gürültü ve aykırılara karşı daha az duyarlı l Dairesel kümeler bulmaya çalışır l K-ortalamaların hiyerarşik analogue –K-ortalamaları ilklendirmek için kullanılabilir

74 10/30/2007 Introduction to Data Mining 74 Hiyerarşik Kümeleme: Karşılaştırma Grup Ortalama Ward Metodu MİNMİNMAX

75 10/30/2007 Introduction to Data Mining 75 Hiyerarşik Kümeleme: Zaman ve Alan İhtiyacı l O(N 2 ) alan gerekir çünkü yakınlık matrisi kullanılmaktadır. –N nokta sayısını gösterir. l O(N 3 ) zaman gerekir çoğu durumda –N tane adım vardır ve herbir adımda boyutu, N 2, olan yakınlık matrisi güncellenmeli ve sorgulanmalıdır. –Karmaşıklık zeki yaklaşımlarla O(N 2 log(N) ) zamana indirgenebilir.

76 10/30/2007 Introduction to Data Mining 76 Hiyerarşık Kümeleme: Problemler ve Eksiklikler l İki kümenin birleştirilmesine karar verildikten sonra geri al yapılamaz. l Herhangi bir amaç fonksiyonu doğrudan minimize edilmez. l Aşağıdakilerin biri veya birkaçı için farklı durumlarda problem oluşabilir: –Gürültü ve aykırılıklara duyarlıdır. –Farklı boyutlardaki kümelerde ve konveks şekilli kümelerda zorluk yaşar. –Büyük kümeleri bölebilir

77 10/30/2007 Introduction to Data Mining 77 DBSCAN l DBSCAN yoğunluk-tabanlı algoritmadır. –Yoğunluk = Verilen bir yarıçap (Eps) içerisinde olan nokta sayısıdır –Eğer bir noktanın Eps yarıçapında verilen minimum nokta sayısından (MinPts) daha fazla nokta varsa o noktaya merkez nokta denir.  Bu noktalar kümenin iç bölgelerinde bulunan noktalardır. –Eğer bir noktanın Eps yarıçapında verilen minimum nokta sayısından (MinPts) daha az nokta varsa ve o nokta bir merkez noktanın komşuluğunda ise noktaya sınır nokta denir. –Ne merkez nokta ne de sınır nokta olan noktaya gürültü nokta denir.

78 10/30/2007 Introduction to Data Mining 78 DBSCAN: Merkez (Core), Sınır (Border) ve Gürültü (Noise) Noktalar

79 10/30/2007 Introduction to Data Mining 79 DBSCAN Algoritması l Gürültü noktaları elimine et. l Kalan noktalar üzerinde kümelemeyi çalıştır.

80 10/30/2007 Introduction to Data Mining 80 DBSCAN: Merkez, Sınır ve Gürültü Noktaları Orjinal Noktalar Nokta tipleri: merkez, sınır ve gürültü Eps = 10, MinPts = 4

81 10/30/2007 Introduction to Data Mining 81 DBSCAN iyi çalıştığı zaman Orjinal Noktalar Kümeler Gürültüye dirençlü Farklı şekil ve boyutlardaki kümeleri bulabilir.

82 10/30/2007 Introduction to Data Mining 82 DBSCAN iyi çalışmadığı zaman Orjinal Noktalar (MinPts=4, Eps=9.75). (MinPts=4, Eps=9.92) Değişen yoğunluklar Yüksek-boyutlu veri

83 10/30/2007 Introduction to Data Mining 83 DBSCAN: EPS ve MinPts’yi Belirleme l Fikir odur ki bür küme içerisindeki noktaların k ıncı en yakın komşusu kabaca aynı mesafededir. l Gürültü noktaları daha uzak yerlerde k ıncı en yakın komşu noktaya sahiptir. l Bu nedenle, herbir nokta için k ıncı en yakın komşularını sıralanmış bir şekilde çizdir.


"Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd." indir ppt

Benzer bir sunumlar


Google Reklamları