Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd.

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd."— Sunum transkripti:

1 Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete Çelik 10/30/2007 Introduction to Data Mining 1

2 10/30/2007 Introduction to Data Mining 2 Kümeleme Analizi Nedir? l Bir grup içerindeki nesneler birbirlerine benzer ve diğer gruplardaki nesnelerden farklı olacak şekilde nesnelerin gruplarının bulunmasıdır. Küme-arası mesafeler maksimize edilecek Küme-içi mesafeler minimize edilecek

3 10/30/2007 Introduction to Data Mining 3 Kümeleme Analizinin Uygulamaları l Anlama –Tarama için ilişkili belgelerin gruplandırılması –Benzer işlevi olak genlerin ve proteinlerin gruplandırılması –Benzer fiyat dalgalanmalarına sahip hisselerin gruplandırılması l Özetleme –Büyük veri kümelerinin boyutlarıın azaltılması Avustralyadaki yağışın kümelenmesi

4 10/30/2007 Introduction to Data Mining 4 Kümeleme Analizi Ne Değildir? l Basit Parçalama (Segmentasyon) –Öğrencileri soyisimlerine göre alfabetik olarak farklı gruplara gölme l Bir sorgu sonucu –Gruplama dışarıdan tanımlamalara göre yapılır. –Kümeleme veriye bağlı olarak nesnelerin gruplara ayrılmasıdır. l Danışmanlı Sınıflandırma –Sınıf etiket bilgisinin olması durumu l Birliktelik Analizi –Yerel – küresel bağlantılar

5 10/30/2007 Introduction to Data Mining 5 Küme Kavramı Belirsiz Olabilir Kaç küme var? Dört Kümeİki Küme Altı Küme

6 10/30/2007 Introduction to Data Mining 6 Kümeleme Tipleri l Kümeleme kümelerin bir kümesidir l Hiyerarşik ve bölümlemeli kümeler arasındaki önemli fark l Bölümlemeli Kümeleme –Herbir veri nesnesinin sadece bir altkümede yer almasını sağlayacak şekilde üstüste gelmeyen altkümeler halinde verinin bölünmesidir. l Hiyerarşik Kümeleme –Bir hiyerarşık ağaç olarak organize edilen iç içe olan küme yapılarıdır

7 10/30/2007 Introduction to Data Mining 7 Bölümlemeli Kümeleme Orjinal Noktalar Bölümlemeli Kümeleme

8 10/30/2007 Introduction to Data Mining 8 Hiyerarşik Kümeleme Geleneksel Hiyerarşik Kümeleme Geleneksel olmayan Hüherarşik KümelemeGeleneksel olmayan Dendrogram Geleneksel Dendrogram

9 10/30/2007 Introduction to Data Mining 9 Küme Takımları Arasındaki Diğer Farklar l Mühnasır - münhasır olmama (Exclusive versus non- exclusive) –Münhasır olmayan kümelemede, noktalar birden fazla kümeye ait olabilir. –Birden fazla kümeyi veya “sınır” noktasını gösterebilir l Bulanık – Bulanık olmayan (Fuzzy versus non-fuzzy) –Bulanık kümelemede, bir nokta, 0 ve 1 arasındaki ağırlık değerleri ile her sınıfa ait olur. –Ağırlıklar toplamı 1 olmalıdır –Olasılıklı kümelemede de benzer karakteristik vardır. l Kısmı – tam (Partial versus complete) –Bazı durumlarda, sadece verinin bir kısmını kümelemek isteriz l Heterojen – Homojen (Heterogeneous versus homogeneous) –Çok faklı boyutlarda, şekillerde ve yoğunluklarda olan kümeler

10 10/30/2007 Introduction to Data Mining 10 Küme Tipleri l İyi-ayrılmış kümeler l Merkez-tabanlı kümeler l Sürekli kümeler l Yoğunluk-tabanlı kümeler l Özellik veya Kavramsal l Amaç fonksiyonu ile tanımlanmış

11 10/30/2007 Introduction to Data Mining 11 Küme Tipleri: İyi-Ayrılmış l İyi-Ayrılmış Kümeler: –Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki herhangi bir nokta kümede bulunan diğer noktalara, kümede olmayan noktalardan, daha yakındır (daha benzerdir). 3 iyi-ayrılmış küme

12 10/30/2007 Introduction to Data Mining 12 Küme Tipleri: Merkez-Tabanlı l Merkez-tabanlı –Bir küme nesneler kümesidir (grubudur), öyleki, bir kümedeki bir nesne bulunduğu kümenin merkezine, diğer kümelerin merkezlerinden, daha yakındır (daha benzerdir). –Bir kümenin merkezi genellikle ağırlık merkezi (centroid), kümedeki tüm noktalarının ortalaması, ya da bir kümenin en "temsilcisi" noktasıdır olan bir medoid olabilir. 4 merkez-tabanlı küme

13 10/30/2007 Introduction to Data Mining 13 Küme Tipleri: Süreklilik-Tabanlı l Sürekli Kümeler (En Yakın Komşu veya Geşişli) –Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki bir nokta bulunduğu kümedeki bir veya birden fazla noktaya bulunduğu küme içinde olmayan diğer noktalardan daha yakındır (daha benzerdir). 8 contiguous clusters

14 10/30/2007 Introduction to Data Mining 14 Küme Tipleri: Yoğunluk-tabanlı l Yoğunluk-tabanlı –Bir küme, yüksek yoğunluğa sahip diğer bölgelerden düşük yoğunluklu bölgeler ile ayrılan, noktaların oluşturduğu yoğun bir bölgesidir –Kümeler düzensiz veya sarılmış olduğu durumlarda veya gürüldü ve anomalinin olduğu durumlarda kullanılır. 6 yoğunluk-tabanlı küme

15 10/30/2007 Introduction to Data Mining 15 Küme Tipleri: Kavramsal Kümeler l Paylaşımlı Özellik veya Kavramsal Kümeler –Aynı özellikleri paylaşan kümeleri veya belirli bir kavramı temsil eden kümeleri bul.. 2 üstüste kesişen küme

16 10/30/2007 Introduction to Data Mining 16 Küme Tipleri: Amaç Fonksiyonu l Kümeler bir Amaç Fonksiyonu ile Tanımlanır –Bir amaç fonksiyonu minimize veya maksimize eden kümeleri bul. –Noktaları kümelere ayıran bütün muhtamal yolları ortaya koy ve verilen amaç fonksiyonunu kullanarak herbir potansiyel küme grubunun “iyiliğini” değerlendir (NP Zor – NP Hard) – Küresel ve yerel amaçlar olabilir.  Hiyerarşık kümeleme algoritmaları tipik olarak yerel amaçlara sahiptir.  Bölümlemeli algoritmalar tipik olarak küresel amaçlara sahiptir. –Küresel amaç fonksiyonu yaklaşımının bir varyasyonu, veriyi parametreli bir modele uygulanmasıdır.  Model için parametreler veriden belirlenebilir.  Karışık (mixture) modeller, verinin birkaç istatistiksel modelin karışımından oluştuğunu varsayarlar

17 10/30/2007 Introduction to Data Mining 17 Kümeleme Probleminin Faklı Bir Probleme Benzetilmesi l Kümeleme problemini farklı bir alana uyarla ve bu alandaki ilgili problemi çöz –Yakınlık matrisi, düğümlerin noktalar olduğu ve noktalar arasındaki uzaklıkların da ağırlıklandırılmış kenarlar olduğu bir ağırlıklandırılmış graf tanımlar. – Kümeleme, grafı, herbiri bir küme olan bağlantılı bileşenlerine bölme işlemine eşittir. –Kümeler arasındaki kenar ağırlıklarının minimize edilmesi ve kümeler içindeki kenar ağırlıklarının maksimize edilmesi amaçlanmaktadır.

18 10/30/2007 Introduction to Data Mining 18 Giriş Verisinin Karakteristiği Önemlidir l Yakınlığın veya yoğunluk ölçütünün tipi –Kümeleme merkez l Seyreklik –Benzerlik tipini belirler –Verime (etkililiğe ) katkılar l Özellik tipi –Benzerlik tipini belirler l Veri tipi –Benzerlik tipini belirler –Diğer karakteristikler, otokorelasyon gibi l Boyutluluk l Gürültü ve anomali l Dağılım tipi

19 10/30/2007 Introduction to Data Mining 19 Kümeleme Algoritmaları l K-ortalamalar ve Türevleri l Hiyerarşik Kümeleme l Yoğunluk-tabanlı Kümeleme

20 10/30/2007 Introduction to Data Mining 20 K-ortalamalar Kümeleme l Bölümlemeli kümeleme yaklaşımı l Küme sayısı K, verilmelidir l Herbir küme bir ağırlık merkezine bağlıdır (centroid – merkez nokta) l Herbir nokta en yakın yakın ağırlık merkezine atanır l Temel algoritma oldukça basittir.

21 K-ortalamalar Kümeleme Örneği

22 10/30/2007 Introduction to Data Mining 22 K-ortalamalar Kümeleme Örneği

23 10/30/2007 Introduction to Data Mining 23 K-Ortalamalar Kümeleme - Detaylar l İlk ağırlık merkezleri genellikle random olarak atanır. –Her çalışmada üretilen kümeler değişir. l Ağırlık merkezi genellikle kümedeki noktaların ortalamalarından oluşur. l “Yakınlık” öklit mesafesi, kosinüs benzerliği, korelasyon gibi ölçütlerle ölçülür. l K-ortalamalar yukarıda bahsedilen yaygın benzerlik ölçütleri için yakınsayacaktır. l Yakınsama genellikle ilk birkaç iterasyondan sonra biter. –Durdurma kriteri genellikle “ Göreceli olarak kümeler değişmeyene kadar” şeklindedir. l Karmaşıklık O( n * K * I * d ) –n = nokta sayısı, K = küme sayısı, I = iterasyon sayısı, d = özellik sayısı

24 10/30/2007 Introduction to Data Mining 24 K-Ortalamalar Kümelerin Değerlendirilmesi l En yaygın ölçüt Hataların Karelerinin Toplamıdır (Sum of Squared Error (SSE)) –Heribr nokta için, hata en yakın kümeye olan uzaklıktır. –SSE’yi hesaplamak için bu hataların kareleri toplanır. –x, C i kümesi içerisindeki veri noktası ve m i, C i kümesi için temsili noktadır.  m i küme merkezine ortalamasına) denk gelir –Verilen iki küme için, en küçük hatası olan tercih edilir. –SSE’yi azaltmanın en kolay yollarından birisi, K’yı, küme sayısını, arttırmaktır.  Daha küçük K değerine sahip kümeleme, daha yüksek K değerine sahip kümelemeden daha düşük SSE değerine sahip olabilir.

25 10/30/2007 Introduction to Data Mining 25 İki Farklı K-ortalamalar Kümeleme Vasat Kümelemeİdeal Kümeleme Orjinal Noktalar

26 10/30/2007 Introduction to Data Mining 26 K-ortalamaların Eksiklikleri l K-ortalamaların kümelerin aşağıdaki farklılıklarından dolayı bazı problemleri vardır. –Boyut –Yoğunluk –Küresel (yuvarlak)- olmayan şekiller l Veri anormal veri içerirse K-ortalamalar algoritmasında problem oluşur.

27 10/30/2007 Introduction to Data Mining 27 K-ortalamaların Eksiklikleri: Farklı Boyutlar Orjinal Noktalar K-ortalamalar (3 Küme)

28 10/30/2007 Introduction to Data Mining 28 K-ortalamaların Eksiklikleri: Farklı Yoğunluk Orjinal Noktalar K-ortalamalar (3 Küme)

29 10/30/2007 Introduction to Data Mining 29 K-ortalamaların Eksiklikleri: Küresel-olmayan Şekiller Orjinal Noktalar K-ortalamalar (2 Küme)

30 10/30/2007 Introduction to Data Mining 30 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri Çok fazla sayıda küme kullanmak çözümlerden birisidir. Kümelerin parçaları bulunur, fakat bir araya konulmaları gerekir.

31 10/30/2007 Introduction to Data Mining 31 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri

32 10/30/2007 Introduction to Data Mining 32 K-ortalamaların Eksikliklerinin Giderimi Orjinal NoktalarK-ortalamalar Kümeleri

33 İlk Merkezlerin Seçiminin Önemi

34 10/30/2007 Introduction to Data Mining 34 İlk Merkezlerin Seçiminin Önemi

35 İlk Merkezlerin Seçiminin Önemi…

36 10/30/2007 Introduction to Data Mining 36 İlk Merkezlerin Seçiminin Önemi…


"Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd." indir ppt

Benzer bir sunumlar


Google Reklamları