Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

KARAR TEORİSİ.
Veri Madenciliğinde Kümeleme Slink Algoritması
Öğretim İhtiyacını Belirleme
Kümeleme Modeli (Clustering)
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
MIT503 Veri Yapıları ve algoritmalar Algoritmalara giriş
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
Bellek Tabanlı Sınıflandırma
MIT503 Veri Yapıları ve algoritmalar En önemli graf problemleri
Karar Ağaçları.
MIT563 Yapay Zeka ve Makine Öğrenmesi
İstatistiksel Sınıflandırma
Hakan Öktem Orta Doğu Teknik Üniversitesi
Geriden Kestirme Hesabı
Nesneye Dayalı Programlama
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Abdulkerim Karabiber Ozan Gül
Bölüm 4: Sayısal İntegral
Temel İstatistik Terimler
ÖLÇME VE DEĞERLENDİRME DERSİ
Sürekli Zaman Aktif Filtre Tasarımı
Bölüm6:Diferansiyel Denklemler: Başlangıç Değer Problemleri
BENZETİM Prof.Dr.Berna Dengiz 3. Ders Monte Carlo Benzetimi
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Varyasyon Katsayısı
M.Fatih AMASYALI Uzman Sistemler Ders Notları
SONLU ELEMANLAR YÖNTEMİ
SONLU ELEMANLARA GİRİŞ DERSİ
Ölçme Sonuçlarının Değerlendirilmesi
RASYONEL SAYILAR Q.
MEDİKAL GÖRÜNTÜ İŞLEMENİN AMACI
BOŞ KÜME DENK KÜME EVRENSEL KÜME EŞİT KÜME İÇİNDEKİLER.
Yrd. Doç. Dr. Ali İhsan KADIOĞULLARI
Şahin BAYZAN Kocaeli Üniversitesi Teknik Eğitim Fakültesi
Karar Bilimi 1. Bölüm.
Demetleme (Clustering)
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
Bulanık Mantık Bulanık Mantığın Temel Kavramları
Kümeleme Algoritmaları
Bilgisayar Görmesi Ders 9:Korelasyon ve İki Boyutlu Dönüşümler
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Bölüm 4 için Ders Notları Introduction to Data Mining
Bulanık Mantık Kavramlar:
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
KESİR GÖSTERİMLERİ Kesirlerin somut modellerle gösteriminde dört değişik yol vardır. Bunlar, bölge, çizgi, küme ve alan gösterimleridir. BÖLGE MODELİ.
YAPAY SİNİR AĞLARI.
BİL551 – YAPAY ZEKA Kümeleme
Yrd.Doç.Dr.Esra Tunç Görmüş
Tanım: ( Temel Çevreler Kümesi)
Nesne Tabanlı Yazılım Geliştirme Bora Güngören Portakal Teknoloji EMO Ankara Şubesi
ÖLÇME VE DEĞERLENDİRME DERSİ
Algoritmalar II Ders 6 Açgözlü Algoritmalar.
Araş. Gör. Dinçer göksülük
Bölüm 4 için Ders Notları Introduction to Data Mining
Kümeleme Modeli (Clustering)
Geriye Yayılım Algoritması (Back-Propagation Algorithm)
Temel İstatistik Terimler
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Değişim Katsayısı
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
Sinir Hücresi McCulloch-Pitts x1 w1 x2 w2 v y wm xm wm+1 1 '
G grafının aşağıdaki özellikleri sağlayan Ga alt grafına çevre denir:
5.1 POLİNOMİNAL REGRESSİYON
BLM-111 PROGRAMLAMA DİLLERİ I Ders-2 Değişken Kavramı ve Temel Operatörler Yrd. Doç. Dr. Ümit ATİLA
Fırat Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Müh.
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
Yapay Zeka Nadir Can KAVKAS
5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi)
Temel İstatistik Terimler
Sunum transkripti:

Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar Bölüm 8 için Ders Notları Introduction to Data Mining Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete Çelik 10/30/2007 Introduction to Data Mining 1

Kümeleme Analizi Nedir? Bir grup içerindeki nesneler birbirlerine benzer ve diğer gruplardaki nesnelerden farklı olacak şekilde nesnelerin gruplarının bulunmasıdır. Küme-arası mesafeler maksimize edilecek Küme-içi mesafeler minimize edilecek

Kümeleme Analizinin Uygulamaları Anlama Tarama için ilişkili belgelerin gruplandırılması Benzer işlevi olak genlerin ve proteinlerin gruplandırılması Benzer fiyat dalgalanmalarına sahip hisselerin gruplandırılması Özetleme Büyük veri kümelerinin boyutlarıın azaltılması Avustralyadaki yağışın kümelenmesi

Kümeleme Analizi Ne Değildir? Basit Parçalama (Segmentasyon) Öğrencileri soyisimlerine göre alfabetik olarak farklı gruplara gölme Bir sorgu sonucu Gruplama dışarıdan tanımlamalara göre yapılır. Kümeleme veriye bağlı olarak nesnelerin gruplara ayrılmasıdır. Danışmanlı Sınıflandırma Sınıf etiket bilgisinin olması durumu Birliktelik Analizi Yerel – küresel bağlantılar

Küme Kavramı Belirsiz Olabilir Kaç küme var? Altı Küme İki Küme Dört Küme

Kümeleme Tipleri Kümeleme kümelerin bir kümesidir Hiyerarşik ve bölümlemeli kümeler arasındaki önemli fark Bölümlemeli Kümeleme Herbir veri nesnesinin sadece bir altkümede yer almasını sağlayacak şekilde üstüste gelmeyen altkümeler halinde verinin bölünmesidir. Hiyerarşik Kümeleme Bir hiyerarşık ağaç olarak organize edilen iç içe olan küme yapılarıdır

Bölümlemeli Kümeleme Bölümlemeli Kümeleme Orjinal Noktalar

Hiyerarşik Kümeleme Geleneksel Hiyerarşik Kümeleme Geleneksel Dendrogram Geleneksel olmayan Hüherarşik Kümeleme Geleneksel olmayan Dendrogram

Küme Takımları Arasındaki Diğer Farklar Mühnasır - münhasır olmama (Exclusive versus non- exclusive) Münhasır olmayan kümelemede, noktalar birden fazla kümeye ait olabilir. Birden fazla kümeyi veya “sınır” noktasını gösterebilir Bulanık – Bulanık olmayan (Fuzzy versus non-fuzzy) Bulanık kümelemede, bir nokta, 0 ve 1 arasındaki ağırlık değerleri ile her sınıfa ait olur. Ağırlıklar toplamı 1 olmalıdır Olasılıklı kümelemede de benzer karakteristik vardır. Kısmı – tam (Partial versus complete) Bazı durumlarda, sadece verinin bir kısmını kümelemek isteriz Heterojen – Homojen (Heterogeneous versus homogeneous) Çok faklı boyutlarda, şekillerde ve yoğunluklarda olan kümeler

Küme Tipleri İyi-ayrılmış kümeler Merkez-tabanlı kümeler Sürekli kümeler Yoğunluk-tabanlı kümeler Özellik veya Kavramsal Amaç fonksiyonu ile tanımlanmış

Küme Tipleri: İyi-Ayrılmış İyi-Ayrılmış Kümeler: Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki herhangi bir nokta kümede bulunan diğer noktalara, kümede olmayan noktalardan, daha yakındır (daha benzerdir). 3 iyi-ayrılmış küme

Küme Tipleri: Merkez-Tabanlı Bir küme nesneler kümesidir (grubudur), öyleki, bir kümedeki bir nesne bulunduğu kümenin merkezine, diğer kümelerin merkezlerinden, daha yakındır (daha benzerdir). Bir kümenin merkezi genellikle ağırlık merkezi (centroid), kümedeki tüm noktalarının ortalaması, ya da bir kümenin en "temsilcisi" noktasıdır olan bir medoid olabilir. 4 merkez-tabanlı küme

Küme Tipleri: Süreklilik-Tabanlı Sürekli Kümeler (En Yakın Komşu veya Geşişli) Bir küme noktalar kümesidir (grubudur), öyleki, bir kümedeki bir nokta bulunduğu kümedeki bir veya birden fazla noktaya bulunduğu küme içinde olmayan diğer noktalardan daha yakındır (daha benzerdir). 8 contiguous clusters

Küme Tipleri: Yoğunluk-tabanlı Bir küme, yüksek yoğunluğa sahip diğer bölgelerden düşük yoğunluklu bölgeler ile ayrılan, noktaların oluşturduğu yoğun bir bölgesidir Kümeler düzensiz veya sarılmış olduğu durumlarda veya gürüldü ve anomalinin olduğu durumlarda kullanılır. 6 yoğunluk-tabanlı küme

Küme Tipleri: Kavramsal Kümeler Paylaşımlı Özellik veya Kavramsal Kümeler Aynı özellikleri paylaşan kümeleri veya belirli bir kavramı temsil eden kümeleri bul.. 2 üstüste kesişen küme

Küme Tipleri: Amaç Fonksiyonu Kümeler bir Amaç Fonksiyonu ile Tanımlanır Bir amaç fonksiyonu minimize veya maksimize eden kümeleri bul. Noktaları kümelere ayıran bütün muhtamal yolları ortaya koy ve verilen amaç fonksiyonunu kullanarak herbir potansiyel küme grubunun “iyiliğini” değerlendir (NP Zor – NP Hard) Küresel ve yerel amaçlar olabilir. Hiyerarşık kümeleme algoritmaları tipik olarak yerel amaçlara sahiptir. Bölümlemeli algoritmalar tipik olarak küresel amaçlara sahiptir. Küresel amaç fonksiyonu yaklaşımının bir varyasyonu, veriyi parametreli bir modele uygulanmasıdır. Model için parametreler veriden belirlenebilir. Karışık (mixture) modeller, verinin birkaç istatistiksel modelin karışımından oluştuğunu varsayarlar

Kümeleme Probleminin Faklı Bir Probleme Benzetilmesi Kümeleme problemini farklı bir alana uyarla ve bu alandaki ilgili problemi çöz Yakınlık matrisi, düğümlerin noktalar olduğu ve noktalar arasındaki uzaklıkların da ağırlıklandırılmış kenarlar olduğu bir ağırlıklandırılmış graf tanımlar. Kümeleme, grafı, herbiri bir küme olan bağlantılı bileşenlerine bölme işlemine eşittir. Kümeler arasındaki kenar ağırlıklarının minimize edilmesi ve kümeler içindeki kenar ağırlıklarının maksimize edilmesi amaçlanmaktadır.

Giriş Verisinin Karakteristiği Önemlidir Yakınlığın veya yoğunluk ölçütünün tipi Kümeleme merkez Seyreklik Benzerlik tipini belirler Verime (etkililiğe ) katkılar Özellik tipi Veri tipi Diğer karakteristikler, otokorelasyon gibi Boyutluluk Gürültü ve anomali Dağılım tipi

Kümeleme Algoritmaları K-ortalamalar ve Türevleri Hiyerarşik Kümeleme Yoğunluk-tabanlı Kümeleme

K-ortalamalar Kümeleme Bölümlemeli kümeleme yaklaşımı Küme sayısı K, verilmelidir Herbir küme bir ağırlık merkezine bağlıdır (centroid – merkez nokta) Herbir nokta en yakın yakın ağırlık merkezine atanır Temel algoritma oldukça basittir.

K-ortalamalar Kümeleme Örneği

K-ortalamalar Kümeleme Örneği

K-Ortalamalar Kümeleme - Detaylar İlk ağırlık merkezleri genellikle random olarak atanır. Her çalışmada üretilen kümeler değişir. Ağırlık merkezi genellikle kümedeki noktaların ortalamalarından oluşur. “Yakınlık” öklit mesafesi, kosinüs benzerliği, korelasyon gibi ölçütlerle ölçülür. K-ortalamalar yukarıda bahsedilen yaygın benzerlik ölçütleri için yakınsayacaktır. Yakınsama genellikle ilk birkaç iterasyondan sonra biter. Durdurma kriteri genellikle “ Göreceli olarak kümeler değişmeyene kadar” şeklindedir. Karmaşıklık O( n * K * I * d ) n = nokta sayısı, K = küme sayısı, I = iterasyon sayısı, d = özellik sayısı

K-Ortalamalar Kümelerin Değerlendirilmesi En yaygın ölçüt Hataların Karelerinin Toplamıdır (Sum of Squared Error (SSE)) Heribr nokta için, hata en yakın kümeye olan uzaklıktır. SSE’yi hesaplamak için bu hataların kareleri toplanır. x, Ci kümesi içerisindeki veri noktası ve mi , Ci kümesi için temsili noktadır. mi küme merkezine ortalamasına) denk gelir Verilen iki küme için, en küçük hatası olan tercih edilir. SSE’yi azaltmanın en kolay yollarından birisi, K’yı, küme sayısını, arttırmaktır. Daha küçük K değerine sahip kümeleme, daha yüksek K değerine sahip kümelemeden daha düşük SSE değerine sahip olabilir.

İki Farklı K-ortalamalar Kümeleme Orjinal Noktalar İdeal Kümeleme Vasat Kümeleme

K-ortalamaların Eksiklikleri K-ortalamaların kümelerin aşağıdaki farklılıklarından dolayı bazı problemleri vardır. Boyut Yoğunluk Küresel (yuvarlak)- olmayan şekiller Veri anormal veri içerirse K-ortalamalar algoritmasında problem oluşur.

K-ortalamaların Eksiklikleri: Farklı Boyutlar Orjinal Noktalar K-ortalamalar (3 Küme)

K-ortalamaların Eksiklikleri: Farklı Yoğunluk Orjinal Noktalar K-ortalamalar (3 Küme)

K-ortalamaların Eksiklikleri: Küresel-olmayan Şekiller Orjinal Noktalar K-ortalamalar (2 Küme)

K-ortalamaların Eksikliklerinin Giderimi Orjinal Noktalar K-ortalamalar Kümeleri Çok fazla sayıda küme kullanmak çözümlerden birisidir. Kümelerin parçaları bulunur, fakat bir araya konulmaları gerekir.

K-ortalamaların Eksikliklerinin Giderimi Orjinal Noktalar K-ortalamalar Kümeleri

K-ortalamaların Eksikliklerinin Giderimi Orjinal Noktalar K-ortalamalar Kümeleri

İlk Merkezlerin Seçiminin Önemi

İlk Merkezlerin Seçiminin Önemi

İlk Merkezlerin Seçiminin Önemi…

İlk Merkezlerin Seçiminin Önemi…