Demetleme (Clustering)

Demetleme (Clustering)

Gözetimli & Gözetimsiz Öğrenme
Gözetimli öğrenme (supervised learning) Sınıflandırma Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu biliniyor Gözetimsiz Öğrenme (unsupervised learning) Demetleme (clustering) Öğrenme kümesinde hangi nesnenin hangi sınıfta olduğu bilinmiyor. Genelde sınıf sayısı da bilinmiyor

Demetleme Nedir? Nesneleri demetlere (gruplara) ayırma
Niteliklerinden yararlanarak veri içindeki benzerlikleri bulma ve benzer verileri gruplama Demet: benzer nesnelerden oluşan grup Aynı demetteki nesneler birbirine daha çok benzer

Demet Nedir?

Uygulama Alanları Genel Uygulama alanları Uygulamalar
Verinin dağılımını anlama Ön hazırlık – veri azaltma, düzleştirme Uygulamalar Örüntü tanıma Görüntü şleme Aykırılıkları / sahtekarlık belirleme Kullanıcıları gruplandırma

İyi Demetlemenin Gereklilikleri
Ölçeklenebilirlik Farklı tipteki ve niteliklerden oluşan nesneleri demetleme Farklı şekillerdeki demetleri oluşturabilme En az sayıda giriş parametresi gereksinimi Hatalı veriler ve aykırılıklardan en az etkilenme Çok boyutlu veriler üzerinde çalışma Sonucun yorumlanabilir ve anlaşılabilir olması

İyi demetleme Kaliteli bir demetlemenin özellikleri:
aynı demet içindeki nesneler arası benzerlik fazla farklı demetlerde bulunan nesneler arası benzerlik az Uygun demetleme kriteri bulunmalı Aynı demetler arası benzerliği en çok yükselten ve farklı demetler arası benzerliği en çok azaltan fonksiyon Uzaklık/benzerlik fonksiyonu s(i,j)  benzerlik (similarity) d(i,j)  uzaklık (distance)

İyi demetleme Benzerlik fonksiyonundan bağımsız bir de kalite (quality) fonksiyonu bulunur Benzerlik fonksiyonları farklı veriler için farklı şekillerde tanımlanabilir kategorik, boolean, sayısal, vektörel “yeterince benzer” ya da “yeterince iyi” gibi sınırları belirlemek zordur Cevap genellikle subjektiftir

Veri Yapıları Veri matrisi Farklılık matrisi n veri sayısı
p nitelik sayısı Farklılık matrisi d(i,j) iki veri arası uzaklık

Veriler arası benzerlik/farklılık ölçme
Mesafe (distance) iki veri arasındaki farklılığı ölçmekte kullanılır Sık kullanılan metriklerden biri: Minkowski distance: i = (xi1, xi2, …, xip) ve j = (xj1, xj2, …, xjp) p-boyutlu iki veri, ve q pozitif bir tamsayı Eğer q = 1 ise, d’ye Manhattan uzaklığı denir

Veriler arası benzerlik/farklılık ölçme
Eğer q = 2, d’ye Euclidean (Öklit) uzaklığı denir: Her uzaklık metriği için d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j)

Temel Demetleme Yaklaşımları
Bölünmeli yöntemler (Partitioning approach): Veriyi bölerek, her grubu belirlenmiş bir kritere göre değerlendirir, Tipik metodlar: k-means, k-medoids, CLARANS Hiyerarşik yöntemler: Veri kümelerini (ya da nesneleri) önceden belirlenmiş bir kritere göre hiyerarşik olarak ayırır Tipik metodlar : Diana, Agnes, BIRCH, ROCK, CAMELEON Yoğunluk tabanlı yöntemler: Nesnelerin yoğunluğuna göre demet oluşturur Tipik metodlar : DBSACN, OPTICS, DenClue Model tabanlı yöntemler: Her demetin bir modele uyduğu varsayılır. Modele uyan veri uygun demete atanır Typical methods: EM, SOM, COBWEB

Demetler arası uzaklık ölçme
Tek (Single) link: farklı demetlerdeki herhangi iki eleman arasındaki en küçük uzaklık, i.e., dis(Ki, Kj) = min(tip, tjq) Tam (Complete) link: farklı demetlerdeki herhangi iki eleman arasındaki en büyük uzaklık, i.e., dis(Ki, Kj) = max(tip, tjq) Ortalama (Average): farklı demetlerdeki elemanlar arasındaki ortalama uzaklık, i.e., dis(Ki, Kj) = avg(tip, tjq) Centroid: iki demetin centroid’lerinin arasındaki uzaklık, i.e., dis(Ki, Kj) = dis(Ci, Cj) Medoid: iki demetin medoid’lerinin arasındaki uzaklık, i.e., dis(Ki, Kj) = dis(Mi, Mj) Medoid: demetin merkezine en yakın veri

Centroid, Radius ve Diameter
Centroid: demetin merkezi Radius (yarıçap): noktaların centroide olan uzaklıklarının karelerinin ortalamasının karekökü Diameter (çap): tüm noktaların birbirlerine olan uzaklıklarının karelerinin ortalamasının karekökü

Demetleme (Clustering)

Benzer bir sunumlar

... konulu sunumlar: "Demetleme (Clustering)"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim

Giriş

Sosyal ağ üzerinden giriş yapmak:

Demetleme (Clustering)

Benzer bir sunumlar

... konulu sunumlar: "Demetleme (Clustering)"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim