Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Demetleme (Clustering). Gözetimli & Gözetimsiz Öğrenme  Gözetimli ö ğ renme (supervised learning)  Sınıflandırma  Ö ğ renme kümesindeki sınıfların.

Benzer bir sunumlar


... konulu sunumlar: "Demetleme (Clustering). Gözetimli & Gözetimsiz Öğrenme  Gözetimli ö ğ renme (supervised learning)  Sınıflandırma  Ö ğ renme kümesindeki sınıfların."— Sunum transkripti:

1 Demetleme (Clustering)

2 Gözetimli & Gözetimsiz Öğrenme  Gözetimli ö ğ renme (supervised learning)  Sınıflandırma  Ö ğ renme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta oldu ğ u biliniyor  Gözetimsiz Ö ğ renme (unsupervised learning)  Demetleme (clustering)  Ö ğ renme kümesinde hangi nesnenin hangi sınıfta oldu ğ u bilinmiyor. Genelde sınıf sayısı da bilinmiyor

3 Demetleme Nedir?  Nesneleri demetlere (gruplara) ayırma  Niteliklerinden yararlanarak veri içindeki benzerlikleri bulma ve benzer verileri gruplama  Demet: benzer nesnelerden oluşan grup  Aynı demetteki nesneler birbirine daha çok benzer

4 Demet Nedir?

5 Uygulama Alanları  Genel Uygulama alanları  Verinin da ğ ılımını anlama  Ön hazırlık – veri azaltma, düzleştirme  Uygulamalar  Örüntü tanıma  Görüntü şleme  Aykırılıkları / sahtekarlık belirleme  Kullanıcıları gruplandırma

6 İyi Demetlemenin Gereklilikleri  Ölçeklenebilirlik  Farklı tipteki ve niteliklerden oluşan nesneleri demetleme  Farklı şekillerdeki demetleri oluşturabilme  En az sayıda giriş parametresi gereksinimi  Hatalı veriler ve aykırılıklardan en az etkilenme  Çok boyutlu veriler üzerinde çalışma  Sonucun yorumlanabilir ve anlaşılabilir olması

7 İyi demetleme  Kaliteli bir demetlemenin özellikleri:  aynı demet içindeki nesneler arası benzerlik fazla  farklı demetlerde bulunan nesneler arası benzerlik az  Uygun demetleme kriteri bulunmalı  Aynı demetler arası benzerli ğ i en çok yükselten ve farklı demetler arası benzerli ğ i en çok azaltan fonksiyon  Uzaklık/benzerlik fonksiyonu  s(i,j)  benzerlik (similarity)  d(i,j)  uzaklık (distance)

8 İyi demetleme  Benzerlik fonksiyonundan ba ğ ımsız bir de kalite (quality) fonksiyonu bulunur  Benzerlik fonksiyonları farklı veriler için farklı şekillerde tanımlanabilir  kategorik, boolean, sayısal, vektörel  “yeterince benzer” ya da “yeterince iyi” gibi sınırları belirlemek zordur  Cevap genellikle subjektiftir

9 Veri Yapıları  Veri matrisi  n veri sayısı  p nitelik sayısı  Farklılık matrisi  d(i,j) iki veri arası uzaklık

10 Veriler arası benzerlik/farklılık ölçme  Mesafe (distance) iki veri arasındaki farklılı ğ ı ölçmekte kullanılır  Sık kullanılan metriklerden biri: Minkowski distance: i = (x i1, x i2, …, x ip ) ve j = (x j1, x j2, …, x jp ) p-boyutlu iki veri, ve q pozitif bir tamsayı  E ğ er q = 1 ise, d’ye Manhattan uzaklı ğ ı denir

11 Veriler arası benzerlik/farklılık ölçme  E ğ er q = 2, d’ye Euclidean (Öklit) uzaklı ğ ı denir:  Her uzaklık metri ğ i için  d(i,j)  0  d(i,i) = 0  d(i,j) = d(j,i)  d(i,j)  d(i,k) + d(k,j)

12 Temel Demetleme Yaklaşımları  Bölünmeli yöntemler (Partitioning approach):  Veriyi bölerek, her grubu belirlenmiş bir kritere göre de ğ erlendirir,  Tipik metodlar: k-means, k-medoids, CLARANS  Hiyerarşik yöntemler:  Veri kümelerini (ya da nesneleri) önceden belirlenmiş bir kritere göre hiyerarşik olarak ayırır  Tipik metodlar : Diana, Agnes, BIRCH, ROCK, CAMELEON  Yo ğ unluk tabanlı yöntemler:  Nesnelerin yo ğ unlu ğ una göre demet oluşturur  Tipik metodlar : DBSACN, OPTICS, DenClue  Model tabanlı yöntemler:  Her demetin bir modele uydu ğ u varsayılır. Modele uyan veri uygun demete atanır  Typical methods: EM, SOM, COBWEB

13 Demetler arası uzaklık ölçme  Tek (Single) link: farklı demetlerdeki herhangi iki eleman arasındaki en küçük uzaklık, i.e., dis(K i, K j ) = min(t ip, t jq )  Tam (Complete) link: farklı demetlerdeki herhangi iki eleman arasındaki en büyük uzaklık, i.e., dis(K i, K j ) = max(t ip, t jq )  Ortalama (Average): farklı demetlerdeki elemanlar arasındaki ortalama uzaklık, i.e., dis(K i, K j ) = avg(t ip, t jq )  Centroid: iki demetin centroid’lerinin arasındaki uzaklık,  i.e., dis(K i, K j ) = dis(C i, C j )  Medoid: iki demetin medoid’lerinin arasındaki uzaklık,  i.e., dis(K i, K j ) = dis(M i, M j )  Medoid: demetin merkezine en yakın veri

14 Centroid, Radius ve Diameter  Centroid: demetin merkezi  Radius (yarıçap): noktaların centroide olan uzaklıklarının karelerinin ortalamasının karekökü  Diameter (çap): tüm noktaların birbirlerine olan uzaklıklarının karelerinin ortalamasının karekökü


"Demetleme (Clustering). Gözetimli & Gözetimsiz Öğrenme  Gözetimli ö ğ renme (supervised learning)  Sınıflandırma  Ö ğ renme kümesindeki sınıfların." indir ppt

Benzer bir sunumlar


Google Reklamları