Objeler Arası Mesafe / Benzerlik

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

Ayrık Yapılar Algoritma Analizi.
KARAR TEORİSİ.
KONU :GÖRÜNTÜNÜN GEOMETRİK MODELLERİNİN KURULMASI
Veri Madenciliğinde Kümeleme Slink Algoritması
Algoritmalar Ders 8 Dinamik Programlama.
Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ
Problemi Çözme Adımları
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
EMRE SEVİNDİK KONU: ANALİZ ÖNCESİ YAPILMASI GEREKEN İŞLEMLER
The Relational Algebra and Relational Calculus
Enerji Sistemlerinde Yapay Arı Kolonisi (YAK) Algoritması Kullanarak Yük Akışı Optimizasyonu Nihat Pamuk.
En Küçük Yol Ağacı (Minimum Spanning Tree)
NESNEYE YÖNELİK PROGRAMLAMA
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Abdulkerim Karabiber Ozan Gül
Ses Kontrol Metodlar ile ilgili son birkaç söz Tekrar: Programlama için başlıca 3 model.
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
Arama ile sorun çözme Ders 3.
C PROGRAMLAMA FONKSİYONLAR Adres ile Fonksiyon Çağırma Pointer (İşaretçiler) ile Fonksiyon Çağırma Rekürsif Fonksiyonlar.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
Ölçme Sonuçlarının Değerlendirilmesi
SOSYAL BİLGİLER ÖĞRETMENLİĞİ BİLGİSAYAR 2 NOT Sum (Topla) Fonksiyonu Belirtilen hücreler arasındaki sayıların toplamını alır. =SUM (E2;E11) E2 hücresinden.
MEDİKAL GÖRÜNTÜ İŞLEMENİN AMACI
Lineer Programlama: Model Formulasyonu ve Grafik Çözümü
Demetleme (Clustering)
Veri Yapıları ve Algoritmalar
Bulanık Mantık Bulanık Mantığın Temel Kavramları
Doç. Dr. Cemil Öz SAÜ Bilgisayar Mühendisliği Dr. Cemil Öz.
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
EE465: Introduction to Digital Image Processing Copyright Xin Li
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Bulanık Mantık Kavramlar:
Floyd Algoritması Floyd Algoritması Dijkstra algoritmasının daha genel halidir. Çünkü şebekedeki herhangi iki düğüm arasındaki en kısa yolu belirler. Algoritma,
Biyomedikal Mühendisliği Biyoinformatik Sunumu
END 457 Sezgisel Arama ve Yapay Zeka
BİL551 – YAPAY ZEKA Kümeleme
Bölüm10 İteratif İyileştirme Copyright © 2007 Pearson Addison-Wesley. All rights reserved.
NON-PARAMETRİK TESTLER Doç. Dr. Kemal DOYMUŞ K.K.E.F İlköğretim Bölümü.
İSTATİSTİK II Hipotez Testleri 1.
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
Algoritmalar II Ders 13 Çizgelerde tüm ikililer arasında en kısa yollar.
Geriye Yayılım Algoritması (Back-Propagation Algorithm)
Insertion Sort Fikir: Oyun kartlarını sıralamaya benzer.
ÇOK BOYUTLU İŞARET İŞLEMENİN TEMELÖZELLİKLERİ
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
9. Ders Tüm ikililer arasında en kısa yollar
TÜREV ve TÜREV UYGULAMALARI
İleri Algoritma Analizi
Algoritma Nedir? Algoritmayı, herhangi bir problemin çözümü için izlenecek yolun adımlar halinde yazılması olarak tanımlayabiliriz. Algoritma, bir problemin.
Problemi Çözme Adımları
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
Chapter 3 Brute Force Copyright © 2007 Pearson Addison-Wesley. All rights reserved.
İSTATİSTİK II Hipotez Testleri 1.
NİŞANTAŞI ÜNİVERSİTESİ
NİŞANTAŞI ÜNİVERSİTESİ
Çizge Algoritmalari 10. Ders.
Bölüm 5 Azalt ve yönet (Decrease-and-Conquer)
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

Objeler Arası Mesafe / Benzerlik Mesafe iki obje arasındaki benzerlik ya da farklılığı ölçmekte kullanılan temel fonksiyondur En popülerlerinden biri: Minkowski distance: i = (xi1, xi2, …, xip) ve j = (xj1, xj2, …, xjp) p-boyutlu veri objeleri, q pozitif bir tam sayı Eğer q = 1, ise Manhattan distance

Objeler Arası Mesafe / Benzerlik Eğer q = 2, ise Euclidean distance: Özellikleri d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j)

Nominal/Kategorik Değişkenler Kategorik değişkenler 2 yada daha fazla durumda olabilirler, ör., kırmızı, yeşil, sarı, mavi Yöntem: Jaccard distance m: eşleşenlerin sayısı, p: toplam değişken sayısı A = {ekmek, un, muz} B = {muz, süt, peynir, ekmek} d(A,B) = (5 – 2) / 5 = 0.6

örnek Farklılık Matrisi Stu-id Course Grade S1 A S2 B S3 C S4 s1 s2 s3 S2 1 S3

Temel Demetleme Yaklaşımları Bölünmeli yöntemler: Veriyi bölerek her gurubu bir kritere göre değerlendirir Ör., hataların kareleri toplamını minimize etmek Hiyerarşik yöntemler: Veri kümelerini (ya da nesneleri) belli kriterlere göre hiyerarşik olarak ayırır Yukardan aşağıya (Top down) ya da aşağıdan yukarı (bottom up) Yoğunluk tabanlı yöntemler: Nesnelerin yoğunluğuna ve birbirlerine bağlantılı olmalarına göre demetler Garip şekilli demetler yaratmada iyidir Grid-temelli yöntemler: Numaralandırılmış çizgilerden oluşan hucresel yapılar ile demetleme Yüksek bellek gerektiren büyük verilerde kullanılır

Bölünmeli Yöntemler: Amaç: n nesneden oluşan bir D verikümesini k tane demete ayırmak, öyleki, hata kareleri toplamı minimize edilsin Global optimal: olası bütün demetlemeleri tek tek dene Sezgisie (Heuristic) yöntem: k-means and k-medoids algoritmaları k-means (MacQueen’67): Her demet kendi merkeziyle ifade edilir k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Her demet demette bulunan bir nesne ile temsil edilir

K-Means Demetleme Verilen bir k değeri için, algorithma 4 adımdan oluşur: Veri kumesi rastgele k parçaya ayrılır Her demetin ortalaması hesaplanır: (centroid (merkez) demetteki noktaların ortalaması) Her nesne kendine en yakın merkez noktanın olduğu demete atanır Nesnelerin demetlenmesinde bir değişiklik olmayana kadar adım 2’ye dön

K-Means Clustering örnek Her nesneyi en yakın merkeze ata 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 Her nesneyi en yakın merkeze ata Demet merkezlerini güncelle 4 3 2 1 1 2 3 4 5 6 7 8 9 10 Tekrar ata Tekrar ata K=2 K nesneyi rastgele ilk merkez diye seç Demet merkezlerini güncelle

K-Means yöntemi üzerine yorumlar Gücü: görece hızlı: karmaşıklığıO(tkn), k: demet sayısı t: tekrar sayısı n: nesne sayısı d: nitelik sayısı. Normalde, k, t << n. Karşılaştır: PAM: O(k(n-k)2 ), CLARA: O(ks2 + k(n-k)) Yorum: Genellikle yerel optimum bulur Zayıflığı: Sadece ortalamanın tanımlı olduğu verilerde çalışır, kategorik veriye uygulanamaz Başlangıçta k, değeri bilinmeli Gürültü ve sapan veriye karşı zayıf non-convex şekilli demetler bulamaz

Başlangıç centroidlerinin seçimi

Başlangıç centroidlerinin seçimi

K-Means Yöntemindeki sıkıntı? k-means algoritması sapan veriye hassas! Çok büyük bir değer ortalamayı ciddi şekilde değiştirebilir. K-Medoids: Veri ortalaması (centroid) yerine merkeze en yakın gerçek nokta (medoid) kullanılabilir. 1,3,5,7,1009  ort:205 1,3,5,7,1009  medoid: 5 1 2 3 4 5 6 7 8 9 10

K-Medoids Clustering Demetler içinde, medoid, denen temsilci noktalar bulur PAM (Partitioning Around Medoids, 1987) Başlangıçta k adet nesne demetleri temsil etmek üzere rastgele seçilir, medoidlerden biri medoid olmayan bir noktayla değiştirilse sonuç iyileşirmi diye bakılır. İyileşme sağlıyorsa yeni nokta medoid olur PAM küçük verilerde iyi sonuç verse de büyük verilerde başarısız CLARA (Kaufmann & Rousseeuw, 1990) CLARANS (Ng & Han, 1994):

K-Medoids 1. durum: p başlangıçta oj temsilcili demette. Eğer oj başka bir orandom ile değiştirilirse, p oi temsilcili demete geçer 2. durum: p başlangıçta oj temsilcili demette. Eğer oj başka bir orandom ile değiştirilirse, p orandom temsilcili demete geçer 3. durum: p başlangıçta oi temsilcili demette. Eğer oj başka bir orandom ile değiştirilirse, p oi de kalır 4. durum: p başlangıçta oi temsilcili demette. Eğer oj başka bir orandom ile değiştirilirse, p orandom temsilcili demete geçer Toplam hata azalıyorsa oj ile orandom değiştirilir

K-Medoids Algorithm (PAM) Total Cost = 20 10 9 8 7 rastgele k nesneyi ilk medoid sec Nesneleri en yakın medoide ata 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 K=2 Rastgele medoid olmayan bir nokta seç, Oramdom Total Cost = 26 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Değişiklik olmayana kadar döngü Değişiklik karlımı bak Eğer karlıysa O ile Oramdom değiştir

PAM deki sorunlar? Pam k-means ile karşılastırırsan daha güvenilir Sapan veriden az etkilenir Küçük verilerde iyi olsada büyük verilerde çok yavaş. Her iterasyon karmaşıklığı O(k(n-k)2 ) Örnekleme tabanlı (Sampling based) yöntemler, CLARA(Clustering LARge Applications)

CLARA (Clustering Large Applications) (1990) Veri kümesinden birden fazla örnek küme seçer, her örnek üstünde PAM uygular. En iyi sonucu cıktı olarak verir Gücü: büyük verilere uygulanabilir Zayıflık: Hızı seçilen örnek kümelerinin boyutuna bağlı Örnek kümede iyi olması tüm veride iyi olmasını gerektirmez

Hiyerarşik yöntemler Mesafe matrisini kullanır. Başlangıçta demet sayısını bilmeyi gerektirmez ama bir sonlanma kosulu verilmeli Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA)

AGNES (Agglomerative Nesting) Mesafe matrisi kullanır. En yakın iki demeti birleştirir En sonunda tüm nesneler tek bir demette toplanır

Dendrogram: Demetler hiyerarsik ağaç yapısında gosterilebilir, buna dendrogram denir. Demetleme dendrogramın uygun seviyeden kesilmesiyle elde edilir. Bağlantılı her parça bir demet oluşturur.

DIANA (Divisive Analysis) AGNES in tam tersi Tek demetten başlar, en sonunda her nesne kendi başına bir demet olur

Demetler arası mesafe Min distance nearest-neighbor clustering Max distance Average distance Mean distance Centroids / medoids

Example (min dist)

Hiyerarsik yontemler agglomerative clustering sıkıntısı Ölçeklenebilir değil: O(n2), Bir onceki adımda yaptıgını geri alamıyorsun alternatifleri BIRCH (1996): ROCK (1999): CHAMELEON (1999):

Yoğunluk tabanlı demetleme Demetleme nesnelerin yoğunluğuna göre yapılır. Başlıca özellikleri: Herturlu sekilde demet uretebilir Gürültüye dayanıklı Bitme koşulu için yogunluk parametresi verilmeli Başlıca yöntemler: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg & D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98) (more grid-based)

Density-Based Clustering: Basic Concepts Iki parametre: Eps: En büyük komşuluk yarıçapı MinPts: Eps yarıçaplı komşuluk bölgesinde bulunması gereken en az nesne sayısı Eps-komsuluk NEps(p):{q belongs to D | dist(p,q) <= Eps} Çekirdek (core) nesne : |NEps (q)| >= MinPts Doğrudan erişilebilir nesne: Eps ve MinPts koşulları altında bir q nesnesinin doğrudan erişilebilir bir p nesnesi şu şartları sağlar: p Є NEps(q) q çekirdek nesne p q MinPts = 5 Eps = 1 cm

Density-Reachable and Density-Connected Erişilebilir nesne: Eps ve MinPts koşulları altında bir p noktası bir q noktasından erişilebilir (density-reachable) olması için: p1, …, pn, nesne zinciri p1 = q, pn = p such that pi+1 dogrudan erişilebilir pi den Yogunluk bağlantılı Eps ve MinPts koşulları altında q nesnesinin yoğunluk bağlantılı nesnesi p şu koşulları sağlar: o diye hem p hem de q dan erişilebilir nesne varsa p ve q yogunluk bağlantılıdır p ve q bir o nesnesinin erişilebilir nesnesidir p p1 q p q o

DBSCAN: Density Based Spatial Clustering of Applications with Noise Her nesnenin eps-yarıcaplı komsularını bulur En buyuk yoğunluk bağlantılı nesneler kümesi bir demet oluşturur Farklı şekillerde demetler olusturabilir Gurultuye dayanıklıdır Core Border Outlier Eps = 1cm MinPts = 5

DBSCAN: The Algorithm Rastgele bir p noktası sec Eps ve MinPts. gore p den yogunluk erişilebilir tum noktaları bul Eğer p bir çekirdek nesne ise bir demet olusur. Eger p bir sınır noktası ise, hiçbir nokta p’ye erişebilir değildir, baska nokta secilir Tüm noktalar işlenene kadar devam eder

DBSCAN: Sensitive to Parameters

Clustering Complex Objects

OPTICS: A Cluster-Ordering Method (1999) OPTICS: Ordering Points To Identify the Clustering Structure Ankerst, Breunig, Kriegel, and Sander (SIGMOD’99) eps değeri baştan sabitlenmez, dinamik olarak değiştirilebilir Tek bir demetleme yapısı yerine otomatik veya interaktif demetleme analizlerinde kullanılabilecek bir demetleme sıralaması (cluster ordering) sunar

OPTICS: Some Extension from DBSCAN Index-based: k = number of dimensions N = 20 p = 75% M = N(1-p) = 5 Complexity: O(kN2) Core Distance Reachability Distance D p1 o p2 o Max (core-distance (o), d (o, p)) r(p1, o) = 2.8cm. r(p2,o) = 4cm MinPts = 5 e = 3 cm

Reachability-distance undefined ‘ Cluster-order of the objects

Density-Based Clustering