Demetleme (Clustering)

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

DİZİLER – I. Kısım YRD.DOÇ.DR. CİHAD DEMİRLİ
GENETİK UZAKLIK VE UPGMA YÖNTEMİ
Veri Madenciliğinde Kümeleme Slink Algoritması
MIT563 Yapay Zeka ve Makine Öğrenmesi
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
Matematik Öğrenme ve Öğretme Süreci
MATLAB’İN SAYI YUVARLAMA FONKSİYONLARI
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Excel’de istatistik fonksiyonları
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
ÖZEL TANIMLI FONKSİYONLAR
Karar Ağaçları.
1 ÖMER ASKERDEN EMLAK KREDİ İLKÖĞRETİM OKULU UZMAN MATEMATİK ÖĞRETMENİ AKSARAY ÜNİTE: HARFLİ İFADELER VE DENKLEMLER KONU:HARFLİ İFADELERİ ÇARPANLARA AYIRMA.
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
OLASILIK ve OLASILIK DAĞILIMLARI
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
OLASILIK ve KURAMSAL DAĞILIMLAR
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
MUTLAK DEĞERLENDİRME Elif Tuba BEYDİLLİ.
BM-103 Programlamaya Giriş Güz 2014 (4. Sunu)
RASYONEL VE İRRASYONEL SAYILAR
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
M.Fatih AMASYALI Uzman Sistemler Ders Notları
ÖLÇME TÜRLERİ Feyza DEREKÖY. Ölçme doğa bilimlerinde çok eskiden beri yapılmakta, fakat sosyal bilimlerde bu oldukça yenidir Ölçme doğa bilimlerinde çok.
AĞIRLIK MERKEZİ (CENTROID)
BOŞ KÜME DENK KÜME EVRENSEL KÜME EŞİT KÜME İÇİNDEKİLER.
ÇEMBER, DAİRE VE SİLİNDİR
Veri Madenciliği Giriş.
FONKSİYONLAR.
Sınıflandırma ve Tahmin
Objeler Arası Mesafe / Benzerlik
Matematiksel Veri Yapıları. İçerik Matematiksel Veri Yapıları – Kümeler – Diziler – Fonksiyonlar – İkili ilişkiler Sonsuz kümeler – Sonlu nicelik – Sonsuz.
Metin Madenciliği.
Olasılık Dağılımları ve Kuramsal Dağılışlar
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
İNCELEME Bilimin İşlevleri İstatistiksel Yöntemler Değişken Türleri
İletişim Fakültesi Bilişim A.B.D.
EE465: Introduction to Digital Image Processing Copyright Xin Li
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Bölüm 4 için Ders Notları Introduction to Data Mining
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
ÇEMBERİN ELEMANLARI,YAYLAR VE ÇEMBERDE AÇILAR
BİL551 – YAPAY ZEKA Kümeleme
F(.) y[n+1] Giriş Vektörü Giriş-Çıkış Eşleme Fonksiyonu Çıkış Mahmut Meral, Lisans Bitirme Ödevi, 2003 Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma.
Kütahya Siteler Öğrenci Yurdu Talebeleri 2008 STANDART SAPMA 8.SINIF SBS Slaytlarda fare veya aşağı tuş ile ilerleyiniz.
Örüntü Tanıma.
Sınıflandırma ve Tahmin
Araş. Gör. Dinçer göksülük
Ölçme Sonuçları Üzerinde İstatistiksel İşlemler
Kümeleme Modeli (Clustering)
DEĞİŞİM ÖLÇÜLERİ.
Öğrenme ve Sınıflama.
DİZİLER Bellekte sıralı bir şekilde bulunan ve aynı türden bilgilerin saklandığı veri yapısına dizi (array) denir. Örneğin kullanıcıdan 7 kişinin not ortalamasını.
Merkeze Yayılma Ölçüleri
FOTOGRAMETRİ - I Sunu 3- 3 Eminnur Ayhan
Bölüm 8 Diziler Dizi Tanımı Dizi Elemanlarına Değer Atama
5.1 POLİNOMİNAL REGRESSİYON
Bölüm 8 Diziler Dizi Tanımı Dizi Elemanlarına Değer Atama
Self Organizing Map-SOM
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
ZTM321 MAKİNE ELEMANLARI 11.hafta
Yapay Öğrenme Teorisi Bölüm-1
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

Demetleme (Clustering)

Gözetimli & Gözetimsiz Öğrenme Gözetimli öğrenme (supervised learning) Sınıflandırma Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu biliniyor Gözetimsiz Öğrenme (unsupervised learning) Demetleme (clustering) Öğrenme kümesinde hangi nesnenin hangi sınıfta olduğu bilinmiyor. Genelde sınıf sayısı da bilinmiyor

Demetleme Nedir? Nesneleri demetlere (gruplara) ayırma Niteliklerinden yararlanarak veri içindeki benzerlikleri bulma ve benzer verileri gruplama Demet: benzer nesnelerden oluşan grup Aynı demetteki nesneler birbirine daha çok benzer

Demet Nedir?

Uygulama Alanları Genel Uygulama alanları Uygulamalar Verinin dağılımını anlama Ön hazırlık – veri azaltma, düzleştirme Uygulamalar Örüntü tanıma Görüntü şleme Aykırılıkları / sahtekarlık belirleme Kullanıcıları gruplandırma

İyi Demetlemenin Gereklilikleri Ölçeklenebilirlik Farklı tipteki ve niteliklerden oluşan nesneleri demetleme Farklı şekillerdeki demetleri oluşturabilme En az sayıda giriş parametresi gereksinimi Hatalı veriler ve aykırılıklardan en az etkilenme Çok boyutlu veriler üzerinde çalışma Sonucun yorumlanabilir ve anlaşılabilir olması

İyi demetleme Kaliteli bir demetlemenin özellikleri: aynı demet içindeki nesneler arası benzerlik fazla farklı demetlerde bulunan nesneler arası benzerlik az Uygun demetleme kriteri bulunmalı Aynı demetler arası benzerliği en çok yükselten ve farklı demetler arası benzerliği en çok azaltan fonksiyon Uzaklık/benzerlik fonksiyonu s(i,j)  benzerlik (similarity) d(i,j)  uzaklık (distance)

İyi demetleme Benzerlik fonksiyonundan bağımsız bir de kalite (quality) fonksiyonu bulunur Benzerlik fonksiyonları farklı veriler için farklı şekillerde tanımlanabilir kategorik, boolean, sayısal, vektörel “yeterince benzer” ya da “yeterince iyi” gibi sınırları belirlemek zordur Cevap genellikle subjektiftir

Veri Yapıları Veri matrisi Farklılık matrisi n veri sayısı p nitelik sayısı Farklılık matrisi d(i,j) iki veri arası uzaklık

Veriler arası benzerlik/farklılık ölçme Mesafe (distance) iki veri arasındaki farklılığı ölçmekte kullanılır Sık kullanılan metriklerden biri: Minkowski distance: i = (xi1, xi2, …, xip) ve j = (xj1, xj2, …, xjp) p-boyutlu iki veri, ve q pozitif bir tamsayı Eğer q = 1 ise, d’ye Manhattan uzaklığı denir

Veriler arası benzerlik/farklılık ölçme Eğer q = 2, d’ye Euclidean (Öklit) uzaklığı denir: Her uzaklık metriği için d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j)

Temel Demetleme Yaklaşımları Bölünmeli yöntemler (Partitioning approach): Veriyi bölerek, her grubu belirlenmiş bir kritere göre değerlendirir, Tipik metodlar: k-means, k-medoids, CLARANS Hiyerarşik yöntemler: Veri kümelerini (ya da nesneleri) önceden belirlenmiş bir kritere göre hiyerarşik olarak ayırır Tipik metodlar : Diana, Agnes, BIRCH, ROCK, CAMELEON Yoğunluk tabanlı yöntemler: Nesnelerin yoğunluğuna göre demet oluşturur Tipik metodlar : DBSACN, OPTICS, DenClue Model tabanlı yöntemler: Her demetin bir modele uyduğu varsayılır. Modele uyan veri uygun demete atanır Typical methods: EM, SOM, COBWEB

Demetler arası uzaklık ölçme Tek (Single) link: farklı demetlerdeki herhangi iki eleman arasındaki en küçük uzaklık, i.e., dis(Ki, Kj) = min(tip, tjq) Tam (Complete) link: farklı demetlerdeki herhangi iki eleman arasındaki en büyük uzaklık, i.e., dis(Ki, Kj) = max(tip, tjq) Ortalama (Average): farklı demetlerdeki elemanlar arasındaki ortalama uzaklık, i.e., dis(Ki, Kj) = avg(tip, tjq) Centroid: iki demetin centroid’lerinin arasındaki uzaklık, i.e., dis(Ki, Kj) = dis(Ci, Cj) Medoid: iki demetin medoid’lerinin arasındaki uzaklık, i.e., dis(Ki, Kj) = dis(Mi, Mj) Medoid: demetin merkezine en yakın veri

Centroid, Radius ve Diameter Centroid: demetin merkezi Radius (yarıçap): noktaların centroide olan uzaklıklarının karelerinin ortalamasının karekökü Diameter (çap): tüm noktaların birbirlerine olan uzaklıklarının karelerinin ortalamasının karekökü