BİL551 – YAPAY ZEKA Kümeleme

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

Veri Madenciliğinde Kümeleme Slink Algoritması
MIT563 Yapay Zeka ve Makine Öğrenmesi
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
MIT563 Yapay Zeka ve Makine Öğrenmesi
MIT563 Yapay Zeka ve Makine Öğrenmesi
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
SORUNU ÇÖZÜMLEME Dr. Y. İlker TOPCU
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Excel’de istatistik fonksiyonları
MIT503 Veri Yapıları ve algoritmalar Algoritmalara giriş
Bellek Tabanlı Sınıflandırma
Karar Ağaçları.
İstatistiksel Sınıflandırma
AÇI ÇEŞİTLERİ Açı: Başlangıç noktaları aynı olan iki ışının birleşim kümesine denir. Dar Açı: Ölçüsü 90° den küçük olan açılra denir.
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
Temel tanımlar ve işleyiş
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
UGUR KOCA Konu : OLASILIK
İLERİ ARAŞTIRMA YÖNTEMLERİ
Yrd. Doç. Dr. Ayhan Demiriz
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
GEOMETRİ SUNUMU ÖĞRETİM TEKNOLOJİLERİ VE MATERYAL TASARIMI YRD. DOÇ. DR. ERCAN ATASOY.
TESVİYE EĞRİLERİNİN ÇİZİMİ
BİL551 – YAPAY ZEKA Genetik Algoritma
KOORDİNAT SİSTEMİ.
Algoritmalar ve Programlama I Ders 2: Akış Diyagramları
Sınıflandırma ve Tahmin
Objeler Arası Mesafe / Benzerlik
Demetleme (Clustering)
Bulanık Mantık Bulanık Mantığın Temel Kavramları
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
EE465: Introduction to Digital Image Processing Copyright Xin Li
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
GEOMETRİ TEMEL KAVRAMLAR
Yapay Sinir Ağları (YSA)
Bulanık Mantık Kavramlar:
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ B.
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
BİL3112 Makine Öğrenimi (Machine Learning) Giriş – Özet – Ek Örnekler
Sürekli Olasılık Dağılımları
BİL3112 Makine Öğrenimi (Machine Learning)
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
YAPAY SİNİR AĞLARI.
Yrd.Doç.Dr.Esra Tunç Görmüş
YAPI STATİĞİ 1 KESİT TESİRLERİ Düzlem Çubuk Kesit Tesirleri
“Bilgi”’nin Gösterimi “Bilgi” İnsan veya Makina Yorumlama Öngörme Uygun yanıt verme Depolanmış enformasyon veya model Kurallar: (1) Benzer sınıflardan.
Örüntü Tanıma.
Sınıflandırma ve Tahmin
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
DEĞİŞİM ÖLÇÜLERİ.
Tamsayılı Doğrusal Programlama Algoritmaları
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
S. Haykin, “Neural Networks- A Comprehensive Foundation”,
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
Yapay Zeka Nadir Can KAVKAS
Yapay Öğrenme Teorisi Bölüm-1
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

BİL551 – YAPAY ZEKA Kümeleme Yrd. Doç. Dr. Mehmet Dikmen mdikmen@baskent.edu.tr

Sınıflandırma (Classification) Eğiticili (supervised) sınıflandırma: Sınıflandırma: Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğunu bilinir Eğiticisiz (unsupervised) sınıflandırma: Kümeleme: Hangi nesnenin hangi sınıfa ait olduğu ve grup sayısı belirsizdir.

Kümeleme (Clustering) Kümeleme, eğiticisiz öğrenme ile gerçekleştirilir. Küme: Birbirine benzeyen nesnelerden oluşan gruptur. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer

Benzerlik İlişkisi: Örnek

Örnekte kaç küme vardır?

Benzerlik Ölçüsü: Nümerik Veri kümesi içindeki nümerik örneklerin birbirine olan benzerliğini ölçmek için mesafe ölçüsü kullanılabilir. Ancak mesafe ölçüsü benzerlikle ters orantılıdır. L1 Norm (City Block / Manhattan Distance) L2 Norm (Euclidean Distance) L3 Norm (Minkowski distance)

Mesafe Ölçüsü: L1 Norm L1 Norm: City Block / Manhattan Distance p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı:

Mesafe Ölçüsü: L2 Norm L2 Norm: Euclidean Distance p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı:

Mesafe Ölçüsü: L3 Norm L3 Norm: Minkowski distance p boyutlu uzayda verilen i ve j noktalarının birbirine olan uzaklığı: NOT: q=2 için Euclidean uzaklığını verir

Mesafe Ölçüsü Mesafe ölçüsü ile ilgili özellikler: d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j)

Benzerlik Ölçüsü: Binary i ve j örneklerine ait binary (ikili) özellikler bir olasılık tablosu (contingency table) ile gösterilir: j Örneği i Örneği 1 a b c d a: i örneğinde 0, j örneğinde 0 olan özelliklerin sayısı b: i örneğinde 0, j örneğinde 1 olan özelliklerin sayısı c: i örneğinde 1, j örneğinde 0 olan özelliklerin sayısı d: i örneğinde 1, j örneğinde 1 olan özelliklerin sayısı Simple Matching Coefficient (SMA): İkili değişkenin simetrik olduğu durumlarda Jaccard coefficient: İkili değişkenin asimetrik olduğu durumlarda

Benzerlik Ölçüsü: Binary i=10011011 ve j=11000110 i ve j örneklerinin birbirlerine olan benzerlikleri; a=1, b=2, c=3, d=2 olduğuna göre Sim SMC(i,j)= 3/8 Sim jaccard(i,j)= 2/7 olur.

Kümeleme Yöntemleri K-Means Kümeleme Hiyerarşik Kümeleme Yapay Sinir Ağları (SOM-Self Organized Feature Map) Genetik Algoritmalar

K-Means Kümeleme K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi gerekir.

K-Means Kümeleme Algoritmanın adımları; Belirlenecek küme sayısı (k) seçilir. k adet rastgele başlangıç küme merkezi belirlenir. (Veri kümesindeki örneklerden de seçilebilir) Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. Her küme için yeni örneklerle küme merkezleri hesaplanır. Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3. adımdan itibaren işlemler tekrarlanır.

Iteration 1 Rastgele belirlenen başlangıç merkezleri: her merkez için en yakın noktaları belirle x2 x2 x1 x1 Küme merkezleri yeniden hesaplanır

Iteration 2 Yeni küme merkezlerine en yakın noktaları belirle x2 x2 x1 x1 Küme merkezlerini yeniden hesapla

Iteration 3 x2 x2 x1 x1

Iteration 4 x2 x1 Merkezlerin yerleri değişmedi => DUR

K-means: sorunları Kümeler, farklı Büyüklük, Yoğunluk ve Dairesel olmayan şekillerde olduğunda Veride aykırı örnekler (outlier) ya da gürültü (noise) bulunduğunda

Farklı büyüklükteki kümeler Orijinal kümeler K-means (3 küme)

Farklı yoğunluktaki kümeler Orijinal kümeler K-means (3 küme)

Dairesel olmayan kümeler Orijinal kümeler K-means (2 küme)

Çözüm Gereğinden fazla kümeye ayrıştırmak: Orijinal kümeler K-means kümeleri Gereğinden fazla kümeye ayrıştırmak: Ancak sonunda birleştirmek gerek (nasıl?)

Fazladan kümeleme (bölme) Orijinal kümeler K-means kümeleri

Kümeleme Yöntemleri K-Means Kümeleme Hiyerarşik Kümeleme Yapay Sinir Ağları (SOM-Self Organized Feature Map) Genetik Algoritmalar

Hiyerarşik Kümeleme Küme sayısının bilinmesine gerek yoktur ancak bir sonlanma kriterine ihtiyaç duyar. Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA)

Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting) Başlangıçta her nesne bir küme olarak alınır. Aralarında en az uzaklık bulunan kümeler birleştirilir. Kümeler arasında mesafe tek bağ metodu (single linkage method) ile hesaplanır Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi devam eder.

Hiyerarşik Kümeleme: DIANA (Divisive Analysis) AGNES’in yaptığı işlemlerin tersini yapar. Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur.

Hiyerarşik Kümeleme: Dendrogram Dendrogram: Kümelerin nasıl birleştiğini gösterir.

Microsoft Üstün Mühendislik Başarısı Sorular? Microsoft Gizliliği