Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ

Slides:



Advertisements
Benzer bir sunumlar
8. SINIF 3. ÜNİTE BİLGİ YARIŞMASI
Advertisements

Unsupervised Learning (Kümeleme)
Veri Madenciliğinde Kümeleme Slink Algoritması
1 . ÜNİTE : GEOMETRİK ŞEKİLLER
NOKTA, DOĞRU, DOĞRU PARÇASI, IŞIN, DÜZLEMDEKİ DOĞRULAR
ÜNİTE DEĞERLENDİRMESİ 1.Sınıf Türkçe
MATEMATİKSEL PROGRAMLAMA
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
AVL-Ağaçları (Trees).
KARAR MODELİ KURMA Dr. Y. İlker TOPCU
Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.
Yüz Tanıma İçin İlinti Tabanlı Yama Yerelleştirme
Support Vector Machines
4 Kare Problemi 4 Kare Problemi Hazır mısın? B A Bu şekle iyi bak
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri
SEDA ARSLAN TUNCER Android işletim sisteminde RGB histogram değerlerinin gerçek zamanlı olarak elde edilmesi SEDA ARSLAN TUNCER
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
Verimli Ders Çalışma Teknikleri.
Yarbaşı İlköğretim Yarbaşı İlköğretim.
Özel Üçgenler Dik Üçgen.
Çizge Algoritmaları.
SAATLER Zamanı ölçmek için kullanılan ölçme aracı SAATTİR.
ARALARINDA ASAL SAYILAR
ZAMBAK 1 SORU BANKASI UĞUR CESUR 1 ZAMBAK 1 SORU BANKASI ÖZEL SORULARI Hazırlayan: UĞUR CESUR.
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Öğretim Materyallerinin Tasarlanması, Hazırlanması ve Seçimi
DERS 2 MATRİSLERDE İŞLEMLER VE TERS MATRİS YÖNTEMİ
TEST – 1.
HABTEKUS' HABTEKUS'08 3.
Microsoft EXCEL (2) Kapsam Kopyalama, Yapıştırma Açıklama Ekleme Satır ve Sütunların Boyutlandırılması Bitişik Hücrelere Dayanarak Otomatik Veri Girme.
DERS 11 KISITLAMALI MAKSİMUM POBLEMLERİ
8 ? E K S İ L E N EKSİLEN _ 5 5 ÇIKAN FARK(KALAN) 8.
DİNAMİK VE ADAPTİF SİSTEM TASARIMLARI İLE ALGORİTMA ÖĞRETİMİ
Ek-2 Örnekler.
ÇİZGELERİN GÖSTERİMİ Yılmaz KILIÇASLAN.
MURAT ŞEN AKDENİZ ÜNİVERSİTESİ Üçgenler.
İKİNCİ DERECEDEN FONKSİYONLAR ve GRAFİKLER
DERS 3 DETERMİNANTLAR ve CRAMER YÖNTEMİ
EŞİTSİZLİK GRAFİKLERİ
Öğretim Teknolojileri ve Materyal Tasarımı Görsel Materyalleri Tasarlama Süreci Görsel Tasarımın Unsurları: Görsel Unsurlar Dr. Süleyman Sadi SEFEROĞLU.
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
DÖNÜŞÜM GEOMETRİSİ ÖRÜNTÜ VE SÜSLEMELER
VERİ İŞLEME VERİ İŞLEME-4.
Çocuklar,sayılar arasındaki İlişkiyi fark ettiniz mi?
Toplama Yapalım Hikmet Sırma 1-A sınıfı.
DOĞRUSAL DENKLEM SİSTEMLERİ ve MATRİSLER
AÇI VE AÇI ÇEŞİTLERİ NELERDİR? ÖZEL AÇILAR AÇIORTAY
1/22 GEOMETRİ (Dikdörtgen) Aşağıdaki şekillerden hangisi dikdörtgendir? AB C D.
Yard. Doç. Dr. Mustafa Akkol
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Yapay Sinir Ağları (YSA)
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
BİL551 – YAPAY ZEKA Kümeleme
Bölüm 4 : VERİ MADENCİLİĞİ
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
Çizgeler Çizge G=(V,E), ikilisine denir, burada V sonlu bir kümedir, E ise bu kümenin elemanları arasında ikili bir bağıntıdır. V kümesine G çizgesinin.
Algoritmalar II Ders 11 Çizgeler. Çizgelerin bilgisayarda gösterimi. BFS algoritması.
Çizge Algoritmalari 5. ders.
İleri Algoritmalar Ders 3.
Sunum transkripti:

Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ 07.04.2017 VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E.E.M. KONTROL KUMANDA A.B.D. 07 Nisan 2017 Cuma

Konular : 1. Veri Madenciliği (Data Mining) 2. Kümeleme (Clustering) 3. Gerçeklenen Algoritmalar 4. Sonuçlar ve Yorumlar

1. Veri Madenciliği (Data Mining) Veri Madenciliği büyük miktarda veri içinden; Bilgi’nin aranmasıdır. Veri → → Bilgi Bu da; KÜMELEME, veri özetleme, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımları içerir. VERİ ANALİZİ

Dikkat VERİNİN ÖNEMİ: UZMANIN ÖNEMİ: SABRIN ÖNEMİ:

2. Kümeleme (Clustering) Öğreticisiz Öğrenme (Unsupervised Learning). Amaç, elemanların birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere (gruplara) bölünmesidir.

Peki Nasıl Yapılıyor…? (Verilerin Toplanması) Seçilen herhangi bir ilgi alanına göre ölçümler yapılarak öznitelikler belirlenebilir. 3 farklı çiçek türü Her tür için 50 örnek (sample) Her örnek için 4 öznitelik (feature) Iris Setosa Iris Versicolor Iris Virginica

07.04.2017 Peki Nasıl Yapılıyor…? (Uzaklıkların Hesaplanması ve Yakınlık Matrisinin Oluşturulması) Öklit Uzaklık Ölçütü Manhattan Uzaklık Ölçütü Supremium Uzaklık Ölçütü

4. Gerçeklenen Algoritmalar 4.1. En Yakın Komşu (Nearest Neighbor) 4.2. Karşılıklı Komşuluk Değeri (Mutual Neighborhood Value) 4.3. Minimum Tarama Ağacı (Minimum Spanning Tree) 4.4. Delaunay Üçgen (Delaunay Triangulation) Metodu 4.5. Gabriel Çizgeleri (Gabriel Graphs) 4.6. Bağıl Komşuluk Çizgesi (Relative Neighborhood Graph) 4.7. Destek Vektörleri (Support Vectors)

4.1. En Yakın Komşu (Nearest Neighbor) Her nokta kendisi ile en yakın kümeye yerleştirilmelidir. Eşik değeri (threshold - t), yeni bir komşuyu veya yeni bir kümeyi belirler. Tüm noktalar herhangi bir kümeye yerleştirilinceye kadar işlemlere devam edilir. 3 3 4 4 5 5 1. Küme 2. Küme 6 6 3. Küme 1 2 1 2

4.2. Karşılıklı Komşuluk Değeri (M.N.V.) Tüm noktalar için karşılıklı en yakın komşuluk değerleri (MNV) belirlenir. Eşik değeri yerine en yakın komşu sayısı (k) belirlenir. 2’nin en yakın 3. komşusu 5. 5’in en yakın 3. komşusu 2. MNV(5,2) = MNV(2,5) = 3 + 3 = 6 MNV = 2,3,…2k için kümeler oluşturulur. 3 4 5 2 2 3 6 1 2k

Eşik değerinden büyük değerler kaldırılıyor 07.04.2017 4.3. Minimum Örten Ağaç (M.S.T.) İki nokta arasındaki uzaklık = ağırlık Ağırlıklar toplamı en küçük olan ağaç seçilir. Eşik değerinden büyük ağırlığa sahip dallar ağaçtan kaldırılır. Eşik değeri yerine uyuşmayan kenar (inconsistent edge) seçimi ile de kümeler belirlenebilir. 4 6 Eşik değerinden büyük değerler kaldırılıyor 3 5 1. Küme 2. Küme 1 3. Küme 8 2 7 9

4.4. Delaunay Üçgen Metodu (D.T.) Voronoi Diyagramı (Dirichlet Mozaiği) Uygulamaların çoğu sadece iki boyutlu veriler için yapılmıştır. Sınır – Kenar ilişkileri göz önünde bulundurulmaktadır. Çizge yapısı bu ilişkilere göre belirlenmektedir. Çizge yapısını oluşturan farklı algoritmalar bulunmaktadır. (Daha fazla bilgi için,http://www.ics.uci.edu/~eppstein/gina/delaunay.html)

Delaunay Triangulation Voronoi Diyagramı Eşik değerine göre çizgeden kenarların silinerek kümelerin belirlenmesi Voronoi & Delaunay

4.5. Gabriel Çizgeleri (G.G.) Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. DT yapısına göre daha basit yapıdadır. Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları GG’de birbirine bağlıdır. DISK, GG’nin etki bölgesidir. GG etki bölgesi

4.6. Bağıl Komşuluk Çizgeleri (R.N.G.) Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. DT ve GG yapısına göre daha basit yapıdadır. Diğer hiçbir nokta ’de bulunmuyorsa, ve noktaları RNG’de birbirine bağlıdır. LUNE, RNG’nin etki bölgesidir. RNG etki bölgesi

4.7. Destek Vektörleri (Support Vectors) Veriler doğrusal olarak ayrılabiliyor : Sınırı (margin) maksimize eden düzlemin (Hyperplane) bulunması (Optimal Seperating Hyperplane, Maximal Margine Classifier). Prof. Dr. Vladimir VAPNIK (1995) Support Vectors Optimum Düzlem Maksimum Margin

x f(x) ; f : X F F X SVs Veriler doğrusal olarak ayrılamıyor : Uygun bir doğrusal olmayan dönüşüm kullanarak doğrusal olarak ayrılabilir hale getiren ve optimizasyon tabanlı bir eğitim algoritması kullanarak öğrenebilen sistemlerdir. (Kernel Trick)... F X Doğrusal olmayan Dönüşüm SVs q = Gaussian fonksiyonunun genişliği x f(x) ; f : X F

5. Sonuçlar Iris veri seti için FLOP Sayıları

Iris veri seti için Küme Sayıları Gürültüsüz 45 Db 24 Db Iris veri seti için Küme Sayıları

Sonuçlar ve Yorumlar… Eşik değeri (threshold value)... Histogramlar... Çizge tabanlı algoritmalar vs. direk kümeleme yapan algoritmalar… (işlem süresi ve flop sayısı) Farklı uzaklık ölçümleri (manhattan, supremium, v.b.) farklı sonuçlar… En iyi algoritma “En Yakın Komşu Algoritması (N.N.)”... En kötü algoritma “Karşılıklı Komşuluk Değeri Algoritması (M.N.V.)”… Tüm algoritmalar verilerin dağılımına bağlıdır… Farklı veri setleri için en iyi kümelemeyi (düşük flop sayısı, gürültüye dayanıklılık) yapabilen tek bir algoritma bulunmamaktadır… Boyut arttıkça işlemler zorlaşmaktadır… bu nedenle yeni nesil algoritma ve bilgisayarlar kullanılmaktadır(B.I.R.C.H., DBSCAN, ...)… Çizge algoritmaları gürültülü verileri kümeleme de daha başarılı…

SORULAR SORULAR

SABIRLA DİNLEDİĞİNİZ İÇİN... !!!TEŞEKKÜRLER!!! SABIRLA DİNLEDİĞİNİZ İÇİN... Mustafa Seçkin DURMUŞ msdurmus@pau.edu.tr