CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK

Slides:



Advertisements
Benzer bir sunumlar
Yığınlama Sıralaması (Heap Sort)
Advertisements

Unsupervised Learning (Kümeleme)
FEN BİLİMLERİ ENSTİTÜSÜ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ
MIT503 Veri Yapıları ve algoritmalar
Geometrik yer geometrik yer geometrik yer.
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
Veri Madenciliğinde Kümeleme Slink Algoritması
RASTGELE SAYI ÜRETİMİ VE UYGULANAN TESTLER
MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
MIT563 Yapay Zeka ve Makine Öğrenmesi
DOĞRUSAL ZAMANLA DEĞİŞMEZ SİSTEMLERDE FARK DENKLEMLERİ
Kümeleme Modeli (Clustering)
Filogenetik analizlerde kullanılan en yaygın metotlar
Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
MIT503 Veri Yapıları ve algoritmalar Algoritmalara giriş
Tanımlayıcı İstatistikler
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
Bellek Tabanlı Sınıflandırma
MAKSİMUM OLASILIK (MAXİMUM LİKELİHOOD)
En Küçük Yol Ağacı (Minimum Spanning Tree)
NESNEYE YÖNELİK PROGRAMLAMA
OPENCV İLE STEREO GÖRÜNTÜLERDEN DERİNLİK KESTİRİMİ
While Döngüsü Tekrarlama deyimidir. Bir küme ya da deyim while kullanılarak bir çok kez yinelenebilir. Yinelenmesi için koşul sınaması döngüye girilmeden.
MIT503 Veri Yapıları ve algoritmalar Veri ağaçları
Kareköklü Sayılar.
Hesaplanan Parametrelerin Hassasiyeti ve Güvenirlik Bölgesi
Nesneye Dayalı Programlama
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
Arama ile sorun çözme Ders 3.
BM-103 Programlamaya Giriş Güz 2014 (8. Sunu)
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
SONLU ELEMANLAR DERS 7.
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
ÇOKLU DOĞRUSAL BAĞLANTI
Celal Bayar Üniversitesi Hasan Ferdi Turgutlu Teknoloji Fakültesi
SÜREKLİ ŞANS DEĞİŞKENLERİ
8.YIL SONRASINDAKİ ALTERNATİFLER8.YIL SONRASINDAKİ ALTERNATİFLER.
Yrd. Doç. Dr. Cemalettin DEMİRELİ
İŞLETME BİLİMİNE GİRİŞ
İnsan Bilgisayar Etkileşimi Alanında Yılları Arasında Türkiye Kökenli Bilim İnsanları Tarafından Yapılan Çalışmalar Üzerine Bir İçerik Analizi.
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
Maliye’de SPSS Uygulamaları Doç. Dr. Aykut Hamit Turan SAÜ İİBF/ Maliye Bölümü.
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Ahmet ÖZSOY Gökhan ÇAKMAK
Bulanık Mantık Kavramlar:
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Floyd Algoritması Floyd Algoritması Dijkstra algoritmasının daha genel halidir. Çünkü şebekedeki herhangi iki düğüm arasındaki en kısa yolu belirler. Algoritma,
KESİR GÖSTERİMLERİ Kesirlerin somut modellerle gösteriminde dört değişik yol vardır. Bunlar, bölge, çizgi, küme ve alan gösterimleridir. BÖLGE MODELİ.
BİL3112 Makine Öğrenimi (Machine Learning)
ÖĞRENME AMAÇLARI Olasılıklı örneklem ile örnek büyüklüğüne karar vermenin altında yatan sekiz aksiyomun anlaşılması Güven aralığı yaklaşımını kullanarak.
BİL551 – YAPAY ZEKA Kümeleme
ALGORİTMA KARMAŞIKLIĞI
BİLGİSAYAR PROGRAMLAMA Araş. Gör. Ahmet ARDAHANLI Kafkas Üniversitesi Mühendislik Fakültesi.
Analitik olmayan ortalamalar Bu gruptaki ortalamalar serinin bütün değerlerini dikkate almayıp, sadece belli birkaç değerini, özellikle ortadaki değerleri.
Bölüm 4 : VERİ MADENCİLİĞİ
OLASILIK ve İSTATİSTİK
Kümeleme Modeli (Clustering)
ÇOK BOYUTLU İŞARET İŞLEMENİN TEMELÖZELLİKLERİ
Algoritma Nedir? Algoritmayı, herhangi bir problemin çözümü için izlenecek yolun adımlar halinde yazılması olarak tanımlayabiliriz. Algoritma, bir problemin.
Fırat Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Müh.
Yıldıray YALMAN Doç. Dr. İsmail ERTÜRK
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
NİŞANTAŞI ÜNİVERSİTESİ
ÖĞRENCİ AD SOYAD, ÖĞRENCİ AD SOYAD, ÖĞRENCİ AD SOYAD
Geometrik yer geometrik yer geometrik yer.
Sunum transkripti:

CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK CURE ALGORİTMASI CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK

CURE Kümeleme analizini gerçekleştirmek için birçok kümeleme metodu geliştirilmiştir. Bu metotlardan hiyerarşik kümeleme metodunda, her küme; bir veri setindeki her bir nesnenin, dizideki bir sonraki nesnenin içinde yer aldığı bir nesneler dizisidir.

CURE Bu dizinin en üst seviyesinde tüm nesneleri içeren tek bir küme ve en alt seviyesinde ise ayrı noktalardan oluşan tekil kümeler yer alır.

CURE Bu iki seviye arasında kalan her seviyedeki küme, bu küme ve bu kümenin bir alt (veya bir üst) seviyesindeki kümenin birleşimidir (veya ayrışımıdır)

CURE Bu anlamda CURE hiyerarşik kümeleme algoritmalarından biridir. CURE algoritması temsilciler kullanarak kümeleme işlemini gerçekleştirmektedir.

CURE Guha, Rastogi ve Shim tarafından ilk olarak SIGMOD 1998 konferansında sunulan CURE algoritması birleştirici bir kümeleme metodudur. Hiyerarşik metotların küresel olmayan ve farklı boyutlu kümeleri bulma konusundaki zayıflıklarını ve sıradışılıklara karşı hassasiyetlerini gidermek üzere ortaya konmuştur.

CURE Kümeleme işlemi yapılırken, oluşturulan kümelerin kalitesini en çok etkileyen faktör ana veri topluluğu içinde diğer verilerden uzakta bulunan ve sayıları az olup aslında hiçbir kümeye ait olmaması gereken uç verilerdir.

CURE CURE algoritması bu uç verilerin, oluşturulan kümelerin kalitesini etkilememesi düşüncesiyle geliştirilmiştir.Küresel bir geometrik şekil taşımayan veri gruplarının kümelenmesi için oldukça elverişli bir algoritmadır.

CURE CURE dağınık bir şekil gösteren küme yapılarındaki küme içine alınıp alınamayacağına karar verilemeyen nesnelerin değerlendirilmesine faydalı bir yaklaşım önermektedir. Temelde bütün nesnelerin birer küme oluşturabileceği yaklaşımına göre çalışmaktadır.

CURE CURE algoritması, her kümenin sabit sayıda temsilci nokta ile temsil edildiği ve her adımda istenen küme sayısı elde edilene kadar temsilci noktaları en yakın olan kümelerin birleştirildiği aşağıdan yukarıya doğru çalışan hiyerarşik bir kümeleme algoritmasıdır.

CURE Her adımda yeni oluşturulan kümelerin temsilci noktalarını bulmak için birleşen kümelerin temsilci noktaları bir daraltma katsayısı ile çarpılır.

CURE Bu durumda algoritmanın doğru kümelenmeleri bulması üç parametrenin değerine bağlıdır ; küme sayısı temsilci nokta sayısı daraltma katsayısı

CURE CURE algoritması öncelikle her girdiyi sanki ayrı bir kümeymiş gibi ele alır ve her adımda bu küme temsilcilerinin birbirlerine olan yakınlıklarına göre ya birleştirir ya da ayrı kümeler olarak tutar. Öncelikle herbir küme için c adet iyi dağıtılmış temsilci nokta seçilir.Seçilen bu noktalar kümelerin fiziksel şeklini geometrik özelliğini ortaya koyar.

CURE Daha sonra bu dağıtılmış noktalar bir daraltma katsayısıyla kümenin ortasına, merkezine doğru kaydırılır. Dağıtılmış olan noktalar bu kaydırma işleminden sonra artık o kümenin temsilcileri olarak kabul edilirler. Bundan sonra iki küme arasındaki uzaklık, herbiri bir kümeye ait olan en yakın temsilci çifti arasındaki uzaklıktır.

CURE Özetle CURE algoritmasının işlem basamakları şu şekildedir: 1. Her küme için sabit sayıda ve küme içinde dağınık olarak yerleşmiş c adet temsilci nokta seçilir, 2. İki küme arasındaki uzaklık, bu kümelere ait temsilci noktalar arasındaki Öklit uzaklığı hesaplanarak elde edilir, 3. En yakın küme çifti birleştirilir,

CURE 4. Oluşan yeni kümenin temsilci noktaları bulunur. Bu işlem için yeni kümenin alt kümelerinden merkeze en yakın olan c adet nokta seçilir. Bu noktalar daraltma katsayısı ile çarpılarak merkeze doğru yaklaştırılır, 5. Küme sayısı, kümeleme algoritmasında giriş parametresi olarak verilen k değerine ulaşana kadar 2, 3 ve 4. adımlar tekrarlanır.

CURE Temsilcilerin bir daraltma katsayısı ile kümenin merkezine kaydırılması kümedeki yüzey anomalilerini tolere ettiği gibi uç verilerin etkisini de azaltır. Çünkü uç veriler tipik bir şekilde merkezden uzakta yer alırlar ve sonuç olarak da bu veriler merkeze doğru daha fazla hareket etmiş olacaklardır.

CURE Bu uç verilerin uzun mesafeli hareketleri farklı iki kümenin birleştirilmesini önleyecektir. Kullanılan daraltma katsayısı aynı zamanda, oluşan kümelerin şeklini belirlemede de kullanılabilir.Alacağı değer 0-1 arasındadır.

CURE Küçük değerli katsayı, dağıtılmış noktaların çok az yer değiştirmesine neden olurken kümelerin de şekilsel olarak uzunlaşmasına yol açar. Katsayının büyük olması ise dağılmış noktaları küme merkezine oldukça yaklaştıracağı için daha toplu halde kümeler oluşacaktır.

CURE CURE algoritmasının başarılı sonuçlara ulaşabilmesi, parametrelerinin doğru seçilmesine bağlıdır. Bu nedenle en iyi sonucun bulunması için algoritmanın aynı veri seti üzerinde birkaç kez tekrarlanması gerekebilir.

CURE Algoritmanın bellekte daha az yer işgal etmesini sağlamak için tüm veriler üzerinde algoritma çalıştırılmadan önce, ana kümeden belirli bir miktarda örnek alınarak CURE algoritması bu örnek küme üzerinde uygulanır. Rastgele yapılan bu örnekleme oluşturulacak kümelerin kalitesini artırmaktadır.

KAYNAK İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Güz 2005/2 Kavram ve Algoritmalarıyla Temel Veri Madenciliği Dr.Gökhan Silahtaroğlu

TEŞEKKÜRLER…