Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

C LUSTERING U SING RE PRESENTATIVES Hazırlayan: Arzu ÇOLAK.

Benzer bir sunumlar


... konulu sunumlar: "C LUSTERING U SING RE PRESENTATIVES Hazırlayan: Arzu ÇOLAK."— Sunum transkripti:

1 C LUSTERING U SING RE PRESENTATIVES Hazırlayan: Arzu ÇOLAK

2 CURE  Kümeleme analizini gerçekleştirmek için birçok kümeleme metodu geliştirilmiştir.  Bu metotlardan hiyerarşik kümeleme metodunda, her küme; bir veri setindeki her bir nesnenin, dizideki bir sonraki nesnenin içinde yer aldığı bir nesneler dizisidir.

3 CURE  Bu dizinin en üst seviyesinde tüm nesneleri içeren tek bir küme ve en alt seviyesinde ise ayrı noktalardan oluşan tekil kümeler yer alır.

4 CURE  Bu iki seviye arasında kalan her seviyedeki küme, bu küme ve bu kümenin bir alt (veya bir üst) seviyesindeki kümenin birleşimidir (veya ayrışımıdır)

5 CURE  Bu anlamda CURE hiyerarşik kümeleme algoritmalarından biridir.  CURE algoritması temsilciler kullanarak kümeleme işlemini gerçekleştirmektedir.

6 CURE  Guha, Rastogi ve Shim tarafından ilk olarak SIGMOD 1998 konferansında sunulan CURE algoritması birleştirici bir kümeleme metodudur. Hiyerarşik metotların küresel olmayan ve farklı boyutlu kümeleri bulma konusundaki zayıflıklarını ve sıradışılıklara karşı hassasiyetlerini gidermek üzere ortaya konmuştur.

7 CURE  Kümeleme işlemi yapılırken, oluşturulan kümelerin kalitesini en çok etkileyen faktör ana veri topluluğu içinde diğer verilerden uzakta bulunan ve sayıları az olup aslında hiçbir kümeye ait olmaması gereken uç verilerdir.

8 CURE  CURE algoritması bu uç verilerin, oluşturulan kümelerin kalitesini etkilememesi düşüncesiyle geliştirilmiştir.Küresel bir geometrik şekil taşımayan veri gruplarının kümelenmesi için oldukça elverişli bir algoritmadır.

9 CURE  CURE dağınık bir şekil gösteren küme yapılarındaki küme içine alınıp alınamayacağına karar verilemeyen nesnelerin değerlendirilmesine faydalı bir yaklaşım önermektedir. Temelde bütün nesnelerin birer küme oluşturabileceği yaklaşımına göre çalışmaktadır.

10 CURE  CURE algoritması, her kümenin sabit sayıda temsilci nokta ile temsil edildiği ve her adımda istenen küme sayısı elde edilene kadar temsilci noktaları en yakın olan kümelerin birleştirildiği aşağıdan yukarıya doğru çalışan hiyerarşik bir kümeleme algoritmasıdır.

11 CURE  Her adımda yeni oluşturulan kümelerin temsilci noktalarını bulmak için birleşen kümelerin temsilci noktaları bir daraltma katsayısı ile çarpılır.

12 CURE  Bu durumda algoritmanın doğru kümelenmeleri bulması üç parametrenin değerine bağlıdır ;  küme sayısı  temsilci nokta sayısı  daraltma katsayısı

13 CURE  CURE algoritması öncelikle her girdiyi sanki ayrı bir kümeymiş gibi ele alır ve her adımda bu küme temsilcilerinin birbirlerine olan yakınlıklarına göre ya birleştirir ya da ayrı kümeler olarak tutar.  Öncelikle herbir küme için c adet iyi dağıtılmış temsilci nokta seçilir.Seçilen bu noktalar kümelerin fiziksel şeklini geometrik özelliğini ortaya koyar.

14 CURE  Daha sonra bu dağıtılmış noktalar bir daraltma katsayısıyla kümenin ortasına, merkezine doğru kaydırılır.  Dağıtılmış olan noktalar bu kaydırma işleminden sonra artık o kümenin temsilcileri olarak kabul edilirler.  Bundan sonra iki küme arasındaki uzaklık, herbiri bir kümeye ait olan en yakın temsilci çifti arasındaki uzaklıktır.

15 CURE  Özetle CURE algoritmasının işlem basamakları şu şekildedir:  1. Her küme için sabit sayıda ve küme içinde dağınık olarak yerleşmiş c adet temsilci nokta seçilir,  2. İki küme arasındaki uzaklık, bu kümelere ait temsilci noktalar arasındaki Öklit uzaklığı hesaplanarak elde edilir,  3. En yakın küme çifti birleştirilir,

16 CURE  4. Oluşan yeni kümenin temsilci noktaları bulunur. Bu işlem için yeni kümenin alt kümelerinden merkeze en yakın olan c adet nokta seçilir. Bu noktalar daraltma katsayısı ile çarpılarak merkeze doğru yaklaştırılır,  5. Küme sayısı, kümeleme algoritmasında giriş parametresi olarak verilen k değerine ulaşana kadar 2, 3 ve 4. adımlar tekrarlanır.

17 CURE  Temsilcilerin bir daraltma katsayısı ile kümenin merkezine kaydırılması kümedeki yüzey anomalilerini tolere ettiği gibi uç verilerin etkisini de azaltır.  Çünkü uç veriler tipik bir şekilde merkezden uzakta yer alırlar ve sonuç olarak da bu veriler merkeze doğru daha fazla hareket etmiş olacaklardır.

18 CURE  Bu uç verilerin uzun mesafeli hareketleri farklı iki kümenin birleştirilmesini önleyecektir.  Kullanılan daraltma katsayısı aynı zamanda, oluşan kümelerin şeklini belirlemede de kullanılabilir.Alacağı değer 0-1 arasındadır.

19 CURE  Küçük değerli katsayı, dağıtılmış noktaların çok az yer değiştirmesine neden olurken kümelerin de şekilsel olarak uzunlaşmasına yol açar.  Katsayının büyük olması ise dağılmış noktaları küme merkezine oldukça yaklaştıracağı için daha toplu halde kümeler oluşacaktır.

20 CURE  CURE algoritmasının başarılı sonuçlara ulaşabilmesi, parametrelerinin doğru seçilmesine bağlıdır. Bu nedenle en iyi sonucun bulunması için algoritmanın aynı veri seti üzerinde birkaç kez tekrarlanması gerekebilir.

21 CURE  Algoritmanın bellekte daha az yer işgal etmesini sağlamak için tüm veriler üzerinde algoritma çalıştırılmadan önce, ana kümeden belirli bir miktarda örnek alınarak CURE algoritması bu örnek küme üzerinde uygulanır.  Rastgele yapılan bu örnekleme oluşturulacak kümelerin kalitesini artırmaktadır.

22 KAYNAK  İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi Güz 2005/2  Kavram ve Algoritmalarıyla Temel Veri Madenciliği Dr.Gökhan Silahtaroğlu

23 TEŞEKKÜRLER…


"C LUSTERING U SING RE PRESENTATIVES Hazırlayan: Arzu ÇOLAK." indir ppt

Benzer bir sunumlar


Google Reklamları