Veri Madenciliğinde Kümeleme Slink Algoritması

Slides:



Advertisements
Benzer bir sunumlar
Hazırlayan ve Sunan Fatma Sena YAMAN.
Advertisements

BİLGİSAYARDA KULLANILAN FAYDALI PROGRAMLAR
Unsupervised Learning (Kümeleme)
MUSTAFA YEŞİLADA
Özgür GÜVEN GÜNAY, Prof. Dr. Pars TUNÇYÜREK
GENETİK UZAKLIK VE UPGMA YÖNTEMİ
 1 Ekim 2010 ile 1 Kasım 2010 tarihleri arasında İ stanbul Haydarpa ş a Numune E ğ itim ve Ara ş tırma Hastanesi Acil Servisine ba ş vuran toplam 985.
B İ LG İ S İ RAYIN İ CADI VE TAR İ HSEL GEL İŞİ M İ TEKNOLOJ İ VE TASARIM HAZIRLAYAN HÜLYA AYTEK İ N GÜNDÜZ-A 2.SINIF.
FUTBOL GELİŞTİRME MERKEZİ Coca Cola Akademi Ligleri 2008 – 2009
JOHARİ PENCERESİ HAZIRLAYAN: BEDİİ DURMUŞ
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Uludağ Üniversitesi Fizik Bölümü
MATEMATİKTEN KORKMUYORUM!
Kesirler 1/2 1/8 1/3 6/8 3/4.
DOĞAL SAYILAR.
Olumlu Disiplin Yöntemleri
Kümeleme Modeli (Clustering)
Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Hazırlayanlar: Aylin Tozduman Zeki Çetin Ş ehir Co ğ rafyası (PLN1124) ‘14.
PARÇADA ANLAM.
DÜNYA’MIZ NASIL OLU Ş TU? Güne ş Sistemi'nin Güne ş 'e uzaklık açısından üçüncü sıradaki gezegeni. Üzerinde ya ş am barındırdı ğ ı bilinen tek do ğ al.
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
Bellek Tabanlı Sınıflandırma
Kümeler.
ÖZEL ÖĞRETİM YÖNTEMLERİ
DUYU ORGANLARIMIZ.
Uzaktan Eğitim Kuramları
0-6 Yaş Arası Çocukların Temel Gelişimsel Özellikleri
DynEd İngilizce Dil Eğitim Sistemi
Geriden Kestirme Hesabı
KÜMELERDE İŞLEMLER KÜMELERDE BİRLEŞİM İŞLEMİ KÜMELERDE KESİŞİM İŞLEMİ
YAKAÖREN İLKÖRETİM OKULU
Yıldırım BAHADIR Programcı-Proje Sorumlusu Karabük Valili ğ i Bilgi İş lem Ş ube Müdürlü ğ ü.
Veri Tabanı Nedir?.
XML Document Object Model (DOM)
YAPI(PLAN).
Konu: İ sim(Ad) Varlıkları, kavramları kar ş ılayan sözcüklerdir. İ simlerle, kar ş ıladıkları kavram ve nesneler arasında çok sıkı bir ilgi vardır.
O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması.
AYNALAR TUĞÇE ÇINARLI.
Internette iki çe ş it adresleme kullanılır. IP numarası herhangi bir bilgisayar internete ba ğ landı ğ ı anda, dünya üzerinde sadece ona ait olan bir.
Medya Araçlarının Yararları Ve Zararları
ÜNİTE ÜRÜN DOSYASI SUNUMU
AMİRALİ BATIRAN KOORDİNAT
Veri Madenciliği Giriş.
KONULAR  MADDEY İ TANIYALIM  ÇEVREM İ ZDE SAYISIZ MADDE VARDIR.
Doç. Dr. Cemil Öz SAÜ Bilgisayar Mühendisliği Dr. Cemil Öz.
Demetleme (Clustering)
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Floyd Algoritması Floyd Algoritması Dijkstra algoritmasının daha genel halidir. Çünkü şebekedeki herhangi iki düğüm arasındaki en kısa yolu belirler. Algoritma,
 Cerattepe ve Genya Da ğ ı ruhsat alanlarında madencilik faaliyetlerinin ba ş langıcı 1986 yıllarına dayanmaktadır. Bu tarihte MTA tarafından ba ş latılan.
Veri Tabanı Yönetim Sistemleri Hafta 1. 2 Temel Kavramlar Veri Olguların, kavramların, veya talimatların, insan tarafından veya otomatik yolla iletişim,
Yöneti ş im(governance),küresel le ş menin etkisi ile ortaya çıkmı ş ve birçok ülkede son yılların moda kavramı haline gelmi ş tir.
BİL551 – YAPAY ZEKA Kümeleme
Biçimbilimsel Özniteliklerin Eş-Oluşumlarına Dayalı Doku Betimleme Okan Üniversitesi Bilgisayar Mühendisliği Bölümü / İstanbul İzzet Özen Erchan Aptoula.
Sevda GÜL 1450Y  EEG nedir?  EEG Nasıl Ölçülür?  İ nsan beyninin yaydı ğ ı dalgalar nelerdir?  Epilepsi nedir?  Epilepsi verilenin YSA ile.
Bölüm 4 : VERİ MADENCİLİĞİ
Kümeleme Modeli (Clustering)
Tüm ikililer arasında en kısa yollar
 İş lemci bilgisayarımızın beynidir tüm i ş lemler ondan sorulur.
St SİMON MANASTIRI "AZİZ SİMON" ( Antakya'nın gizli hazinesi) Terk-i Dünya tarikatının merkezi olarak bilinen St.Simon Manastırı HATAY(Samandağ -Antakya) arasındadır.
Kemal AKYOL, Şafak BAYIR, Baha ŞEN
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
( Akış diyagramını çiziniz )
İleri Algoritma Analizi
8. Ders Tüm ikililer arasında en kısa yollar
Sunum transkripti:

Veri Madenciliğinde Kümeleme Slink Algoritması Hazırlayan:Erdal Çelik

Kümeleme Analizine Dayalı Modeller Kümelemeye dayalı modellerin, Sınıflandırmaya dayalı modellerden farkı eldeki mevcut verilerin daha önceden belirli olan bir sınıflandırmaya göre değil de belirli olmayan bir sınıfa göre gruplandırmasıdır. Yani kümeleme analizine dayalı bir modelde daha önceden belirlenmemiş kıstaslara göre veriler gruplara ayrılıp kümelenmektedir.

Kümeleme Analizine Dayalı Modeller Kümeleme yabancı kaynaklarda clustering yada segmentation olarak geçmektedir. Verilerin belirli gruplara dahil edilmesi için bazı hesaplamalara tabii tutulması gerekmektedir. Bunlar benzerlik ve mesafe ölçümleridir.

Benzerlik ve Mesafenin Ölçülmesi Mesafenin ölçülmesi için genellikle euclid yönteminden yararlanılmaktadır. Euclid yöntemine göre mesafe aşağıdaki formül yardımıyla hesaplanmaktadır • Kullanılan diğer bazı yöntemler; Mahalanobis, Manhattan…

Bir diğer hesaplanması gereken ise Benzerliktir Bir diğer hesaplanması gereken ise Benzerliktir. Benzerlik kavramı mesafenin tersi bir anlam içerir ve iki veri arasındaki yakınlığı gösterir. Benzerlik hesabı genel olarak aşağıdaki formül yardımıyla hesaplanabilmektedir. ben(Xm,Xj)= 1 / (1 + d(x,y) ) • Benzerlik hesabında kullanılan bazı yöntemler; Dice, Overlap, Jaccard …

Hiyerarşik Modeller Hiyerarşik kümeleme teknikleri, kümeleri peşpeşe birleştirme sürecidir ve bir grup, diğeri ile bir kez birleştirildikten sonra, daha sonraki adımlarda kesinlikle ayrılamaz(Fırat, 1995). Hiyerarşik tekniklerin ağaç diyagramları ile gösterilen sonuçlarına dendogram denir(Lorr,1983).

Hiyerarşik Modeller Hiyerarşik kümeleme teknikleri, toplama ve ayırma teknikleri olmak üzere iki grupta toplanır. Toplaşım kümeleme algoritmaları, başlangıçta veritabanındaki her bir noktayı bir küme olarak görür. Bu kümeleri birleştire birleştire birbirinden ayrı kümeler oluşturur. Ayrışım kümeleme algoritmaları ise başlangıçta veri tabanındaki tüm noktaları tek bir kümeymiş gibi görür.Veritabanını taradıkça, birbirine benzemeyen noktaları kümeden dışarı atarak k kadar kümeye dağıtır.

Slink Algoritması Slink algoritması hiyerarşik modelleri kullanan bir algoritmadır. Slink algoritması tek bağlantı ya da en yakın komşu tekniğini kullanır[Sibson,1973]. Tek Bağlantı Tekniği; iki küme arasındaki en kısa mesafeyi,kümeler arası mesafe kabul eder.Yani birbirine en yakın iki düğümü ya da noktayı kullanarak kümeler arasındaki mesafeyi bulur.

Slink Algoritması SLINK algoritması temelde  2 küme grubunun en dışında olan ve birbirine yakın olan noktalar arasındaki mesafeye göre benzerlik teoremleri geliştirerek kümeleme işlemini gerçekleştirmektedir. Buradaki mesafenin ve benzerliğin ölçümünde bilinen formüllerden yararlanılmaktadır(Euclid, Overlap …). Tek bağlantı tekniği ve SLINK algoritması toplaşımlı algoritmaların tipik özelliklerini taşır.

Slink algoritmasının adımları: Öncelikle eldeki verilerin, mesafe/benzerlik matrisi çıkartılır. Bu matrisi bir ağaç haline dönüştürür. Şebeke modellerinden en küçük maliyetli ağaç çıkartılarak,verilen eşik değerine göre kümeler oluşturulur.

Konuyu bir örnek dahilinde incelersek aşağıdaki Tablo mesafe tablomuz olsun.

Tablo da A, B, C, D ile gösterilen 4 noktamız ve bu noktalar arasındaki uzaklıklar verilmiştir.Bu tabloyu şebeke diyagramı şeklinde Şekil-1 deki gibi gösterebiliriz. Şekil-1

Şekil-2 de ise eşik değeri 1 iken, eşik değerinden büyük olan bağlar kopartılmış ve kümelerin oluşmuş olduğu görülür.Burada A, B, C ve D noktaları başlangıçta herbiri bir küme olarak ele alınmış,daha sonra birbirlerine(kümeler arasındaki mesafe) uzaklıklarına göre bir araya toplanarak kümeler oluşturulmuştur. B ve D noktaları bir kümeye toplanırken C ve A ayrı birer küme olarak kabul edilmişlerdir.Toplamda 3 tane küme ortaya çıkarılmıştır. {A}, {C}, {B,D}

Kümeler {A}, {C}, {B,D} Şekil-2 Şebeke diyagramı eşik değeri 1

Şekil 3’te ise eşik değeri 2 olarak alınmıştır Şekil 3’te ise eşik değeri 2 olarak alınmıştır.Bu durumda A, B, C ve D noktalarının tamamı aynı kümede toplanmıştır. Şekil-3 şebeke diyagramı eşik değeri 2

Kaynaklar 1- İş Zekam “İş Zekasında Kullanılan Veri Madenciliği Modelleri – 6 (Kümeleme) 2009. http://www.iszekam.net/post/2009/05/26/Is-Zekasinda- Kullanilan-Veri-Madenciligi-Modelleri-6.aspx 2- Silahtaroğlu, G. (2008). “Kavram ve Algoritmalarıyla Temel Veri Madenciliği”, Papatya Yayıncılık Eğitim, 3- http://sbe.dpu.edu.tr/12/15-36.pdf 4-http://en.wikipedia.org/wiki/Single-linkage_clustering

SORULAR

!!! TEŞEKKÜRLER !!!