Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E Veri Madenciliği Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
Veri Madenciliği Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Alpaydın 2000) Knowledge Discovery in Databases Arş.Grv İlyas AKKUŞ
Veri Madenciliğinde Örnek Uygulamalar Birliktelik “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis) Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.” Regresyon Kredi skorlama (Application Scoring) Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning) Arş.Grv İlyas AKKUŞ
Veri Madenciliğinde Örnek Uygulamalar Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” Arş.Grv İlyas AKKUŞ
Veri Madenciliğinde gerekli konular Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. Arş.Grv İlyas AKKUŞ
Veri Madenciliği Konuları Arş.Grv İlyas AKKUŞ
Kümeleme Konu Başlıkları Kümeleme Nedir? Kümeleme Yöntemleri Arş.Grv İlyas AKKUŞ
Kümeleme Nedir? Kümeleme bir eğiticisiz öğrenme ile gerçekleştirilir. Küme: Birbirine benzeyen nesnelerden oluşan gruptur. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer Arş.Grv İlyas AKKUŞ
Örneğin Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir Arş.Grv İlyas AKKUŞ
Kümeleme Yöntemleri 1 - Bölümleme yöntemleri (Partitioning methods) 2- Hiyerarsik yöntemler (Hierarchical methods) 3- Yogunluk tabanlı yöntemler (Density-based methods) 4- Izgara tabanlı yöntemler (Grid-based methods) 5- Model tabanlı yöntemler (Model-based methods) Arş.Grv İlyas AKKUŞ
Bölümleme Yöntemleri Bölümleme yöntemleri, n adet nesneden oluşan veri tabanını giriş parametresi olarak belirlenen k adet bölüme ( k<=n ) ayırma temeline dayanır. Veri tabanındaki her bir eleman farklılık fonksiyonuna göre k adet bölümden birine dâhil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır. Bölümleme yöntemleri k -means, k -medoids ve CLARA-CLARANS olarak bilinen algoritmaları kullanır. Arş.Grv İlyas AKKUŞ
K-medoids Algoritması k -medoids algoritması k -means algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla Kaufman ve Rousseeuw tarafından 1987 yılında geliştirilmiştir k -medoids algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi giderilmiş olur. Arş.Grv İlyas AKKUŞ
k -medoids algoritmasının birçok farklı türevi bulunmaktadır k -medoids algoritmasının birçok farklı türevi bulunmaktadır. PAM (Partitioning Around Medoids) ilk ortaya atılan k -medoids algoritmasıdır. PAM, öncelikle k -means algoritmasında olduğu gibi rastgele seçtiği k adet sayıyı küme merkezi olarak alır. Kümeye her yeni eleman katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit edince bulduğu noktayı yeni merkez, eski merkezi ise sıradan küme elemanı olacak şekilde yer değiştirme işlemi yapar. Arş.Grv İlyas AKKUŞ
CLARA ve CLARANS Algoritmaları PAM, k -medoids algoritmalarının başarısını kanıtlamasına rağmen büyük veri tabanlarında başarılı olamayınca Kaufman ve Rousseeuw tarafından 1990 yılında CLARA ortaya atılmıştır. CLARA, veri tabanının tümünü almak yerine küçük bir örneklem kümesini temsilci olarak alıp örneklem üzerinde PAM algoritmasını uygular. CLARA’nın avantajı PAM’dan daha büyük veri yığınlarına uygulanabilmesi, dezavantajı ise performansının örneklemin boyuna göre değişmesi ve örneklem seçimi yeterince bağımsız değilse seçilen örneklem veri tabanını yeterince temsil edemeyeceği için yanlış sonuçlara ulaşmasıdır. Arş.Grv İlyas AKKUŞ
K-Means Kümeleme K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi gerekir. Arş.Grv İlyas AKKUŞ
K-Means Kümeleme K-means kümeleme algoritmasının adımları; Belirlenecek küme sayısı k seçilir. Veri kümesinden k adet örnek başlangıç küme merkezleri olarak rastgele seçilir. Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. Her küme için yeni örneklerle küme merkezleri hesaplanır. Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır. Arş.Grv İlyas AKKUŞ
K-Means Kümeleme Arş.Grv İlyas AKKUŞ
K-Means Kümeleme 1 2 3 4 5 6 Arş.Grv İlyas AKKUŞ
K-means Kümeleme Arş.Grv İlyas AKKUŞ
K-Means Kümeleme 2.İterasyon sonunda kümelerin şekli Arş.Grv İlyas AKKUŞ
K-Means Kümeleme 1 2 3 4 5 6 3.İterasyon sonunda kümelerin şekli Arş.Grv İlyas AKKUŞ
Hiyerarşik Yöntemler Hiyerarşik yöntemler nesneleri Dendrogram denilen ağaç yapısı şeklinde gruplandırma temeline dayanır. Yapının inşa edilme yönüne göre yöntemler iki bölümde incelenir: Birleştirici kümeleme Ayrıştırıcı kümeleme Hiyerarşik yöntemler k değerine ihtiyaç duymazlar fakat ağaç yapısı oluşturma işleminin ne zaman durdurulacağını belirten eşik değeri parametresine ihtiyaç duyarlari Diğer algoritmalar: BIRCH CURE CHAMELEON Arş.Grv İlyas AKKUŞ
Hiyerarşik Kümeleme Küme sayısının bilinmesine gerek yoktur ancak bir sonlanma kriterine ihtiyaç duyar. Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA) Arş.Grv İlyas AKKUŞ
Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting) Kaufmann ve Rousseeuw (1990) tarafından ortaya atılmıştır. Başlangıçta her nesne bir küme olarak alınır. Aralarında en az uzaklık bulunan kümeler birleştirilir. Kümeler arasında mesafe tek bağ metodu (single linkage method) ile hesaplanır Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi devam eder. Arş.Grv İlyas AKKUŞ
Hiyerarşik Kümeleme: DIANA (Divisive Analysis) Kaufmann and Rousseeuw (1990) tarafından ortaya atılmıştır. AGNES’in yaptığı işlemlerin tersini yapar. Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur. Arş.Grv İlyas AKKUŞ
Yoğunluk Tabanlı Yöntemler Yoğunluk tabanlı yöntemler, nesnelerin doğal dağılımını bir yoğunluk fonksiyonu aracılığı ile tespit ederek bir eşik yoğunluğunu aşan bölgeleri küme olarak adlandırırlar. Düzgün şekilli olmayan kümeleri bulma başarısı, gürültü ve istisnalardan etkilenmeme ve tek tarama ile sonuca ulaşma avantajları ile en başarılı kümeleme yöntemleri arasındadır Arş.Grv İlyas AKKUŞ
Izgara Tabanlı Yöntemler Veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan ızgara yapıları kullanırlar. Kullandıkları ızgara yapısından ötürü veri tabanındaki nesne sayısından bağımsızdırlar. Arş.Grv İlyas AKKUŞ
Model Tabanlı Yöntemler Eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar. Model tabanlı yöntemler iki temel yaklaşımı kullanırlar; istatistik yaklaşım ve yapay zekâ yaklaşımıdır. Arş.Grv İlyas AKKUŞ