Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

Benzer bir sunumlar


... konulu sunumlar: "Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E"— Sunum transkripti:

1 Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
Veri Madenciliği Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

2 Veri Madenciliği Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Alpaydın 2000) Knowledge Discovery in Databases Arş.Grv İlyas AKKUŞ

3 Veri Madenciliğinde Örnek Uygulamalar
Birliktelik “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis) Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.” Regresyon Kredi skorlama (Application Scoring) Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning) Arş.Grv İlyas AKKUŞ

4 Veri Madenciliğinde Örnek Uygulamalar
Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” Arş.Grv İlyas AKKUŞ

5 Veri Madenciliğinde gerekli konular
Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. Arş.Grv İlyas AKKUŞ

6 Veri Madenciliği Konuları
Arş.Grv İlyas AKKUŞ

7 Kümeleme Konu Başlıkları
Kümeleme Nedir? Kümeleme Yöntemleri Arş.Grv İlyas AKKUŞ

8 Kümeleme Nedir? Kümeleme bir eğiticisiz öğrenme ile gerçekleştirilir.
Küme: Birbirine benzeyen nesnelerden oluşan gruptur. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer Arş.Grv İlyas AKKUŞ

9 Örneğin Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir Arş.Grv İlyas AKKUŞ

10 Kümeleme Yöntemleri 1 - Bölümleme yöntemleri (Partitioning methods)
2- Hiyerarsik yöntemler (Hierarchical methods) 3- Yogunluk tabanlı yöntemler (Density-based methods) 4- Izgara tabanlı yöntemler (Grid-based methods) 5- Model tabanlı yöntemler (Model-based methods) Arş.Grv İlyas AKKUŞ

11 Bölümleme Yöntemleri Bölümleme yöntemleri, n adet nesneden oluşan veri tabanını giriş parametresi olarak belirlenen k adet bölüme ( k<=n ) ayırma temeline dayanır. Veri tabanındaki her bir eleman farklılık fonksiyonuna göre k adet bölümden birine dâhil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır. Bölümleme yöntemleri k -means, k -medoids ve CLARA-CLARANS olarak bilinen algoritmaları kullanır. Arş.Grv İlyas AKKUŞ

12 K-medoids Algoritması
k -medoids algoritması k -means algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla Kaufman ve Rousseeuw tarafından 1987 yılında geliştirilmiştir k -medoids algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi giderilmiş olur. Arş.Grv İlyas AKKUŞ

13 k -medoids algoritmasının birçok farklı türevi bulunmaktadır
k -medoids algoritmasının birçok farklı türevi bulunmaktadır. PAM (Partitioning Around Medoids) ilk ortaya atılan k -medoids algoritmasıdır. PAM, öncelikle k -means algoritmasında olduğu gibi rastgele seçtiği k adet sayıyı küme merkezi olarak alır. Kümeye her yeni eleman katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit edince bulduğu noktayı yeni merkez, eski merkezi ise sıradan küme elemanı olacak şekilde yer değiştirme işlemi yapar. Arş.Grv İlyas AKKUŞ

14 CLARA ve CLARANS Algoritmaları
PAM, k -medoids algoritmalarının başarısını kanıtlamasına rağmen büyük veri tabanlarında başarılı olamayınca Kaufman ve Rousseeuw tarafından 1990 yılında CLARA ortaya atılmıştır. CLARA, veri tabanının tümünü almak yerine küçük bir örneklem kümesini temsilci olarak alıp örneklem üzerinde PAM algoritmasını uygular. CLARA’nın avantajı PAM’dan daha büyük veri yığınlarına uygulanabilmesi, dezavantajı ise performansının örneklemin boyuna göre değişmesi ve örneklem seçimi yeterince bağımsız değilse seçilen örneklem veri tabanını yeterince temsil edemeyeceği için yanlış sonuçlara ulaşmasıdır. Arş.Grv İlyas AKKUŞ

15 K-Means Kümeleme K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi gerekir. Arş.Grv İlyas AKKUŞ

16 K-Means Kümeleme K-means kümeleme algoritmasının adımları;
Belirlenecek küme sayısı k seçilir. Veri kümesinden k adet örnek başlangıç küme merkezleri olarak rastgele seçilir. Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. Her küme için yeni örneklerle küme merkezleri hesaplanır. Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır. Arş.Grv İlyas AKKUŞ

17 K-Means Kümeleme Arş.Grv İlyas AKKUŞ

18 K-Means Kümeleme 1 2 3 4 5 6 Arş.Grv İlyas AKKUŞ

19 K-means Kümeleme Arş.Grv İlyas AKKUŞ

20 K-Means Kümeleme 2.İterasyon sonunda kümelerin şekli
Arş.Grv İlyas AKKUŞ

21 K-Means Kümeleme 1 2 3 4 5 6 3.İterasyon sonunda kümelerin şekli
Arş.Grv İlyas AKKUŞ

22 Hiyerarşik Yöntemler Hiyerarşik yöntemler nesneleri Dendrogram denilen ağaç yapısı şeklinde gruplandırma temeline dayanır. Yapının inşa edilme yönüne göre yöntemler iki bölümde incelenir: Birleştirici kümeleme Ayrıştırıcı kümeleme Hiyerarşik yöntemler k değerine ihtiyaç duymazlar fakat ağaç yapısı oluşturma işleminin ne zaman durdurulacağını belirten eşik değeri parametresine ihtiyaç duyarlari Diğer algoritmalar: BIRCH CURE CHAMELEON Arş.Grv İlyas AKKUŞ

23 Hiyerarşik Kümeleme Küme sayısının bilinmesine gerek yoktur ancak bir sonlanma kriterine ihtiyaç duyar. Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA) Arş.Grv İlyas AKKUŞ

24 Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting)
Kaufmann ve Rousseeuw (1990) tarafından ortaya atılmıştır. Başlangıçta her nesne bir küme olarak alınır. Aralarında en az uzaklık bulunan kümeler birleştirilir. Kümeler arasında mesafe tek bağ metodu (single linkage method) ile hesaplanır Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi devam eder. Arş.Grv İlyas AKKUŞ

25 Hiyerarşik Kümeleme: DIANA (Divisive Analysis)
Kaufmann and Rousseeuw (1990) tarafından ortaya atılmıştır. AGNES’in yaptığı işlemlerin tersini yapar. Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur. Arş.Grv İlyas AKKUŞ

26 Yoğunluk Tabanlı Yöntemler
Yoğunluk tabanlı yöntemler, nesnelerin doğal dağılımını bir yoğunluk fonksiyonu aracılığı ile tespit ederek bir eşik yoğunluğunu aşan bölgeleri küme olarak adlandırırlar. Düzgün şekilli olmayan kümeleri bulma başarısı, gürültü ve istisnalardan etkilenmeme ve tek tarama ile sonuca ulaşma avantajları ile en başarılı kümeleme yöntemleri arasındadır Arş.Grv İlyas AKKUŞ

27 Izgara Tabanlı Yöntemler
Veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan ızgara yapıları kullanırlar. Kullandıkları ızgara yapısından ötürü veri tabanındaki nesne sayısından bağımsızdırlar. Arş.Grv İlyas AKKUŞ

28 Model Tabanlı Yöntemler
Eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar. Model tabanlı yöntemler iki temel yaklaşımı kullanırlar; istatistik yaklaşım ve yapay zekâ yaklaşımıdır. Arş.Grv İlyas AKKUŞ


"Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E" indir ppt

Benzer bir sunumlar


Google Reklamları