Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E.

Benzer bir sunumlar


... konulu sunumlar: "Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E."— Sunum transkripti:

1 Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

2   Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Alpaydın 2000)  Knowledge Discovery in Databases Veri Madenciliği 2Arş.Grv İlyas AKKUŞ

3   Birliktelik “Çocuk bezi alan müşterilerin 30%’u bira da alır.” ( Basket Analysis )  Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.”  Regresyon Kredi skorlama ( Application Scoring )  Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” ( Behavioral scoring, Churning ) Veri Madenciliğinde Örnek Uygulamalar 3Arş.Grv İlyas AKKUŞ

4   Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”  İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection  Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” Veri Madenciliğinde Örnek Uygulamalar 4Arş.Grv İlyas AKKUŞ

5   Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. Veri Madenciliğinde gerekli konular 5Arş.Grv İlyas AKKUŞ

6  Veri Madenciliği Konuları 6Arş.Grv İlyas AKKUŞ

7   Kümeleme Nedir?  Kümeleme Yöntemleri Kümeleme Konu Başlıkları 7Arş.Grv İlyas AKKUŞ

8   Kümeleme bir eğiticisiz öğrenme ile gerçekleştirilir.  Küme: Birbirine benzeyen nesnelerden oluşan gruptur.  Aynı kümedeki örnekler birbirine daha çok benzer  Farklı kümedeki örnekler birbirine daha az benzer Kümeleme Nedir? 8Arş.Grv İlyas AKKUŞ

9   Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir Örneğin 9Arş.Grv İlyas AKKUŞ

10 Kümeleme Yöntemleri 1 - Bölümleme yöntemleri (Partitioning methods) 2- Hiyerarsik yöntemler (Hierarchical methods) 3- Yogunluk tabanlı yöntemler (Density-based methods) 4- Izgara tabanlı yöntemler (Grid-based methods) 5- Model tabanlı yöntemler (Model-based methods) 10Arş.Grv İlyas AKKUŞ

11   Bölümleme yöntemleri, n adet nesneden oluşan veri tabanını giriş parametresi olarak belirlenen k adet bölüme ( k<=n ) ayırma temeline dayanır. Veri tabanındaki her bir eleman farklılık fonksiyonuna göre k adet bölümden birine dâhil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır.  Bölümleme yöntemleri k -means, k -medoids ve CLARA-CLARANS olarak bilinen algoritmaları kullanır. Bölümleme Yöntemleri 11Arş.Grv İlyas AKKUŞ

12   k -medoids algoritması k -means algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla Kaufman ve Rousseeuw tarafından 1987 yılında geliştirilmiştir  k -medoids algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi giderilmiş olur. K-medoids Algoritması 12Arş.Grv İlyas AKKUŞ

13   k -medoids algoritmasının birçok farklı türevi bulunmaktadır. PAM (Partitioning Around Medoids) ilk ortaya atılan k -medoids algoritmasıdır. PAM, öncelikle k -means algoritmasında olduğu gibi rastgele seçtiği k adet sayıyı küme merkezi olarak alır. Kümeye her yeni eleman katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit edince bulduğu noktayı yeni merkez, eski merkezi ise sıradan küme elemanı olacak şekilde yer değiştirme işlemi yapar. 13Arş.Grv İlyas AKKUŞ

14   PAM, k -medoids algoritmalarının başarısını kanıtlamasına rağmen büyük veri tabanlarında başarılı olamayınca Kaufman ve Rousseeuw tarafından 1990 yılında CLARA ortaya atılmıştır.  CLARA, veri tabanının tümünü almak yerine küçük bir örneklem kümesini temsilci olarak alıp örneklem üzerinde PAM algoritmasını uygular. CLARA’nın avantajı PAM’dan daha büyük veri yığınlarına uygulanabilmesi, dezavantajı ise performansının örneklemin boyuna göre değişmesi ve örneklem seçimi yeterince bağımsız değilse seçilen örneklem veri tabanını yeterince temsil edemeyeceği için yanlış sonuçlara ulaşmasıdır. CLARA ve CLARANS Algoritmaları 14Arş.Grv İlyas AKKUŞ

15   K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir.  K-means algoritması veri kümesini birbirinden ayrık kümelere böler.  K küme sayısının başlangıçta bilinmesi gerekir. K-Means Kümeleme 15Arş.Grv İlyas AKKUŞ

16   K-means kümeleme algoritmasının adımları; 1.Belirlenecek küme sayısı k seçilir. 2.Veri kümesinden k adet örnek başlangıç küme merkezleri olarak rastgele seçilir. 3.Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. 4.Her küme için yeni örneklerle küme merkezleri hesaplanır. 5.Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır. K-Means Kümeleme 16Arş.Grv İlyas AKKUŞ

17  K-Means Kümeleme 17Arş.Grv İlyas AKKUŞ

18  K-Means Kümeleme Arş.Grv İlyas AKKUŞ

19  K-means Kümeleme 19Arş.Grv İlyas AKKUŞ

20  K-Means Kümeleme 2.İterasyon sonunda kümelerin şekli 20Arş.Grv İlyas AKKUŞ

21  K-Means Kümeleme İterasyon sonunda kümelerin şekli 21Arş.Grv İlyas AKKUŞ

22   Hiyerarşik yöntemler nesneleri Dendrogram denilen ağaç yapısı şeklinde gruplandırma temeline dayanır. Yapının inşa edilme yönüne göre yöntemler iki bölümde incelenir: 1.Birleştirici kümeleme 2.Ayrıştırıcı kümeleme  Hiyerarşik yöntemler k değerine ihtiyaç duymazlar fakat ağaç yapısı oluşturma işleminin ne zaman durdurulacağını belirten eşik değeri parametresine ihtiyaç duyarlari Diğer algoritmalar:  BIRCH  CURE  CHAMELEON Hiyerarşik Yöntemler 22Arş.Grv İlyas AKKUŞ

23   Küme sayısının bilinmesine gerek yoktur ancak bir sonlanma kriterine ihtiyaç duyar. Hiyerarşik Kümeleme Step 0 Step 1Step 2Step 3Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3Step 2Step 1Step 0 agglomerative (AGNES) divisive (DIANA) 23Arş.Grv İlyas AKKUŞ

24   Kaufmann ve Rousseeuw (1990) tarafından ortaya atılmıştır.  Başlangıçta her nesne bir küme olarak alınır.  Aralarında en az uzaklık bulunan kümeler birleştirilir.  Kümeler arasında mesafe tek bağ metodu (single linkage method) ile hesaplanır  Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi devam eder. Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting) 24Arş.Grv İlyas AKKUŞ

25   Kaufmann and Rousseeuw (1990) tarafından ortaya atılmıştır.  AGNES’in yaptığı işlemlerin tersini yapar.  Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur. Hiyerarşik Kümeleme: DIANA (Divisive Analysis) 25Arş.Grv İlyas AKKUŞ

26   Yoğunluk tabanlı yöntemler, nesnelerin doğal dağılımını bir yoğunluk fonksiyonu aracılığı ile tespit ederek bir eşik yoğunluğunu aşan bölgeleri küme olarak adlandırırlar. Düzgün şekilli olmayan kümeleri bulma başarısı, gürültü ve istisnalardan etkilenmeme ve tek tarama ile sonuca ulaşma avantajları ile en başarılı kümeleme yöntemleri arasındadır Yoğunluk Tabanlı Yöntemler 26Arş.Grv İlyas AKKUŞ

27   Veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan ızgara yapıları kullanırlar. Kullandıkları ızgara yapısından ötürü veri tabanındaki nesne sayısından bağımsızdırlar. Izgara Tabanlı Yöntemler 27Arş.Grv İlyas AKKUŞ

28   Eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar. Model tabanlı yöntemler iki temel yaklaşımı kullanırlar; istatistik yaklaşım ve yapay zekâ yaklaşımıdır. Model Tabanlı Yöntemler 28Arş.Grv İlyas AKKUŞ


"Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E." indir ppt

Benzer bir sunumlar


Google Reklamları