Unsupervised Learning (Kümeleme)
Unsupervised Learning
Giriş Supervised Learning(denetimli öğrenme) Sınıflama Unsupervised Learning (denetimsiz öğrenme) Kümeleme (öbekleme-demetleme) Kümeleme: Önceden belirlenmiş sınıflar yoktur. Gizli kalmış örüntülerin keşfedilmesini ve büyük boyutlu veri yığınları içerisinden en hızlı şekilde bilgiye erişilmesini sağlar. Heterojen büyük veri yığınlarının, kolay anlaşılabilir ve yönetilebilir daha küçük homojen alt kümelere ayrılması işlemidir.
Amaç Amaç: küme için benzerlik en yüksek, kümeler arası benzerlik en düşük. Bu amaç gerçeklendiği sürece kümelemenin doğruluğundan söz edilebilir. Elde edilen kümeler, öğrenme modelinin parametrelerine bağımlıdır.
Uygulama Alanları Doküman kümeleme Gen dizilerinin kümelenmesi İçerik temelli görüntü tanıma Görüntü parçalama DNA analizi Müşterileri analiz işlemleri Web’de örüntü tanıma
Kümelemenin Temel Adımları 1- Örüntü seçimi 2- Veriler arası benzerliğinin ölçümünde kullanılacak uygun yöntemin seçilmesi 3- Kümeleme işlemi 4- Sonuçların özetlenmesi ve saklanması (gerekli ise)
Örüntü Seçimi Gerçekleştirilen işlemler: Küme sayısının belirlenmesi Örüntü kümesi büyüklüğünün belirlenmesi Kümelemede kullanılacak verilerin niteliklerinin sayıları ve tiplerinin belirlenmesi
Benzerlik Yöntemi Seçimi Örüntü çiftlerinin birbirlerine olan benzerliklerinin yada aykırılıklarının belirlenmesi için bir uzaklık fonksiyonu tanımlanır. İki nokta arasındaki uzaklığın bulunması için en sık kullanılan yöntem olan Öklid uzaklığıdır. Uzaklık Ölçütleri:
Kümeleme İşlemi Bu süreç kapsamında kümelemede uygulanacak olan algoritma belirlenmekte ve işletilmektedir. Kümeleme temelde iki farklı şekilde gerçekleştirilmektedir. Keskin kümeleme Bulanık kümeleme
Sonuçların Özetlenmesi Kümeleme sonuçlarının basit ve anlaşılır bir şekilde sunulması aşamasıdır. Kümeleme sonuçları uzman kişiler tarafından özetlenecek yada bu sonuçlar başka bir algoritma tarafından giriş verisi olarak kullanılmak üzere saklanacaktır. Her kümeyi karakterize eden kuralların bir özeti hazırlanır.
Hiyerarşik Kümeleme Kümelerin bir ana küme olarak ele alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır.
Birleştirici Hiyerarşik Yöntemler Ayrı ayrı ele alınan kümelerin aşamalı olarak birleştirilmesini sağlayan yöntemlerdir. En yakın komşu algoritması: En yakın uzaklık dikkate alarak gruplandırılır (Min d(i,j)). En yakınlar bulunur ve bu gruplar birleştirilir. Bundan sonra tekrar en yakın uzaklık bulunur. En uzak komşu algoritması: En uzak iki elemanı arasındaki uzaklık dikkate alarak sınıflandırılır.
Örnek Tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en yakın komşu algoritmasını kullanarak kümeleme işlemlerini yapmak istiyoruz.
Örnek
Örnek
Örnek
Örnek
Örnek
Örnek
Örnek 2 Tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en uzak komşu algoritmasını kullanarak kümeleme işlemlerini yapmak istiyoruz.
Örnek 2
Örnek 2
Örnek 2
Örnek 2
Örnek 2
Örnek 2
Hiyerarşik Olmayan Kümeleme En yaygın kullanılan yöntem: K-means (K-ortalama)
K-means Kümeleme algoritmaları içinde en sık kullanılan algoritmalardandır. Uygulanması kolaydır. Büyük ölçekli verileri hızlı ve etkin şekilde kümeleyebilir. “K” algoritmaya başlamadan önce ihtiyaç duyulan sabit küme sayısını ifade etmektedir. Tekrarlı bölümleyici yapısı ile k-means algoritması, her veri nesnesinin ait olduğu kümeye olan uzaklıkları toplamını küçültmektedir.
K-means Adımları Giriş: Çıkış: Algoritma: K: oluşturulacak küme sayısı C: n elemanlı veri kümesi Çıkış: K adet küme Algoritma: 1- Başlangıç küme merkezleri olarak K adet elemanı, C kümesinden rasgele seç; 2- Tekrarla: 3- Her giriş elemanını, kümelerin tüm elemanlarının ortalama değerine göre en çok benzerlik gösterdiği kümeye dahil et Her kümenin yeni ortalama değerini (merkez noktasını) hesapla; 4- Kümeler değişmeyene kadar [1].
K-means Psuedo Code
Karesel Hata K-means algoritması, karesel hatayı en küçük yapacak olan K adet kümeyi tespit etmeye çalışmaktadır. Karesel Hata: C Kümesinin merkezi: Her kümedeki her eleman için elemanın küme merkezine uzaklığı karesel olarak hesaplanmakta ve bu uzaklıklar toplanmaktadır.
K sabitinin Önemi K-means tipi algoritmalarda en önemli parametre küme sayısını temsil eden parametredir. K kullanıcı tanımlı bir parametredir ve belirlenmesi zor bir parametredir. Uygulamalarda farklı K değerleri ile algoritma çalıştırılmakta ve sonuçlar kümeleme doğruluk analizi yöntemleri ile sınanmaktadır. K-means algoritması, K sayısına ve K adet seçilen başlangıç küme merkezine bağlı olarak çok farklı küme sonuçları oluşturabildiği için kararlı olmayan yapıda çalışan bir algoritmadır.
K sabiti seçimi
Örnek Kümelenecek veriler
İterasyon 0
İterasyon 0
İterasyon 0
İterasyon 1
İterasyon 1
İterasyon 1
İterasyon 2
İterasyon 2
İterasyon 2
Örnek Kümeleme Sonucu
K-means Çalışma Adımları
Referanslar Yalçın Özkan, Veri Madenciliği Yöntemleri http://cse.iku.edu.tr/ICourses/CSE015_47/K-Means_Clustering.pdf