Unsupervised Learning (Kümeleme)

Slides:



Advertisements
Benzer bir sunumlar
Karmaşıklık Giriş.
Advertisements

Karmaşıklık Giriş.
Ayrık Yapılar Algoritma Analizi.
BPR151 ALGORİTMA VE PROGRAMLAMA - I
KONU :GÖRÜNTÜNÜN GEOMETRİK MODELLERİNİN KURULMASI
Veri Madenciliğinde Kümeleme Slink Algoritması
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Problemi Çözme Adımları
Kümeleme Modeli (Clustering)
Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
Bellek Tabanlı Sınıflandırma
Karar Ağaçları.
İstatistikte Temel Kavramlar
ÖRNEKLEME YÖNTEMLERİ.
OPENCV İLE STEREO GÖRÜNTÜLERDEN DERİNLİK KESTİRİMİ
SONLU ELEMANLAR YÖNTEMİ
Abdulkerim Karabiber Ozan Gül
ÖLÇÜM YÖNTEMLERİNİN SEÇİMİ VE DEĞERLENDİRİLMESİ
Bölüm6:Diferansiyel Denklemler: Başlangıç Değer Problemleri
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
Diziler Adres Kavramı Nesnelerin Adresleri sizeof Operatörü
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Akran destekli öğrenme
C PROGRAMLAMA DİZİLER (ARRAYS).
YAPAY SİNİR AĞLARI VE BAYES SINIFLAYICI
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
Adnan KAYNAK Okulunun Adı:Mimar Sinan Anadolu Teknik ve E. M
Ölçme Sonuçlarının Değerlendirilmesi
İlk Değer Alma Sırası İlk Değer Alma Sırası Nesnelere ait global alanlara başlangıç değerleri hemen verilir; üstelik, yapılandırıcılardan (constructor)
Veri Madenciliği Giriş.
Demetleme (Clustering)
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
Örnekleme.
Adı, Soyadı:Süleyman İNAN Okulunun Adı:Mimar Sinan Eml Okulunun Bulunduğu Mahalle:Fatih Mah. Okulun Bulunduğu İl:Aydın.
Veri Madenciliği Anormallik Tespiti
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Yapay Sinir Ağları (YSA)
Bulanık Mantık Kavramlar:
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
HİPOTEZ TESTLERİNE GİRİŞ
Yapay Zeka Desteği ile Parfüm Öneri Sistemi
YAPAY SİNİR AĞLARI.
BİL551 – YAPAY ZEKA Kümeleme
İSTATİSTİKSEL SÜREÇ KONTROLÜ (STATISTICAL PROCESS CONTROL)
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
Bölüm 4 : VERİ MADENCİLİĞİ
Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok
Bilimsel Araştırma Yöntemleri Örnekleme Yöntemleri
Araş. Gör. Dinçer göksülük
Kümeleme Modeli (Clustering)
Geriye Yayılım Algoritması (Back-Propagation Algorithm)
Gözlem Gözlemin bilimde üçlü bir rolü vardır. a) Bilimin kalkış noktasıdır. Olgular arasındaki ilişkilerin kurulmasına yarayan ilk bilgilerin kaynağıdır.
ÜSTEL DÜZLEŞTİRME YÖNTEMİ
GÖREV ANALİZİ.
C Sharp 9. hafta - dIZILER.
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Değişim Katsayısı
METRAJ.
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
İç Geçerlik Varılan bir nedensel ilişkide sonucun deney değişkenleri ile açıklanma düzeyi ile ilgilidir. Deneyde kontrol iç geçerliği arttırmak için yapılır.
Lojistik Merkez Yer Seçimi
EK BİLGİ Bazı Eniyileme (Optimizasyon) Teknikleri Eniyileme problemi
Algoritmanın Hazırlanması
Algoritma Nedir? Algoritmayı, herhangi bir problemin çözümü için izlenecek yolun adımlar halinde yazılması olarak tanımlayabiliriz. Algoritma, bir problemin.
DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)
Sunum transkripti:

Unsupervised Learning (Kümeleme)

Unsupervised Learning

Giriş Supervised Learning(denetimli öğrenme) Sınıflama Unsupervised Learning (denetimsiz öğrenme) Kümeleme (öbekleme-demetleme) Kümeleme: Önceden belirlenmiş sınıflar yoktur. Gizli kalmış örüntülerin keşfedilmesini ve büyük boyutlu veri yığınları içerisinden en hızlı şekilde bilgiye erişilmesini sağlar. Heterojen büyük veri yığınlarının, kolay anlaşılabilir ve yönetilebilir daha küçük homojen alt kümelere ayrılması işlemidir.

Amaç Amaç: küme için benzerlik en yüksek, kümeler arası benzerlik en düşük. Bu amaç gerçeklendiği sürece kümelemenin doğruluğundan söz edilebilir. Elde edilen kümeler, öğrenme modelinin parametrelerine bağımlıdır.

Uygulama Alanları Doküman kümeleme Gen dizilerinin kümelenmesi İçerik temelli görüntü tanıma Görüntü parçalama DNA analizi Müşterileri analiz işlemleri Web’de örüntü tanıma

Kümelemenin Temel Adımları 1- Örüntü seçimi 2- Veriler arası benzerliğinin ölçümünde kullanılacak uygun yöntemin seçilmesi 3- Kümeleme işlemi 4- Sonuçların özetlenmesi ve saklanması (gerekli ise)

Örüntü Seçimi Gerçekleştirilen işlemler: Küme sayısının belirlenmesi Örüntü kümesi büyüklüğünün belirlenmesi Kümelemede kullanılacak verilerin niteliklerinin sayıları ve tiplerinin belirlenmesi

Benzerlik Yöntemi Seçimi Örüntü çiftlerinin birbirlerine olan benzerliklerinin yada aykırılıklarının belirlenmesi için bir uzaklık fonksiyonu tanımlanır. İki nokta arasındaki uzaklığın bulunması için en sık kullanılan yöntem olan Öklid uzaklığıdır. Uzaklık Ölçütleri:

Kümeleme İşlemi Bu süreç kapsamında kümelemede uygulanacak olan algoritma belirlenmekte ve işletilmektedir. Kümeleme temelde iki farklı şekilde gerçekleştirilmektedir. Keskin kümeleme Bulanık kümeleme

Sonuçların Özetlenmesi Kümeleme sonuçlarının basit ve anlaşılır bir şekilde sunulması aşamasıdır. Kümeleme sonuçları uzman kişiler tarafından özetlenecek yada bu sonuçlar başka bir algoritma tarafından giriş verisi olarak kullanılmak üzere saklanacaktır. Her kümeyi karakterize eden kuralların bir özeti hazırlanır.

Hiyerarşik Kümeleme Kümelerin bir ana küme olarak ele alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır.

Birleştirici Hiyerarşik Yöntemler Ayrı ayrı ele alınan kümelerin aşamalı olarak birleştirilmesini sağlayan yöntemlerdir. En yakın komşu algoritması: En yakın uzaklık dikkate alarak gruplandırılır (Min d(i,j)). En yakınlar bulunur ve bu gruplar birleştirilir. Bundan sonra tekrar en yakın uzaklık bulunur. En uzak komşu algoritması: En uzak iki elemanı arasındaki uzaklık dikkate alarak sınıflandırılır.

Örnek Tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en yakın komşu algoritmasını kullanarak kümeleme işlemlerini yapmak istiyoruz.

Örnek

Örnek

Örnek

Örnek

Örnek

Örnek

Örnek 2 Tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en uzak komşu algoritmasını kullanarak kümeleme işlemlerini yapmak istiyoruz.

Örnek 2

Örnek 2

Örnek 2

Örnek 2

Örnek 2

Örnek 2

Hiyerarşik Olmayan Kümeleme En yaygın kullanılan yöntem: K-means (K-ortalama)

K-means Kümeleme algoritmaları içinde en sık kullanılan algoritmalardandır. Uygulanması kolaydır. Büyük ölçekli verileri hızlı ve etkin şekilde kümeleyebilir. “K” algoritmaya başlamadan önce ihtiyaç duyulan sabit küme sayısını ifade etmektedir. Tekrarlı bölümleyici yapısı ile k-means algoritması, her veri nesnesinin ait olduğu kümeye olan uzaklıkları toplamını küçültmektedir.

K-means Adımları Giriş: Çıkış: Algoritma: K: oluşturulacak küme sayısı C: n elemanlı veri kümesi Çıkış: K adet küme Algoritma: 1- Başlangıç küme merkezleri olarak K adet elemanı, C kümesinden rasgele seç; 2- Tekrarla: 3- Her giriş elemanını, kümelerin tüm elemanlarının ortalama değerine göre en çok benzerlik gösterdiği kümeye dahil et Her kümenin yeni ortalama değerini (merkez noktasını) hesapla; 4- Kümeler değişmeyene kadar [1].

K-means Psuedo Code

Karesel Hata K-means algoritması, karesel hatayı en küçük yapacak olan K adet kümeyi tespit etmeye çalışmaktadır. Karesel Hata: C Kümesinin merkezi: Her kümedeki her eleman için elemanın küme merkezine uzaklığı karesel olarak hesaplanmakta ve bu uzaklıklar toplanmaktadır.

K sabitinin Önemi K-means tipi algoritmalarda en önemli parametre küme sayısını temsil eden parametredir. K kullanıcı tanımlı bir parametredir ve belirlenmesi zor bir parametredir. Uygulamalarda farklı K değerleri ile algoritma çalıştırılmakta ve sonuçlar kümeleme doğruluk analizi yöntemleri ile sınanmaktadır. K-means algoritması, K sayısına ve K adet seçilen başlangıç küme merkezine bağlı olarak çok farklı küme sonuçları oluşturabildiği için kararlı olmayan yapıda çalışan bir algoritmadır.

K sabiti seçimi

Örnek Kümelenecek veriler

İterasyon 0

İterasyon 0

İterasyon 0

İterasyon 1

İterasyon 1

İterasyon 1

İterasyon 2

İterasyon 2

İterasyon 2

Örnek Kümeleme Sonucu

K-means Çalışma Adımları

Referanslar Yalçın Özkan, Veri Madenciliği Yöntemleri http://cse.iku.edu.tr/ICourses/CSE015_47/K-Means_Clustering.pdf