En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma

Slides:



Advertisements
Benzer bir sunumlar
Çıkarımsal İstatistik
Advertisements

Unsupervised Learning (Kümeleme)
Korelasyonel AraştIrma Nedir?
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
Veri Madenciliğinde Kümeleme Slink Algoritması
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
İstatistik Tahmin ve Güven aralıkları
Farklı örnek büyüklükleri ( n ) ve farklı populasyonlar için ’nın örnekleme dağılışı.
Çalışmada kullanılacak örneklemin seçimi
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bellek Tabanlı Sınıflandırma
MIT503 Veri Yapıları ve algoritmalar En önemli graf problemleri
BELLEK TABANLI SINIFLANDIRMA
İstatistiksel Sınıflandırma
TBF Genel Matematik I DERS – 1 : Sayı Kümeleri ve Koordinatlar
ÖRNEKLEME YÖNTEMLERİ.
Geriden Kestirme Hesabı
Prof. Dr. Hüseyin BAŞLIGİL
Bölüm 4: Sayısal İntegral
ÖRNEKLEME YÖNTEMLERİ.
Bölüm6:Diferansiyel Denklemler: Başlangıç Değer Problemleri
İSTATİSTİKSEL SÜREÇ KONTROLÜ 3 (STATISTICAL PROCESS CONTROL)
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
DOĞRUSAL DENKLEM SİSTEMLERİNİN GRAFİK İLE ÇÖZÜMÜ
Kİ-KARE DAĞILIMI VE TESTİ
UZAYDA EĞRİSEL HAREKET
HİPOTEZ TESTLERİNE GİRİŞ
Örneklem Dağılışları.
ÖĞRENME AMAÇLARI İki değişken arasındaki “ilişki” ile neyin kastedildiğini öğrenmek Farklı yapıdaki ilişkileri incelemek Ki-kare analizinin uygulandığı.
Kümeleme Algoritmaları
SAYI SİSTEMLERİ-HESAPLAMALAR
Örneklem Dağılışları ve Standart Hata
Yapay Sinir Ağları (YSA)
Sayısal Analiz Sayısal Türev
Güven Aralığı.
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Sayısal Analiz 7. Hafta SAÜ YYurtaY.
HİPOTEZ TESTLERİNE GİRİŞ
Regresyon Analizi İki değişken arasında önemli bir ilişki bulunduğunda, değişkenlerden birisi belirli bir birim değiştiğinde, diğerinin nasıl bir değişim.
TAGUCHİ DENEY TASARIMLARI ıı.
İstatistik Tahmin ve Güven aralıkları
İSTATİSTİKTE TAHMİN ve HİPOTEZ TESTLERİ İSTATİSTİK
İÇİNDEKİLER: TÜREV KAVRAMI TÜREV ALMA KURALLARI FONKSİYON TÜREVLERİ TÜREV UYGULAMALARI.
İHTİYAÇ BELİRLEME VE ANALİZİ.  Bu bölümde;  Ö ğ retim Aranılan Yanıt mıdır?  İ htiyaç De ğ erlendirme Nedir?  İ htiyacın Belirlenmesi ve Analizi 
BİL551 – YAPAY ZEKA Kümeleme
EVREN VE ÖRNEKLEM Örnek Olay: Bir Sınıf Öğretmenliği öğrencisi olan Serkan, internetin Sakarya Üniversitesindeki öğrencilerin akademik başarısındaki yerini.
KARMAŞIK SAYILAR DİLEK YAVUZ.
Sakarya Üniversitesi Mühendislik Fakültesi
OLASILIK ve İSTATİSTİK
DÜZLEM KAFES SİSTEMLER
Bilimsel Araştırma Yöntemleri Örnekleme Yöntemleri
Yapay Bağışıklık Tabanlı Bulanık Mantık ile TENS Modellenmesi
DERS3 Prof.Dr. Serpil CULA
TEMEL BETİMLEYİCİ İSTATİSTİKLER
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
SAYISAL GÖRÜNTÜ TEMELLERİ
İç Geçerlik Varılan bir nedensel ilişkide sonucun deney değişkenleri ile açıklanma düzeyi ile ilgilidir. Deneyde kontrol iç geçerliği arttırmak için yapılır.
İNCELENECEK İŞLEMLERİN SEÇİLMESİ VE ÖRNEKLEME
Algoritma Nedir? Algoritmayı, herhangi bir problemin çözümü için izlenecek yolun adımlar halinde yazılması olarak tanımlayabiliriz. Algoritma, bir problemin.
KARABÜK ÜNİVERSİTESİ MOHR DAİRESİ DERS NOTLARI M.Feridun Dengizek.
OLASILIK DAĞILIMLARI Bu kısımda teorik olasılık dağılımları incelenecektir. Gerçek hayatta birçok olayın dağılımı bu kısımda inceleyeceğimiz çeşitli olasılık.
Yrd.Doç.Dr.İstem Köymen KESER
Sunum transkripti:

En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma . En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma

Bellek Tabanlı Yöntemler Veri Madenciliği En Yakın Komşu Algoritması Bellek Tabanlı Yöntemler x2 En yakın komşu algoritması , Örnek tabanlı karar verme , Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplama. x1 Veri Madenciliği [ 7.hft ]

Veri Madenciliği [ 8.hft ]

Veri Madenciliği En Yakın Komşu Algoritması Bu teknikte tüm örneklemler bir örüntü uzayında saklanır. Algoritma, bilinmeyen bir örneklemin hangi sınıfa dahil olduğunu belirlemek için örüntü uzayını araştırarak bilinmeyen örnekleme en yakın olan k örneklemi bulur. Yakınlık Öklid uzaklığı ile tanımlanır. Daha sonra, bilinmeyen örneklem, k en yakın komşu içinden en çok benzediği sınıfa atanır. k-en yakın komşu algoritması, aynı zamanda, bilinmeyen örneklem için bir gerçek değerin tahmininde de kullanılabilir. Veri Madenciliği [ 7.hft ]

k değeri iyi belirlendiği takdirde olumlu sonuçlar verir. Veri Madenciliği En Yakın Komşu Algoritması Eğitim örnekleri yerleştirildikleri özellik uzayında birer nokta ile temsil edilirler. Sınıfı bulunacak olan örnek bu uzayda kendine en yakın ve sayıca belirli bir örneklemin sınıf değerini alır. Söz konusu yöntem örnek kümedeki gözlemlerin her birinin , sonradan belirlenen bir gözlem değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip k sayıda gözlemin seçilmesi esasına dayanmaktadır. Uzaklıkların hesaplanmasında, aşağıdaki öklit uzaklık formülü ile hesaplanır. k değeri iyi belirlendiği takdirde olumlu sonuçlar verir. Veri Madenciliği [ 7.hft ]

Veri Madenciliği En Yakın Komşu Algoritması (Nearest Neighbor) Her nokta kendisi ile en yakın kümeye yerleştirilmelidir. Eşik değeri (threshold - t), yeni bir komşuyu veya yeni bir kümeyi belirler. Tüm noktalar herhangi bir kümeye yerleştirilinceye kadar işlemlere devam edilir. 3 3 4 4 5 5 1. Küme 2. Küme 6 6 3. Küme 1 2 1 2 Veri Madenciliği [ 7.hft ]

Karşılıklı Komşuluk Değeri (M.N.V.) Tüm noktalar için karşılıklı en yakın komşuluk değerleri (MNV) belirlenir. Eşik değeri yerine en yakın komşu sayısı (k) belirlenir. 3 2’nin en yakın 3. komşusu 5. 5’in en yakın 3. komşusu 2. MNV(5,2) = MNV(2,5) = 3 + 3 = 6 MNV = 2,3,…2k için kümeler oluşturulur. 4 5 2 2 6 3 1 2k Veri Madenciliği [ 7.hft ]

A noktasına en yakın k=3 komşunun belirlenmesi. Veri Madenciliği En Yakın Komşu Algoritması A X2 X1 A noktasına en yakın k=3 komşunun belirlenmesi. 5 adımda k–en yakın komşu algoritması : K parametresi belirlenir. Komşuluklarının sayısı belirlenir. Koşuluklara ait uzaklıklar hesaplanır. 3. Hesaplanan uzaklılara göre satırlar sıralanarak bunlar içersinden en küçük k tanesi belirlenir. 4 .Belirlenen satırların hangi sınıfa ait olduğu belirlenerek , tekrarlanan sınıf değeri seçilir. 5. Seçilen sınıf , tahmin edilmesi beklenen gözlem değerinin sınıfı olarak kabul edilir. Veri Madenciliği [ 7.hft ]

(Problem için (7,3) noktasına en yakın komşu değerleri arayalım. ) Veri Madenciliği En Yakın Komşu Algoritması Örnek Uygulama : Aşağıdaki tablo X, Y gözlem değerlerinden ve Z sınıf değerlerinden oluşmaktadır. Bu gözlem değerleriyle yola çıkarak yeni verilen gözlem değerinin hangi sınıfa ait olduğunu k-en yakın komşu yöntemiyle bulalım. Yeni gözlem değeri X=7, Y=3; Gözlem Değerleri İlk Adım : k= 4 için işlem yapalım. (Problem için (7,3) noktasına en yakın komşu değerleri arayalım. ) Veri Madenciliği [ 7.hft ]

Hesaplanan değerler farklı bir tablo üzerinde gösterilirse… Veri Madenciliği En Yakın Komşu Algoritması İkinci Adım : Öklit bağıntısına göre her bir gözlem değeri için uzaklıkları hesaplayalım. Öklid uzaklık formülü olduğu bilindiğine göre (7,3) noktasının tüm gözlem değerleri ile arasındaki uzaklıkları hesaplayalım. Hesaplanan değerler farklı bir tablo üzerinde gösterilirse… Veri Madenciliği [ 7.hft ]

Gözlenen değerlerlerin (7,3) Noktasına olan uzaklığı… Üçüncü Adım : Veri Madenciliği En Yakın Komşu Algoritması Gözlenen değerlerlerin (7,3) Noktasına olan uzaklığı… Üçüncü Adım : En küçük uzaklıkların belirlenmesi için satırlar sıralanarak en küçük k=4 tanesi belirleniyor. Belirlenen dört nokta (7,3) noktasına en yakın değerlerdir. Uzaklık değerlerine göre k=4 komşu değerlerin belirlenmesi Veri Madenciliği [ 7.hft ]

(7,3) Noktasına komşu olan en yakın dört Veri Madenciliği En Yakın Komşu Algoritması (7,3) Noktasına komşu olan en yakın dört gözlenen değerin koordinat sistemi üzerindeki gösterimi Veri Madenciliği [ 7.hft ]

Sınıfı Negatif olarak belirlenir. Veri Madenciliği En Yakın Komşu Algoritması Dördüncü Adım : En küçük satırlara ilişkin sınıfların belirlenmesi işlemi gözlem değerlerinin içinde hangi değerin baskın olduğuna göre karar verilir. Beşinci Aşama : Gözlem değerlerin içinde bir pozitif ve üç negatif değer olduğundan (7,3) noktasının sınıfı negatif olarak belirlenir. (7,3) noktasının Sınıfı Negatif olarak belirlenir. Veri Madenciliği [ 7.hft ]

Veri Madenciliği En Yakın Komşu Algoritması Ağırlıklı Oylama : Ağırlıklı oylama yöntemi gözlem değerleri için aşağıdaki bağıntıya göre ağırlıklı uzaklıkların hesaplanması yöntemine dayanır. Sınıf değerlerinin herbiri için uzaklıkların toplamı hesaplanarak ağırlıklı oylama değeri bulunur. En büyük ağırlıklı oylama değerine sahip olan sınıf değeri yeni gözlem değerinin ait olduğu sınıf olarak belirlenir. Veri Madenciliği [ 7.hft ]

İlk adım: K’nın belirlenmesi Veri Madenciliği En Yakın Komşu Algoritması Örnek Uygulama : (0.10, 0.50) gözleminin hangi sınıfa dahil olduğunu k-en yakın komşu algoritmasından ve aşağıdaki tablodan yararlanarak bulunuz. X Y BAKİYE 0,07 0,25 ARTI 0,02 0,08 1 0,2 EKSİ 0,26 0,3 0,14 0,28 0,36 0,04 0,11 0,03 0,55 0,87 İlk adım: K’nın belirlenmesi k=3 olarak seçersek (0.10, 0.50) gözlemine en yakın 3 komşuyu arayacağız. İkinci adım: Uzaklıkların hesaplanması Öklid uzaklık formülü kullanılarak uzaklıklar hesaplandığında oluşan tabloyu belirleyelim. Veri Madenciliği [ 7.hft ]

Üçüncü adım: En küçük uzaklıkların belirlenmesi Veri Madenciliği En Yakın Komşu Algoritması Üçüncü adım: En küçük uzaklıkların belirlenmesi k=3 olarak seçilen gözlemin belirlenmesi Veri Madenciliği [ 7.hft ]

Elde edilen bu değerlerin tablo üzerine eklenmesi ile yeni tablo; Veri Madenciliği En Yakın Komşu Algoritması Ağırlıklı Oylama Yöntemin Uygulanması : Bağıntısını kullanılarak hesaplamalar yapılır. Elde edilen bu değerlerin tablo üzerine eklenmesi ile yeni tablo; Veri Madenciliği [ 7.hft ]

Ağırlıklı uzaklık değerleri tablo üzerinde gösterilirse Veri Madenciliği En Yakın Komşu Algoritması Ağırlıklı uzaklık değerleri tablo üzerinde gösterilirse Bakiyeler içinde hepsi ARTI olduğu için aranan yeni gözlem değerinin sınıfının da ARTI’ya ait olduğu belirlenir. Veri Madenciliği [ 7.hft ]

Kaynaklar : Veri Madenciliği Yöntemleri, Yalçın Özkan 06’2008 Veri Madenciliği ,Gökhan Silahtaroğlu 06’2008 İstanbul Ticaret Üniversitesi Derğisi Veri Madencilği Modeller Ve Uygulama Alanları (Serhat ÖZEKES) Veri Madenciliği [ 7.hft ]