Bellek Tabanlı Sınıflandırma

Slides:



Advertisements
Benzer bir sunumlar
BENZETİM Prof.Dr.Berna Dengiz 10. Ders.
Advertisements

Simülasyon Teknikleri
Unsupervised Learning (Kümeleme)
EXCEL ŞAHİN AKDAĞ 1.
ÖLÇME ve DEĞERLENDİRME
BAĞIL DEĞERLENDİRME SİSTEMİ KAÜ İÇİN BELİRLENEN NOT ARALIKLARI
POWER ANALİZİ.
BENZETİM Prof.Dr.Berna Dengiz 8. Ders.
MERKEZİ YIĞILMA (EĞİLİM) ÖLÇÜLERİ
Veri Madenciliğinde Kümeleme Slink Algoritması
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
İstatistik Tahmin ve Güven aralıkları
Çalışmada kullanılacak örneklemin seçimi
İhalelerde Uygun Teklif Bedelinin Grafikler ve Regresyon Analizi Yardımı ile Belirlenmesi.
ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ
Kümeleme Modeli (Clustering)
Sınıflandırma Modeli K-Nearest Neighbor Sınıflandırıcı /12.
FİLOGENİ Filogeni , en kısa deyimle ile evrimsel şecere ilişkisi olarak tanımlanabilir. Tür ve tür üstü kategoriler jeolojik dönemlerde türleşme süreçleri.
8. SAYISAL TÜREV ve İNTEGRAL
Support Vector Machines
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
İstatistik Kavramı İstatistik; kesin olmayışlığın ışığı altında karar verme tekniğidir. Ana kitle hakkında örneklem yardımıyla tahmin çalışmalarıdır. Kitle.
Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ
İçerik Ön Tanımlar En Kısa Yol Problemi Yol, Cevrim(çember)
Bir Özellik İçin Kullanılan Seleksiyon Yöntemleri
BELLEK TABANLI SINIFLANDIRMA
END 503 Doğrusal Programlama
İstatistiksel Sınıflandırma
TBF - Genel Matematik I DERS – 8 : Grafik Çizimi
Prof. Dr. Hüseyin BAŞLIGİL
BENZETİM Prof.Dr.Berna Dengiz 9. Ders.
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
Yıldız Teknik Üniversitesi Makina Müh. Bölümü
İSTATİSTİKSEL SÜREÇ KONTROLÜ 3 (STATISTICAL PROCESS CONTROL)
Merkezi Eğilim (Yer) Ölçüleri
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
AYDIN İNCİRLİOVA SPOR LİSESİ BESYO GİRİŞ SINAVLARI.
İSTATİKSEL KAVRAMLAR İstatistik Doç. Dr. Şakir GÖRMÜŞ SAÜ| e-FEK.
Örneklem Dağılışları.
Sıklık Tabloları ve Tek Değişkenli Grafikler
En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma
Kümeleme Algoritmaları
İletişim Fakültesi Bilişim A.B.D.
Simpleks Yöntemi İle Doğrusal Modellerin Çözümü
Sayısal Analiz Sayısal Türev
Güven Aralığı.
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
Sayısal Analiz 7. Hafta SAÜ YYurtaY.
HİPOTEZ TESTLERİNE GİRİŞ
Floyd Algoritması Floyd Algoritması Dijkstra algoritmasının daha genel halidir. Çünkü şebekedeki herhangi iki düğüm arasındaki en kısa yolu belirler. Algoritma,
İSTATİSTİKTE TAHMİN ve HİPOTEZ TESTLERİ İSTATİSTİK
İKİ ÖRNEKLEM TESTLERİ Mann_Whitney U
BİL551 – YAPAY ZEKA Kümeleme
Analitik olmayan ortalamalar Bu gruptaki ortalamalar serinin bütün değerlerini dikkate almayıp, sadece belli birkaç değerini, özellikle ortadaki değerleri.
İSTATİSTİKSEL SÜREÇ KONTROLÜ (STATISTICAL PROCESS CONTROL)
EVREN VE ÖRNEKLEM Örnek Olay: Bir Sınıf Öğretmenliği öğrencisi olan Serkan, internetin Sakarya Üniversitesindeki öğrencilerin akademik başarısındaki yerini.
İstatİstİksel verİlerİ Düzenleme- frekans
İSTATİSTİK II BAĞIMSIZLIK TESTLERİ VE İYİ UYUM TESTLERİ “ c2 Kİ- KARE TESTLERİ “
Kümeleme Modeli (Clustering)
Karar Ağaçları (Decision trees)
ANLAM ÇIKARTICI (KESTİRİMSEL) İSTATİSTİK
OKUL ÖNCESİ EĞİTİM ROGRAMLARI-I
İNCELENECEK İŞLEMLERİN SEÇİLMESİ VE ÖRNEKLEME
İleri Algoritma Analizi
İstatistik Ders Notları.
5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi)
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN
Sunum transkripti:

Bellek Tabanlı Sınıflandırma En Yakın Komşu Algoritması

K-nearest neighbors (KNN) Eğitim adımı yok Test verileri en yakınlarındaki K adet komşularının sınıf etiketlerine bakılarak sınıflandırılır

Avantaj-Dezavantaj AVANTAJ: DEZAVANTAJ: Uygulanması basit Gürültülü verilerine karsı etkili Eğitim dokümanlarının sayısı fazla ise daha etkindir DEZAVANTAJ: Algoritma başlangıçta K parametresine ihtiyaç duyar En iyi sonucun alınabilmesi için hangi uzaklık ölçümünün uygulanacağı ve hangi özelliklerin alınacağı bilgisi açık değildir Hesaplama maliyeti yüksektir

KNN Bu yöntem örnek kümedeki gözlemlerin herbirinin, sonradan belirlenen bir gözlem değerine olan uzaklıklarının hesaplanması ve en küçük uzaklığa sahip k sayıda gözlemin seçilmesi esasına dayanmaktadır. Uzaklıkların hesaplanmasında, i ve j noktaları için Öklid uzaklık formülü kullanılabilir.

KNN K parametresi belirlenir. Bu parametre verilen bir noktaya en yakın komşuların sayısıdır. Sözkonusu nokta ile diğer tüm noktalar arasındaki uzaklıklar tek tek hesaplanır. Yukarıda hesaplanan uzaklıklara göre satırlar sıralanır ve bunlar arasından en küçük olan k tanesi seçilir. Seçilen satırların hangi kategoriye ait oldukları belirlenir ve en çok tekrar eden kategori değeri seçilir. Seçilen kategori, tahmin edilmesi beklenen gözlem değerinin kategorisi olarak kabul edilir.

K=3 komşuluğu

Örnek Aşağıda verilen veri kümesine göre, yeni bir gözlem olan X1 = 8, X2 = 4 değerlerinin hangi sınıfa ait olduğunu KNN ile bulalım

Örnek K nın belirlenmesi Uzaklıkların hesaplanması: k = 4 kabul ediyoruz. Uzaklıkların hesaplanması: (8,4) noktası ile gözlem değerlerinin her biri arasındaki Öklit uzaklıkları hesaplanır.

Örnek Uzaklıkların hesaplanması :

Örnek

Örnek En küçük uzaklıkların belirlenmesi: Satırlar sıralanarak k=4 en yakın komşular belirlenir.

Örnek (8,4) noktasına ek yakın 4 komşu:

Örnek Seçilen satırlara ilişkin sınıfların belirlenmesi En yakın komşuların sınıf etiketleri göz önüne alınır (8,4) test verisinin sınıfı “KÖTÜ” olarak belirlenir.

Örnek Ağırlıklı Oylama: Burada yer alan d(i,j) ifadesi i ve j gözlemleri arasındaki Öklid uzaklığıdır. Herbir sınıf değeri için bu uzaklıkların toplamı hesaplanarak ağırlıklı oylama değeri elde edilir. En büyük ağırlıklı oylama değerine sahip olan sınıf etiketi yeni test verisinin sınıfı kabul edilir.

Uygulama1 K’nın belirlenmesi: K-en yakın komşu algoritması için k = 3 Böylece (0.10, 0.50) gözlemine en yakın 3 komşu aranır.

Uygulama1 Aşağıda verilen gözlem tablosuna göre, yeni bir gözlem olan (0.10, 0.50) gözleminin hangi sınıfa dahil olduğunu k-en yakın komşu algoritması ile bulalım

Uygulama1 Uzaklıkların hesaplanması: (0.10, 0.50) gözlemi ile diğer gözlem değerlerinin herbirisi arasındaki uzaklıkları Öklid uzaklık formülünü kullanarak hesaplanır

Uygulama1 En küçük uzaklıkların belirlenmesi Satırlar sıralanarak, en küçük k = 3 tanesi belirlenir.Bu üç nokta yeni gözlem noktasına en yakın noktalardır

Uygulama1 En yakın 3 komşu

Uygulama1 Seçilen satırlara ilişkin sınıfların belirlenmesi:

Uygulama1 Ağırlıklı oylama yönteminin uygulanması: Bu aşamada, seçme işlemi “ağırlıklı oylama” yöntemiyle yapılıyor. O halde son tabloya d(i,j)’ ağırlıklı ortalamaları eklemek gerekiyor.

Uygulama1

Uygulama1 Cinsiyet sınıfının “ERKEK” değerleri için ağırlıklı oylama değeri hesaplanır. Sonuç: “Kadın” değeri için elde edilen ağırlıklı oylama değeri “erkek” değeri için elde edilenden daha büyük olduğundan yeni gözlem değerinin “kadın” sınıfına ait olduğu belirlenir.

Uygulama 2 Aşağıda verilen gözlem tablosuna göre (7,8,5) noktasının hangi sınıf değerine sahip olduğunu bulalım.

Uygulama 2 Gözlem değerlerini (0,1) aralığına göre dönüştürmek için min-max normalleştirme yöntemini uygulayalım

Uygulama 2

Uygulama 2 Dönüştürülmüş veriler: Dönüştürülmüş test değeri: (7,8,5)  (0.26 , 0.43, 0.07) elde edilir.

Uygulama 2 K nın belirlenmesi: Uzaklıkların hesaplanması: K-en yakın komşu algoritması için k = 3 kabul edilir. Uzaklıkların hesaplanması: (0.26, 0.43, 0.07) noktası ile dönüştürülmüş değerlerin herbirisi arasındaki Öklid uzaklıkları hesaplanır.

Uygulama 2 Gözlem değerlerinin (0.26, 0.43, 0.07) noktasına olan uzaklıkları: En küçük uzaklıkların belirlenmesi: Uzaklık gözönüne alınarak k = 3 komşu gözlemin belirlenmesi

Uygulama 2 Y sınıfına ilişkin ilk 3 değerin belirlenmesi: Seçilenler arasında ‘EVET’ lerin sayısı ‘HAYIR’ dan daha fazla olduğu için yeni gözlemin sınıfı ‘EVET’dir.

Kaynaklar Veri Madenciliği Yöntemleri, Dr. Yalçın Özkan, Papatya Yayıncılık, 2008.