Kazım YILDIZ1, Yılmaz ÇAMURCU2, Buket DOĞAN3

Slides:

Advertisements

Benzer bir sunumlar

Unsupervised Learning (Kümeleme)

Advertisements

ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI

Prof.Dr.Şaban EREN Yasar Üniversitesi Fen-Edebiyat Fakültesi

KAYNAK İŞLERİ VE SAĞLIK TEHLİKELERİ

Veri Madenciliğinde Kümeleme Slink Algoritması

Kadın istihdamına ilişkin sorunlar ve çözüm önerileri

MIT563 Yapay Zeka ve Makine Öğrenmesi

Sayısal İşaret İşleme Laboratuarı

M.Fatih AMASYALI Yapay Zeka Ders Notları

Kofaktör Matrisler Determinantlar Minör.

MIT563 Yapay Zeka ve Makine Öğrenmesi

Endüstriyel Otomasyon Mekatronik Mühendisliği Bölümü

Yazılım Proje Yöneticisinde Arananlar…

Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.

ISL417-Yönetim Bilgi Sistemi İletişim ve Ağ Sistemleri 15. Hafta.

Yama-Tabanlı Yüz Tanıma için Yeni Yöntemler Berkay Topçu, Hakan Erdoğan Sabancı Üniversitesi.

MATLAB’de Diziler; Vektörler ve MAtrisler

MATLAB’İN SAYI YUVARLAMA FONKSİYONLARI

CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK

Bozok Üniversitesi Kütüphane Binası

SEDA ARSLAN TUNCER Android işletim sisteminde RGB histogram değerlerinin gerçek zamanlı olarak elde edilmesi SEDA ARSLAN TUNCER

MIT503 Veri Yapıları ve algoritmalar Algoritmalara giriş

Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ

İŞKOLU KODU ALT SINIF GİRİŞ İŞLEMİ ve İŞYERİ NACE TALEP SİSTEMİ

Tek Düzen Muhasebe Sistemi (TDMS) Ön Muhasebe Modülü

BİT’İN Temel Kavramları

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

KARAR DESTEK SİSTEMLERİ - KDS DECISION SUPPORT SYSTEMS-DSS

Hazırlayan : Şevki YILMAZ T.Ed./Dil ve Anl.Öğrt.

Sağlık Hizmetlerinde Paket Programlar Öğr.Gör. Ahmet BİLİCİ

SQL (STRUCTURED QUERY LANGUAGE)

KİŞİSEL GELİŞİM Burak Bayram Kadir Türk Tolga Ülkü

Tek Düzen Muhasebe Sistemi (TDMS) Ön Muhasebe Modülü Eğitim Sunumu

Değişkenlik Ölçüleri.

Yrd. Doç. Dr. Ayhan Demiriz

SINIFLANDIRMA VE REGRASYON AĞAÇLARI

Yıldız Teknik Üniversitesi Makina Müh. Bölümü

BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ

DOĞRUSAL DENKLEM SİSTEMLERİ ve MATRİSLER

BM-103 Programlamaya Giriş Güz 2014 (4. Sunu)

Rakam Tanıma İçin KNN ve LDA Algoritmalarının Karşılaştırılması

M.Fatih AMASYALI Uzman Sistemler Ders Notları

Lineer Cebir Prof.Dr.Şaban EREN

MATLAB’ de Programlama

Veri Madenciliği Giriş.

Algoritmalar ve Programlama I Ders 2: Akış Diyagramları

Demetleme (Clustering)

Bulanık Mantık Bulanık Mantığın Temel Kavramları

Bilgisayar Grafikleri Ders 3: 2B Dönüşümler

En Yakın k-komşu Algoritması Bellek Tabanlı Sınıflandırma

Kümeleme Algoritmaları

Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar

Yapay Sinir Ağları (YSA)

Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )

BİL3112 Makine Öğrenimi (Machine Learning)

YAPAY SİNİR AĞLARI.

BİL551 – YAPAY ZEKA Kümeleme

Yrd.Doç.Dr.Esra Tunç Görmüş

Bölüm 4 : VERİ MADENCİLİĞİ

BİLGİSAYAR PROGRAMLAMA DERSİ 6. DERS NOTU Konu: Matlab’ de Diziler ve Matrisler.

Kümeleme Modeli (Clustering)

YAPAY SİNİR AĞLARININ YAPISI VE TEMEL ELEMANLARI

Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme

5.1 POLİNOMİNAL REGRESSİYON

DAVRANIŞ BİLİMLERİNDE İLERİ İSTATİSTİK DOKTORA

Volkan Erol1,2 Yard.Doç.Dr.Aslı Uyar Özkaya1

Yapay Zeka Nadir Can KAVKAS

Hastane Bilgi Sistemlerinde Veri Madenciliği

Yapay Öğrenme Teorisi Bölüm-2

Sunum transkripti:

Kazım YILDIZ1, Yılmaz ÇAMURCU2, Buket DOĞAN3 VERİ MADENCİLİĞİNDE TEMEL BİLEŞENLER ANALİZİ VE NEGATİFSİZ MATRİS ÇARPANLARINA AYIRMA TEKNİKLERİNİN KARŞILAŞTIRMALI ANALİZİ A COMPERATIVE ANALYSIS OF PRINCIPAL COMPONENT ANALYSIS ANS NON-NEGATIVE MATRIX FACTORIZATION TECHNIQUES IN DATA MINING Kazım YILDIZ1, Yılmaz ÇAMURCU2, Buket DOĞAN3 1,2,3 Marmara Universitesi, Teknik Eğitim Fakültesi, Elektronik-Bilgisayar Eğt. Bölümü Kadikoy /Istanbul, TURKIYE, kazim.yildiz@marmara.edu.tr, camurcu@marmara.edu.tr, buketb@marmara.edu.tr,

VERİ MADENCİLİĞİ Veri madenciliği, diğer bir adla veritabanında bilgi keşfi; çok büyük veri hacimleri arasında tutulan, Anlamı daha önce keşfedilmemiş potansiyel olarak faydalı ve anlaşılır bilgilerin çıkarıldığı Arka planda veritabanı yönetim sistemleri, istatistik, yapay zekâ, makine öğrenme, paralel ve dağıtık işlemlerin bulunduğu Veri analiz tekniklerine veri madenciliği adı verilir 06.04.2017

KÜMELEME ANALİZİ NEDİR? Soyut ve somut benzer objelerin bir grupta toplanması kümeleme olarak adlandırılır. 06.04.2017

K-MEANS K-Means algoritması, veritabanındaki n tane nesnenin k adet kümeye bölümlenmesini sağlar. E: veritabanındaki bütün nesnelerin “square error” iki vektör arasındaki uzaklıklarının toplamıdır. p: uzayda bir nesneye verilen noktayı gösterir. mi: Ci kümesinin orta noktasını gösterir.(küme merkezi) Girdi (Input): k: küme sayısı D: n tane nesne içeren veritabanı Çıktı (output): k kümesi 06.04.2017

FUZZY C-MEANS Fuzzy c-means (FCM) algoritması, bulanık bölünmeli kümeleme tekniklerinden en iyi bilinen ve yaygın kullanılan yöntemdir. Algoritma, en küçük kareler yönteminin genellemesi olan aşağıdaki amaç fonksiyonunu öteleyerek. minimize etmek için çalışır U üyelik matrisi rastgele atanarak algoritma başlatılır. İkinci adımda ise merkez vektörleri hesaplanır. Merkezler aşağıdaki eşitlik ile hesaplanır 06.04.2017

Boyut Azaltma İşlemi Verinin sahip olduğu boyut sayısı arttıkça, Genellikle çok az sayıda boyut doğrudan kümelerle ilgili olur. İlgisiz boyutlardaki veri, çok fazla gürültüye sebep olabilir. Keşfedilecek kümelerin gizlenmesine sebep olabilir. Bu yüzden ; Verinin boyut sayısı arttıkça kümeleme işleminin zorlaşması Kümeleme süresinin uzaması Yüksek saflıkta kümelerin elde edilememesi yüzünden boyut azaltma işlemine başvurulur. 06.04.2017

Temel Bileşen Analizi(PCA) Temel bileşenler yaklaşımı bağımlılık yapısını yok etme ve boyut indirgeme amaçları için kullanılmaktadır Tanıma, Sınıflandırma boyut indirgenmesi ve yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemidir. Verinin içindeki en güçlü örüntüyü bulmaya çalışır. Bu yüzden örüntü bulma tekniği olarak kullanılabilir. Çoğunlukla verinin sahip olduğu çeşitlilik, tüm boyut takımından seçilen küçük bir boyut setiyle yakalanabilir. Verideki gürültüler, örüntülerden daha güçsüz olduklarından, boyut küçültme sonucunda bu gürültüler temizlenebilir. 06.04.2017

Temel Bileşen Analizi(PCA) Tpxp dönüşüm matrisi olmak üzere, biçiminde ifade edilir. Bu bilgiler kullanılarak öz değerler bağıntısından yararlanarak önemli bileşenler elde edilir. Bu temel bileşen sayısının belirlenmesi için birçok yöntem geliştirilmiştir. Kullanılan en basit yönteme göre, birden büyük öz değerlerin sayısı m’dir ve koşulunun sağlandığı en küçük m değeri önemli görülen temel bileşen sayısı belirlemektedir. 06.04.2017

Negatifsiz Matris Çarpanlara Ayırma (NNMF) Bir çok veri seti, örneğin görüntü ve metin, orijinal veri seti negatif olmayan değerler içermektedir. Bu yüzden kullanılan yöntemlerde negatif değerler oluşmaktadır ve bu verinin yorumlanmasında zorluklar oluşturmaktadır. Non-negative Matrix Factorization(NNMF) verinin negatif olmayan bir şekilde lineer olarak temsil edilmesini sağlayan bir tekniktir. V≈WH pozitif elemanlardan oluşan V matrisini, geri çatma hatasına yaklaşık bir çözüm oluşturacak şekilde, yine pozitif elemanlara sahip iki matrisin çapımı halinde ayrıştırır. Buradaki ij indisi, bağlı olduğu matrisin o indise sahip elemanını göstermektedir. 06.04.2017

UYGULAMA 2.83 GHZ 32 bit işletim sistemi ve 3 GB RAM sahip bilgisayarda gerçekleştirilmiştir. Yazılım ortamı olarak MATLAB programı kullanılmıştır. 06.04.2017

UYGULAMA YAPILAN VERİ SETLERİ İRİS (150 ÖRNEK, 4 ÖZNİTELİK) VEHİCLE ( 846 ÖRNEK, 18 ÖZNİTELİK) İris veri setinde 3 farklı sınıf, vehicle veri setinde ise 4 farklı sınıf bulunmaktadır. 06.04.2017

BOYUT AZALTMA İŞLEMİ YAPILMADAN İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 0.96 0.7515 0.0167 0.72 1 FUZZY CMEANS 0.8360 0.1795 0.8 VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 0.4266 0.1005 0.0289 0.4717 0.2212 0.3518 FUZZY CMEANS 0.8028 0.7159 0.3098 0.7736 0.8018 1 06.04.2017

TEMEL BİLEŞEN ANALİZİ İLE BOYUT AZALTMA İŞLEMİ İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 1 0.7419 0.0127 0.94 0.72 FUZZY CMEANS 0.8315 0.1031 0.78 VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 0.3618 0.1001 0.0184 0.2304 0.4450 0.4670 FUZZY CMEANS 1 0.8947 0.2094 0.9009 0.9447 06.04.2017

Negatifsiz Matris Çarpanlara Ayırma İle Boyut Azaltma İşlemi İRİS VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 1 0.8642 0.0165 0.96 0.92 FUZZY CMEANS 0.9488 0.1213 VEHİCLE VERİ SETİ PURİTY ORTAK BİLGİ ZAMAN KMEANS 0.5025 0.1201 0.0256 0.3302 0.2280 0.6239 0.1795 FUZZY CMEANS 0.9266 0.7930 0.22 0.5142 1 0.9899 06.04.2017

SONUÇLAR Veri setlerinde boyut sayısı arttıkça geleneksel algoritmaların etkisi azaltmakta ve yapılan uygulamalar için çok fazla süre gerekmektedir. Bu yüzden veri madenciliğinde yüksek boyutlu veri setleri indirgendikten sonra geleneksel kümeleme algoritmaları elde edilen bu veri setleri üzerinde daha etkili oldukları gözlenmiştir. Geleneksel kümeleme metotlarının yüksek boyutlu veri setlerinde uygulaması yapılmış ardından boyut azaltma işlemi yapılarak elde edilen sonuçlar ile karşılaştırılmıştır. Temel Bileşenler Analizi) yüksek boyutlu veri setlerinin indirgenmesinde ilgili ve gerekli noktaları boyut azaltma işlemi sırasında koruduğundan kümeleme sonuçlarının yeni veri seti üzerinde daha etkili olduğu gözlenmektedir. 06.04.2017

Böylece algoritmalar ile yapılan deneylerde büyük veri setleri üzerinde kümeleme işlemi için çok fazla süre kaybedip yüksek boyutlu veri setlerindeki kümelerin doğru bir şekilde tespit edilememesi gibi sorunlar ortadan kaldırılmıştır. Fuzzy Cmeans algoritması Kmeans’e nazaran kümelemede daha etkili bir algoritmadır. 06.04.2017

İlginize teşekkürler Sorular 06.04.2017