Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

Slides:



Advertisements
Benzer bir sunumlar
MIT563 Yapay Zeka ve Makine Öğrenmesi
Advertisements

Yazılım Geliştirme ve Java
Unsupervised Learning (Kümeleme)
Zeki Veri Madenciliği Ethem Alpaydın Bilgisayar Mühendisliği Bölümü
ZAMAN SERİLERİ MADENCİLİĞİ KULLANILARAK NÜFUS ARTIŞI TAHMİN UYGULAMASI
VERİ MADENCİLİĞİNE BAKIŞ
MIT563 Yapay Zeka ve Makine Öğrenmesi
Bilgi Yönetimi Ödev Sunumu
DBA & Data Mining/Business Intelligence Specialist
MÜŞTERİ İLİŞKİLERİ YÖNETİMİ
Veri Madenciliğine Giriş
YRD.DOÇ.DR Turgay tugan bİlgİn
Web kullanım madenciliği ve kişiselleştirme
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
Bellek Tabanlı Sınıflandırma
İşletmeler için Veri Madenciliği
İşletmeler için Veri Madenciliği
Veri Madenciliği Temel Bilgiler
EDM Araç Kiralama Paketi. EDM Web Paketi EDM Web Paketini satın alan müşterilerimiz kendi web sitelerini hem de en gelişmiş dizayn özellikleri ve en zengin.

What is a Datawarehouse ? The term Data Warehouse was coined by Bill Inmon in 1990, which he defined in the following way: "A warehouse is a subject-oriented,
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
TBD Veri Madenciliği Günü
Veri Madenciliği Sınıflama ve Kümeleme Yöntemleri
BAŞARIM’09, Nisan 2009, ODTÜ, Ankara PARALEL VER İ MADENC İ L İĞİ ALGOR İ TMALARI.
SERVİS YÖNETİMİ. Servis yönetimi programı ile şirketinizin online olarak yapılan görev ve hizmetlerinizi takibinin yapılmasına ve bunları raporlamanıza.
Bilişim Sistemleri Mühendisliği nedir? Neden ihtiyaç vardır?
Anlaşmalı Kurumlar  Kaliteli sağlık hizmeti alınabilmesi,  Ödeme garantisi verilebilmesi,  Fiyat kontrolü ve avantajı yaratılabilmesi,  Tıbbi dokümanlara.
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ
Yeni Pazarlama Teknikleri
Öğr. Grv. Semih AÇIKGÖZOĞLU
VERİ MADENCİLİĞİ VE SAĞLIK SEKTÖRÜNDE KULLANIMI.
M.Fatih AMASYALI Uzman Sistemler Ders Notları
İNTERNET’TE ALIŞVERİŞİN KENTİN EKONOMİK VE FİZİKSEL DEĞİŞİM VE DÖNÜŞÜMÜNE KATKISI Yrd. Doç. Dr. K. Mert Çubukçu Dokuz Eylül Üniversitesi Mimarlık Fakültesi.
Makine Öğrenmesinde Yeni Problemler
WEB SUNUCU LOGLARININ WEB MADENCİLİĞİ YÖNTEMLERİ İLE ANALİZİ
ELEKTRONİK TİCARET TÜRLERİ
Veri Madenciliği Rümeysa İhvan
ARAŞTIRMA YÖNTEM VE TEKNİKLERİ
Veri Madenciliği Giriş.
ARAŞTIRMA YÖNTEM VE TEKNİKLERİ VERİLERİN DÜZENLENMESİ VE ANALİZİ
Demetleme (Clustering)
Bölümün Amacı Bu bölüm, örgüt yapısının temel kavramlarını tanıtıyor ve bir yapıyı örgüt şemasında göründüğü şekliyle nasıl tasarlayacağımızı anlatıyor.
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
Kümeleme Algoritmaları
Veri Madenciliği Kümeleme Analizi: Temel Tanımlar ve Algoritmalar
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
ÖĞRENME AMAÇLARI Tahmin kavramını anlamak Pazarlama araştırmacılarının regresyon analizinden nasıl faydalandığını öğrenmek Pazarlama araştırmacılarının.
Merve ORAKCI Gazi Üniversitesi Bilişim Enstitüsü ADLİ BİLİŞİM ABD.
Veri Madenciliği Bölüm 1. Giriş.
BİRLİKTELİK KURALLARI ( ASSOCIATION RULE MINING)
ÖRGÜTLERDE BİLGİ YÖNETİMİ, KARAR VERME VE BİLİŞİM SİSTEMLERİNDEKİ HİYERARŞİK YAPININ MİMARİSİ Kısım 2.
T.C. GİRESUN ÜNİVERSİTESİ MEHMET BAYRAK MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI VERİ TABANI VE YÖNETİMİ Özkan YAMAN Veri Tabanı saatçi takip örneği.
T.C. GİRESUN ÜNİVERSİTESİ MEHMET BAYRAK MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI İLİŞKİSEL VERİ MODELİ GÖSTERİMİ Mehmet Naci DEMİRÇİ VERİTABANI.
T.C. GİRESUN ÜNİVERSİTESİ MEHMET BAYRAK MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI İLİŞKİSEL VERİ MODELİ GÖSTERİMİ İsa DURDU VERİTABANI YÖNETİMİ (İlişkisel.
BİL551 – YAPAY ZEKA Kümeleme
Bölüm 4 : VERİ MADENCİLİĞİ
Bir çok girişimci, yeni bir iş kurarken çoğu zaman hazırlık yapmaz. Yani bir iş planı yapmaz, bir iş modeli oluşturmaz. Ülkemizde yeni kurulan işlerin.
Ayşegül ARSLAN.
Kümeleme Modeli (Clustering)
GENÇLERDE UYUM.
VERİ MADENCİLİĞİ.
Kümeleme ve Regresyon Problemleri için Kolektif Öğrenme
Bölüm 2 ÖRGÜTLERDE BİLGİ YÖNETİMİ, KARAR VERME VE BİLİŞİM SİSTEMLERİNDEKİ HİYERARŞİK YAPININ MİMARİSİ Kısım 2.
Madenciyiz ERTAN YILMAZ.
PAZARLAMA YÖNETİMİ’NİN TEMELLERİ Prof. Dr. İsmail Üstel.
Yapay Zeka Nadir Can KAVKAS
Hastane Bilgi Sistemlerinde Veri Madenciliği
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Sunum transkripti:

Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E Veri Madenciliği Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E

Veri Madenciliği Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. (Alpaydın 2000) Knowledge Discovery in Databases Arş.Grv İlyas AKKUŞ

Veri Madenciliğinde Örnek Uygulamalar Birliktelik “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis) Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.” Regresyon Kredi skorlama (Application Scoring) Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning) Arş.Grv İlyas AKKUŞ

Veri Madenciliğinde Örnek Uygulamalar Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.” İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?” Arş.Grv İlyas AKKUŞ

Veri Madenciliğinde gerekli konular Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. Arş.Grv İlyas AKKUŞ

Veri Madenciliği Konuları Arş.Grv İlyas AKKUŞ

Kümeleme Konu Başlıkları Kümeleme Nedir? Kümeleme Yöntemleri Arş.Grv İlyas AKKUŞ

Kümeleme Nedir? Kümeleme bir eğiticisiz öğrenme ile gerçekleştirilir. Küme: Birbirine benzeyen nesnelerden oluşan gruptur. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer Arş.Grv İlyas AKKUŞ

Örneğin Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda Web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir Arş.Grv İlyas AKKUŞ

Kümeleme Yöntemleri 1 - Bölümleme yöntemleri (Partitioning methods) 2- Hiyerarsik yöntemler (Hierarchical methods) 3- Yogunluk tabanlı yöntemler (Density-based methods) 4- Izgara tabanlı yöntemler (Grid-based methods) 5- Model tabanlı yöntemler (Model-based methods) Arş.Grv İlyas AKKUŞ

Bölümleme Yöntemleri Bölümleme yöntemleri, n adet nesneden oluşan veri tabanını giriş parametresi olarak belirlenen k adet bölüme ( k<=n ) ayırma temeline dayanır. Veri tabanındaki her bir eleman farklılık fonksiyonuna göre k adet bölümden birine dâhil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır. Bölümleme yöntemleri k -means, k -medoids ve CLARA-CLARANS olarak bilinen algoritmaları kullanır. Arş.Grv İlyas AKKUŞ

K-medoids Algoritması k -medoids algoritması k -means algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla Kaufman ve Rousseeuw tarafından 1987 yılında geliştirilmiştir k -medoids algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır. Böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi giderilmiş olur. Arş.Grv İlyas AKKUŞ

k -medoids algoritmasının birçok farklı türevi bulunmaktadır k -medoids algoritmasının birçok farklı türevi bulunmaktadır. PAM (Partitioning Around Medoids) ilk ortaya atılan k -medoids algoritmasıdır. PAM, öncelikle k -means algoritmasında olduğu gibi rastgele seçtiği k adet sayıyı küme merkezi olarak alır. Kümeye her yeni eleman katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit edince bulduğu noktayı yeni merkez, eski merkezi ise sıradan küme elemanı olacak şekilde yer değiştirme işlemi yapar. Arş.Grv İlyas AKKUŞ

CLARA ve CLARANS Algoritmaları PAM, k -medoids algoritmalarının başarısını kanıtlamasına rağmen büyük veri tabanlarında başarılı olamayınca Kaufman ve Rousseeuw tarafından 1990 yılında CLARA ortaya atılmıştır. CLARA, veri tabanının tümünü almak yerine küçük bir örneklem kümesini temsilci olarak alıp örneklem üzerinde PAM algoritmasını uygular. CLARA’nın avantajı PAM’dan daha büyük veri yığınlarına uygulanabilmesi, dezavantajı ise performansının örneklemin boyuna göre değişmesi ve örneklem seçimi yeterince bağımsız değilse seçilen örneklem veri tabanını yeterince temsil edemeyeceği için yanlış sonuçlara ulaşmasıdır. Arş.Grv İlyas AKKUŞ

K-Means Kümeleme K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi gerekir. Arş.Grv İlyas AKKUŞ

K-Means Kümeleme K-means kümeleme algoritmasının adımları; Belirlenecek küme sayısı k seçilir. Veri kümesinden k adet örnek başlangıç küme merkezleri olarak rastgele seçilir. Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. Her küme için yeni örneklerle küme merkezleri hesaplanır. Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır. Arş.Grv İlyas AKKUŞ

K-Means Kümeleme Arş.Grv İlyas AKKUŞ

K-Means Kümeleme 1 2 3 4 5 6 Arş.Grv İlyas AKKUŞ

K-means Kümeleme Arş.Grv İlyas AKKUŞ

K-Means Kümeleme 2.İterasyon sonunda kümelerin şekli Arş.Grv İlyas AKKUŞ

K-Means Kümeleme 1 2 3 4 5 6 3.İterasyon sonunda kümelerin şekli Arş.Grv İlyas AKKUŞ

Hiyerarşik Yöntemler Hiyerarşik yöntemler nesneleri Dendrogram denilen ağaç yapısı şeklinde gruplandırma temeline dayanır. Yapının inşa edilme yönüne göre yöntemler iki bölümde incelenir: Birleştirici kümeleme Ayrıştırıcı kümeleme Hiyerarşik yöntemler k değerine ihtiyaç duymazlar fakat ağaç yapısı oluşturma işleminin ne zaman durdurulacağını belirten eşik değeri parametresine ihtiyaç duyarlari Diğer algoritmalar: BIRCH CURE CHAMELEON Arş.Grv İlyas AKKUŞ

Hiyerarşik Kümeleme Küme sayısının bilinmesine gerek yoktur ancak bir sonlanma kriterine ihtiyaç duyar. Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA) Arş.Grv İlyas AKKUŞ

Hiyerarşik Kümeleme: AGNES (Agglomerative Nesting) Kaufmann ve Rousseeuw (1990) tarafından ortaya atılmıştır. Başlangıçta her nesne bir küme olarak alınır. Aralarında en az uzaklık bulunan kümeler birleştirilir. Kümeler arasında mesafe tek bağ metodu (single linkage method) ile hesaplanır Bütün örnekler tek bir demet içinde kalana kadar birleştirme işlemi devam eder. Arş.Grv İlyas AKKUŞ

Hiyerarşik Kümeleme: DIANA (Divisive Analysis) Kaufmann and Rousseeuw (1990) tarafından ortaya atılmıştır. AGNES’in yaptığı işlemlerin tersini yapar. Başlangıçta bütün örnekler bir demet içindeyken işlem sonunda her örnek bir demet oluşturur. Arş.Grv İlyas AKKUŞ

Yoğunluk Tabanlı Yöntemler Yoğunluk tabanlı yöntemler, nesnelerin doğal dağılımını bir yoğunluk fonksiyonu aracılığı ile tespit ederek bir eşik yoğunluğunu aşan bölgeleri küme olarak adlandırırlar. Düzgün şekilli olmayan kümeleri bulma başarısı, gürültü ve istisnalardan etkilenmeme ve tek tarama ile sonuca ulaşma avantajları ile en başarılı kümeleme yöntemleri arasındadır Arş.Grv İlyas AKKUŞ

Izgara Tabanlı Yöntemler Veri uzayını incelemek için sonlu sayıda kare şeklinde hücrelerden oluşan ızgara yapıları kullanırlar. Kullandıkları ızgara yapısından ötürü veri tabanındaki nesne sayısından bağımsızdırlar. Arş.Grv İlyas AKKUŞ

Model Tabanlı Yöntemler Eldeki verileri bir matematiksel model ile ifade etmeye çalışırlar. Model tabanlı yöntemler iki temel yaklaşımı kullanırlar; istatistik yaklaşım ve yapay zekâ yaklaşımıdır. Arş.Grv İlyas AKKUŞ