Zeki Veri Madenciliği Ethem Alpaydın Bilgisayar Mühendisliği Bölümü

Slides:



Advertisements
Benzer bir sunumlar
el ma 1Erdoğan ÖZTÜRK ma ma 2 Em re 3 E ren 4.
Advertisements

GİRİŞ BÖLÜM:1-2 VERİ ANALİZİ YL.
Yrd. Doç. Dr. Mustafa Akkol
Oktay ERBEY CRM & B2B Ürün Satış Hizmet Yöneticisi
Prof.Dr.Şaban EREN Yasar Üniversitesi Fen-Edebiyat Fakültesi
Değişkenler ve bellek Değişkenler
DOĞAL SAYILAR.
T.C. İNÖNÜ ÜNİVERSİTESİ Arapgir Meslek YÜKSEKOKULU
Eğitim Programı Kurulum Aşamaları E. Savaş Başcı ASO 1. ORGANİZE SANAYİ BÖLGESİ AVRUPA BİLGİSAYAR YERKİNLİĞİ SERTİFİKASI EĞİTİM PROJESİ (OBİYEP)
Atlayarak Sayalım Birer sayalım
ÇÖZÜM SÜRECİNE TOPLUMSAL BAKIŞ
BEIER CÜMLE TAMAMLAMA TESTİ
Diferansiyel Denklemler
ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ
TÜRKİYE EKONOMİSİNE GENEL BAKIŞ VE SON GELİŞMELER KEMAL UNAKITAN MALİYE BAKANI 05 Eylül 2008 T.C. MALİYE BAKANLIĞI.
BEIER CÜMLE TAMAMLAMA TESTİ
8. SAYISAL TÜREV ve İNTEGRAL
5) DOĞRUSAL DENKLEM SİSTEMLERİNİN SAYISAL ÇÖZÜMLERİ
ALIŞVERİŞ ALIŞKANLIKLARI ARAŞTIRMASI ÖZET SONUÇLARI Haziran 2001.
Orta Öğretimden Üniversiteye Gelen Öğrencilerin Temel Bilgisayar Bilgilerinin İl ve Bölge Bazında İncelenmesi: Karadeniz Teknik Üniversitesi Uygulaması.
KIR ÇİÇEKLERİM’ E RakamlarImIz Akhisar Koleji 1/A.
HİSTOGRAM OLUŞTURMA VE YORUMLAMA
ETİK ve İTİBAR YÖNETİMİ
Soruya geri dön
Prof. Dr. Leyla Küçükahmet
MÜRŞİT BEKTAŞ 1-A SINIFI
CAN Özel Güvenlik Eğt. Hizmetleri canozelguvenlik.com.tr.
“Dünyada ve Türkiye’de Pamuk Piyasaları ile İlgili Gelişmeler”
1/20 PROBLEMLER A B C D Bir fabrikada kadın ve çocuk toplam 122 işçi çalışmaktadır. Bu fabrikada kadın işçilerin sayısı, çocuk işçilerin sayısının 4 katından.
TOPLAMA İŞLEMİNDE VERİLMEYEN TOPLANANI BULMA
HAZIRLAYAN:SAVAŞ TURAN AKKOYUNLU İLKÖĞRETİM OKULU 2/D SINIFI
1/25 Dört İşlem Problemleri A B C D Sınıfımızda toplam 49 öğrenci okuyor. Erkek öğrencilerin sayısı, kız öğrencilerin sayısından 3 kişi azdır.
Dördüncü Grup İkinci Harf B sesi sunumu Mürşit BEKTAŞ.
ÖRNEKLEM VE ÖRNEKLEME Dr.A.Tevfik SÜNTER.
YASED BAROMETRE 2006 AĞUSTOS.
TÜRKİYE KAMU HASTANELERİ KURUMU
1 YASED BAROMETRE 18 MART 2008 İSTANBUL.
İL KOORDİNASYON KURULU I.NCİ DÖNEM TOPLANTISI
İmalat Yöntemleri Teyfik Demir
Matematik 2 Örüntü Alıştırmaları.
MATRİSLER ve DETERMİNANTLAR
İKİ BASAMAKLI DOĞAL SAYILARIN
PÇAĞEXER / SAYILAR Ali İhsan TARI İnş. Yük. Müh. F5 tuşu slaytları çalıştırmaktadır.
19 Ekim 2006 GfK TürkiyeCustom ResearchGrowth from Knowledge 1 TUHID - İDA İletişim Hizmetleri Algılama Araştırması Eylül 2006.
Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
DOĞUM VE SAĞLIK: DOĞUM SAYISI SAĞLIK DURUMUNU ETKİLİYOR MU ? Amaç Annelik kadının varoluşunda ona bahşedilen bir duygudur. Anneliğin birçok getirisi olduğu.
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
Prof. Dr. Hüseyin BAŞLIGİL
SİU 2009 Sınıflandırıcılarda Hata Ölçülmesi ve Karşılaştırılması için İstatistiksel Yöntemler Ethem Alpaydın Boğaziçi Üniversitesi
RUHU ŞAD OLSUN.
4 X x X X X
1 Van Kadın Derneği 2008 Yılı Verileri. sınıflandırma Yüzyüze ve/veya telefonla 805 başvuru 1262 neden 350 Türkiyeli Kadın 525 nedenle 455 Sığınmacı ve.
Mukavemet II Strength of Materials II
Yard. Doç. Dr. Mustafa Akkol
1 FİNANSBANK A.Ş Sinan Şahinbaş Finansbank Genel Müdürü
Bir bölme işleminde bölen 8,Bölüm 7, kalan 1ise bölünen Kaçtır?
ANA BABA TUTUMU ENVANTERİ
1 DEĞİŞMEYİN !!!
Test : 2 Konu: Çarpanlar ve Katlar
DENEY TASARIMI VE ANALİZİ (DESIGN AND ANALYSIS OF EXPERIMENTS)
Bankacılık sektörü 2010 Ocak-Aralık dönemindeki gelişmeler Ocak 2011.
Diferansiyel Denklemler
Çocuklar,sayılar arasındaki İlişkiyi fark ettiniz mi?
HAYAT BİLGİSİ SORULARI.
ÇOK DEĞİŞKENLİ FONKSİYONLARDA
14.ULUSAL TURİZM KONGRESİ 2013 YILI BİLDİRİLERİ ÜZERİNE BİR DEĞERLENDİRME Prof. Dr. A. Celil ÇAKICI Mersin Üniversitesi Turizm Fakültesi.
Proje Konuları.
PÇAĞEXER / SAYILAR Ali İhsan TARI İnş. Yük. Müh. F5 tuşu slaytları çalıştırmaktadır.
Diferansiyel Denklemler
Sunum transkripti:

Zeki Veri Madenciliği Ethem Alpaydın Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi alpaydin@boun.edu.tr http://www.cmpe.boun.edu.tr/~ethem

Veri Madenciliği nedir? Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. Knowledge Discovery in Databases

Örnek Uygulamalar Bağıntı “Çocuk bezi alan müşterilerin 30%’u bira da alır.” (Basket Analysis) Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır.” Regresyon Kredi skorlama (Application Scoring)

Örnek Uygulamalar Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor.” (Behavioral scoring, Churning) Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor.”

Örnek Uygulamalar İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı?” Fraud detection Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var?”

Veri Madenciliği Sihir değildir! Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır.

Ambardan Madene Standard form Veri Ambarı Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, guruplanır Amaç belirlenir, veri oluşturulur

Maden nasıl bulunur? Geçerleme Keşif Bilgisayar yardımıyla, Kullanıcı tarafından, Yukarıdan aşağıya Sorgula ve Raporla OLAP (OnLine Analytical Processing) tools Otomatik, Veri tarafından yönlendirilir, Aşağıdan yukarıya

Adımlar: 1. Amaç Tanımlama Ürünler arasında bağıntı ? Yeni pazar segmentleri veya potansiyel müşteriler? Zaman içindeki satın alma örüntüleri veya ürün satım eğrileri? Müşterileri guruplamak, sınıflandırmak ?

Adımlar: 2. Veri Hazırlama Veriyi birleştir, seç ve önişle (Eğer veri ambarı varsa zaten yapılmıştır) Var olan verinin dışında, amaç için kullanılabilecek ek bilgi var mı?

Adımlar: 2. Veri Hazırlama Veri seçimi: Önemli değişkenlerin saptanması Veri temizleme: Hata, tutarsızlık, tekrar ve eksik verilerin ayıklanması/düzeltilmesi Veri fırçalama: Guruplama, dönüşümler Görsel inceleme: Veri dağılımı, yapısı, istisnalar, değişkenler arasında bağıntılar Değişken analizi: Guruplama, bölütleme

Adımlar: 3. Teknik Seçme Amaç sınıfının tanımlanması Guruplama (Clustering/Segmentation), Bağıntı kurma (Association), Sınıflandırma (Classification), Zaman içinde örüntü bulma/tahmin yapma (Pattern detection/Prediction in time) Çözüm sınıfınının tanımlanması Açıklama (Karar ağaçları,kurallar) vs Kara kutu (sinir ağı) Model değerlendirme, geçerleme ve karşılaştırma k-kat çapraz geçerleme, istatistiksel testler Modellerin birleştirilmesi

Adımlar: 4. Yorumlama Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? Uzmana danışma

Örnek Veri, çok boyutlu değişkenler tablosudur Hayır Evet Ad Gelir Birikim Medeni hali Default Hayır Ali 25,000 $ 50,000 $ Evli ... Veli 18,000 $ 10,000 $ Evli Evet Bir değişkenin değerini, diğer değişkenlerin değerleri cinsiden açıklamak istiyoruz.

Sistem Modelleme y =f (x) : f bilinmeyen ve rassal bir fonksiyon x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon f x y

Veri için Model Oluşturma f y x - f*

Veriden Öğrenme Verilmiş örnek kümesi X={xt,yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz.

Uygulama Tipleri Sınıflandırma: y in {C1, C2,…,CK} Regresyon: y in Re Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı Öbekleme: x ’leri benzerliğe göre gurupla

Örnek birikim OK DEFAULT yıllık gelir

Örnek Çözüm OK DEFAULT q2 q1 x2 : birikim x1 : yıllık gelir q1 OK DEFAULT q2 KURAL: EĞER yıllık gelir> q1 VE birikim> q2 İSE OK DEĞİLSE DEFAULT

Karar Ağaçları x1 : yıllık gelir x2 : birikim y = 0: DEFAULT y = 1: OK x1 > q1 x2 > q2 y = 0 y = 1 evet hayır

Öbekleme birikim OK DEFAULT Tip 1 Tip 2 Tip 3 yıllık gelir

Veri Görselleştirme Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz. Verinin yapısının; gurupların, istisnaların gözlenmesi

Veri Görselleştirme z2 Kural İstisna z1

? Zaman Serisi Tahmini zaman Gelecek Geçmiş Şimdi Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Geçmiş Gelecek Discovery of frequent episodes Şimdi

Metodoloji Yeterince iyi ise kabul et Model 1 Öğrenme En iyiyi kümesi İlk Standard Form Model 2 Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç Model L Deneme kümesi Olası modelleri öğrenme kümesi üstünde eğit Veri azaltma: Değişken sayısı ve değer azaltma

Kestiricileri Eğitmek için Teknikler Parametrik Çokboyutlu İstatistik Bellek tabanlı (Örnek tabanlı) Modeller Karar Ağaçları Yapay Sinir Ağları

Sınıflandırma x : d-boyutlu değişkenler vektörü C1 , C2 ,... , CK : K sınıf Şüphe Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x)

Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık)

İstatistiksel Yöntemler Sınıf dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor Tek boyutlu Çok boyutlu

Sınıflandırıcıyı Eğitmek Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N (mj,sj2) Çok boyutlu: p(x|Cj)~Nd (mj,Sj)

Örnek: 1 Boyutlu

Örnek: Farklı Varyanslar

Örnek: Çok Sınıf

Örnek: 2 Boyutlu

Örnek: Ortak Kovaryans

Örnek: Farklı Kovaryanslar

Davranışlar ve Riskler ai : davranış i l(ai|Cj) : Sınıf Cj iken ai davranışını almanın getirdiği kayıp. ai davranışının riski: R(ai |x) = Sj l(ai|Cj) P(Cj |x) En az riskli davranışı seç: R(ak |x) = mini R(ai |x)

Regresyon (Fonksiyon Yakınsama)

Regresyon gürültü. Doğrusal regresyonda parametreler w,w0 E w

Doğrusal Regresyon

Yüksek Dereceli Regresyon Örneğin, ikinci dereceden

Yüksek Dereceli Regresyon

Çok Değişkenli Doğrusal Regresyon (Scoring) d değişken sayısı

Özellik Seçme Özellikler Altkümesi Seçimi İleriye veya Geriye doğru seçim Doğrusal İzdüşüm Temel Bileşenler Analizi (PCA) Doğrusal Ayırıcı Analizi (LDA)

Sıralı Altküme Seçimi İleriye Doğru Seçim Geriye Doğru Seçim (x1) (x2) (x3) (x4) (x1 x2 x3 x4) (x1 x2 x3) (x1 x2 x4) (x1 x3 x4) (x2 x3 x4) (x1 x3) (x2 x3) (x3 x4) (x2 x4) (x1 x4) (x1 x2) (x1 x2 x3) (x2 x3 x4)

Temel Bileşenler Analizi (PCA) x2 z2 z1 z1 x1 Beyazlaştırma

Doğrusal Ayırıcı Analizi (LDA) x2 z1 z1 x1

Bellek Tabanlı Yöntemler Örnek tabanlı karar verme En yakın komşu algoritması Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır.

En Yakın Komşu x2 x1

Yerel Regresyon y x Uzmanların Birleşimi

Eksik Veri Eksik veri olan kayıtları çıkar. Ortalama ile doldur. Diğer değişkenler cinsinden regresyon ile doldur.

Karar Ağaçlarının Eğitilmesi x2 x1 > q1 x2 > q2 y = 0 y = 1 evet hayır x1 q1 q2

Düzensizliğin Ölçülmesi x2 x2 q q x1 x1 7 1 9 8 5 4

Entropi

Yapay Sinir Ağları x0=+1 x1 w1 w0 x2 g w2 y wd Regresyon: Öz Sınıflandırma: Sigmoid (0/1) xd

Yapay Sinir Ağının Eğitilmesi d değişken Öğrenme kümesi: X üzerindeki hatayı en aza indiren w ’yi bul

Doğrusal Olmayan En İyileme Wi Eğim iniş: Tekrarlı öğrenme h öğrenme hızı

Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1,..,K çıktı Her oj , P (Cj|x)’yi kestirir

Çok Sınıflı Doğrusal Yapay Sinir Ağı x0=+1 oK xd x2 x1 o2 o1 wKd

Tekrarlı Öğrenme Doğrusal olmayan

Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir.

Çok Katmanlı Yapay Sinir Ağı (MLP) tKH h1 h2 hH wKd h0=+1 x0=+1 x1 x2 xd

Olasılık Ağları

Modelleri Değerlendirme M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? M1 , M2 , ..., ML arasında en iyisi hangi modeldir?

Çapraz Geçerleme 1 2 3 k-1 k 1 2 3 k-1 k k kere tekrar et ve ortalama al

Modelleri Birleştirme: Neden? Öğrenme kümesi En iyiyi seç En iyi model İlk Standard Form Model 2 Model L Geçerleme kümesi

Modelleri Birleştirme : Nasıl? Öğrenme kümesi Oylama İlk Standard Form Model 2 Model L Geçerleme kümesi

Kredi Skor Hesabı (Credit Scoring) Başvuru (application) ve davranış (behavioral) skor hesabı İstatistiksel bir model olarak skorkartı İyi ve kötü risk müşteriler Alanların doğrusal toplamı: Kredi kartı var mı? Evet: +50 Hayır: –20

Kredi Skor Hesabında Kullanılan Alanlar İkamet adresinde oturduğu zaman: 0-1, 1-2, 3-4, 5+ yıl Ev durumu: Sahip, kiracı, diğer Postakodu: Kodlanmış Telefon: Evet, hayır Yıllık gelir: Kodlanmış Kredi kartı: Evet, hayır Yaş: 18-25, 26-40, 41-55, 55+ yıl Meslek: Memur, işçi, serbest, işsiz, ... Medeni hali: Evli, bekar, diğer Bankanın müşterisi olduğu zaman: yıl Çalıştığı kurumda çalışma zamanı: yıl

Kredi Skor Hesabının Yararları Daha doğru karar vermeyi sağlar. Skorkartı standardizasyon ve nesnel karar getirir. Hızlı ve ucuzdur. Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır. Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir.

Sepet Analizi (Basket Analysis) X ve Y malları arasındaki ilişki X, Y: 0/1 Destek (Support): P(X ve Y) = X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı  Güven (Confidence): P(X|Y)=P(X ve Y)/P(Y) = X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı

Sepet Analizi X, Y beğeni değerleri Corr(X,Y)=Cov(X,Y)/(Std(X)*Std(Y)) Cov(X,Y)=E[(X-mX) (Y-mY)]

Sonuçlar: Verinin Önemi Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır. Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır. Veri madenciliği simya değildir; taşı altına döndüremeyiz.

Sonuçlar: Uzmanın Önemi Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır. Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir. Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir.

Sonuçlar: Sabrın Önemi Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir. Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur.

Tekrar: Madencilik için Gerekenler Çok miktarda kaliteli veri İlgili ve bilgili uzmanlar: Uygulama alanı Veri Tabanları (Veri Ambarcılığı) İstatistik ve Yapay Öğrenme Zaman ve sabır