Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliği Anormallik Tespiti Bölüm 10 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete ÇELİK ©

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliği Anormallik Tespiti Bölüm 10 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete ÇELİK ©"— Sunum transkripti:

1 Veri Madenciliği Anormallik Tespiti Bölüm 10 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete ÇELİK © Tan,Steinbach, Kumar Introduction to Data Mining 05/02/2006 1

2 11/29/2007 Introduction to Data Mining 2 Anomali/Aykırılık (Anomaly/Outlier) Tespiti l Anomaliler/aykırılıklar nelerdir? –Verinin çoğunluğundan oldukça farklı olan veri kümelerine denir. l Doğal olan anomaliler nispeten nadirdir –Çok fazla veri var ise binde bir olan olaylardır –Konteks önemlidir, örnek: Temmuzdaki aşırı soğuklar l Önemli olabilir veya bir sıkıntı olabilir – 2 yaşındkai bir çocuğun normalden uzun olması –Alışılmadık yüksek kan basıncı

3 11/29/2007 Introduction to Data Mining 3 Anomali Tespitinin Önemi Ozon Deliğinin Geçmişi l 1985 yılında üç araştırmacı (Farman, Gardinar ve Shanklin) Antartika için ozon seviyesinin normal seviyenin %10 altına düşmüş olduğunu gösteren İngiliz Antarktika Araştırma’sı tarafından toplanan verileri görünce şaşırdılar l Ozon seviyesini kaydetmek için techizatı bulunan, Nimbus 7 uydusu neden benzer düşük ozon konsantrasyonlarını ölçmemiştir. l Uydu tarafından kaydedilen ozon konsantrasyonları o kadar düşüktüki bilgisayar programı tarafından aykırılık olarak işaretlendi ve sistemden atıldı Sources:

4 11/29/2007 Introduction to Data Mining 4 Anomalinin Nedenleri l Farklı sınıflardan gelen veri –Portakalların ağırlıklarının ölçümü, fakat birkaç greyfut karışmış olabilir l Doğal değişimler –Alışılmadık uzun kişiler l Veri hataları –100 kg ağırlığındaki işi kaşındaki çocuk

5 11/29/2007 Introduction to Data Mining 5 Gürültü ve Anomali Arasındaki Farklar l Gürültü hatadır, belki rastgele değerler veya karışmış nesneler –Ağırlıklar doğru kaydedilmemiş –Greyfut, portakallar ile karışmış l Gürültü olağandışı değer veya nesneleri üretmez. l Gürültü ilginç değildir. l Anormallikler, eğer bir gürültü sonucunda değil ise ilginç olabilir. l Gürültü ve anomaliler birbirleriyle alakalıdır ancak farklı kavramlardır

6 11/29/2007 Introduction to Data Mining 6 Genel Konular: Özellik Sayısı l Çoğu anomali genellikle tek bir özellik bakımından tanımlanır –Yükseklik –Şekil –Renk l Bütün özellikleri kullanarak anomalileri bulmak zor olabilir. –Gürültülü veya ilgisiz özellikler –Nesne sadece bazı özellikler gözönüne alındığında anomalidir l Ancak, bir nesne herhangi bir özelliğe göre anormal olmayabilir

7 11/29/2007 Introduction to Data Mining 7 Genel Konular: Anomali Puanlama l Çoğu anomali tespit tekniği sadece ikili sınıflandırma sağlar –Bir nesne ya anomalidir veya değildir –Bu özellikle sınıflandırma-tabanlı yaklaşımlar için doğrudur l Diğer yaklaşımlar her noktaya bir puan atar –Bu puan, nesnenin anormal olma derecesini gösterir/ölçer –Bu nesnelerin sıralanmasını/derecelendirilmesini sağlar l Sonuçta, genellikle ikili karar yapılması gerekir –Kredi kartı işlemi yanlış olarak işaretlenmeli mi? –Bir puanlama olması hala faydalı olabilir l Kaç tane anomali vardır?

8 11/29/2007 Introduction to Data Mining 8 Anomali Tespitindeki Diğer Konular l Bütün anomalileri bir seferde bulma veya her seferde bir anomali bulma –Hepsini bulma (Swamping) –Maskeleme (Masking) l Değerlendirme –Performansı nasıl ölçersiniz? –Danışmanlı / Danışmansız durum l Etkinlik l Bağlam –Profesyonel basketbok takımı

9 11/29/2007 Introduction to Data Mining 9 Anomali Tespit Problemlerinin Varyasyonları l Verilen D veri kümesi için, t eşik değerinden daha fazla anomali puanı olan x  D verilerini bul l Verilen D veri kümesi için, en yüksek anomali puanına sahip n adet (top-n) x  D verilerini bul l Genelde normal (fakat etiketlenmemiş) veri içeren bir D veri kümesi için x test verisinin anomali puanını veritabanındakilere göre hesapla

10 11/29/2007 Introduction to Data Mining 10 Model-Tabanlı Anomali Tespiti l Veri için bir model oluştur ve kullan –Danışmansız  Anomaliler iyi uymayan nokatalardır  Anomaliler modeli bozan/çarpıtan noktalardır  Örnekler: –İstatistiksel dağılım –Kümeler –Regresyon –Geometrik –Graf (Çizge) –Danışmanlı  Anomaliler nadir sınıf olarak görülürler  Eğitim verisine ihtiyaç vardır

11 11/29/2007 Introduction to Data Mining 11 Diğer Anomali Tespit Teknikleri l Yakınlık-tabanlı (Proximity-based) –Anomaliler diğer noktalardan çok uzakta olan noktalardır –Bazı durumlarda bu durum grafiksel olarak tespit edilebilir l Yoğunluk-tabanlı (Density-based) –Düşük yoğunluklu noktalar anomalilerdir l Örüntü eşleştirme (Pattern matching) –Tipik olmayan fakat önemli olay veya nesneler için profil veya şablon oluştur –Bu örüntüleri keşfeden algoritmalar genellikle basit ve etkilidir

12 11/29/2007 Introduction to Data Mining 12 Grafiksel Yaklaşımlar l Kutuçizimler (Boxplot) veya s or dağılım çizimleri (scatter plots) l Eksiklikleri –Otomatik değil –Öznel (Subjective)

13 11/29/2007 Introduction to Data Mining 13 Konveks (Convex) Hull Yöntemi l Aşırı noktaların aykırılar olduğu varsayılır l Aşırı değerleri bulmak için konveks hull yöntemini kullan l Eğer aykırılar verinin ortasında ise ne olur?

14 11/29/2007 Introduction to Data Mining 14 İstatistiksel Yaklaşımlar Bir aykırılığın olasılıklı tanımı: Bir aykırılık, verinin olasılıklı dağılım modeline göre daha düşük olasılığı olan bir veri olarak tanımlanır. l Genellikle verinin dağılımını tanımlayanan parametrik model varsayılır (örnek, normal dağılım) l Aşağıdakilere bağlı olarak istatistiksel test uygula –Veri dağılımı –Dağılım parametreleri (örnek, ortalama ve varyans) –Beklenen aykırılıkların sayısı (güven sınırı) l Meseleler –Bir veri kümesinin dağılımının belirlenmesi  Ağır kuyruklu dağılımı (Heavy tailed distribution) –Özellik sayısı –Veri dağılımı karşım mı (mixture of distributions) ?

15 11/29/2007 Introduction to Data Mining 15 Normal Dağılımlar Tek-boyutlu Gaussian İki-boyutlu Gaussian

16 11/29/2007 Introduction to Data Mining 16 Grubbs Testi l Tek değişkenli veride aykırıları tespit et l Verinin normal dağılım olduğunu varsay l Bir zamanda bir aykırı tespit eder, aykırıyı siler ve tekrar eder –H 0 : Veride hiç aykırı yok –H A : En az bir aykırı var l Grubbs test istatistiği: l Reddet H 0 eğer:

17 11/29/2007 Introduction to Data Mining 17 İstatistiksel-tabanlı Olasılık Yaklaşımı l Veri kümesi D’nin iki olasılık dağılımının karışımından örnekler içerdiğini varsay. : –M (çoğunluk dağılımı) –A (anormal dağılım) l Genel Yaklaşım: –İlk olarak, bütün verilerin M’e ait olduğunu varsay –L t (D) D’nin t zamanındaki log likelihoodunu göstersin –M’ye ait olan herbir x t noktasını A’ya taşı  L t+1 (D) yeni log likelihoodu göstersin.   = L t (D) – L t+1 (D) farkını hesap et  Eğer  > c (belirlenen eşik değeri ), ise x t anomali olarak etiketlenir ve M’den A’ya kalıcı olarak taşınır

18 11/29/2007 Introduction to Data Mining 18 İstatistiksel-tabanlı Olasılık Yaklaşımı l Veri Dağılımı, D = (1 – ) M + A l M, veriden tahmin edilen olasılık dağılımdır –Herhangi bir model tabanlı olabilir (naïve Bayes, maksimum entropi, vs) l A’nın ilk başta uniform dağılım olduğu varsayılır l T zamanındaki olasılık (Likelihood):

19 11/29/2007 Introduction to Data Mining 19 İstatistiksel Yaklaşımların Güçlü/Zayıf Yönleri l İyi bir matematiksel temel gerektirir l Etkili olabilir l Eğer dağılım biliniyor ise iyi sonuç verir l Çoğu durumda, veri dağılımı bilinemeyebilir l Yüksek boyutlu veri için, doğru dağılımı tespit etmek zor olabilir l Anormaliler dağılımın parametrelerini bozabilir

20 11/29/2007 Introduction to Data Mining 20 Uzaklık-Tabanlı Yaklaşımlar l Çok farklı teknik vardır l Bir nesne veya nesne gurubu eğer belirlenen bir mesafeden daha uzakta ise aykırı olarak etiketlenir (Knorr, Ng 1998) –Bazı istatistiksel tanımlar bunun özel durumudur l Bir nesnenin aykırılık puanı onun k ıncı en kayın komşusuna uzaklığıdır

21 11/29/2007 Introduction to Data Mining 21 Bir En Yakın Komşu – Bir Aykırılık Aykırılık Puanı

22 11/29/2007 Introduction to Data Mining 22 Bir En Yakın Komşu – İki Aykırılık Aykırılık Puanı

23 11/29/2007 Introduction to Data Mining 23 Beş En Yakın Komşu – Küçük Küme Aykırılık Puanı

24 11/29/2007 Introduction to Data Mining 24 Beş En Yakın Komşu – Değişen Yoğunluk Aykırılık Puanı

25 11/29/2007 Introduction to Data Mining 25 Uzaklık-tabanlı Yaklaşımların Güçlü/Zayıf Yönleri l Basit l Maliyeti yüksek– O(n 2 ) l Parametrelere duyarlı l Yoğunluk değişimlerine duyarlı l Yüksek-boyutlu uzayda mesafe daha az manalı olur

26 11/29/2007 Introduction to Data Mining 26 Yoğunluk-Tabanlı Yaklaşımlar l Yoğunluk-tabanlı Aykırılık: Bir nesnenin aykırılık puanın nesnenin etrafındaki yoğunluğun tersidir. –K en yakın komşu cinsinden tanımlanabilir –Tanımlardan birisi: k ıncı en komşuya olan mesafenin tersidir –Diğer tanım: k komşuların ortalama mesafelerinin tersidir –DBSCAN tanımı l Farklı yoğunlukta bölgeler varsa, bu yaklaşımı sorunlu olabilir

27 11/29/2007 Introduction to Data Mining 27 Bağıl Yoğunluk l Bir noktanın yoğunluğunun, onun k en yakın komşusuna göre belirlenmesi

28 11/29/2007 Introduction to Data Mining 28 Bağıl Yoğunluk Aykırılık Puanı Aykırılık Puanı

29 11/29/2007 Introduction to Data Mining 29 Yoğunluk-tabanlı: LOF yaklaşımı l Herbir nokta için, onun yerel komşuluğunun yoğunluğunu hesapla l Bir p noktasının yerel aykırılık faktörünü (Compute local outlier factor - LOF) p örneğinin yoğunluğunun ve onun en yakın komşularının yoğunluğunun oranlarının ortalaması olarak hesapla l Aykırılıklar en yüksel LOF değerine sahip olan noktalardır p 2  p 1  En yakın komşu yaklaşımındai In the NN approach, p 2 aykırılık olarak düşünülmez, buna karşılık LOF yaklaşımı p 1 ve p 2 nin her ikisini de aykırılık olarak etiketler

30 11/29/2007 Introduction to Data Mining 30 Yoğunluk-Tabanlı Yaklaşımların Güçlü/Zayıf Yönleri l Basit l Maliyeti Yüksek – O(n 2 ) l Parametrelere duyarlı l Yüksek-boyutlu uzayda yoğunluk daha az manalı olur

31 11/29/2007 Introduction to Data Mining 31 Kümeleme-Tabanlı Yaklaşımlar l Yoğunluk-tabanlı aykırılık: Bir nokta eğer hiçbir kümeye güçlü bir şekilde bağlı değilse kümeleme-tabanlı yaklaşımda aykırılık olarak etiketlenir –Prototip-tabanlı kümelemede eğer bir nesne küme merkezine yeterince yakın değilse aykırılıktır –Yoğunluk-tabanlı kümelemede, bir nesnenin yoğunluğu çok düşük ise aykırılık olarak etiketlenir –Graf-tabanlı kümelemede, bir nesne, eğer iyi bir şekilde bağlı değilse, aykırıdır l Diğer konular küme sayısıdır ve aykırıların kümeler üzerindeki etkisidir

32 11/29/2007 Introduction to Data Mining 32 En Yakın Merkezden Noktaların Bağıl Uzaklıkları Aykırılık Puanı

33 11/29/2007 Introduction to Data Mining 33 En Yakın Merkezden Noktaların Bağıl Uzaklıkları Aykırılık Puanı

34 11/29/2007 Introduction to Data Mining 34 Yoğunluk-tabanlı Yaklaşımların Güçlü/Zayıf Yönleri l Basit l Çoğu kümeleme algoritması kullanılabilir l Bir kümeleme tekniğine karar vermek zor olabilir l Küme sayısına karar vermek zor olabilir l Aykırılıklar kümeleri bozabilir


"Veri Madenciliği Anormallik Tespiti Bölüm 10 için Ders Notları Introduction to Data Mining by Tan, Steinbach, Kumar Çeviren Yrd. Doç. Dr. Mete ÇELİK ©" indir ppt

Benzer bir sunumlar


Google Reklamları