1 5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi) Eğer sınıf nitelemesi ve karşılaştırılması için hangi özelliği alacağımdan emin olamazsam ne yaparım?

Slides:



Advertisements
Benzer bir sunumlar
MIT563 Yapay Zeka ve Makine Öğrenmesi
Advertisements

GİRİŞ BÖLÜM:1-2 VERİ ANALİZİ YL.
Sosyal Bilimlerde Araştırma Yöntemleri
GRAFİK VE HARİTA YARATMA
EXCEL ŞAHİN AKDAĞ 1.
VERİ TABANI VE YÖNETİM SİSTEMLERİ
Veri Tabanı Tasarlama İlk kuralımız, olabildiğince bilgileri parçalamaktır.
İLİŞKİLERİ İNCELEMEYE YÖNELİK ANALİZ TEKNİKLERİ
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
Taşınır Mal Yönetmeliği Modülü
SINIFLANDIRMA VE REGRESYON AĞAÇLARI (CART)
Veri ve Veri Yapıları Genel olarak bilgisayarlar.
Etkensel Deney Tasarımı
MATEMATİKSEL PROGRAMLAMA
Bilgisayar Öğr. Gör. Feyza Tekinbaş.
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Yrd. Doç. Dr. Altan MESUT Trakya Üniversitesi Bilgisayar Mühendisliği
CLUSTERING USING REPRESENTATIVES Hazırlayan: Arzu ÇOLAK
E-R Çizelgelerini İVTYS’ye Dönüştürme
Veri Tabanı Normalizasyonu Devrim ALTINKURT
Tanımlayıcı İstatistikler
Bellek Tabanlı Sınıflandırma
SOME-Bus Mimarisi Üzerinde Mesaj Geçişi Protokolünün Başarımını Artırmaya Yönelik Bir Algoritma Çiğdem İNAN, M. Fatih AKAY Çukurova Üniversitesi Bilgisayar.
NESNELER ARASINDAKİ UZAYSAL İLİŞKİLER ÜZERİNE BİR UYGULAMA
Araştırma Yöntemleri.
Karar Ağaçları İle Sınıflandırma
Tam Sayılarla Toplama Çıkarma.
İstatistiksel Sınıflandırma
PERFORMANS BÜTÇE HAZIRLIK SÜRECİ
VERİ TABANI VE YÖNETİM SİSTEMLERİ  Birincil Anahtar Türleri  Access Veri Tabanında Bulunan İlişkiler  İlişkileri Tanımlama Bir – Çok İlişkisi Çok –
ALAN ÖZELLİKLERİ.
Formül Hazırlama ve Kullanma
İstatistikte Bazı Temel Kavramlar
Hesaplanan Parametrelerin Hassasiyeti ve Güvenirlik Bölgesi
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
Microsoft EXCEL (2) Kapsam Kopyalama, Yapıştırma Açıklama Ekleme Satır ve Sütunların Boyutlandırılması Bitişik Hücrelere Dayanarak Otomatik Veri Girme.
yunus.hacettepe.edu.tr/~tonta/courses/spring2008/bby208/
Veritabanı Tasarımı ve Yönetimi
VERİLERİN DERLENMESİ VE SUNUMU
SÜREKLİ ŞANS DEĞİŞKENLERİNİN OLASILIK YOĞUNLUK FONKSİYONLARI
SINIFLANDIRMA VE REGRASYON AĞAÇLARI
STANDART SAPMA.
VERİ İŞLEME VERİ İŞLEME-4.
SQL Komutları (2) Uzm. Murat YAZICI.
Tuğçe ÖZTOP İlköğretim Matematik Öğretmenliği 2. sınıf
1/22 GEOMETRİ (Dikdörtgen) Aşağıdaki şekillerden hangisi dikdörtgendir? AB C D.
Bilgisayar II
Microsoft EXCEL (1).
BTP102 VERİTABANI YÖNETİM SİSTEMLERİ 1
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim
Örneklem Dağılışları.
Tanımlayıcı İstatistikler
ARAŞTIRMA TÜRLERİ.
Veritabanı Kavramları
Kümeleme Algoritmaları
Raporlama Menüleri Emine TUNÇEL Kırklareli Üniversitesi, Pınarhisar Meslek Yüksekokulu.
İnsan Kaynakları Bilgi Sistemleri
Veri Madenciliği Birliktelik Analizi: Temel Kavramlar ve Algoritmalar
Regresyon Analizi İki değişken arasında önemli bir ilişki bulunduğunda, değişkenlerden birisi belirli bir birim değiştiğinde, diğerinin nasıl bir değişim.
Kütahya Siteler Öğrenci Yurdu Talebeleri 2008 STANDART SAPMA 8.SINIF SBS Slaytlarda fare veya aşağı tuş ile ilerleyiniz.
ANLAM ÇIKARTICI (KESTİRİMSEL) İSTATİSTİK
İSTATİSTİĞE GİRİŞ.
B- Yaygınlık Ölçüleri Standart Sapma ve Varyans Değişim Katsayısı
E-R Çizelgelerini İVTYS’ye Dönüştürme
ÖLÇÜM SİSTEMLERİ ANALİZİ
STANDART SAPMA.
Veri Tabanı Temel Kavramlar.
5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi)
Sunum transkripti:

1 5.3 Analitik Niteleme: (Özellik Uygunluğunun Analizi) Eğer sınıf nitelemesi ve karşılaştırılması için hangi özelliği alacağımdan emin olamazsam ne yaparım? Sistemi yavaşlatabilecek çok sayıda özellik tanımlamayı bırakırım.

Özellik Uygunluk Analizi Niçin Uygulanır? İlgisiz veya az ilgili özellikleri istatistiksel olarak süzmek için özellik uygunluk analizi yöntemleri kullanılır. Özellik/boyut uygunluğu analizini içeren sınıf nitelemesine analitik niteleme adı verilir. Analizdeki sınıf karşılaştırma yöntemine analitik karşılaştırma adı verilir.

3 Genelleştirme ve özelleştirmenin her adımında boyutlar kullanıcı tarafından belirlenir. Kullanıcılar genelleştirme eşiklerini belirleyebilirler. Örneğin “yerleşim yeri boyutunu ülke seviyesi olarak genelleştir” şeklinde bir komut uygulanabilir. Eğer kullanıcı genelleştirme seviyesini yeterli bulmaz ise drill-down ve roll-up işlemleri ile boyut değişikliklerine gidebilir. Özellik Uygunluk Analizi Niçin Uygulanır?

4 Yüksek uygunluklu olarak ele alınan bir özellik yada boyut, sınıfı diğerlerinden ayırt etmede kullanılabilir. Örneğin pahalı araçları ucuzlarından ayırt etmek etmek için göz önüne alınacak uygun kriterlerden biri renk parametresi olamaz; fakat modeli, stili, silindir sayısı daha uygun özellikler olarak görülebilir. Diğer bir örnekte doğum tarihi boyutunda, doğum günü ve ay özellikleri ile çalışanların maaşlarının uygunluk ilişkisidir. Bunu yanında yaş grupları ile maaş arasında daha uygun bir ilişki olduğu düşünülebilir. Özellik Uygunluk Analizi Niçin Uygulanır?

Özellik Uygunluk Analiz Yöntemleri Nitelik uygunluk analizinin arkasındaki düşünce, sınıf veya kavrama göre özellik uygunluğunu sayıya döken bazı ölçümleri hesaplamaktır. Bu ölçümler, edinilen bilgiler (information gained), Gini indexi, belirsizlik, korelasyon katsayılarını içerir.

Özellik Uygunluk Analiz Yöntemleri Burada boyut tabanlı veri analiz yöntemi ile bilgi edinme (information gained) analiz tekniğini bütünleyen bir yöntemden bahsedeceğiz. Yöntem, daha az bilgi içeren özellikleri siler, kavram tanımlama analizinde kullanılması için daha çok bilgi içerenleri bir araya getirir.

7 Bilgi edinme hesaplaması nasıl çalışır? - Örnek eğitim kümesine S diyelim, her örneğin sınıf etiketi bilinsin. - Aslında her örnek bir satırdır. - Eğitim örnekleri sınıfını belirlemek için bir özellik kullanılır. Örneğin “durum” özelliği, “mezun” veya “mezun değil” olarak her örnek sınıfın etiketini tanımlamak için kullanılabilir. - Sınıf sayısı m olsun. - Örnek sınıflar C ile gösterilsin. - Ci sınıfına ait rasgele örnek si/s ile gösterilir. - Burada s, S kümesi içindeki toplam örnek sayısıdır.

8 Uygunluk analizindeki bu yaklaşımla, S örneğini tanımlayan özelliklerin her biri için bilgi edinme’yi hesaplayabiliriz. En yüksek değeri alan özellik, küme içindeki en ayırt edici özellik olacaktır.

9 Kavram tanımlama için özellik uygunluk analizi şöyle yapılır; Veri toplama : Sorgulama işlemiyle, hem hedef hem de karşı gelen sınıflar için veri toplanır. Nitelik tabanlı işlem kullanarak uygunluk analizine hazırlık : Bu adımda seçilen uygunluk ölçümünün uygulanacağı boyut ve nitelikler tanımlanır. Seçilen uygunluk analizi ölçüsünü kullanarak, uygunsuz veya az uygun özelliklerin silinmesi : Aday ilişki içindeki her özellik, seçilen uygunluk analizi ölçüsü kullanılarak hesaplanır. Seçilen uygunluk analizi ölçüsünü kullanarak, kavram tanımlarının oluşturulması : Daha sade özellik genelleme eşik değeri kümesi kullanarak nitelik tabanlı işlem uygulanır.

Analitik Niteleme Örneği Eğer araştırılan (mining) kavram tanımları çok özellik içeriyorsa, analitik niteleme gerçekleştirilmelidir. Bu işlem genellemeden önce uygunsuz veya az uygun özellikleri siler.

11 Örnek 5.9 Analitik niteleme kullanarak Big Üniversitesindeki mezun olmuş öğrencilerin genel niteliklerini ortaya çıkartmak istiyoruz. Verilen özellikler; isim, cinsiyet, bölüm, doğum_yeri, doğum_tarihi, telefon_numarası ve mezuniyet_ortalaması

12 İlk adımda: Mezun olmuş öğrencilerden oluşan hedef sınıf verileri toplanır. Uygunluk analizi için karşı sınıf verileri de gereklidir. Bunlar da mezun olmamış öğrenciler kümesinden elde edilir. İkinci adımda, özellik silme ve genelleme yapılarak uygunluk analizine hazırlık yapılır. Özellik genelleme eşik değerleri ile özellik tabanlı işlem uygulanır. İsim ve telefon özellikleri silinir. Çünkü içerdiği farklı değerlerin sayısı, özelliğin analitik eşik değerini aşar. Yine aynı örnekte doğum_yeri, doğduğu_ülkesi ve doğum_tarihini yaş_aralığı’na genellemek için kavram hiyerarşileri kullanılır. bölüm ve mezuniyet_ortalaması özellikleri, kavram hiyerarşileri kullanarak daha yüksek soyutlama düzeyine genellenirler. Aday ilişki için kalan özellikler; cinsiyet, bölüm, doğduğu_ülke, yaş_aralığı ve mezuniyet_ortalaması şeklindedir Üçüncü adımda, aday ilişki içindeki özellikler, bilgi edinme gibi seçilen bir uygunluk analiz ölçümü kullanılarak hesaplanır.

13 C1: Mezunlar C2: Mezun olmayanlar 120 adet mezun, 130 adette mezun olmayan vardır. Sınıflandırma için gerekli bilgiyi hesaplarız. Bölüm özelliği için Entropi hesaplaması yapılır. Yaş için bilgi kazanımı hesabı:

14 Benzer şekilde geri kalan özellikler içinde hesaplama yapıldığında, her özellik için bilgi kazanımı artan sıraya göre şöyledir: Cinsiyet: Doğum yeri: Bölüm: Ortalama: Yaş: Kesim değeri 0.1 olarak alınırsa cinsiyet ve doğum yeri bunun altında kalır yani zayıf uygunluğa sahiptir.

Sınıf Karşılaştırmalarının Araştırılması (Farklı Sınıflar Arasındaki Ayırım) Kullanıcılar, birçok uygulamada, tanımlanan tek bir sınıfa sahip olmayı tercih etmezler. Bunun yerine bir sınıfı diğer sınıflarla(ya da kavramlar) karşılaştıran tanımlama üzerinde çalışmayı yeğlerler.Sınıf ayrımı veya karşılaştırması, bir hedef(target) sınıfın çeliştiği (contrasting) karşı sınıflardan ayrılmasını sağlayan tanımlamalar(descriptions) üzerinde veri madenciliği çalışmaları yapar.

16 Hedef ve çelişen sınıfların benzer boyutlara ve niteliklere sahip olacak şekilde karşılaştırılabilir olmaları gereklidir. Örnek olarak, kişi-adres-parça sınıfları karşılaştırılamazken son üç yıla ait satışlar, bilgisayar ve fizik öğrencileri karşılaştırılabilir sınıflardır.

17 Örneğin, All Electronics firmasının 1998 ve 1999 yılına ait satış verilerine sahip olduğumuzu ve bu sınıfları karşılaştırmak istediğimizi düşünelim. Burada location boyutunun city-state-country seviyelerinde soyutlamaya(abstraction) uğraması söz konusudur.Her sınıfa ait veriler genelleştirilerek aynı location seviyesine getirilmelidir. Tüm verilerin eş zamanlı olarak city, state veya country seviyesine getirilmesi daha kullanışlı olacaktır. Örneğin, Vancouver bölgesindeki satışları ülkenin tamamındaki satışlarla karşılaştırmak etkisiz olabilir.

Sınıf Karşılaştırma Metodları ve Uygulamaları Sınıf karşılaştırmasının gerçekleştirilmesi aşağıdaki adımların yürütülmesiyle olur. 1) Veri Toplama Sorgu işlemleri ile veri tabanı içerisindeki birbiriyle ilişkili verilerin oluşturduğu veri kümesi oluşturulur ve bu küme bir hedef sınıf ile çelişen sınıf veya sınıflara ayrılabilir. 2) Boyut ilişkili analiz Birçok boyut olduğunda ve analitik karşılaştırma yapılmak istendiğinde, sınıflar üzerinde boyut ilişki analizi yapılmalıdır.Bu durumda yalnızca yüksek ilişkili boyutlar ileriki analizler için ele alınacaktır. 3) Eş zamanlı genelleştirme Genelleme hedef sınıf veya karşı sınıflar üzerinde uygulanarak, bu sınıfların aynı seviyelere geçişleri sağlanır.Bu seviyeler eşik değerleri ya da kullanıcılar tarafından belirlenir. 4) Türetilmiş karşılaştırmaların sunulması Sınıf karşılaştırması sonuçları tablolar, grafikler veya kurallar şeklinde görüntülenebilirler.Bu şekildeki bir sunum genellikle hedef sınıf ile karşı sınıflar arasındaki karşılaştırmayı yansıtan bir çelişme ölçüsü (% değeri) içerir.

19 Örnek 5.10 (Sınıf karşılaştırmasının yapıldığı uygulama) Big- University için eldeki veriler kullanılarak, mezun olanlar ile halen üniversitenin öğrencisi olanlar arasında bir karşılaştırma yapılmak isteniyor.Burada mezunlar hedef sınıfı, öğrenciler çelişen sınıfı oluşturuyor.

20 İlk olarak, kayıtlar mezunlar ve öğrenciler için olmak üzere ikiye ayrılıyor. İkinci adımda, boyut ilişki analizi yapılarak sınıflara ait ilişkisiz veya zayıf ilişkili alanlar(isim,tel,cinsiyet) kaldırılıyor. Son adımda, eş zamanlı genelleştirme yapılıyor. Genelleştirme neticesinde kişilerin yaşları ve başarı durumları kademelendirilmiştir.

21 Genelleştirme hedef sınıf ve çelişen sınıfa uygulandığında mezunların daha yaşlı ve mevcut öğrencilerden daha yüksek ortalamalara sahip oldukları görülüyor. Ayrıca karşılaştırmaları görselleştirebilmek için yüzde değerleri kullanılmıştır.