VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi.

Slides:



Advertisements
Benzer bir sunumlar
Unsupervised Learning (Kümeleme)
Advertisements

Elektronik ticarette güvenlik konusunda değerlendirilmesi gereken diğer bir konu da alıcıların elektronik ticaret sitelerinden alışveriş yapmak için vermek.
ÖLÇME VE DEĞERLENDİRME Temel Kavramlar
Hafta 01: Veri (Yrd.Doç.Dr. Levent AKSOY)
İstatistik Kavramı İstatistik; kesin olmayışlığın ışığı altında karar verme tekniğidir. Ana kitle hakkında örneklem yardımıyla tahmin çalışmalarıdır. Kitle.
Tanımlayıcı İstatistikler
Tıp alanında kullanılan temel istatistiksel kavramlar
Veri Madenciliği Temel Bilgiler
İstatistiksel Sınıflandırma
İstatistik Temel Kavramlarına Giriş
Bölüm 14 Stratejik Değerleme ve Kontrol
HAVAYOLU PAZARLAMASI, YOLCU TALEBİNİN ÖNEMİ VE TALEP TAHMİNİ

Veri madenciliği, günümüzde karar verme sürecine ihtiyaç duyulan bir çok alanda uygulanmaktadır
Kümeleme ve Yöntemleri Arş.Grv İlyas AKKUŞ İnönü Üniversitesi B.Ö.T.E
Endüstride Veri Madenciliği Uygulamaları Yrd. Doç. Dr. Ayhan Demiriz 28/2/2006.
Bilişim Sistemleri Mühendisliği nedir? Neden ihtiyaç vardır?
KOBİ’LER VE KOBİ’LERİN ORTAK ÖZELLİKLERİ
İ.İ.B.F. İngilizce İşletme Bölümü
MÜŞTERİ İLİŞKİLERİ YÖNETİMİ
Yapay Zeka Teknikleriyle Tıbbi Verilerin İşlenmesi: VERİ MADENCİLİĞİ
Kurumsal İçerik Yönetimi Kapsamında Bilgi Güvenliği
Örnekleme Yöntemleri Şener BÜYÜKÖZTÜRK, Ebru KILIÇ ÇAKMAK,
E- Ticaret Altyapısı.
Ölçme ve Değerlendirmede Temel Kavramlar
21 - ÖLÇME SONUÇLARI ÜZERİNE İSTATİSTİKSEL İŞLEMLER
Şahin BAYZAN Kocaeli Üniversitesi Teknik Eğitim Fakültesi
İŞLETME BİLİMİNE GİRİŞ
Veri Madenciliği Giriş.
DEĞİŞKEN TİPLERİ ve SPSS’ de VERİTABANI HAZIRLANMASI.
NEDEN İSTATİSTİK? 1.
Sıklık Tabloları ve Tek Değişkenli Grafikler
KISIM II Matematiksel Kavram ve Prosedürlerin Gelişimi BÖLÜM 21 Veri Analizi Kavramlarının Gelişimi.
Tanımlayıcı İstatistikler
ÖĞRENME AMAÇLARI İki değişken arasındaki “ilişki” ile neyin kastedildiğini öğrenmek Farklı yapıdaki ilişkileri incelemek Ki-kare analizinin uygulandığı.
Sayısal Tanımlayıcı Teknikler
ÖĞRENME AMAÇLARI Veri analizi kavramı ve sağladığı işlevleri hakkında bilgi edinmek Pazarlama araştırmalarında kullanılan istatistiksel analizlerin.
Bilişim Teknolojileri için İşletme İstatistiği
Pazarlama Ve Perakende Bölümü Alan Tanımı
İstatistik Bilimine Giriş
Bilişim Teknolojileri için İşletme İstatistiği
Veritabanı Yönetim Sistemleri
IMGK 207-Bilimsel araştırma yöntemleri
Kurumsal ve Gelişmiş Stratejik Planlama Çözümü.
Rassal Değişkenler ve Kesikli Olasılık Dağılımları
Bölüm 03 Sayısal Tanımlama Teknikleri
Veri Madenciligi . Sınıflandırma ve Regresyon Ağaçları ( CART )
İstatistik-4 Prof.Dr. Cem S. Sütcü Marmara Üniversitesi İletişim Fakültesi Bilişim A.B.D. cemsutcu.wordpress.com.
Bilişim Teknolojileri için İşletme İstatistiği Yrd. Doç. Dr. Halil İbrahim CEBECİ B.
Merve ORAKCI Gazi Üniversitesi Bilişim Enstitüsü ADLİ BİLİŞİM ABD.
VERİ MADENCİLİĞİ Dr. Tuğrul TAŞCI.
VERİ MADENCİLİĞİ Dr. Tuğrul TAŞCI.
VERİ MADENCİLİĞİ ISE 302 Dr. Tuğrul TAŞCI.
Analitik olmayan ortalamalar Bu gruptaki ortalamalar serinin bütün değerlerini dikkate almayıp, sadece belli birkaç değerini, özellikle ortadaki değerleri.
KURUMSAL BİLİŞİM SİSTEMLERİ
ANALİZE VERİ HAZIRLAMA SÜRECİ
Konum ve Dağılım Ölçüleri BBY252 Araştırma Yöntemleri Güleda Doğan.
Bekir Sami NALBANTOĞLU
Bölüm 4 : VERİ MADENCİLİĞİ
Bilimsel Araştırma Yöntemleri Örnekleme Yöntemleri
ARAŞTIRMA YÖNTEM ve TEKNİKLERİ
TEMEL BETİMLEYİCİ İSTATİSTİKLER
Veri Düzenleme Grafiksel Gösterimler ve Merkezi Eğilim Ölçüleri
VERİ MADENCİLİĞİ.
Hastane Bilgi Sistemlerinde Veri Madenciliği
Karar Ağaçları Destekli Vadeli Mevduat Analizi
Sunum transkripti:

VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI

Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 4 Veri Temizleme, İndirgeme, Bütünleştirme 5 Veri AmbarıKısa Sınav 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 7 Birliktelik Analizi HaftaKonu Başlığı 8 Sınıflandırma 9 Kümeleme 10 Ara Sınav 11 MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav

Veri Madenciliği Nedir?  Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.

Veri Madenciliğinin Önemi  İşletmelerde verimlilik / karlılık artışı  Giderlerinin azaltılması  Zarar oluşmadan tahmin edip ortadan kaldırılması  Risk Yönetimi / Hilekarlık Tespiti  Bilimsel araştırmalarda hız ve etkinlik artışı  İnsansız sistemlerin gelişimine destek  Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme

Veri Kaynakları  Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar )  Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı )  İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri )  Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar )  Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler, Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar)  Uydu ve Haberleşme Sistemleri  Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları  Dijital Medya: Dijital resim, müzik ve videolar ( Filmler )  Dijital Kütüphaneler  Web Siteleri ve Mobil Uygulamalar  E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp  Tıbbi Kayıtlar ve Kişisel Veriler

Verilerle Ne Tür Uygulamalar Yapılabilir ?  Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler  Ayda 30 kezden daha fazla alışveriş yapan müşteri sınıfı  Ayrıştırma : Belli sınıfları birbirinden ayırmak  30’dan fazla alışveriş yapanlar ile 5’ten az alış veriş yapanların ayrımı  Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır.  Evrilme analizi sonucunda karakterizasyon, karşılaştırma, sınıflandırma ve kümeleme ile ilgili çalışmalara zemin oluşturacak eğilimler tespit edilir.  Sapma analizinde, ölçülen değerler ile beklenen değerler arasındaki farkların incelenir, ve beklentilerden neden sapma olduğu tespit edilir.  Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir.  Örneğin bir banka müşterilerini karlı, normal, riskli gibi gruplara ayırıp ürün pazarlamasını buna göre yapmak isteyebilir.

Verilerle Ne Tür Uygulamalar Yapılabilir ?  Kümeleme : Verilerin benzerliklerine göre gruplanması  Tahmin : Eldeki verilerin benzer özniteliklerine göre bilinmeyen değerlerin tahmin edilmesi ya da yeni bir verinin özniteliklerine göre daha önce belirlenmiş sınıflardan hangisine girebileceğinin belirlenmesi  Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi  Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi. Özellikle market sepet analizinde kullanılır.  Değişken Tespiti  Görselleştirme  Kredi kartı işlemleri şüpheli olan kişilerin ev sahipliği durumu, yaş, meslek ve gelir bilgilerini anlık ve grafiksel olarak keşfetme

Veri Madenciliği Uygulamaları ( Sektörel )  Müşteri İlişkileri Yönetimi - Satış - Pazarlama:  Müşterilerin satın alma davranışlarının belirlenmesi,  Promosyon kampanyalarında cevap verme oranının tahmini ve artırılması,  Eski müşterileri inceleyerek iyi yeni müşteri profilinin çıkarılması  Yeni ürün ve hizmetlerin karlılık üzerindeki etkisi ne olacak?  Hangi ürün promosyonlarının karlılık üzerindeki etkisi en yüksek?  En iyi dağıtım kanalı hangisi?  Müşteri kayıp analizi ve bunun sebeplerinin ortaya çıkarılması  Çapraz satış ve üst kategori ürün satışı (Süt – Çocuk bezi)

Veri Madenciliği Uygulamaları ( Sektörel )  Tıp  Klinik testler ile hastalıkların erken teşhisi  Hastalıkların teşhisi için görüntü analizi  Semptomlar ve hastalıklar arasındaki ilişkilerin keşfi  Eczacılık  Yeni ilaçların belirlenmesi  Eczane açılabilecek yerlerin tespit edilmesi  Bilimsel veri analizi  Alt galaksi kümelerinin incelenip yeni galaksilerin tespit edilmesi  Keşfedilen yeni canlı türlerinin sınıflandırılması

Veri Madenciliği Uygulamaları ( Sektörel )  Bankacılık ve Sigortacılık  Kredi kartı ve sigorta dolandırıcılıklarının tespiti,  Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi,  Kredi skoru hesaplama  Yeni sigorta poliçesi talep edecek müşterilerin tahmin edilmesi,  Web Madenciliği  Yeni satış stratejileri belirlenmesi  Belli ürün grupları için uygun müşteri profilinin çıkarılması  Müşterilerin satın alma davranışlarının öğrenilmesi  Müşterilerin uygulama kullanma deneyimlerine göre web sitelerinin özelleştirilmesi

Veri Madenciliği Uygulamaları ( Sektörel )  Güvenlik ve Hukuk  Suç ve terörizm ile ilgili örüntülerin tespit edilmesi  Biyolojik ve kimyasal saldırıların tespiti ve ortadan kaldırılması  Bilgi altyapısına yönelik kötü niyetli atakların tespiti ve durdurulması  Eğlence  Prime-time’da gösterilecek programlara ve reklamlara nerede yer verilmesi gerektiğine karar verilmesi  Filmlerin finansal başarısının tahmini  Seyahat  Farklı hizmetlerin (uçak bilet tipleri, oda tipleri, araç kiralama) satış tahmini  En karlı müşterilerin tespiti ve özelleştirilmiş hizmetlerin sağlanması

Veri Madenciliği Uygulamaları ( Sektörel )  Bilişim Sistemleri  İstenmeyen web içerikleri ve mesajların belirlenmesi ve filtrelenmesi  Bilgisayar ağ güvenlik köprülerinin tespiti ve korunması  Borsa ve Menkul Kıymetler  Belirli hisse fiyatlarının ne kadar ve ne zaman değişeceğinin tahmini  Sermaye dalgalanmalarının yönü ve oranının tahmini  Bazı olaylar ve konuların pazardaki hareketliliğe etkisinin değerlendirilmesi  Menkul kıymetler ticaretindeki şüpheli aktivitelerin tespiti ve önlenmesi  Perakendecilik ve Lojistik  Market-sepet analizi  Lojistik optimizasyonu için farklı ürün tiplerine ait tüketim seviyelerinin tahmini  Tedarik zincirindeki ilginç örüntülerin keşfi

Bilgi Keşfi Süreci ve Veri Madenciliği

Veri Madenciliği Sürecindeki Zorluklar  Problemin doğru tespiti  Yüksek Boyut  Karmaşık ve Düzensiz Veri  Farklı ve uyumsuz veri kaynaklarından gelen verilerin birleştirilmesi  Veri Kalitesi  Tekrarlı, geçersiz, eksik veri, veri tipinin yanlış seçimi, örneklemenin yanlış yapılması  Gizliliğin Korunması  Veri Akışı  Sürekli yeni veri gereksinimi  Etkin Yöntemler  Büyük miktarda verilerden anlamlı bilgi çıkarmak için etkin yöntemlere olan gereksinim  Karmaşık Uygulama Yazılımları

Veri Madenciliği Uygulama Araçları  IBM SPSS Modeler / Clementine  IBM DB2 Intelligent Miner  IBM Cognos BI  Oracle Data Mining  Microsoft Analysis Services  Microsoft SharePoint  SAP Business Objects, BI  R, MATLAB, SCILAB, Mathematica  Selford Systems  Viscovery  Statistica Data Miner  Orange  KNIME  Weka  DataMinerXL  XLMiner  SQL Server Data Mining Add-ins for MSOffice

Veri Seti Tipleri  Kayıtlar  İlişkisel kayıtlar, Çapraz kayıtlar, Metin, İşlemler  Çoklu Ortam Verileri  Ses, Resim, Video  Web ve Sosyal Ağlar  Site İçerikleri, Sosyal Ağ Profil Bilgileri, Paylaşımlar  Sıralanmış Veri Setleri  Zaman serileri, Sıralı işlem Verileri, Genetik Kod Dizileri  Konum Verileri  Haritalar ve GPS verileri  Alana Özel Veriler  Dil, Kimya, Tıp, Jeoloji vb.

Veri Matrisi  Matris çok boyutlu uzayda bir nokta olarak düşünülebilir.  Veri çoğunlukla n×d boyutundaki bir matrisle temsil edilir.  n verinin miktarını, d ise boyutsallığını temsil eder.  Satırlar veri setindeki kayıtları, sütunlar ise verinin kullanılabilecek özelliklerini gösterir. KişiYaşKiloBoyCinsiyet K Erkek K Bayan K Erkek K Bayan K Erkek K Bayan K Erkek K Bayan K Bayan

İlişkisel Veri

İşlem Verisi & Sıralı Veri İşlem VerisiSıralı Veri (A B) (D) (C E) (B D) (C) (E) (C D) (B) (A E) (D E) (A) (C) Müşteriİşlem M01Ekmek, peynir, süt M02Sigara, çakmak M03Ekmek, çikolata M04Yoğurt, Sucuk, Mısır M05Un, nişasta M06Yağ, şeker M07Çay

Metin Verisi Uluslararası hakemli dergilerde yayınlanan makaleler Tasci T., Oz C. (2014), "A Closer Look to Probabilistic State Estimation – Case: Particle Filtering", Optoelectronics & Advanced Materials – Rapid Communications, Vol. 8(5-6), pp. 521 – 534. Tasci T., Parlak Z., Kibar A., Tasbasi N. &, Cebeci H.I. (2014), " A Novel Agent-Supported Academic Online Examination System", Educational Technology & Society, Vol.17 (1), pp. 154 – 168. Uluslararası Diğer Hakemli Dergilerde Yayınlanan Makaleler Hiziroglu K., Tasci T. & Ozcelik T. O. (2012), "Analysis of Current Occupational Health and Safety Situation and Needs of SMEs in Turkey", Journal of Labor Relations, Vol. 3(2), pp. 66 – 89. Uluslararası Bildiriler Yolcu G., Oz C. & Tasci T., "Developing and Establishing a Painting Program Controlled by Hand Motions Using Kinect", 2nd International Symposium On Innovative Technologies In Engineering And Science (ISITES), Karabuk University, June 18-20, 2014, Karabuk, Turkey. Tasci T., Tasbasi N., Velichkov A., Kloos U. & Tullius G., "A Comparative Evaluation of Two 3D Optical Tracking Systems",JVRC Joint Virtual Reality Conference of ICAT - EGVE - EuroVR, October 17-19,2012, Madrid, Spain Ulusal hakemli dergilerde yayınlanan makaleler Ulusal bilimsel toplantılarda sunulan ve bildiri kitabında basılan bildiriler Tasci, T., Goksu A. & Kantoglu B., "E-Dönüşümde Bilgi ve İletişim Teknolojilerinin Kullanımı", Akademik Bilişim Konferansı, February 11-13, 2004, Trabzon, Turkey Diğer Yayınlar Tuğrul TAŞCI "Temel Bilgi Teknolojisi Kullanımı - İşletim Sistemleri",Sakarya Üniversitesi, , Gen Dizisi Verisi

Infografik VerisiHarita ve Konum Verisi

Resim & Video Verisi Resim VerisiVideo Verisi Kare 65Kare 70

Tıbbi & Kimyasal Veri Tıbbi Veri (MR)Kimyasal Veri

Değişken Tipleri  Nominal (Kategorik)  Ordinal (Sıralı)  Interval (Aralık)  Ratio (Oran)  Continuous (Sürekli)  Discrete (Kesikli)

Kesikli & Sürekli Değişken Kesikli (Discrete) Değişken  Sadece sayılabilir değerler alan değişkenler.  Çok fazla olası değer alan değişkenler:  Bir gündeki şikayet sayısı  Hane halkını sahip oldukları telefon sayısı  Telefon açılmadan önce çalma sayısı  İki değer alan değişkenler:  Cinsiyet: Kız veya Erkek  Sorunlu Parça: Evet veya Hayır Sürekli (Continuous) Değişken  Sürekli (sayılamayan) değerler alan değişkenler.  Bir parçanın kalınlığı  Bir işi tamamlamak için geçen süre  Solüsyonun ısısı  Ağırlık  Ölçümlerin doğruluk ve hassasiyetlerine bağlı olarak herhangi bir değer alabilirler.

Kategorik & Sıralı Değişken Kategorik (Nominal) Değişken  Sayısal büyüklük ifade etmeyen kategorik veri. Nominal değişkenler sadece niteliksel sınıflandırmalarda kullanılırlar. Bu değişkenlerin ölçümü ve sıralanması mümkün değildir.  İnsanların medeni hali, cinsiyeti, mesleği, göz rengi buna örnek olarak gösterilebilir. Sıralı (Ordinal) Değişken  Bu değişken ölçülen değerlerin birbirlerine göre büyüklüklerini belirleyen ancak bir değişkenin diğerinden ne kadar büyük ya da küçük olduğunu ifade edemeyen değişkenlerdir.  Rütbe, derece, yükseklik (uzun, orta, kısa) gibi sıralı verileri içerir.

Aralık & Oran Değişken Aralık (Interval) Değişken  Sıcaklık, başarı, performans gibi niceliksel değişkenleri ölçmek için kullanılır. Aralık ölçeğinin oran ölçeğinden temel farkı bir başlangıç noktasının bulunmamasıdır. Diğer bir ifade ile “0” değeri aralık ölçeğinde yokluk ifade etmez. Örneğin termometrede görülen “0°C” belirli bir anlam taşır. Oran (Ratio) Değişken  Ratio değişkenler interval değişkenlere benzerler, interval değişkenlerin özelliklerine ek olarak, tanımlanabilen bir sıfır noktasına sahiplerdir, böylece “X Y’den 2 kat daha fazladır” gibi ifadeler de kullanabiliriz. Aylık gelir, ağırlık, uzunluk, hız gibi değişkenleri ölçmek için kullanılır. Bu ölçekte başlangıç “0” noktasıdır.

Veriyi Anlama – Görsel Teknikler  Nominal Veri  Frekans Dağılımı  Sütun Grafikleri  Pasta diyagramı  Pareto diyagramı  Nümerik Veri  Çizgi Grafikleri  Frekans Dağılımı  Histogram ve Ogive  Stemplot Diyagramı  Serpilme Diyagramı DepartmanSayıOran Muhasebe Finans Yönetim Satış Diğer Toplam253100

Veriyi Anlama – Görsel Teknikler  Nominal Veri  Frekans Dağılımı  Sütun Grafikleri  Pasta diyagramı  Pareto diyagramı  Nümerik Veri  Çizgi Grafikleri  Frekans Dağılımı  Histogram ve Ogive  Stemplot Diyagramı  Serpilme Diyagramı

Veriyi Anlama – Sayısal Teknikler Merkezi Eğilim Ölçütleri: Ortalama :  Basit şekli ile bütün gözlem değerlerinin toplam gözlem adedine bölünmesi ile hesaplanır. Aykırı değerlerden çok etkilenir. Medyan :  Sıralı veri setlerindeki ortanca değerdir. Aykırı değerlerden daha az etkilenir. Mod :  Bir veri setinde en çok tekrarlanan değerdir. Ancak veri seti çok büyükse anlamlıdır. Değişkenlik Ölçütleri: Değişim Aralığı:  Veri setinin dağıldığı aralıktır. (Max-Min). Varyans:  Gözlenen değer ile beklenen değer arasındaki farktır.  Standart Sapma:  Varyansın ortalama düzeyine normalleştirilmiş halidir. Doğrusal İlişki Ölçütleri: Kovaryans:  İki değişkenin birlikte değişme derecesini gösterir. Korelasyon Katsayısı:  Kovaryans değerinin -1 ile +1 arasında normalleştirilmiş halidir.

Veri Kalitesi  Verinin kalitesi temelde aşağıdaki üç etkenle belirlenir.  Gürültü ve aykırı değerler  Kayıp değerler  Veri tekrarı 31

Veri Kalitesi / Gürültü  Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültülü denir  Kullanıcı tarafından sisteme verilerin yanlış girilmesi, ölçüm yönteminin yanlış seçilmesi veya doğru uygulanamaması sonucunda ortaya çıkar.  Ancak günümüzde kullanılan ilişkisel veri tabanları bu tip hataların olasılıkları oldukça azalmaktadır. 32

Veri Kalitesi / Aykırı Değer  Veri kümesinde, diğer nesnelerden ciddi şekilde farklı olan veri nesnelerinin gösterdiği karakteristiktir. 33

Veri Kalitesi / Eksik Değer  Kayıp (Eksik) değerler için çeşitli sebepler vardır:  Bilgi toplanamaması (Örn., insanlar yaşları ve kiloları ile ilgili bilgi vermeyi istemezler)  Öznitelikler bütün durumlar için uygun olmayabilir (Örn., yıllık gelir çocuklar için uygun değildir)  Kayıp değerlerle mücadele  Eksik kayıtların dikkate alınmaması  Kayıp değerler yerine tahminlerinin yerleştirilmesi  Analizler müsaade ediyorsa eksik değerlerin es geçilmesi 34

Veri Kalitesi / Tekrar Eden Veri  Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen tamamen diğerine eşittir  Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde meydana gelir.  Aynı kişiye ait birden fazla mail adresinin bulunması  Çözüm:  Veri temizleme (Tekrar eden verilerin islenmesi ile ilgili bir prosestir.) 35

Elde Edilen Kirli Veri & Nedenler  Eksik: Bazı nitelik değerleri girilmemiş.  Meslek = “ ”  Gürültülü: Mantıksal hatalar var.  Maaş= “-10”  Tutarsız: Nitelik değerleri veya isimleri uyumsuz.  Yaş= “35”, Doğum tarihi: “03/10/2004”  Önceki oylama değerleri: “1,2,3”, yeni oylama değerleri: “A,B,C”  Bir kaynakta nitelik değeri ‘ad’, diğerinde ‘isim’  Eksik veri kayıtlarının nedenleri  Veri toplandığı sırada bir nitelik değerinin elde edilememesi, bilinmemesi  Veri toplandığı sırada bazı niteliklerin gerekliliğinin göru ̈ lememesi  İnsan, yazılım ya da donanım problemleri  Hatalı veri kayıtlarının nedenleri  Hatalı veri toplama gereçleri  İnsan, yazılım ya da donanım problemleri  Veri iletimi sırasında problemler  Tutarsız veri kayıtlarının nedenleri  Verinin farklı veri kaynaklarında tutulması  İşlevsel bağımlılık kurallarına uyulmaması 36