Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliğine Giriş

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliğine Giriş"— Sunum transkripti:

1 Veri Madenciliğine Giriş
Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü

2 Gerekçe Veri patlaması
Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve türleri artmaktadır. Veri toplama araçları ve veri tabanı teknolojilerindeki gelişmeler, bilgi depolarında çok miktarda bilginin depolanmasını ve çözümlenmesini gerektirmektedir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

3 Çözüm Veri madenciliği
Bilgisayar teknolojilerindeki gelişmeler veri madenciliği yöntemleri ve programları büyük miktarlardaki verileri etkin ve verimli hale getirmektedir. Bilgi ve tecrübeyi birleştirmek için veri madenciliği konusunda geliştirilmiş yazılımların kullanılması gerekmektedir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

4 Provides both theoretical and practical coverage of all data mining topics.
Includes extensive number of integrated examples and figures. Offers instructor resources including solutions for exercises and complete set of lecture slides. Assumes only a modest statistics or mathematics background, and no database knowledge is needed. Topics covered include; predictive modeling, association analysis, clustering, anomaly detection, visualization. Pang-Ning Tan, Michigan State University, Michael Steinbach, University of Minnesota Vipin Kumar, University of Minnesota İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

5 Niçin Veri Madenciliği? (Bilimsel)
Hızla artan veri kayıtları (GB/saat). Otomatik istasyonlar, Uydu ve uzaktan algılama sistemleri, Teleskopla uzay taramaları, Gen teknolojisindeki gelişmeler, Bilimsel hesaplamalar, benzetimler, modeller Geleneksel eski tekniklerin ham verileri işlemede yetersiz kalması. Veri madenciliği bilim insanlarına yardım eder. Veri sınıflandırması ve gruplandırılması, Hipotezler oluşturma ve karar verme, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

6 Niçin Veri Madenciliği? (Ticari)
Çok fazla verinin depolanması(veri ambarı=warehouse) Web veri, e-ticaret, Büyük marketler, holdingler, … Bankalar, kredi kartları, Etkin ve ucuz bilgisayarların hızla gelişimi, Rekabet ve gücün önem arz etmesi, Asgari maliyetle azami kalitede müşteri hizmetleri, Müşteri memnuniyeti, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

7 Veri Madenciliğine Giriş
Veri depolanması, Veri seçimi, Veri hazırlanması, İşleme ve bütünleştirme, Yorumlama ve bilgiye dönüşüm, Fayda ve verimlilik. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

8 Veri Nedir? Sayılar, metinler, sesler, görüntülerdir,
Rasat parkında kayıt cihazında depolananlardır, Otomasyonda öğrenci kayıtlarıdır, Karar vermeye yarayan soyut simge dizileridir, …. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

9 Veritabanı Nedir? Birbiriyle ilişkili verilerin toplanması, depolanmasıdır, Belli bir amaç için verilerin toplanması ve tasarımıdır, Sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir, Hayatın bir göstergesidir, …. Veritabanının büyüklüğü ve karmaşıklığı değişebilir, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

10 Bilgi (Malumat) Nedir? Öğrenerek, deneyerek, araştırarak elde edilen her türlü sonuçlardır, Önceden belirlenen bir dizi sistematik kural ve işleyişe uygun bir biçimde elde edilen verilerdir, Sosyal varlık olan insanlar arasındaki iletişim sırasında paylaşılan, aktarılan ve yeniden şekillendirilen tecrübelerdir, Belirli bir durum, sorun, ilişki, teori veya kurala ait verilerdir, İçinde yaşadığımız dünyayı ve olayları yorumlamak ve yönetmek için uyguladığımız bir dizi anlayış, kavrayış ve genellemeler ile bize güçlü bir kavrayış ve bakış açısı kazandıran her türlü zihni faaliyettir, Sosyal olaylarda karşımıza çıkan eylem ve olayları anlamamıza yardım eden işaret ve kodlamalardır, İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

11 İncelenecek veri aralığı
Bilgi Nedir? Kurumlar terabyte büyüklüğünde veri depolarına sahiptirler Bunların çok azını amaçlarına uygun çözümleyebiliyorlar ??? Verilerimizin ne kadarını bilgiye dönüştürebiliyoruz ??? İncelenecek veri aralığı Toplam Bilgi deposu TB 1995 yılından itibaren depolanan veri Çözümlenen veri değişimi İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, Kaynak: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

12 VERİ MADENCİLİĞİ BİLGİSAYAR DESTEKLİ BİLGİ ÇÖZÜMLEME İŞLEMİDİR.
Yorumlar, Değerlendirmeler Veri Madenciliği Önceden bilinemeyen, verilerden potansiyel etkin bilgilerin çıkarılmasıdır, Çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler, değişiklikler, sapma ve eğilimler, belirli yapılar gibi ilginç bilgilerin ortaya çıkarılması ve keşfedilmesidir. VERİ MADENCİLİĞİ BİLGİSAYAR DESTEKLİ BİLGİ ÇÖZÜMLEME İŞLEMİDİR. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

13 Veri madenciliği değişik aşamaları
Veriler Veri seçimi Veri temizleme ve Yeniden işleme Raporlama Yorumlama Eğilimleri keşfetmek Veri madenciliği değişik aşamaları İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

14 Veri madenciliği değişik aşamaları
İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

15 Veri Madenciliği Nedir/Ne Değildir?
Veri Madenciliği değildir? Yıllıktan iklim değerlerine bakmak Telefon defterinden birinin telefonuna bakmak, Birinin internetten iklim hakkında bilgi alması, Veri Madenciliğidir? İstanbul’da hakim rüzgarın kuzey doğulu olduğunun bulunması, Meteoroloji öğrencilerinin internetten aynı kelimeyi aramaları, (Kuraklık, asit yağışları) İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

16 Veri Madenciliğine Bakış
Veri madenciliğinin üç farklı bakış açısı vardır: Veri tabanı bakış açısı, Makine öğrenim bakış açısı, İstatistiksel bakış açısı. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

17 Veri Madenciliğinin Kaynağı
Öğrenen makinelerle gidişat algılama, istatistik ve veritabanı sistemleri, Eski tekniklerin yetersizliği, Aşırı veri, Verilerde çok boyutluluk, Ham verilerdeki heterojen yapı, Öğrenen makineler / Eğilimleri algılama İstatistik Veri madenciliği Veri tabanları İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

18 Çok disiplinlilik Veri madenciliğinin, birçok disiplinle
çakışma noktaları vardır. Öğrenen makine Veri Madenciliği İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

19 Veri Madenciliğin işlevleri
Öngörme yöntemleri Bazı değişkenleri kullanarak, önceden bilinmeyen değerleri veya değişkenleri tahmin. Tanımlayıcı yöntemler Veriyi tanımlayan uzman görüşleri, yorumları. Kaynak: [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

20 Veri Madenciliğin işlevleri
Sınıflama Gruplama Eşleme Eğilimler İlişkiler Sapmalar İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

21 Sınıflama Yeni bir nesnenin, belirli sınıflar içinde hangi sınıfa ait olup olmadığını belirleyecek bir sınıflayıcı oluşturmaktır. Daha önceden sınıflandırılmış örnek takımları kullanarak, geniş çaplı olarak eldeki kayıtları sınıflayabilecek bir model geliştirmek yoluyla gerçekleştirilir. Bir defa etkin bir sınıflayıcı oluşturulunca, veriler kestirim modunda daha önceden oluşturulan bu sınıflara göre ayırılabilir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

22 Sınıflama İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

23 Sınıflama There could be more than one tree that fits the same data!
categorical categorical continuous class MarSt Single, Divorced Married NO Refund No Yes NO TaxInc < 80K > 80K NO YES There could be more than one tree that fits the same data! İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

24 Sınıflama Sky Survey Cataloging
Goal: To predict class (star or galaxy) of sky objects, especially visually faint ones, based on the telescopic survey images (from Palomar Observatory). 3000 images with 23,040 x 23,040 pixels per image. Approach: Segment the image. Measure image attributes (features) - 40 of them per object. Model the class based on these features. Success Story: Could find 16 new high red-shift quasars, some of the farthest objects that are difficult to find! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

25 Sınıflama Early Class: Attributes: Intermediate Late Data Size:
Courtesy: Early Class: Stages of Formation Attributes: Image features, Characteristics of light waves received, etc. Intermediate Late Data Size: 72 million stars, 20 million galaxies Object Catalog: 9 GB Image Database: 150 GB İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

26 GOES Cumulus Cloud Classification: Sample Result
Original GLRL Association Rules GLCM Expert Labeled Sobel Sobel + Laplacian Laplacian İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

27 Gruplama, Kümeleme Genellikle bölümleme sorunlarını çözmekte kullanılır. Bu yaklaşımla, birçok özellikleriyle varolan veri kayıtları, nispi olarak küçük gruplara ya da kümelere atanır. Bu süreç, otomatik olarak veri takımlarının ayırdedici karakteristiklerini tanımlayan ve bu özellikleriyle ortaya çıkan çok boyutlu uzay içinde ince bölmelerle birbirinden ayıran kümeleme algoritmaları ile gerçekleştirilir. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

28 Gruplama Intracluster distances are minimized Intercluster distances
Euclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

29 Eşleme Given a set of records each of which contain some number of items from a given collection; Produce dependency rules which will predict occurrence of an item based on occurrences of other items. Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice} İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

30 Eğilimler (A B) (C) (D E) (A B) (C) (D E)
Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events. Rules are formed by first discovering patterns. Event occurrences in the patterns are governed by timing constraints. (A B) (C) (D E) (A B) (C) (D E) <= ms <= xg >ng <= ws İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

31 İlişkiler Bir değişkenin diğer değişkenle olan ilişkisini doğrusal veya doğrusal modelleri kullanarak bulmak. Yapar ağ çalışmaları ve istatistik çalışmaları. Örnekler: Yıllara bağlı olarak meteorolojik parametrelerin ilişkisi Rüzgar hızlarını, sıcaklık, nem ve basınca bağlı olarak tahmin etmek. Piyasaya yeni çıkan bir ürünün reklam kampanyası ile olan ilişkisi. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

32 Sapmalar Normal davranışlardan olan sapmaları bulmak Uygulama: Afetler
Kredi kartı sahteciliğini tespit Şebekeye giren korsanları tespit Typical network traffic at University level may reach over 100 million connections per day İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

33 Veri Madenciliğinin Başarıları
Ölçeklenebilirlik Boyutluluk Karmaşık ve heterojen veri Veri kalitesi Veri sahipliği ve dağıtımı Veri korumacılığı Veri yayımcılığı İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

34 Veri madenciliği konusunda bol yazılım vardır…
Yazılımlar Veri madenciliği konusunda bol yazılım vardır… İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

35 Introduction to data mining
İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

36 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr

37 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, toros@itu.edu.tr

38 Meteorolojide veri madenciliği uygulamaları
İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

39 Possibilities for future improvements in meteorology
With model output approaching observational data (e.g. from satellite soundings) in resolution, the sheer size of the datasets means that data mining and data management will become equally important considerations in meteorological computing. In light of the decrease in density of surface and rawinsonde observations, new algorithms have to be developed to extract similarly accurate information from satellite data, for example about cloud type and distribution. Data management will become more global in nature, with some central archives storing a large number of numerical experiments from various institutions. These data need to have a sufficient amount of metadata attached and can then be conveniently retrieved by a WWW interface from anywhere. İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,

40 Reasons for Data Mining of Earth Science Data
Greatly increased data volume due to improvements in data collection/access/availability/storage technology (instruments, computational resources, internet…) Terra are about 1 terabyte per day - more than can be analyzed by conventional means High variability in data formats and content Need for high returns on expensive data investments Need for improved access/availability of data, information and knowledge Need for higher level products for the non-specialist and interdisciplinary/cross-domain researchers Questions/queries are getting more complex due, in part, to heterogeneous nature of the data İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT,


"Veri Madenciliğine Giriş" indir ppt

Benzer bir sunumlar


Google Reklamları