Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü

Benzer bir sunumlar


... konulu sunumlar: "Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü"— Sunum transkripti:

1 Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü

2 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 2 Gerekçe Veri patlaması Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve türleri artmaktadır. Veri toplama araçları ve veri tabanı teknolojilerindeki gelişmeler, bilgi depolarında çok miktarda bilginin depolanmasını ve çözümlenmesini gerektirmektedir.

3 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 3 Çözüm Veri madenciliği Bilgisayar teknolojilerindeki gelişmeler veri madenciliği yöntemleri ve programları büyük miktarlardaki verileri etkin ve verimli hale getirmektedir. Bilgi ve tecrübeyi birleştirmek için veri madenciliği konusunda geliştirilmiş yazılımların kullanılması gerekmektedir.

4 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 4 Provides both theoretical and practical coverage of all data mining topics. Includes extensive number of integrated examples and figures. Offers instructor resources including solutions for exercises and complete set of lecture slides. Assumes only a modest statistics or mathematics background, and no database knowledge is needed. Topics covered include; predictive modeling, association analysis, clustering, anomaly detection, visualization. Pang-Ning Tan, Michigan State University, Michael Steinbach, University of Minnesota Vipin Kumar, University of Minnesota

5 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 5 Niçin Veri Madenciliği? (Bilimsel) Hızla artan veri kayıtları (GB/saat). –Otomatik istasyonlar, –Uydu ve uzaktan algılama sistemleri, –Teleskopla uzay taramaları, –Gen teknolojisindeki gelişmeler, –Bilimsel hesaplamalar, benzetimler, modeller Geleneksel eski tekniklerin ham verileri işlemede yetersiz kalması. Veri madenciliği bilim insanlarına yardım eder. –Veri sınıflandırması ve gruplandırılması, –Hipotezler oluşturma ve karar verme,

6 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 6 Niçin Veri Madenciliği? (Ticari) Çok fazla verinin depolanması (veri ambarı=warehouse) –Web veri, e-ticaret, –Büyük marketler, holdingler, … –Bankalar, kredi kartları, –Etkin ve ucuz bilgisayarların hızla gelişimi, Rekabet ve gücün önem arz etmesi, –Asgari maliyetle azami kalitede müşteri hizmetleri, –Müşteri memnuniyeti,

7 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 7 Veri Madenciliğine Giriş Veri depolanması,Veri depolanması, Veri seçimi,Veri seçimi, Veri hazrlanması,Veri hazırlanması, İşleme ve bütünleştirme,İşleme ve bütünleştirme, Yorumlama ve bilgiye dönüşüm,Yorumlama ve bilgiye dönüşüm, Fayda ve verimlilik.Fayda ve verimlilik.

8 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 8 Veri Nedir? Sayılar, metinler, sesler, görüntülerdir, Rasat parkında kayıt cihazında depolananlardır, Otomasyonda öğrenci kayıtlarıdır, Karar vermeye yarayan soyut simge dizileridir, ….

9 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 9 Veritabanı Nedir? Birbiriyle ilişkili verilerin toplanması, depolanmasıdır, Belli bir amaç için verilerin toplanması ve tasarımıdır, Sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir, Hayatın bir göstergesidir, …. Veritabanının büyüklüğü ve karmaşıklığı değişebilir,

10 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 10 Bilgi (Malumat) Nedir? Öğrenerek, deneyerek, araştırarak elde edilen her türlü sonuçlardır, Önceden belirlenen bir dizi sistematik kural ve işleyişe uygun bir biçimde elde edilen verilerdir, Sosyal varlık olan insanlar arasındaki iletişim sırasında paylaşılan, aktarılan ve yeniden şekillendirilen tecrübelerdir, Belirli bir durum, sorun, ilişki, teori veya kurala ait verilerdir, İçinde yaşadığımız dünyayı ve olayları yorumlamak ve yönetmek için uyguladığımız bir dizi anlayış, kavrayış ve genellemeler ile bize güçlü bir kavrayış ve bakış açısı kazandıran her türlü zihni faaliyettir, Sosyal olaylarda karşımıza çıkan eylem ve olayları anlamamıza yardım eden işaret ve kodlamalardır,

11 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 11 Bilgi Nedir? İncelenecek veri aralığı 1995 yılından itibaren depolanan veri Çözümlenen veri değişimi Kurumlar terabyte büyüklüğünde veri depolarına sahiptirler Bunların çok azını amaçlarına uygun çözümleyebiliyorlar ??? Verilerimizin ne kadarını bilgiye dönüştürebiliyoruz ??? Toplam Bilgi deposu TB Kaynak: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

12 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 12 Yorumlar, Değerlendirmeler Veri Madenciliği Ç ok b ü y ü k veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler, değişiklikler, sapma ve eğilimler, belirli yapılar gibi ilgin ç bilgilerin ortaya ç ıkarılması ve keşfedilmesidir. Önceden bilinemeyen, verilerden potansiyel etkin bilgilerin çıkarılmasıdır, VER İ MADENC İ L İĞİ B İ LG İ SAYAR DESTEKL İ B İ LG İ ÇÖZÜMLEME İŞ LEM İ D İ R.

13 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 13 VerilerVeri seçimi Veri temizleme ve Yeniden işleme Raporlama Yorumlama Eğilimleri keşfetmek Veri madenciliği değişik aşamaları

14 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 14 Veri madenciliği değişik aşamaları

15 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 15 Veri Madenciliği Nedir/Ne Değildir? l Veri Madenciliğidir? – İstanbul’da hakim rüzgarın kuzey doğulu olduğunun bulunması, – Meteoroloji öğrencilerinin internetten aynı kelimeyi aramaları, (Kuraklık, asit yağışları) l Veri Madenciliği değildir? – Yıllıktan iklim değerlerine bakmak –Telefon defterinden birinin telefonuna bakmak, – Birinin internetten iklim hakkında bilgi alması,

16 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 16 Veri Madenciliğine Bakış Veri madenciliğinin üç farklı bakış açısı vardır: Veri tabanı bakış açısı, Makine öğrenim bakış açısı, İstatistiksel bakış açısı.

17 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 17 Eski tekniklerin yetersizliği, –Aşırı veri, –Verilerde çok boyutluluk, –Ham verilerdeki heterojen yapı, Veri Madenciliğinin Kaynağı Öğrenen makineler / Eğilimleri algılama İstatistik Veri madenciliği Veri tabanları Öğrenen makinelerle gidişat algılama, istatistik ve veritabanı sistemleri,

18 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 18 Çok disiplinlilik Veri madenciliğinin, birçok disiplinle çakışma noktaları vardır. Öğrenen makine Veri Madenciliği

19 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 19 Veri Madenciliğin işlevleri Öngörme yöntemleri –Bazı değişkenleri kullanarak, önceden bilinmeyen değerleri veya değişkenleri tahmin. Tanımlayıcı yöntemler –Veriyi tanımlayan uzman görüşleri, yorumları. Kaynak: [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

20 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 20 Sınıflama Gruplama Eşleme Eğilimler İlişkiler Sapmalar Veri Madenciliğin işlevleri

21 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 21 Sınıflama Yeni bir nesnenin, belirli sınıflar içinde hangi sınıfa ait olup olmadığını belirleyecek bir sınıflayıcı oluşturmaktır. Daha önceden sınıflandırılmış örnek takımları kullanarak, geniş çaplı olarak eldeki kayıtları sınıflayabilecek bir model geliştirmek yoluyla gerçekleştirilir. Bir defa etkin bir sınıflayıcı oluşturulunca, veriler kestirim modunda daha önceden oluşturulan bu sınıflara göre ayırılabilir.

22 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 22 Sınıflama

23 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 23 categorical continuous class MarSt Refund TaxInc YES NO Yes No Married Single, Divorced < 80K> 80K There could be more than one tree that fits the same data! Sınıflama

24 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 24Sınıflama Sky Survey Cataloging –Goal: To predict class (star or galaxy) of sky objects, especially visually faint ones, based on the telescopic survey images (from Palomar Observatory). –3000 images with 23,040 x 23,040 pixels per image. –Approach: Segment the image. Measure image attributes (features) - 40 of them per object. Model the class based on these features. Success Story: Could find 16 new high red-shift quasars, some of the farthest objects that are difficult to find! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

25 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 25 Sınıflama Early Intermediate Late Data Size: 72 million stars, 20 million galaxies Object Catalog: 9 GB Image Database: 150 GB Class: Stages of Formation Attributes: Image features, Characteristics of light waves received, etc. Courtesy:

26 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 26 GOES Cumulus Cloud Classification: Sample Result OriginalGLRLAssociation RulesGLCM Expert LabeledSobelSobel + LaplacianLaplacian

27 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 27 Gruplama, Kümeleme Genellikle bölümleme sorunlarını çözmekte kullanılır. Bu yaklaşımla, birçok özellikleriyle varolan veri kayıtları, nispi olarak küçük gruplara ya da kümelere atanır. Bu süreç, otomatik olarak veri takımlarının ayırdedici karakteristiklerini tanımlayan ve bu özellikleriyle ortaya çıkan çok boyutlu uzay içinde ince bölmelerle birbirinden ayıran kümeleme algoritmaları ile gerçekleştirilir.

28 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 28 Gruplama xEuclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intracluster distances are minimized Intercluster distances are maximized Intercluster distances are maximized

29 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 29 Eşleme Given a set of records each of which contain some number of items from a given collection; –Produce dependency rules which will predict occurrence of an item based on occurrences of other items. Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice} Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Fruit juice}

30 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 30 Eğilimler Given is a set of objects, with each object associated with its own timeline of events, find rules that predict strong sequential dependencies among different events. Rules are formed by first discovering patterns. Event occurrences in the patterns are governed by timing constraints. (A B) (C) (D E) <= ms <= xg >ng<= ws (A B) (C) (D E)

31 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 31 İlişkiler Bir değişkenin diğer değişkenle olan ilişkisini doğrusal veya doğrusal modelleri kullanarak bulmak. Yapar ağ çalışmaları ve istatistik çalışmaları. Örnekler: –Yıllara bağlı olarak meteorolojik parametrelerin ilişkisi –Rüzgar hızlarını, sıcaklık, nem ve basınca bağlı olarak tahmin etmek. –Piyasaya yeni çıkan bir ürünün reklam kampanyası ile olan ilişkisi.

32 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 32 Sapmalar Typical network traffic at University level may reach over 100 million connections per day Normal davranışlardan olan sapmaları bulmak Uygulama: –Afetler –Kredi kartı sahteciliğini tespit –Şebekeye giren korsanları tespit

33 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 33 Veri Madenciliğinin Başarıları Ölçeklenebilirlik Boyutluluk Karmaşık ve heterojen veri Veri kalitesi Veri sahipliği ve dağıtımı Veri korumacılığı Veri yayımcılığı

34 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 34 Yazılımlar Veri madenciliği konusunda bol yazılım vardır…

35 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 35 Introduction to data mining

36 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 36

37 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 37

38 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 38 Meteorolojide veri madenciliği uygulamaları

39 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 39 Possibilities for future improvements in meteorology With model output approaching observational data (e.g. from satellite soundings) in resolution, the sheer size of the datasets means that data mining and data management will become equally important considerations in meteorological computing. In light of the decrease in density of surface and rawinsonde observations, new algorithms have to be developed to extract similarly accurate information from satellite data, for example about cloud type and distribution. Data management will become more global in nature, with some central archives storing a large number of numerical experiments from various institutions. These data need to have a sufficient amount of metadata attached and can then be conveniently retrieved by a WWW interface from anywhere.rawinsondemetadata WWW

40 İTÜ Uçak ve Uzay Bilimleri Fakültesi, Meteoroloji Mühendisliği Bölümü, HT, 40 Reasons for Data Mining of Earth Science Data Greatly increased data volume due to improvements in data collection/access/availability/storage technology (instruments, computational resources, internet…) –Terra are about 1 terabyte per day - more than can be analyzed by conventional means High variability in data formats and content Need for high returns on expensive data investments Need for improved access/availability of data, information and knowledge Need for higher level products for the non-specialist and interdisciplinary/cross-domain researchers Questions/queries are getting more complex due, in part, to heterogeneous nature of the data


"Veri Madenciliğine Giriş Öğr.Gör.Dr. Hüseyin TOROS İTÜ Uçak ve Uzay Bilimleri Fakültesi Meteoroloji Mühendisliği Bölümü" indir ppt

Benzer bir sunumlar


Google Reklamları