VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3.

Slides:



Advertisements
Benzer bir sunumlar
YAYIN TARAMA VE VERI TABANLARI Tacettin İnandı. Kapsam Veri tabanı Sınıflandırmalar İndeksler Atıflar.
Advertisements

BULUT BİLİŞİM GÜVENLİK VE KULLANIM STANDARDI M. Raşit ÖZDAŞ Huzeyfe ÖNAL Zümrüt MÜFTÜOĞLU Ekim 2013.
Özel Hastane Web Sitelerinin Sağlık Turizmi Kapsamında Analizi
KULLANILABİLİRLİK.  ‘Bir kapıyı açmasını öğrenemeyen insan bu dünyada ne diye yaşar bilmem ki…’ Aziz Nesin ‘ İSTANBUL’UN HALLERİ’
İŞLE 524 – İŞLE 531 Yönetim Muhasebesi
Veri Tabanı Yönetim Sistemleri Hafta 1. 2 Temel Kavramlar Veri Olguların, kavramların, veya talimatların, insan tarafından veya otomatik yolla iletişim,
VERİ MADENCİLİĞİ Dr. Tuğrul TAŞCI.
Türk Müşavir Mühendisler ve Mimarlar Birliği 11. Teknik Müşavirlik Kongresi Etkili Süreç Yönetimi ve Teknoloji Yönetim Yeteneği Dr. Ahmet Tunçay 28 Nisan.
İŞLE 524 – İŞLE 531 Yönetim Muhasebesi
MED 167 İnternette İstatistik. İnternetteki istatistik verileri, özellikle ülke hakkındaki makro istatistiklerden bahsediyorsak, çoğunlukla resmi kurumlardan.
Bilimsel bilgi Diğer bilgi türlerinden farklı
Stratejik Pazarlama 4. Hafta
Yüksek Başarımlı Hesaplama Sistemleri ve Yapılan Çalışmalar Züleyha EZBER
Veri Toplama ve Değerlendirme Sistemi Tanıtım Toplantısı.
İSTANBUL ESENYURT ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ İŞLETME ANABİLİMDALI YÖNETİM ve ORGANİZASYON CENK SOYER SÜREÇ YENİLEME DEĞİŞİM MÜHENDİSLİĞİ REENGINEERINGG.
SUNUCU İŞLETİM SİSTEMİ Öğr. Gör. Ümit ATİLA.  1980’li yıllardan günümüze geldikçe, bilgi toplumuna yönelişte teknolojik rota, telekomünikasyon ve iletişim.
Bağlam Arayüz Görev Kullanıcı Kullanılabilirliğin Ana Bileşenleri.
Performans ve Ücret Yönetimi Yrd. Doç. Dr. Özlem BALABAN
Zihinsel engellilerin sınıflandırılması
Literatür taramasının önemi  Daha önce neler yapıldığını çıkarmaya çalışmayan araştırmacılar alanlarında önemli katkı sağlama fırsatından yoksun kalırlar.
İÇİNDEKİLER GRID COMPUTING NEDİR? NASIL ÇALIŞIR? GRID COMPUTING YAPISI
İSTATİSTİK II BAĞIMSIZLIK TESTLERİ VE İYİ UYUM TESTLERİ “ c2 Kİ- KARE TESTLERİ “
Yazılım Mühendisliği1[ 3.hft ]. Yazılım Mühendisliği2 Yazılım İ sterlerinin Çözümlemesi Yazılım Yaşam Çevrimi “ Yazılım Yaşam çevrimin herhangi bir yazılım.
MUHASEBE VE FİNANSMAN ALANI 1-TANIMI VE KAPSAMI işletmelerin kuruluşu, faaliyetlerine ait belgelerin tasnifi, kayıt işlemleri, dosyalama ve arşivleme işlemleri,
ÇOK BOYUTLU SİNYAL İŞLEME
Pazarlama İlkeleri.
BASKETBOL TÜRKİYE TURU
İHRACAT DESTEK PROGRAMLARI
ÇAĞRI MERKEZİ CRM YAZILIMI İÇERİK ÖRNEĞİ
Emine Hoşoğlu doğan İstanbul şehir üniversitesi Eylül 2014
GELİŞİMLE İLGİLİ ARAŞTIRMA YÖNTEM VE TEKNİKLERİ
Üretim teknolojisi ve bilişim teknolojisindeki değişim
Öğr. Gör. Dr. İnanç GÜNEY Adana MYO
Proje Dosyası - Belgeleme - Raporlama
T.C MİLLİ EĞİTİM BAKANLIĞI TEMEL EĞİTİM GENEL MÜDÜRLÜĞÜ
ISO 9001:2015 standardı – 5. Maddenin Tanıtımı
ISTATİSTİK I FIRAT EMİR DERS II.
T- Testİ: ORTALAMALAR ARASI FARKLARIN TEST EDİLMESİ
ÜNİTE 1: FİNANS YÖNETİMİ.
SAĞLIK HİZMETLERİ ARZI
Ziyafet ve İkram Hizmetleri
Ürün veya Hizmet Satışı
MUHASEBEYE GİRİŞ Muhasebenin Tanımı Muhasebenin Türleri
ÜÇÜNCÜ BÖLÜM İÇ DENETİM VE İÇ KONTROL SİSTEMİ
SOSYAL MEDYA VE HALK KÜLTÜRÜ
ISO 9001:2015 standardı – 5. Maddenin Tanıtımı
Bilgi ve İletişim Teknolojileri
Bölüm 9 İş Yönetim Stratejileri : Rekabet Stratejileri
İŞLETME TÜRLERİ BÖLÜM 3.
Üretim ve Üretim Yönetimi Temel Bilgileri
STORAGE BÜŞRA KARADENİZ
Erdem Danyer 1,2* , N.Gamze YÖRÜK 2
Bölüm 4: Tarımsal ürünlerin pazarlama fonksiyonları
Bütünleşik Bir Hastane Bilgi Sisteminin Fonksiyonları
BENZETİM Prof.Dr.Berna Dengiz 13. Ders Çıktı Analizi
FI – Finansal Muhasebe Genel Sunumu
CİHANGİR MAHALLESİ YAPISAL RİSK ANALİZİ
Evren-Örneklem, Örnekleme Yöntemleri 2
ÖĞRENME STİLLERİ.
PERFORMANS KAVRAMI PERFORMANSIN BOYUTLARI
VERİTABANI YÖNETİM SİSTEMLERİ 3-Normalizasyon
Bilgi Teknolojileri Hafta 01
NİŞANTAŞI ÜNİVERSİTESİ
5.6 İKS Dokümantasyonu Her çiftçi için belli dokümanlar ve İKS seviyesinde tutulmalıdır. ( İKS Rehberi 5.6’da belirtildiği gibi) Bu kayıtlar hem iç hem.
Kesikli Olay benzetimi Bileşenleri
Sınıf Öğretmenlerinin Eğitsel Amaçlı İnternet Kullanım Öz Yeterlikleri
Bilimsel Araştırma Yöntemleri
İnsan Kaynakları Yönetiminin
Bilimsel araştırma türleri (Deneysel Desenler)
Bellek içi raporlama sistemleri için denormalizasyon uygulaması
Sunum transkripti:

VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI

Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 4 Veri Temizleme, İndirgeme, Bütünleştirme 5 Veri AmbarıKısa Sınav 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 7 Birliktelik Analizi HaftaKonu Başlığı 8 Sınıflandırma 9 Kümeleme 10 Ara Sınav 11 MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav

Veri Madenciliği Nedir?  Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir.

Veri Madenciliğinin Önemi  İşletmelerde verimlilik / karlılık artışı  Giderlerinin azaltılması  Zarar oluşmadan tahmin edip ortadan kaldırılması  Risk Yönetimi / Hilekarlık Tespiti  Bilimsel araştırmalarda hız ve etkinlik artışı  İnsansız sistemlerin gelişimine destek  Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme

Veri Kaynakları  Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar )  Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı )  İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri )  Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar )  Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler, Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar)  Uydu ve Haberleşme Sistemleri  Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları  Dijital Medya: Dijital resim, müzik ve videolar ( Filmler )  Dijital Kütüphaneler  Web Siteleri ve Mobil Uygulamalar  E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp  Tıbbi Kayıtlar ve Kişisel Veriler

Verilerle Ne Tür Uygulamalar Yapılabilir ? Karakterizasyon : Belli bir sınıfa ait karakteristik özellikler Ayrıştırma : Belli sınıfları birbirinden ayırmak Evrilme ve Sapma : Zamanla değişen verilerle ilgili yapılan çalışmalardır. Sınıflandırma : Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Kümeleme : Verilerin benzerliklerine göre gruplanması Tahmin : Bilinmeyen değerlerin tahmin edilmesi Aykırılık Analizi : Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi : Veriler arasındaki karşılıklı ilişkilerin analizi. Değişken Tespiti Görselleştirme Anlık ve grafiksel olarak keşfetme

Veri Ambarı (Data Warehouse)  Veri ambarı, çeşitli iç ve dış veri kaynaklarından elde edilen verilerin uygun dönüşümler yapılarak birleştirilmesiyle oluşturulan veri kaynağıdır.  Aktif veri kaynağı en son haliyle veri ambarına yansıtılır. Veri ambarına girmiş veriler üzerinde değişiklik yapılamaz.  Veri ambarı raporlama, analiz ve veri madenciliği amaçlı olarak kullanılır.  Veri ambarı, kritik kararlar için üst yöneticilere bilgi sağlayan karar destek sisteminin veri kaynağıdır.  Veri ambarı hedef yönelimlidir.  Veri ambarı belli bir konuyu analiz etmek üzere kullanılır.  ( Data Mart ) Satış verileri gibi.  Veri ambarı bütünleşiktir.  Veri ambarı farklı kaynakların birleştirilmesiyle elde edilir.  A ve B veri kaynaklarında belli bir ürünün öznitelikleri farklı olabilir, ancak veri ambarında bunlar tek olmalıdır.  Veri ambarının zaman boyutu vardır.  Tarihsel veriler veri ambarında tutulur.  Online sistemde müşterinin son adresi tutulurken, veri ambarında önceki adresleri de tutulur.  Veri ambarındaki veriler kalıcıdır. Veri ambarına giren bir veri değiştirilemez.

Veri Ambarı – Veri Kaynakları İç Veri Kaynakları  Kurumsal kaynak planlama sistemi  Envanter ve lojistik veritabanları  Çağrı merkezi verileri  Pazarlama ve kampanya verileri  Anketler  E-Ticaret sistemi ve Web sitesi erişim kayıtları  Kişisel veri kaynakları (Çalışanlar tarafından tutulan kayıtlar) Dış Veri Kaynakları  Siyasal, Ekonomik, Sosyal ve Demografik veriler  Rekabet ve pazar verileri  Coğrafi bilgi sistemleri  Diğer ulusal ve uluslararası istatistiki veriler (TÜİK)

Raporlama Veri Madenciliği OLAP Veri Ambarı – Geliştirme & Uygulama Süreçleri Veri Kaynakları ERP POS WEB Dış Veri … Seç Çıkar Dönüştür Birleştir Yükle Veri Ambarı Üretim Pazarlama … Finans API / Ara Yazılımlar ETL Erişim Uygulama

Meta Veri  Veri hakkında veri demektir.  Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür.  Kullanımına göre ikiye ayrılır:  İşletme Açısından Meta Veri : Verinin ne anlama geldiğini izah eder. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? sorularının cevabıdır.  Teknik Açıdan Meta Veri : Teknik personel için gerekli bilgilerin bulunduğu kütüktür.  Biçim, uzunluk, tanım aralığı, veritabanı  Bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları tutuluyor olsun.  Bu veriler veri ambarına aktarılırken ürün adedi ve birim fiyatı çarpılarak aktarılsın.  Meta Veri : MH1 = Müşteri 1. Ay Hasılatı, Yöntem= Fiyat * Adet, Pazarlama Data Martı Sipariş Tarihi Ürün Adedi Birim Fiyat MüşteriMH1MH2MH3 Mus Mus Mus

ETL (Extraction – Transformation – Loading) İşlemleri  Çıkarım (Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınması işlemidir.  Veri ambarının ilk oluşturulması sürecinde eski sistemlerdeki tüm veriler tümüyle veri ambarına aktarılır.  Aktarım işlemleri daha sonraki zamanlarda aktif sistemlerdeki verilerin güncellenmesine bağlı olarak yapılır.  Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir.  Dönüştürmedeki amaç, verilerin kalitesinin arttırılmasıdır. Tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve birleştirme yapılır.  Yükleme (Loading): Verilerin fiziksel olarak veri ambarına yüklenmesi işlemidir.

OLAP – OLTP (Online Analytical Processing – Online Transactional Processing)  Veri ambarı ile sağlanan veri kaynağı temelinde karar vermeye yardımcı olacak şekilde yapılan veri analizi ve sorgulama işlemlerine OLAP denir.  OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır.  OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır.  OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır.  OLTP tarzı veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir.  Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir.  Firmalar için günlük bütün işlem kayıtları ilişkisel tablolar halinde OLTP veri tabanlarında tutulur.  Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır.

OLAP – Temel Kavramlar  Küp : Herhangi bir OLAP veritabanı içinde kaydetme ve geri alma işlemleri için kullanılan temel veri yapısıdır.  Boyut : Bağımsız mantıksal bölümlerle veriyi organize etme bir yolunu sağlar.  Boyutu bir bilgi kategorisi gibi düşünmek uygundur.  Zaman, Yerleşim, Ürün  Eleman : Boyutun alt kategorisi olarak düşünülebilir.  Asya, Türkiye, İstanbul  Ölçü (Measure) : Analiz edilmek istenen verilerdir..  Satış sayısı, k â r, çalışan sayısı  Ölçü kendi başına anlam ifade etmeyen bir değerdir. Ancak boyutlarla kullanıldığında anlamlı hale gelir.  K â r = 300 | Asya 2015 K â rı 300  Öznitelik : Boyutun iç hiyerarşiye sahip olmayan bir özelliğidir. (Müşteri – Şehir)  Bu ilişki başka durumlarda da kullanılabilir. (Kıta – Ülke – Şehir, Şehir – Cinsiyet – Eğitim)

OLAP  Klasik raporlardan farklı olarak, OLAP ile kuruluşa ilişkin bilgiler hızlı ve etkileşimli bir şekilde incelenebilir.  OLAP, paylaşılan çok boyutlu bilginin hızlı analizi ( FASMI ) olarak da tanımlanır.  F ast (Hızlı)  A nalysis (Analiz)  S hared (Paylaşımlı)  M ultidimensional (Çok Boyutlu)  I nformation (Bilgi) Bir OLAP küpü üzerinde aşağıdaki işlemler yapılabilir:  Dice (Çevir)  Yer – Zaman  Ürün – Zaman  Slice (Dilimle)  Son 1 yılın verileri  Drill Up / Down (Birleştir / Detaylandır)  Yıl  Ay, Kıta  Ülke  Şehir

OLAP Tipleri  Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz.  İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur.  Hibrid OLAP (HOLAP): Açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir.

OLAP / OLTP Karşılaştırması KriterOLTPOLAP AmaçGünlük iş fonksiyonlarını yerine getirmek Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri kaynağı İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) RaporlamaRutin, periyodik, odaklanılmış raporlar Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Kaynak ihtiyaçlarıOlağan ilişkisel veri tabanları Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Sistem yönelimi Müşteri odaklıdır, işlemler ve sorgular IT personeli veya müşteriler tarafından yapılır. Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından kullanılır. TasarımVarlık-ilişki modeliYıldız, Kar Tanesi veya Galaksi modeli

İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme İstanbul Ankara İzmir Bursa Adana Beyaz Kaşar Tulum Labne Süzme Çok Boyutlu Veri Modeli – Veri Küpü

İki Boyutlu TabloÜç Boyutlu Tablo Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Ankara Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme Zamanİstanbul Satış Miktarları (Ton) Ürün BeyazKaşarTulumLabneSüzme

Yıldız & Kar Tanesi Şemaları Yıldız ŞemasıKar Tanesi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte Fact Tablosu Ölçü Boyutlar Bağlı Boyut

Galaksi Şeması OgrDers OgrID DersID Not Devam Ogrenci OgrID Ad Soyad Yas Ders DersID Ad Zorluk BolumID Bolum BolumID Ad Fakulte AktDers OgrID AktID Not Devam Aktivite AktID Tip  Yıldız Şeması her bir boyutu için geniş bir merkezi tablo ve ona bağlı küçük yardımcı tabloları (boyut tabloları) bulunduran şema tasarımıdır.  Kar Tanesi Şeması, yıldız şema modelinin bir çeşididir. Yıldız şemasına göre en önemli farklılık boyutların normalize değerlerden oluşmasıdır.  Galaksi Şeması, karmaşık uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulan tasarımdır. Fact Tablosu