Veri Madenciliği Veri Ambarları.

Slides:



Advertisements
Benzer bir sunumlar
Verİ AmbarI Ve Olap Teknolojİsİ
Advertisements

Veri Madenciliği Veri Ambarları.
“ UFRS İLE UYUMLU FİNANSAL RAPORLAMA ÜZERİNE BAZI GÖZLEMLER: TÜRK VE AVRUPA SİGORTA ŞİRKETLERİ ” Dr. Can Öztürk 1 Ankara, 6-7 Haziran.
Veri Tabanı Yönetim Sistemleri Hafta 1. 2 Temel Kavramlar Veri Olguların, kavramların, veya talimatların, insan tarafından veya otomatik yolla iletişim,
Beşinci hafta. Müfredat programı Ödev teslim Projelerini teslim edenler; Belediye Projesi -> Tamam Ulaşım Projesi -> Geldi ama kavramsal tasarım yerine.
BİYOÇEŞİTLİLİK NEDİR Biyoçeşitlilik, bir bölgedeki genlerin, türlerin, ekosistemlerin ve ekolojik olayların oluşturduğu bir bütündür. Başka bir deyişle.
Uzaktan Eğitim Sürecinde Materyal Ortam ve Teknoloji Tasarımı Yusuf DOĞANAY.
VERİ MADENCİLİĞİ ISE 302 DR. TUĞRUL TAŞCI. Ders Planı HaftaKonu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 2 Veri Tipleri, Verinin Yorumlanması 3.
Bilimsel bilgi Diğer bilgi türlerinden farklı
İklim ve İklim Elemanları SICAKLIK. Bilmemiz Gereken … Isı : Cisimlerim potansiyel enerjisidir. Sıcaklık : Isının dışa yansıtılmasıdır.Birimi santigrat.
Raporlama Yapmanın Amaçları 2 -Yapılan çalışmaların sonuçlarını daha net görebilmek -Yapılan çalışmaları geçmiş zaman verileriyle kıyaslayabilmek -Rapor.
Literatür taramasının önemi  Daha önce neler yapıldığını çıkarmaya çalışmayan araştırmacılar alanlarında önemli katkı sağlama fırsatından yoksun kalırlar.
Çağrı Kuçat SQL Yapısı.
GEOMETRİK CİSİMLER VE HACİM ÖLÇÜLERİ
Yazılım Mühendisliği1[ 3.hft ]. Yazılım Mühendisliği2 Yazılım İ sterlerinin Çözümlemesi Yazılım Yaşam Çevrimi “ Yazılım Yaşam çevrimin herhangi bir yazılım.
ÇOK BOYUTLU SİNYAL İŞLEME
Giriş.  Öğretim Üyesi: Cengiz Örencik  E-posta:  Ders Malzemeleri:  myweb.sabanciuniv.edu/cengizo/courses.
Pazarlama İlkeleri.
ÇAĞRI MERKEZİ CRM YAZILIMI İÇERİK ÖRNEĞİ
Emine Hoşoğlu doğan İstanbul şehir üniversitesi Eylül 2014
Hedef-Kazanım Belli bir alanda eğitilecek bireylere kazandırılmak istenen özellikler ya da yeterliklerdir. Kazanımın eğitim yoluyla kazandırılabilecek.
Istatistik I Fırat Emir.
Uluslararası Pazarlama Araştırması
TABLO ve GRAFİK YAPIM YÖNTEMİ
İÇİNDEKİLER NEGATİF ÜS ÜSSÜ SAYILARIN ÖZELLİKLERİ
ÖĞRETİM MATERYALLERİ HAZIRLAMA İLKELERİ
Proje Dosyası - Belgeleme - Raporlama
Devlet Muhasebe Standartları
PROGRAMLI ÖĞRETİM Tanımı:
ISTATİSTİK I FIRAT EMİR DERS II.
TAM SAYILAR.
T- Testİ: ORTALAMALAR ARASI FARKLARIN TEST EDİLMESİ
Oyun Geliştirme Dokümantasyonu
DENEYSEL TERTİPLER VE PAZAR DENEMESİ
İMAL USULLERİ PLASTİK ŞEKİL VERME
Yapay Sinir Ağı Modeli (öğretmenli öğrenme) Çok Katmanlı Algılayıcı
Varlık-İlişki Modeli Örneği
BİLİŞİM SİSTEMLERİ GÜVENLİĞİ (2016)
MAT – 101 Temel Matematik Mustafa Sezer PEHLİVAN *
MAT – 101 Temel Matematik Mustafa Sezer PEHLİVAN *
TANIMLAYICI İSTATİSTİKLER
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
GELECEK PİYASASI İŞLEMLERİ
STORAGE BÜŞRA KARADENİZ
OZAN TABAKOĞLU
Sözleşme Sözleşme Türleri
İSTATİSTİK.
Hayvancılık İşletmelerinde Yönetim Prensipleri
PARAMETRİK HİPOTEZ TESTLERİ
FI – Finansal Muhasebe Genel Sunumu
TOPLU POSTALAMA İŞLEMİ İÇİN ETİKET OLUŞTURMA VE YAZDIRMA
NİŞANTAŞI ÜNİVERSİTESİ
KARMA YÖNTEM.
VERİTABANI YÖNETİM SİSTEMLERİ 3-Normalizasyon
NİŞANTAŞI ÜNİVERSİTESİ
NİTEL VERİLERİN ÇÖZÜMLENMESİ
SQL Server - Views.
MAK212-SAYISAL YÖNTEMLER Sayısal Türev ve İntegral
NİŞANTAŞI ÜNİVERSİTESİ
NİŞANTAŞI ÜNİVERSİTESİ
BLM113 Bilgisayar Bilimlerine Giriş
BLM-111 PROGRAMLAMA DİLLERİ I Ders-10 Diziler
Veri ve Türleri Araştırma amacına uygun gözlenen ve kaydedilen değişken ya da değişkenlere veri denir. Olgusal Veriler Yargısal Veriler.
MTM216 GÖRSEL PROGRAMLAMA
Kesikli Olay benzetimi Bileşenleri
2. HAFTA BİLİMSEL ARAŞTIRMA YAKLAŞIMLARI
EŞ YÜKSELTİ (TESVİYE) EĞRİLERİNİN
Bellek içi raporlama sistemleri için denormalizasyon uygulaması
İŞ ZEKASI UYGULAMALARI İLE ÜST YÖNETİM GRAFİK RAPORLAMA
Sunum transkripti:

Veri Madenciliği Veri Ambarları

Veri ambarları Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine

Veri Ambarı nedir? Farklı şekillerde tanımlanabilir. Organizasyonun eylemsel veritabanından ayrı/bağımsız olarak kurulan karar destek veritabanı Tarihsel veri üzerinde analiz yaparak bilgiyi işlemeyi sağlar çok boyutlu ve karmaşık verileri özetleyen ve katagorize eden teknolojidir Bir veri ambarı yönetimsel karar vermeye yardımcı olacak verilerin konu odaklı, birleştirilmiş, zaman değişken ve sabit olarak toplanmasıdır (W.H.Inmon) Data warehousing (veri ambarcılığı): Veri ambarı oluşturma ve kullanma işlemi

Veri ambarı – Konu odaklı Müşteri, ürün, satış gibi ana konular için geliştirilirler Karar verici makamlar için verinin modellenmesine ve analizine odaklanır Günlük işlemler ya da alışveriş hareketliliği veri ambarlarının konusu değildir Gereksiz verileri ayıklar ve odaklandığı konu çerçevesinde basit ve anlaşılabilir bilgiyi sunar

Veri ambarı – Birleştirilmiş Farklı kaynakların birleştirilmesi ile oluşur relational databases, flat files, on-line transaction records Veri temizleme ve birleştirme teknikleri uygulanır Isimlendirme yöntemlerinde tutarlılık kontolü, birim (metric) Değişik veri kaynakları arasındaki tutarlılık sağlanır Veri ambarına aktarılırken çevrimler yapılır Tutarlılık sağlanır

Veri ambarı – Zaman değişkenli Zaman değişkeni canlı veri tabanlarına göre çok daha uzundur Operasyonel veritabanları: güncel değerler (max 1 yıl) Veri ambarları: Geçmiş hakkında bilgi verir (geçmiş 5-10 yıl) Veri ambarlarındaki her yapı direk yada dolaylı olarak bir zaman elemanı içerir Zaman içindeki değişikliklere odaklanır

Veri ambarı – Statik Canlı veritabanlarından alınan veri farklı bir fiziksel bir ortamda saklanır Veri ambarında veri güncellemesi olmaz Canlı veritabanlarındaki değişim veri ambarlarını etkilemez  Sadece “ilk veri yüklemesi” ve “veri erişimi” işlemlerini kullanır

Veri Ambarı vs. Birleştirilmiş Veritabanları Veritabanlarının birleştirilmesi - OLTP (on-line transaction processing) Geleneksel veritabanlarındaki temel işlem Farklı veritabanları arasında bir arabulucu katman Her veritabanında ayrı sorgu yapıp sonra birleştirir Günlük işlemler Veri Ambarları - OLAP (on-line analytical processing) Veri ambarlarındaki temel işlem Veri analizi ve karar alma Farklı özellikleri (OLTP vs. OLAP): Kullanıcı / sistem odaklı: müşteri vs. sektör Veri içeriği: güncel, detaylı vs. tarihsel, özetlenmiş Erişim: güncelleme, basit sql sorguları vs. read-only ama karmaşık sorgular

OLTP vs. OLAP

Veri ambarları Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine

Çok boyutlu veri modeli Veri ambarlarının temeli olan çok boyutlu veri modelinde veri, veri kübü şeklinde ifade edilir Örnek olarak satış bilgisi içeren veri küpünün farklı boyutları: Ürün, zaman, konum gibi Her boyut için bir Boyut tablosu (Dimension table), ürün (ürün_ismi, markası, cinsi) yada zaman(hafta, ay, mevsim, yıl) Değer tablosu (Fact table) sayısal ölçüm değerlerini tutar Kaç tane satıldı, toplam ürün cirosu gibi Ayrıca ilgili boyut tabloları için anahtarları tutar

Veri ambarlarının Modellenmesi Yıldız (Star) şema: Merkezde bir değer tablosu (fact table) çevresindeki boyut tablolarını (dimention table) birleştirir Kartanesi (Snowflake) şema: Yıldız şemasının gelişmiş halidir. Yıldızın uç noktaları genişleyerek baska alt-boyutlara açılır. Bu nedenle görüntüsü kar tanesini andırır. Her boyut birden fazla boyut tablosu ile ifade edilir

Yıldız şema örneği item branch time Sales Fact Table time_key item_key day day_of_the_week month quarter year time item_key item_name brand type supplier_type item Sales Fact Table time_key item_key branch_key branch_key branch_name branch_type branch location_key street city state_or_province country location location_key units_sold dollars_sold avg_sales Measures

Yıldız şema örneği

Kartanesi Şema örneği item supplier branch time Sales Fact Table time_key day day_of_the_week month quarter year time item_key item_name brand type supplier_key item supplier_key supplier_type supplier Sales Fact Table time_key item_key branch_key location_key street city_key location branch_key branch_name branch_type branch location_key units_sold city_key city state_or_province country dollars_sold avg_sales Measures

Kartanesi şema örneği

Veri Küpü Çok boyutlu verinin modellenmesini ve görsel ifadesini sağlar Yıldız şemaya benzer farklı bir ifade yöntemi Kayıtlar/değerler küpün boyutları üzerinde tutulur Zaman, ürün, reyon, konum… Her boyut için bir boyut tablosu (dimension table) vardır

3-D Veri küpü 4-D küpler farklı 3-D küpler ile ifade edilebilir Supplier 1 Supplier 2 Supplier 3

Küboid Veri küpü genellikle küboid (cuboid) olarak adlandırılır Boyutların herhangi bir alt kümesi için küboid tasarlanabilir Farklı seyiyelerde özetleme sağlar N-D küp  baz küboid En alt seviye özet, detaylı bilgi 0-D küp  tepe (apex) küboid En üst seviye özet Tüm boyutlarda özet

Küp: Küboidler kafesi all time item location supplier 0-D(apex) cuboid time,location time,supplier item,location item,supplier location,supplier time,item,supplier time,location,supplier item,location,supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid time,item time,item,location time, item, location, supplier

Örnek: veri küpü yaratma (2-D) tabloda ürün-zaman boyutları için satış değerleri tablosu TV PC VCR 1st Qtr 1000 850 350 2nd Qtr 1352 940 298 3rd Qtr 1450 658 314 4th Qtr 1500 965 365 USA

Ör: veri küpü yaratma (3D) TV PC VCR 1st Q 1000 850 350 2600 750 425 1300 2nd Q 1352 940 298 1752 860 236 1200 400 3rd Q 1450 658 314 1055 458 520 1150 555 510 4th Q 1500 965 365 1350 1065 390 900 USA Canada Mexico

Örnek veri küpü All, All, All Date Product Country Total annual sales of TV in U.S.A. Date Product Country All, All, All sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico

Küpün alt küboidleri all 0-D tepe(apex) cuboid country date product date 1-D cuboids product,date product,country date, country 2-D cuboids 3-D baz (base) cuboid product, date, country

Çokboyutlu veri Ürün ay ve bölgenin bir fonksiyonu olarak satış verisi Ürün konum ve zaman boyutları Örnek hiyerarşi yapısı Region Industry Region Year Category Country Quarter Product City Month Week Office Day Product Month

Konum boyutu için örnek hiyerarşi yapsı all all Europe ... North_America region Germany ... Spain Canada ... Mexico country Vancouver ... city Frankfurt ... Toronto L. Chan ... M. Wind office

Veri küpünde OLAP işlemleri Genelleme - Roll up (drill-up): veriyi özetler, 2 şekilde yapılabilir hiyeraşi üzerinde yukarı doğru çıkılır (ay  yıl) Boyut azaltımı yapılır Derinleme - Drill down (roll down): roll-up işleminin tersi hiyeraşi üzerinde aşağılara inilerek veri detaylandırılır Yeni boyutlar yaratılabilir Dilimleme - Slice and dice: yansıt ve seç Veride istenilen bölge (dilim ya da küp) belirlenir ve “kesilerek” alınır Pivot (rotate): Veri küpü çevrilir, görsel olarak değiştirilir 3B veriden 2B veriler serisine çevrilebilir

Veri ambarları Veri ambarı nedir? Çok boyutlu veri modeli Veri ambarından veri madenciliğine

Veri Ambarları kullanımı Üç temel veri ambarı uygulaması vardır: Bilgi İşleme Sorguları, basit istatistiksel analizleri destekler, tablolar, grafikler ve çizimler ile raporlama yapar Analitik İşleme Verilerin çok boyutlu analizi basit OLAP operasyonlarını destekler, slice-dice, drilling, pivoting Veri Madenciliği - Data mining Gizli kalıpların içinden bilgi çıkartmak Ilişkilendirme, analitik model çıkarma, sınıflandırma ve öngörü metodları uygulama, madencilik sonuçlarını görselleştirme gibi işlemleri destekler

Özet Neden veri ambarları? Çok boyutlu veri ambarı modelleri Yıldız şeması, kartanesi şeması Farklı boyutlar ve bu boyutlar için ölçüm değerleri tutan veri küpleri OLAP operasyonları: drilling, rolling, slicing, dicing and pivoting Veri ambarları mimarisi