Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Uygulama ve Araştırma Merkezi

Benzer bir sunumlar


... konulu sunumlar: "Uygulama ve Araştırma Merkezi"— Sunum transkripti:

1 Uygulama ve Araştırma Merkezi
Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul

2 Ajanda Açılış Veri Analitiği Yüksek Lisans Programı – H. S. Ölmez Veri Uygulama ve Araştırma Merkezi – B. Yanıkoğlu Proje: Büyük Veri Optimizasyonu – İ. Birbil Proje: Deneysel Görselleştirme – S. Balcısoy Akan Veri Problemleri – K. Kaya Tanışma Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

3 VA Yüksek Lisans Programı
Veri Analitiği Yüksek Lisans Programı H. Sait Ölmez

4 Büyük Veri ve Yetenek Havuzu
2018’e kadar ABD’de 140,000 ile 190,000 arasında iş gücü açığı olacak arasında “data scientist” iş ilanlarındaki artış %15,000 Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

5 Veri Analitiği Yüksek Lisans Programı
da.sabanciuniv.edu Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

6 Program Misyonu Katılımcıların eğitim sonunda
Tahmini Analitik (uygulamalı istatistik, veri madenciliği ve makine öğrenmesi), Veri görselleştirme ve Optimizasyon gibi kritik alanlarda bilgi ve beceri sahibi olması, Bu birikim ile veriyi anlamak, işlemek ve modellemek suretiyle veriden katma değer yaratabilmesi hedeflenmektedir. TEMEL İLERİ UYGULAMALI TEORİK Doktora Geleneksel Yüksek Lisans MSc VA Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

7 Ders Programı Güz Bahar Yaz Introduction to Machine Learning
Ekim—Şubat Şubat—Mayıs Mayıs—Ağustos Introduction to Data Analytics Machine Learning Practical Case Studies in Data Analytics Big Data Processing using Hadoop Applied Statistics Information Law and Data Ethics Data Mining Introduction to Data Modeling and Proccessing Project Management & Business Comm. Social Network Analysis Exploratory Data Analysis & Visualization Term Project (non-credit) Modeling and Optimization Data Privacy & Security Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

8 Başvuru ve Kayıtlar > 120 ? 71 63 35 34 16 2014-2015 2015-2016
Toplam başvuru Erken başvuru 71 63 35 34 kontenjan 16 Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

9 Öğrenci Profili (2 akademik yıl) Toplam kayıt Ortalama yaş (aralık) Cinsiyet oranı (K/E) Ortalama iş deneyimi 52 30.5 (21-44) 18 / 34 7 yıl Lisans Dereceleri Çalıştıkları sektörler 34 Endüstri Müh. 14 Bilgisayar Müh. 7 Elektrik Müh. 5 Diğer Müh. 8 Sigortacılık, Enerji, Turizm E-ticaret, Otomotiv, Gıda İnşaat, Ulaşım, Medya, Savunma, Danışmanlık Öğrenci Sayısı Öğrenci Sayısı 22 15 8 7 7 5 4 2 Sos. Bil. Diğer Telekom Ekonomi IT/IS/MIS Bankacılık Finansal serv. Teknoloji Mühendislik Mat/İst/Fen Veri Analitiği Uygulama ve Araştırma ve Merkezi Center of Excellence in Data Analytics

10 http://ceda.sabanciuniv.edu Berrin Yanıkoğlu
Veri Analitiği Uygulama ve Araştırma Merkezi (VERIM) Center of Excellence in Data Analytics (CEDA) Berrin Yanıkoğlu

11 Merkezin Kuruluşu, Misyon, Vizyon
Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesinden üç programdan (Bilgisayar Bilimi ve Mühendisliği, Endüstri Mühendisliği ve Bilişim Teknolojileri) öğretim üyelerinin biraraya gelerek oluşturduğu Merkez, Aralık 2015’te YÖK tarafından onaylandı. Vizyon: Veri odaklı yaklaşımları geliştirmek, yaygınlaştırmak ve toplumsal refaha katkı sağlamak. Misyon: Veri Analitiği konusuna odaklı ve çok-disiplinli bir araştırma anlayışıyla bu alanda öncülük eden uzman bir araştırma merkezi olmak; mevcut bilgi ve birikimi endüstriye, akademik kurumlara ve diğer ilgili paydaşlara aktarmak; endüstri ve kamu ile birlikte çalışarak kurumların veriden bilgi üretmelerine ve iş değeri yaratmalarına yardımcı olmak.

12 Merkezin Amacı Bilimsel Çalışmalar: Veri analitiği konusunda bilimsel çalışmaların bir çatı altında birleştirilmesi, ortak ve interdisipliner çalışmaların artırılması; Endüstri İşbirliği: Veri analitiği konusunda firmalarla yapılacak ortak projelerle ve DA programı ile gelişen sinerji ile, endüstrinin ihtiyaçlarına daha verimli şekilde çözüm bulabilmek; Eğitim ve Çalıştaylar: Veri işleme, veri analitiği, büyük veri ile iş uygulamaları ve iş analitiği konularında teknik personel ve yönetici seviyelerinde eğitim programları ve çalıştaylar düzenlemek ve sunmak. Rapor ve Değerlendirmeler: Yeni gelişmeler, güncel teknik analiz ve modelleme yöntemleri, uygulama alanları, gelecekle ilgili tahminler ve Türkiye ile ilgili mevcut sektörel durum, sorunlar ve beklentileri dönemsel raporlar halinde endüstriye ve diğer paydaşlara sunmak;

13 Biz Kimiz

14 Temel Araştırma Alanları
Bulut Bilişim ve Yüksek Başarımlı Hesaplama Kamer Kaya, Ahmet Demirelli, H. Sait Ölmez Makine Öğrenmesi – Berrin Yanıkoğlu, Kemal Kılıç Veri Madenciliği – Yücel Saygın, Kemal Kılıç Yapay Zeka – Esra Erdem İstatistik – Sinan Yıldırım Optimizasyon ve Karar Verme – İlker Birbil, Kerem Bülbül, Nilay Noyan, Güvenç Şahin Veri Görselleştirme – Selim Balcısoy Veri Mahremiyeti ve Güvenliği – Yücel Saygın, Albert Levi

15 Bulut Bilişim Büyük verinin yüksek boyut, hız ve çeşitlilik özellikleri, bulut bilişim ve Hadoop, Spark ... gibi açık kaynak kütüphanelerini, hızlı ve güvenilir veri yönetimi ve analizi için sık kullanılan araçlar haline getirmiştir. Merkez’de bu alanda: paralel ve dağıtık hesaplama, yenilikçi ve özelleşmiş iş akışı yöntemlerinin geliştirilmesi, bulut kullanım masraflarının performansı düşürmeden azaltılması, paylaşılan verinin güvenliğinin ve mahremiyetinin sağlanması, üzerine çalışmalar yapılmaktadır.

16 Yüksek Başarımlı Hesaplama
Büyük işlem miktarı gerektiren hesaplamalar ve özellikle işlem zamanının hayati öneme sahip olduğu uygulamalar için eldeki donanımın en verimli şekilde kullanılmasını amaçlar. Bilgisayar kümeleri ve haberleşme ağlarının, çok çekirdekli işlemci mimarilerinin ve grafik işlemci üniteleri gibi ek hızlandırıcıların yapılarının sürekli değişmesi ve bu donanımlar sayesinde gelen performans artışları, bu tür donanımlar üzerinde çalıştırılacak yenilikçi paralel yöntemlerin geliştirilmesini gerekli kılmaktadır. , TÜBİTAK 2232 Projesi (No: 115C018): "Yüksek Başarımlı Büyük ve Akan Veri Analizi", K. Kaya.

17 İstatistik, Makine Öğrenmesi, Veri Madenciliği, Yapay Zeka
Makine öğrenmesi, geçmiş veriler kullanarak bir durumun modellenmesini ve bu sayede kestirme yapabilmeyi amaçlar. Veri madenciliği büyük miktarlarda toplanan ham verinin değerli bilgiye dönüştürülmesini amaçlar. Yapay zeka bilgi gösterimi, mantıksal çıkarım, öğrenme gibi alt alanlardaki gelişmelerle, robot programlarının bilişsel becerisini artırmayı amaçlar. İstatistiksel yöntemler, rassal süreçlerin ürettiği verinin çözümlenmesini mümkün kılar.

18 Optimizasyon ve Karar Verme
Optimizasyon bir karar verme problemi için eniyi kararların belirlenmesine ilişkin sistematik yöntemleri içerir. Problem için anlamlı performans kriterlerinin ve kısıtların matematiksel olarak ifade edilerek formülasyonlarının geliştiril-mesi, optimizasyonun temelini oluşturur. TÜBİTAK Kariyer Projesi (No: 111M543): “Afet Sonrası Müdahale Ağı Tasarımı Problemi için Rassal Programlama Modelleri”, N. Noyan.

19 Veri Görselleştirme Veri görselleştirmelerinin amacı; görme duyusunu uyararak, insanlara karmaşık veriler hakkında anlam çıkarmada yardım etmektir. Konumsal Artırılmış Gerçeklilik ve Fiziksel Görselleştirmeler Temelli Görsel Veri Analizi Sistemi, TUBITAK 1001, S. Balcısoy

20 Veri Mahremiyeti ve Güvenliği
Veri analitiği uygulamalarının birçoğu insanlar ve onlarla ilgili veriler üzerinde olduğu için mahremiyet ve güvenlik önem taşır. Veri Anonimleştirme: Verilerin üçüncü kişilerle paylaşılması durumunda kişisel bilgiler ve hassas veri arasında bağın tekrar kurulamayacak şekilde koparılması. Hassas Verileri Gözeten Analiz: Veri analitiği hassas veriler üzerinde olacaksa bunun bir yolu şifrelenmiş veriler üzerinde analiz yapabilmektir. AB 7. Çerçeve, "UbiPOL: Ubiquitous Participation Platform for Policy Making", Y. Saygın

21 Mahremiyet Garantili Büyük Veri İşleme
İlker Birbil

22 Araçlar Farklı kanallardan gelen verinin tensörler ile ifade edilmesi
Dağıtık ve paralel eniyileme ile kestirim ve yapay öğrenme Diferansiyel mahremiyet garantili algoritma tasarımı

23 Farklı kanallardan gelen verinin tensörler ile ifade edilmesi
Ermis vd. 2012

24 Dağıtık ve paralel eniyileme ile yapay öğrenme
HAMSI: A New Distributed Optimization Algorithm for Large-Scale Machine Learning

25 Diferansiyel mahremiyet garantili algoritma tasarımı
13 Haziran 2016 P-HAMSI: Privacy Preserving Large-Scale Machine Learning

26 Modeller Algoritmalar Sistemler

27 … . … . A Firması B Firması ? İnsanlar Özellikler TC1 TC2 TC3 TC# TC1
Sigara ? Alkol .

28 … . … . A Firması B Firması ? İnsanlar Özellikler TC1 TC2 TC3 TC# TC1
Sigara ? Alkol .

29 A Firması B Firması ✗ ✔ ✔ ✔ Ham Veri Alışverişi Veri Mahremiyeti
Garantisi Tahmin Modelleme Yapay Öğrenme

30 Davranışsal Analiz ve Görselleştirme
Selim Balcısoy

31 İş Problemleri Hızlı Analiz İster
Segmentation Subsegmentation Customer Profile Customer Behaviour Attrition / Retention Loyalty Actions Customer Potential Service Modelling Financial Analysis Pricing Revenue Analysis Risk Analysis Product Analysis Customer Value Customer Profitability Customer Life Time Value Propensity Models Sequence Analysis Association Analysis Cross Sell /Up sell Models Customer Potential Profitability Customer Potential Segment/Subsegment Service Modelling Algorithms based on Customer Value Current & Potential Revenue Analysis Potential Loss Predictions Customer Price Sensitivity Models Product&Customer Based Pricing Customer Based Income & Expense Models Product Based Income & Expense Models

32 Araştırma Problemleri
Accelerate Analysis for Decision Making Churn, Fraud, Behavioral Segmentation Exploration, collaboration and telepresence Generate narratives from Data Is there more into BusinessVis than just DashBoards ? Facilitate collaboration and telepresence for Analytics

33 Devam Eden Projeler Akbank Keşifsel Veri Analizi
Gerçek zamanlı Karar Verme Sistemleri

34 Sigorta Bilgi ve Gözetim Merkezi
Devam Eden Projeler Sigorta Bilgi ve Gözetim Merkezi Trafik Sigortalarında Suistimal Analiz Projesi Birden fazla sigorta şirketini suistimal edenler Çok farklı veri katmanları ile kompleks problem yapısı Tamirciler, Sürücüler, Experler Zaman, Yer, Ödeme Zamanları Veri: Son 3 senenin tüm sigorta police kayıtları

35 Devam Eden Projeler Kampüs Davranışları
Wifi ve ısı sensörleri ile içerde bulunanların davranışlarının analizi Güvenlik, enerji tasarrufu, iş verimliliği

36 Devam Eden Projeler TUBITAK Projesi Verimli Karar Vermek için Veriye Dokunmak

37 Video

38 Lab Stratejik Ortak: Akbank Lab Analitik Sponsoru: SAS
İş Birlikleri Lab Stratejik Ortak: Akbank Lab Analitik Sponsoru: SAS Akademik Ortaklar: Sabancı Üniversitesi MDBF Sabancı Üniversitesi Yönetim Bilimleri Fakültesi MIT Media Lab

39 Büyük ve Akan Veri Algoritmaları
Kamer Kaya

40 Büyük ve Akan Veri Algoritmaları
Örnek: Google Bir günde yapılan farklı arama sayısı kaçtır? Bir günde sorgu yapan farklı kişi sayısı kaçtır? Google’da bir günde yapılan sorgu sayısı

41 Büyük ve Akan Veri Algoritmaları
Örnek: Google PowerDrill Sütun tabanlı bir veri deposu İnteraktif bir veri analizi arayüzü Düşük sorgu süresi Petabyte boyutunda bir veri üzerinde günde 5 milyon eleman sayma sorgusu GROUP BY ile birleştiğinde birden fazla sayma alt-sorgusunun çalıştırılması ihtiyacı... Sorguların %99’unun cevabı 100’ün altında… Yaklaşık 100 tanesinin cevabı 109’un üzerinde… Yeterli hafıza olmadığından sorgular bekletiliyor.

42 Büyük ve Akan Veri Algoritmaları
Çoklu bir kümenin farklı eleman sayısı nedir? |{1, 4, 1, 1, 4, 6}| = 3 |{a1, a2, a3, …. an}| = ? Neden ilgileniyoruz: COUNT(DISTINCT…) sorgusu geldiğinde nasıl hızlıca ve kaynakları tüketmeden cevap verebiliriz? Bir genomda 20-uzunluğunda kaç farklı sıralama var? Bir DoS saldırısını, wormu, virüsü, spam leri hızlıca nasıl bulabiliriz?

43 Büyük ve Akan Veri Algoritmaları
Çoklu bir kümenin içinde %X ve daha fazla görülme sıklığına sahip elemanlar hangileridir? {1, 4, 1, 1, 4, 3, 2, 5, 3, 1} ve X = > {1, 3, 4} Neden ilgileniyoruz: Son bir saat içinde bir yöneltici üzerinden çok sayıda paket gönderen kullanıcıları nasıl buluruz?

44 Büyük ve Akan Veri Algoritmaları
Çözüm: Her elemanı kaç kere gördüğümüzü bir yere not edersek... n = 106 (çok çok kolay) n = 109 (çok kolay) n = 1012 (kolay?) n = 1015 (?) n = ? (???)

45 Büyük ve Akan Veri Algoritmaları
Çok boyutlu bir veri yığını içinde birbirine benzeyen elemanları nasıl buluruz? Neden ilgileniyoruz: Her gün binlerce tweet, haber, olay internette yayılmaya başlıyor. Bir olayı ilk defa gördüğümüzü nasıl anlarız? Birbirine benzeyen, aynı haberden yola çıkan web sayfalarını nasıl buluruz? Çözüm: Bütün elemanları birbirleri ile karşılaştırırsak…

46 Büyük ve Akan Veri Algoritmaları
Çoklu bir kümenin eleman sayısını bulmak: Sıra istatistikleri: hepsi farklı bir dizi eleman içinde en küçük sayı X ise, 1/X dizideki eleman sayısı için mantıklı bir tahmindir. Örnek: [0,1] aralığına 4 gelişigüzel sayı atarsak, bu sayılar ortalama 0.2 aralıklarla ayrılır. Özüt fonksiyonları: Girdi: Veri elemanı (çok boyutlu, büyük, karmaşık…) Çıktı: Özüt => örneğin [0,1] aralığında bir sayı Aynı girdi için aynı çıktı İki farklı eleman için (mümkün olduğu kadarıyla) farklı çıktılar.

47 Büyük ve Akan Veri Algoritmaları
k-MV algoritması (Bar-Yossef 2002) Özütleri [0,1] aralığına yerleştirelim Sadece gördüğümüz minimum özüt değerini tutarsak 1 / 0.25 – 1 = tahmini 3 farklı eleman var (yakın, aslında farklı eleman var)

48 Büyük ve Akan Veri Algoritmaları
k-MV algoritması: taslaklar Bir değil k minimum değeri tutalım (örneğin k = 2) Taslak: {0.25, 0.4} 2/0.4 – 1 = tahmini 4 eleman (doğru) k = 1024 (toplam 64K eleman)

49 Büyük ve Akan Veri Algoritmaları
k-MV algoritması: İki veri kümesi A, B… Kümelerin birleşimindeki eleman sayısı nedir? Taslakları birleştirip, en küçük k elemanı seçersek birleşimin taslağı oluşur: TaslakAUB Kümelerin kesişimindeki eleman sayısı nedir? Jaccard indisi: |A kesişim B| / |A birleşim B| Taslakları rassal birer örneklem olarak düşünürsek Kesişimdeki (tahmini) eleman sayısı Jaccard(TaslakA, TaslakB) x k-MV(TaslakAUB)

50 Büyük ve Akan Veri Algoritmaları
HyperLogLog (Flajolet et al., 2007): n kere yazı tura atıyorsunuz; Art arda görmeyi beklediğiniz en uzun turaların sayısı nedir? Verdiğiniz cevap kaç kere yazı tura attığınıza dair bir bilgi verir mi? (Moivre, 1738)

51 Büyük ve Akan Veri Algoritmaları
HyperLogLog (Flajolet et al., 2007): n kere özüt fonksiyonu hesaplıyorsunuz; Bu özüt fonksiyonlarında görülen maksimum ardışık 0 sayısı kaç farklı özüt fonksiyonu gördüğünüze dair bir bilgi verir mi? Bit deseni istatistikleri: Eğer bir dizideki özüt değerleri ikilik tabanda gösterildiğinde, dizi başında 0p olan bir eleman içeriyorsa, dizideki farklı eleman sayısı için 2p mantıklı bir tahmindir. Örnek: 0010, 0100, 1000, 0011, 1100, 1010, 1001 p-1 = > p = 3 (yaklaşık 8 sayı olmalı)

52 Büyük ve Akan Veri Algoritmaları
HyperLogLog (Flajolet et al., 2007): Örnek özüt değeri (m = 4 kutu için parçalama) xx (kutu no) Her kutu için max(baştaki 0 sayısı + 1) tutulur Eleman sayısı tahmini

53 Büyük ve Akan Veri Algoritmaları
HyperLogLog (Flajolet et al., 2007): m = 1024


"Uygulama ve Araştırma Merkezi" indir ppt

Benzer bir sunumlar


Google Reklamları