Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul.

Benzer bir sunumlar


... konulu sunumlar: "Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul."— Sunum transkripti:

1 Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul

2 Ajanda Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma ve Merkezi Açılış Veri Analitiği Yüksek Lisans Programı – H. S. Ölmez Veri Uygulama ve Araştırma Merkezi – B. Yanıkoğlu Proje: Büyük Veri Optimizasyonu – İ. Birbil Proje: Deneysel Görselleştirme – S. Balcısoy Akan Veri Problemleri – K. Kaya Tanışma

3 VA Yüksek Lisans Programı Veri Analitiği Yüksek Lisans Programı H. Sait Ölmez

4 Büyük Veri ve Yetenek Havuzu Center of Excellence in Data Analytics 2018’e kadar ABD’de 140,000 ile 190,000 arasında iş gücü açığı olacak arasında “data scientist” iş ilanlarındaki artış %15,000 Veri Analitiği Uygulama ve Araştırma ve Merkezi

5 Veri Analitiği Yüksek Lisans Programı Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma ve Merkezi da.sabanciuniv.edu

6 Program Misyonu Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma ve Merkezi Katılımcıların eğitim sonunda Tahmini Analitik (uygulamalı istatistik, veri madenciliği ve makine öğrenmesi), Veri görselleştirme ve Optimizasyon gibi kritik alanlarda bilgi ve beceri sahibi olması, Bu birikim ile veriyi anlamak, işlemek ve modellemek suretiyle veriden katma değer yaratabilmesi hedeflenmektedir. TEMEL İLERİ UYGULAMALI TEORİK Doktora Geleneksel Yüksek Lisans MSc VA

7 Ders Programı Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma ve Merkezi Güz Bahar Introduction to Data Analytics Applied Statistics Modeling and Optimization Machine Learning Big Data Processing using Hadoop Data Mining Social Network Analysis Exploratory Data Analysis & Visualization Data Privacy & Security Introduction to Data Modeling and Proccessing Ekim—ŞubatŞubat—Mayıs Yaz Information Law and Data Ethics Project Management & Business Comm. Mayıs—Ağustos Practical Case Studies in Data Analytics Term Project (non-credit)

8 Başvuru ve Kayıtlar Center of Excellence in Data Analytics > 120 ? Erken başvuru Toplam başvuru kontenjan Veri Analitiği Uygulama ve Araştırma ve Merkezi

9 Öğrenci Profili Center of Excellence in Data Analytics Veri Analitiği Uygulama ve Araştırma ve Merkezi (2 akademik yıl) Toplam kayıt Ortalama yaş (aralık) Cinsiyet oranı (K/E) Ortalama iş deneyimi (21-44)18 / 347 yıl Öğrenci Sayısı Mühendislik Ekonomi Mat/İst/Fen IT/IS/MIS Sos. Bil Öğrenci Sayısı Bankacılık Finansal serv. Teknoloji Diğer Telekom Sigortacılık, Enerji, Turizm E-ticaret, Otomotiv, Gıda İnşaat, Ulaşım, Medya, Savunma, Danışmanlık Endüstri Müh.14 Bilgisayar Müh.7 Elektrik Müh.5 Diğer Müh.8 Lisans Dereceleri Çalıştıkları sektörler

10 Veri Analitiği Uygulama ve Araştırma Merkezi (VERIM) Center of Excellence in Data Analytics (CEDA) Berrin Yanıkoğlu

11 Merkezin Kuruluşu, Misyon, Vizyon Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesinden üç programdan (Bilgisayar Bilimi ve Mühendisliği, Endüstri Mühendisliği ve Bilişim Teknolojileri) öğretim üyelerinin biraraya gelerek oluşturduğu Merkez, Aralık 2015’te YÖK tarafından onaylandı. Vizyon: Veri odaklı yaklaşımları geliştirmek, yaygınlaştırmak ve toplumsal refaha katkı sağlamak. Misyon: Veri Analitiği konusuna odaklı ve çok-disiplinli bir araştırma anlayışıyla bu alanda öncülük eden uzman bir araştırma merkezi olmak; mevcut bilgi ve birikimi endüstriye, akademik kurumlara ve diğer ilgili paydaşlara aktarmak; endüstri ve kamu ile birlikte çalışarak kurumların veriden bilgi üretmelerine ve iş değeri yaratmalarına yardımcı olmak.

12 Merkezin Amacı Bilimsel Çalışmalar: Veri analitiği konusunda bilimsel çalışmaların bir çatı altında birleştirilmesi, ortak ve interdisipliner çalışmaların artırılması; Endüstri İşbirliği: Veri analitiği konusunda firmalarla yapılacak ortak projelerle ve DA programı ile gelişen sinerji ile, endüstrinin ihtiyaçlarına daha verimli şekilde çözüm bulabilmek; Eğitim ve Çalıştaylar: Veri işleme, veri analitiği, büyük veri ile iş uygulamaları ve iş analitiği konularında teknik personel ve yönetici seviyelerinde eğitim programları ve çalıştaylar düzenlemek ve sunmak. Rapor ve Değerlendirmeler: Yeni gelişmeler, güncel teknik analiz ve modelleme yöntemleri, uygulama alanları, gelecekle ilgili tahminler ve Türkiye ile ilgili mevcut sektörel durum, sorunlar ve beklentileri dönemsel raporlar halinde endüstriye ve diğer paydaşlara sunmak;

13 Biz Kimiz

14 Temel Araştırma Alanları Bulut Bilişim ve Yüksek Başarımlı Hesaplama – Kamer Kaya, Ahmet Demirelli, H. Sait Ölmez Makine Öğrenmesi – Berrin Yanıkoğlu, Kemal Kılıç Veri Madenciliği – Yücel Saygın, Kemal Kılıç Yapay Zeka – Esra Erdem İstatistik – Sinan Yıldırım Optimizasyon ve Karar Verme – İlker Birbil, Kerem Bülbül, Nilay Noyan, Güvenç Şahin Veri Görselleştirme – Selim Balcısoy Veri Mahremiyeti ve Güvenliği – Yücel Saygın, Albert Levi

15 Bulut Bilişim – Büyük verinin yüksek boyut, hız ve çeşitlilik özellikleri, bulut bilişim ve Hadoop, Spark... gibi açık kaynak kütüphanelerini, hızlı ve güvenilir veri yönetimi ve analizi için sık kullanılan araçlar haline getirmiştir. Merkez’de bu alanda: paralel ve dağıtık hesaplama, yenilikçi ve özelleşmiş iş akışı yöntemlerinin geliştirilmesi, bulut kullanım masraflarının performansı düşürmeden azaltılması, paylaşılan verinin güvenliğinin ve mahremiyetinin sağlanması, üzerine çalışmalar yapılmaktadır.

16 Yüksek Başarımlı Hesaplama – Büyük işlem miktarı gerektiren hesaplamalar ve özellikle işlem zamanının hayati öneme sahip olduğu uygulamalar için eldeki donanımın en verimli şekilde kullanılmasını amaçlar. – Bilgisayar kümeleri ve haberleşme ağlarının, çok çekirdekli işlemci mimarilerinin ve grafik işlemci üniteleri gibi ek hızlandırıcıların yapılarının sürekli değişmesi ve bu donanımlar sayesinde gelen performans artışları, bu tür donanımlar üzerinde çalıştırılacak yenilikçi paralel yöntemlerin geliştirilmesini gerekli kılmaktadır. – , TÜBİTAK 2232 Projesi (No: 115C018): "Yüksek Başarımlı Büyük ve Akan Veri Analizi", K. Kaya.

17 İstatistik, Makine Öğrenmesi, Veri Madenciliği, Yapay Zeka – Makine öğrenmesi, geçmiş veriler kullanarak bir durumun modellenmesini ve bu sayede kestirme yapabilmeyi amaçlar. – Veri madenciliği büyük miktarlarda toplanan ham verinin değerli bilgiye dönüştürülmesini amaçlar. – Yapay zeka bilgi gösterimi, mantıksal çıkarım, öğrenme gibi alt alanlardaki gelişmelerle, robot programlarının bilişsel becerisini artırmayı amaçlar. – İstatistiksel yöntemler, rassal süreçlerin ürettiği verinin çözümlenmesini mümkün kılar.

18 Optimizasyon ve Karar Verme – Optimizasyon bir karar verme problemi için eniyi kararların belirlenmesine ilişkin sistematik yöntemleri içerir. – Problem için anlamlı performans kriterlerinin ve kısıtların matematiksel olarak ifade edilerek formülasyonlarının geliştiril-mesi, optimizasyonun temelini oluşturur. – TÜBİTAK Kariyer Projesi (No: 111M543): “Afet Sonrası Müdahale Ağı Tasarımı Problemi için Rassal Programlama Modelleri”, N. Noyan.

19 Veri Görselleştirme – Veri görselleştirmelerinin amacı; görme duyusunu uyararak, insanlara karmaşık veriler hakkında anlam çıkarmada yardım etmektir. – Konumsal Artırılmış Gerçeklilik ve Fiziksel Görselleştirmeler Temelli Görsel Veri Analizi Sistemi, TUBITAK 1001, S. Balcısoy

20 Veri Mahremiyeti ve Güvenliği – Veri analitiği uygulamalarının birçoğu insanlar ve onlarla ilgili veriler üzerinde olduğu için mahremiyet ve güvenlik önem taşır. – Veri Anonimleştirme: Verilerin üçüncü kişilerle paylaşılması durumunda kişisel bilgiler ve hassas veri arasında bağın tekrar kurulamayacak şekilde koparılması. – Hassas Verileri Gözeten Analiz: Veri analitiği hassas veriler üzerinde olacaksa bunun bir yolu şifrelenmiş veriler üzerinde analiz yapabilmektir. – AB 7. Çerçeve, "UbiPOL: Ubiquitous Participation Platform for Policy Making", Y. Saygın

21 Mahremiyet Garantili Büyük Veri İşleme İlker Birbil

22 Araçlar 1.Farklı kanallardan gelen verinin tensörler ile ifade edilmesi 1.Dağıtık ve paralel eniyileme ile kestirim ve yapay öğrenme 1.Diferansiyel mahremiyet garantili algoritma tasarımı

23 1.Farklı kanallardan gelen verinin tensörler ile ifade edilmesi Ermis vd. 2012

24 2.Dağıtık ve paralel eniyileme ile yapay öğrenme HAMSI: A New Distributed Optimization Algorithm for Large-Scale Machine Learning

25 3.Diferansiyel mahremiyet garantili algoritma tasarımı P-HAMSI: Privacy Preserving Large-Scale Machine Learning 13 Haziran 2016

26 ModellerAlgoritmalarSistemler

27 … TC1TC2 TC3TC# İnsanlar... Özellikler … TC1TC2 TC3TC# Sigara Alkol... ? ? ? ? A Firması B Firması

28 … TC1TC2 TC3TC# İnsanlar... Özellikler … TC1TC2 TC3TC# Sigara Alkol... ? ? ? ? A Firması B Firması

29 Tahmin Modelleme ✔ Veri Mahremiyeti Garantisi ✔ Yapay Öğrenme ✔ ✗ Ham Veri Alışverişi ✗ A Firması B Firması

30 Davranışsal Analiz ve Görselleştirme Selim Balcısoy

31 İş Problemleri Hızlı Analiz İster Segmentation Subsegmentation Customer Profile Customer Behaviour Attrition / Retention Loyalty Actions Customer Potential Service Modelling Financial Analysis Pricing Revenue Analysis Risk Analysis Product Analysis Customer Value Customer Profitability Customer Life Time Value Propensity Models Sequence Analysis Association Analysis Cross Sell /Up sell Models Customer Potential Profitability Customer Potential Segment/Subsegme nt Service Modelling Algorithms based on Customer Value Current & Potential Revenue Analysis Potential Loss Predictions Customer Price Sensitivity Models Product&Customer Based Pricing Customer Based Income & Expense Models Product Based Income & Expense Models

32 Araştırma Problemleri Accelerate Analysis for Decision Making – Churn, Fraud, Behavioral Segmentation – Exploration, collaboration and telepresence Generate narratives from Data – Is there more into BusinessVis than just DashBoards ? Facilitate collaboration and telepresence for Analytics

33 Devam Eden Projeler Akbank – Keşifsel Veri Analizi – Gerçek zamanlı Karar Verme Sistemleri

34 Devam Eden Projeler Sigorta Bilgi ve Gözetim Merkezi – Trafik Sigortalarında Suistimal Analiz Projesi – Birden fazla sigorta şirketini suistimal edenler – Çok farklı veri katmanları ile kompleks problem yapısı Tamirciler, Sürücüler, Experler Zaman, Yer, Ödeme Zamanları – Veri: Son 3 senenin tüm sigorta police kayıtları

35 Devam Eden Projeler Kampüs Davranışları – Wifi ve ısı sensörleri ile içerde bulunanların davranışlarının analizi – Güvenlik, enerji tasarrufu, iş verimliliği

36 Devam Eden Projeler TUBITAK Projesi Verimli Karar Vermek için Veriye Dokunmak

37 Video https://youtu.be/IucVW4r3BL0

38 İş Birlikleri Lab Stratejik Ortak: Akbank Lab Analitik Sponsoru: SAS Akademik Ortaklar: – Sabancı Üniversitesi MDBF – Sabancı Üniversitesi Yönetim Bilimleri Fakültesi – MIT Media Lab

39 Büyük ve Akan Veri Algoritmaları Kamer Kaya

40 Büyük ve Akan Veri Algoritmaları Örnek: Google – Bir günde yapılan farklı arama sayısı kaçtır? – Bir günde sorgu yapan farklı kişi sayısı kaçtır? Google’da bir günde yapılan sorgu sayısı

41 Büyük ve Akan Veri Algoritmaları Örnek: Google PowerDrill – Sütun tabanlı bir veri deposu – İnteraktif bir veri analizi arayüzü Düşük sorgu süresi – Petabyte boyutunda bir veri üzerinde günde 5 milyon eleman sayma sorgusu GROUP BY ile birleştiğinde birden fazla sayma alt- sorgusunun çalıştırılması ihtiyacı... Sorguların %99’unun cevabı 100’ün altında… Yaklaşık 100 tanesinin cevabı 10 9 ’un üzerinde… Yeterli hafıza olmadığından sorgular bekletiliyor.

42 Büyük ve Akan Veri Algoritmaları Çoklu bir kümenin farklı eleman sayısı nedir? |{1, 4, 1, 1, 4, 6}| = 3 |{a 1, a 2, a 3, …. a n }| = ? – Neden ilgileniyoruz: COUNT(DISTINCT…) sorgusu geldiğinde nasıl hızlıca ve kaynakları tüketmeden cevap verebiliriz? Bir genomda 20-uzunluğunda kaç farklı sıralama var? Bir DoS saldırısını, wormu, virüsü, spam e- mailleri hızlıca nasıl bulabiliriz?

43 Büyük ve Akan Veri Algoritmaları Çoklu bir kümenin içinde %X ve daha fazla görülme sıklığına sahip elemanlar hangileridir? {1, 4, 1, 1, 4, 3, 2, 5, 3, 1} ve X = 20 -> {1, 3, 4} – Neden ilgileniyoruz: Son bir saat içinde bir yöneltici üzerinden çok sayıda paket gönderen kullanıcıları nasıl buluruz?

44 Büyük ve Akan Veri Algoritmaları Çözüm: Her elemanı kaç kere gördüğümüzü bir yere not edersek... n = 10 6 (çok çok kolay) n = 10 9 (çok kolay) n = (kolay?) n = (?) n = ? (???)

45 Büyük ve Akan Veri Algoritmaları Çok boyutlu bir veri yığını içinde birbirine benzeyen elemanları nasıl buluruz? – Neden ilgileniyoruz: Her gün binlerce tweet, haber, olay internette yayılmaya başlıyor. Bir olayı ilk defa gördüğümüzü nasıl anlarız? Birbirine benzeyen, aynı haberden yola çıkan web sayfalarını nasıl buluruz? – Çözüm: Bütün elemanları birbirleri ile karşılaştırırsak…

46 Büyük ve Akan Veri Algoritmaları Çoklu bir kümenin eleman sayısını bulmak: – Sıra istatistikleri: hepsi farklı bir dizi eleman içinde en küçük sayı X ise, 1/X dizideki eleman sayısı için mantıklı bir tahmindir. Örnek: [0,1] aralığına 4 gelişigüzel sayı atarsak, bu sayılar ortalama 0.2 aralıklarla ayrılır. – Özüt fonksiyonları: Girdi: Veri elemanı (çok boyutlu, büyük, karmaşık…) Çıktı: Özüt => örneğin [0,1] aralığında bir sayı – Aynı girdi için aynı çıktı – İki farklı eleman için (mümkün olduğu kadarıyla) farklı çıktılar.

47 Büyük ve Akan Veri Algoritmaları – k-MV algoritması (Bar-Yossef 2002) Özütleri [0,1] aralığına yerleştirelim Sadece gördüğümüz minimum özüt değerini tutarsak 1 / 0.25 – 1 = tahmini 3 farklı eleman var (yakın, aslında 4 farklı eleman var)

48 Büyük ve Akan Veri Algoritmaları k-MV algoritması: taslaklar – Bir değil k minimum değeri tutalım (örneğin k = 2) Taslak: {0.25, 0.4} 2/0.4 – 1 = tahmini 4 eleman (doğru) – k = 1024 (toplam 64K eleman)

49 Büyük ve Akan Veri Algoritmaları k-MV algoritması: İki veri kümesi A, B… – Kümelerin birleşimindeki eleman sayısı nedir? Taslakları birleştirip, en küçük k elemanı seçersek birleşimin taslağı oluşur: Taslak AUB – Kümelerin kesişimindeki eleman sayısı nedir? Jaccard indisi: |A kesişim B| / |A birleşim B| Taslakları rassal birer örneklem olarak düşünürsek – Kesişimdeki (tahmini) eleman sayısı » Jaccard(Taslak A, Taslak B ) x k-MV(Taslak AUB )

50 Büyük ve Akan Veri Algoritmaları HyperLogLog (Flajolet et al., 2007): – n kere yazı tura atıyorsunuz; Art arda görmeyi beklediğiniz en uzun turaların sayısı nedir? Verdiğiniz cevap kaç kere yazı tura attığınıza dair bir bilgi verir mi? (Moivre, 1738)

51 Büyük ve Akan Veri Algoritmaları HyperLogLog (Flajolet et al., 2007): – n kere özüt fonksiyonu hesaplıyorsunuz; Bu özüt fonksiyonlarında görülen maksimum ardışık 0 sayısı kaç farklı özüt fonksiyonu gördüğünüze dair bir bilgi verir mi? – Bit deseni istatistikleri: Eğer bir dizideki özüt değerleri ikilik tabanda gösterildiğinde, dizi başında 0 p olan bir eleman içeriyorsa, dizideki farklı eleman sayısı için 2 p mantıklı bir tahmindir. Örnek : 0010, 0100, 1000, 0011, 1100, 1010, 1001 p-1 = 2 -> p = 3 (yaklaşık 8 sayı olmalı)

52 Büyük ve Akan Veri Algoritmaları HyperLogLog (Flajolet et al., 2007): – Örnek özüt değeri (m = 4 kutu için parçalama) xx (kutu no) Her kutu için max(baştaki 0 sayısı + 1) tutulur Eleman sayısı tahmini

53 Büyük ve Akan Veri Algoritmaları HyperLogLog (Flajolet et al., 2007): m = 1024


"Veri Analitiği Uygulama ve Araştırma Merkezi Açılış Etkinliği 20 Haziran 2016 Sakıp Sabancı Müzesi, İstanbul." indir ppt

Benzer bir sunumlar


Google Reklamları