Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.

Slides:



Advertisements
Benzer bir sunumlar
Do you know who I am? Kim olduğumu biliyor musun?.
Advertisements

MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.
Bir Hazır Giyim Perakende Zincirinde Rassal Talep Altında Kalıcı İndirim Politikalarının Belirlenmesi Özlem Coşgun1, Ufuk Kula2, Ayhan Demiriz2 1 İstanbul.
Öğrenme Kuramı ve Öğretim Kuramı
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ NİKOTİN BAĞIMLILIĞI İÇİN PEKİŞTİRMELİ ÖĞRENMEYE DAYALI BİR HESAPLAMALI MODEL SELİN.
If you delete this after reading... you'll spend a year of ill luck! But... if you send it to (at least) 2 friends... you'll have 3 years of good luck!!!
VARYANS STANDART SAPMA
If you delete this after reading... you'll spend a year of ill luck! But... if you send it to (at least) 2 friends... you'll have 3 years of good luck!!!
İŞ SIRALAMA VE ÇİZELGELEME DERS 5
1 T.C. Yükseköğretim Kurulu DİPLOMA EKİ PROGRAM ÖĞRENME ÇIKTILARI (KAZANIMLARI) DİPLOMA EKİ EĞİTİM SEMİNERİ Dönemi Bologna Sürecinin Türkiye’de.
Arş. Gör. Tolga Çakmak Hacettepe Üniversitesi – Bilgi ve Belge Yönetimi Bölümü Sosyal Medya ile Değişen Pazarlama Anlayışları.
21. Yüzyılda Tıpta Kök Hücrenin Yeri. “ I magination is more Important than knowledge ” Albert Eistein.
Hareket halindeki insanlara ulaşın.Mobil Arama Ağı Reklamları Reach customers with Mobile Search Network.
A-hekim.tv Survey via web site. 2 Contribution of a-hekim.tv %88 of the total physicians declared that a-hekim.tv helps to improve their scientific knowledge.
NOUN CLAUSES (İSİM CÜMLECİKLERİ).
Kelime Uygulama Sunumu - 2 Bu sunumdaki kelimeler… Abundance To accelerate To accept To access To accommodate.
DEVRE TEOREMLERİ.
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
Öğretim İlke ve Yöntemleri
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
Gizli / İsimsiz Raporlama Tanıtımı
BM-305 Mikrodenetleyiciler Güz 2015 (6. Sunu) (Yrd. Doç. Dr. Deniz Dal)
BÖLÜM 1 Bilişsel Psikolojiye Giriş
INFORMED CONSENT Assist.Prof.Dr. Mehmet KARATAS Dept. of History of Medicine & Ethics.
Sosyal Medyada Tanıtım ve Pazarlama
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
Yaparak yaşayarak öğrenme. Motivasyon ve yöneltme Learning to Learn Training Öğrenmede yetişkinleri ne güdüler? Developed with the support of the EU Leonardo.
(Competitive Learning)
Doğrusal Programlama Linear Programming
Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise,
Gender differences in leadership style and management skills Sarah burke and karen m. collins.
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ Hesaplamalı Sinirbilim Modeller farklı zamansal ve konumsal ölçeklerde süreçleri ele.
What is lost in translation?
AVRUPA BİRLİĞİ GUNDTVİG ÖĞRENME ORTAKLIĞI ‘ALTIN ÇOCUKLAR ALTIN EBEVEYNLER’ PROJESİ EUROPEAN UNION GRUNDTVIG LEARN PARTNERSHIP GOLDEN PARENTS FOR GOLDEN.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
LITERARY TRANSLATION 2 Week 5. In-class translation workshop.
Learning to learn network for low skilled senior learners ÖĞRENME KABİLİYETİMİ VE YAKLAŞIMIMI BİLME Öğrenmeyi öğrenme Her yerde ve her zaman kendi stilimle.
F(.) y[n+1] Giriş Vektörü Giriş-Çıkış Eşleme Fonksiyonu Çıkış Mahmut Meral, Lisans Bitirme Ödevi, 2003 Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma.
Wisconsin Kart Sıralama Testi WCST
Davranış Kritik Ödül r δ Pekiştirmeli Öğrenme Eğitilen Sistem Ortam Değer Atama Hatırlatma.
Practice your writing skills
“Bilgi”’nin Gösterimi “Bilgi” İnsan veya Makina Yorumlama Öngörme Uygun yanıt verme Depolanmış enformasyon veya model Kurallar: (1) Benzer sınıflardan.
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ Öğrenme nasıl gerçekleşiyor? Ağırlıklar hatayı en azlıyacak şekilde güncelleniyor Öğrenme.
Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok
BUGRAHAN PRESENT. Eagle is a common name for many large birds of prey of the family Accipitridae; it belongs to several groups of genera that are not.
DISCUSSION
CHILD PORNOGRAPHY IŞIK ÜNİVERSİTESİ
Uyarlanabilir Yankılaşım Teorisi
ACT-R Adaptive Control of Thought-Rational
Soldiers Who Died In Canakkale
BİRLEŞİM VE ARAMA (UNIFICATION & SEARCH)
İmg 8 spiritüel keşifler
BİLİMSEL ÇALIŞMA BASAMAKLARI SCIENTIFIC WORKING STEPS MHD BASHAR ALREFAEI Y
Banach Sabit Nokta Teoremi (Büzülme Teoremi)
German shepherd dog. These dogs are said to be intelligent before they say.
Eğiticisiz Öğrenme Amaç: Veri kümesinin belirli özelliklerini, özniteliklerini sadece veri kümesinden yararlanarak belirlemek Vektör Kuantalama Veri Tanımlama.
Chapter 1 (Bölüm 1) The accounting equation(muhasebe denklemi) and the balance sheet(bilanço)
If you delete this after reading... you'll spend a year of ill luck!
Future: I will/shall & I am going to. Structure: Subject+will/shall+verb(base form)+object.
ÖĞRENME VE ÖĞRETMENİN KURAMSAL TEMELLERİ
NİŞANTAŞI ÜNİVERSİTESİ
Yaratıcılık Ne Kadar?....
“Differentiation for making a positive Difference!!!!”
NİŞANTAŞI ÜNİVERSİTESİ
Multipoint programlama
NİŞANTAŞI ÜNİVERSİTESİ
Before the Battle of Çanakkale. Why a Front in Çanakkale was Opened? In the summer of 1914, the war continued in Europe with all its intensity, and by.
Yapay Öğrenme Teorisi Bölüm-1
People with an entrepreneurial mindset are always brave.
Examples: In the Figure, the three points and coordinates are given that is obtained with CAD program. If these three points are represented by the curve.
Sunum transkripti:

davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her adımında istenilen yanıtı sağlayan bir eğitici yok Eğitilen sistem, sonuçta elde edilecek yanıta erişmek için gerekli davranışı eleştiriyi gözönünde tutarak bulmak bulmak zorunda Hatırlatma

Psikoloji açısından Pekiştirmeli öğrenme Biz kararlarımızı nasıl veriyoruz? Verdiğimiz kararlar daha sonraki davranışlarımızı nasıl etkiliyor? Verdiğimiz kararların sonuçları öğrenmemizi sağlıyor mu?

Şartlanma-Pekiştirmeli öğrenme İlişkilendirme (association): O 1 T 1 O 2 T 2 O 1 T 2 Klasik Şartlanma Throndike’nin Yasası: U 1 Te 1 U 1 Te 1 U 2 Te 2 U 2 Te 2 Etkin Şartlanma δ

Psikolojide pekiştirmeli öğrenme Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur. The greater the satisfaction or discomfort, the greater the strengthening or weakening of the bond. (Thorndike, 1911, p. 244)

Psikolojide pekiştirmeli öğrenme Throndike (1898): uyaran-yanıt ilişkilendirmesi (stimulus-response association) Skinner (1938): davranışsal düzenleme (behavioral regulation)

Nörobilim açısından Pekiştirmeli öğrenme Beyindeki hangi bölgeler yer alıyor? Bu bölgelerin birbirleriyle bağlantıları neler? Bağlantıları etkileyen mekanizmalar neler?

Haber, N.S. et.al. The journal of neuroscience,

Makina öğrenmesinde pekiştirmeli öğrenme (Machine learning) Ortamdaki belirsizliğe rağmen bir amaca erişmek için aktif karar veren bir aracının ortamla ilişkisi inceleniyor. Aracı davranışlarını seçerken yararlanma-arama ikilemi ile yüzleşir. (exploit-explore) Pekiştirmeli öğrenme sistemi: π yaklaşım (policy) r ödül fonksiyonu (reward function) Q π, V π değer fonksiyonu (value function) s ortam modeli

Makina öğrenmesinde pekiştirmeli öğrenme öğrenen, karar veren aracı etkileşim içinde olduğu ortam amaç: π * optimal yaklaşımı bulmak davranış a t Aracı Ortam r t+1 s t+1 durum ödül s t r t

Makina öğrenmesinde pekiştirmeli öğrenme

Bir Pekiştirmeli öğrenme metodu: Dinamik programlama ortam modeli : Markov karar işlevi (Markov Decision Process (MDP)) ● yaklaşım belirleme : ardışıl

Bir Pekiştirmeli öğrenme metodu: Dinamik programlama ● yaklaşım iyileştirme : ● yaklaşım:

Bir Pekiştirmeli öğrenme metodu: Dinamik programlama s a r s’

Bir pekiştirmeli öğrenme metodu: Monte Carlo ortam modeli: deneyim gerçek deneyim (on-line) benzeşim deneyim (simulated) yaklaşımla ve yaklaşım ötesinde (on-policy) (off-policy)

Bir pekiştirmeli öğrenme metodu: Monte Carlo

Bir pekiştirmeli öğrenme metodu: Zamansal fark Monte Carlo metoduna benziyor: ortamın tam modeline gereksinimi yok Dinamik programlamaya benziyor: en son çıktıyı beklemeden güncelleme yapabiliyor ● Yaklaşımla: Sarsa yaklaşım ötesinde: Q-öğrenme (Q-learning) ● Aktör-Kritik

Bir zamansal fark metodu: Aktör-kritik davranış durum Davranış belirleme Değer Atama Ortam Aktör Kritik Ödül r δ

Bir Zamansal fark metodu: Aktör-kritik

Biliş bilim ne ile ilgileniyor? Davranışsal: girişe karşılık gelen çıkış ne? Fonksiyonel: çıkış nasıl oluşuyor? Fiziksel: çıkışı ne üretiyor? Pekiştirmeli öğrenmeye ilişkin biliş bilimde bir uygulama

Pekiştirmeli öğrenme için geliştirilecek bir hesaplamalı modelde nelere dikkat edilmeli? Davranışsal: uyaran yanıt yanıt ödül/ceza ödül yararlan (exploit) ceza ara (explore) Fonksiyonel: geçmişi değerlendir beklenti oluştur Fiziksel: nöral yapıların/bağlantıların özelikleri

Pekiştirmeli öğrenme için önerilen bazı hesaplamalı modeller Barto & Sutton & Anderson (1983) makina öğrenmesi TD (temporal difference) Schultz & Dayan & Montague (1997) Kritik,TD Kritik: VTA Suri & Scultz (1998) Aktör-Kritik, TD Kritik: nigrostriatal dopamin nöronları Aktör: Striatum

Bir pekiştirmeli öğrenme metodu: Zamansal fark (Temporal Difference(TD) ) Gelecekteki ödülü öngörme t anındaki öngörü t+1 anındaki öngörü Hata Barto, A.G. IEEE,Syst. Man&Cyber.1983

Ardışıl eşleştirme ödevi ● Amaç: Bir dizi öğrenmek A 1 B 2 C 3 ● Yöntem: 1) U 1 = C Te 1 = 3 U 1 Te 1 ödül 2) U 2 = B Te 2 = 2 U 2 Te 2 U 1 Te 1 ödül 3) U 3 = A Te 3 = 1 U 3 Te 3 U 2 Te 2 U 1 Te 1 ödül

kritik Davranış seçici- Aktör A 1 B 2 C 3 ödül Davranış değerlendirici ödül r davranış δ Uyaran I

Davranış seçici sistem ve öğrenme ile değiştirilecek

Güncelleme terimleri

Dinamik sistemin davranışı