Davranış Kritik Ödül r δ Pekiştirmeli Öğrenme Eğitilen Sistem Ortam Değer Atama Hatırlatma.

Slides:



Advertisements
Benzer bir sunumlar
Do you know who I am? Kim olduğumu biliyor musun?.
Advertisements

Prepared by Cendel Karaman A Deep Approach to Turkish Teaching and Learning Wisconsin Center for Education Research, University of Wisconsin-Madison.
Bir Hazır Giyim Perakende Zincirinde Rassal Talep Altında Kalıcı İndirim Politikalarının Belirlenmesi Özlem Coşgun1, Ufuk Kula2, Ayhan Demiriz2 1 İstanbul.
NÖROBİYOLOJİ VE GELİŞİM
BİLİŞSEL PSİKOLOJİ BEYİN/Nöro-Psiko-Anatomi
DAVRANIŞ NÖROBİYOLOJİSİ
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ NİKOTİN BAĞIMLILIĞI İÇİN PEKİŞTİRMELİ ÖĞRENMEYE DAYALI BİR HESAPLAMALI MODEL SELİN.
VARYANS STANDART SAPMA
If you delete this after reading... you'll spend a year of ill luck! But... if you send it to (at least) 2 friends... you'll have 3 years of good luck!!!
İŞ SIRALAMA VE ÇİZELGELEME DERS 5
BAZAL GANGLİA.
1 T.C. Yükseköğretim Kurulu DİPLOMA EKİ PROGRAM ÖĞRENME ÇIKTILARI (KAZANIMLARI) DİPLOMA EKİ EĞİTİM SEMİNERİ Dönemi Bologna Sürecinin Türkiye’de.
SİNİR SİSTEMİ.
Bazal Ganglionlar ve Bozuklukları
Bazal Ganglionlar ve Ekstrapiramidal sistem
Davranış seçme işlevinde dopaminin etkisine ilişkin dinamik bir model
NOUN CLAUSES (İSİM CÜMLECİKLERİ).
Bazal ganglionlar:Çekirdekler;
DEVRE TEOREMLERİ.
BİLİMSEL ARAŞTIRMA YÖNTEMLERİ
Fonksiyonel Anatomi Sağlık Slaytları
Duygular.
GÜVEN Güvenin Psikolojideki Yeri Nedir? ???
BİLİNÇ Prof Dr Süheyla ÜNAL.
BM-305 Mikrodenetleyiciler Güz 2015 (6. Sunu) (Yrd. Doç. Dr. Deniz Dal)
BELLEK –Elliot Bölüm 7.
INFORMED CONSENT Assist.Prof.Dr. Mehmet KARATAS Dept. of History of Medicine & Ethics.
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
Yaparak yaşayarak öğrenme. Motivasyon ve yöneltme Learning to Learn Training Öğrenmede yetişkinleri ne güdüler? Developed with the support of the EU Leonardo.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
(Competitive Learning)
Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise,
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ 1 MAVİ YEŞİL KIRMIZI SARI YEŞİL MAVİ SARI KIRMIZI SARI KIRMIZI YEŞİL MAVİ KIRMIZI YEŞİL.
Gender differences in leadership style and management skills Sarah burke and karen m. collins.
Düşünmenin Nörobiyolojisi Prof Dr Süheyla ÜNAL
İşlevsel Anatomi-I Prof Dr Süheyla Ünal.
Frontal Lob Anatomisi ve İşlevleri
LİMBİK SİSTEM Prof Dr Süheyla ÜNAL.
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ Hesaplamalı Sinirbilim Modeller farklı zamansal ve konumsal ölçeklerde süreçleri ele.
What is lost in translation?
Ortam Özdüzenlemeli Öğrenme Eğitilen Sistem Hatırlatma.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
LITERARY TRANSLATION 2 Week 5. In-class translation workshop.
Learning to learn network for low skilled senior learners ÖĞRENME KABİLİYETİMİ VE YAKLAŞIMIMI BİLME Öğrenmeyi öğrenme Her yerde ve her zaman kendi stilimle.
F(.) y[n+1] Giriş Vektörü Giriş-Çıkış Eşleme Fonksiyonu Çıkış Mahmut Meral, Lisans Bitirme Ödevi, 2003 Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma.
Wisconsin Kart Sıralama Testi WCST
Practice your writing skills
“Bilgi”’nin Gösterimi “Bilgi” İnsan veya Makina Yorumlama Öngörme Uygun yanıt verme Depolanmış enformasyon veya model Kurallar: (1) Benzer sınıflardan.
Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok
BUGRAHAN PRESENT. Eagle is a common name for many large birds of prey of the family Accipitridae; it belongs to several groups of genera that are not.
DISCUSSION
Uyarlanabilir Yankılaşım Teorisi
ACT-R Adaptive Control of Thought-Rational
BASAL GANGLIA Kaan Yücel M.D., Ph.D..
İSTEMLİ DAVRANIŞ Prof Dr Süheyla ÜNAL.
Selin Metin, Neslihan Serap Şengör
Soldiers Who Died In Canakkale
BİRLEŞİM VE ARAMA (UNIFICATION & SEARCH)
Frontal Lob Anatomisi ve İşlevleri
İmg 8 spiritüel keşifler
BİLİMSEL ÇALIŞMA BASAMAKLARI SCIENTIFIC WORKING STEPS MHD BASHAR ALREFAEI Y
Banach Sabit Nokta Teoremi (Büzülme Teoremi)
German shepherd dog. These dogs are said to be intelligent before they say.
Future: I will/shall & I am going to. Structure: Subject+will/shall+verb(base form)+object.
ÖĞRENME VE ÖĞRETMENİN KURAMSAL TEMELLERİ
11. BÖLÜM BELLEK, ÖĞRENME VE AMNEZİ. 11. BÖLÜM BELLEK, ÖĞRENME VE AMNEZİ.
“Differentiation for making a positive Difference!!!!”
NİŞANTAŞI ÜNİVERSİTESİ
Multipoint programlama
Examples: In the Figure, the three points and coordinates are given that is obtained with CAD program. If these three points are represented by the curve.
Sunum transkripti:

davranış Kritik Ödül r δ Pekiştirmeli Öğrenme Eğitilen Sistem Ortam Değer Atama Hatırlatma

Psikoloji açısından Pekiştirmeli öğrenme Biz kararlarımızı nasıl veriyoruz? Verdiğimiz kararlar daha sonraki davranışlarımızı nasıl etkiliyor? Verdiğimiz kararların sonuçları öğrenmemizi sağlıyor mu?

Şartlanma-Pekiştirmeli öğrenme İlişkilendirme (association): O 1 T 1 O 2 T 2 O 1 T 2 Klasik Şartlanma Throndike’nin Yasası: U 1 Te 1 U 1 Te 1 U 2 Te 2 U 2 Te 2 Etkin Şartlanma δ

Psikolojide pekiştirmeli öğrenme Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur. The greater the satisfaction or discomfort, the greater the strengthening or weakening of the bond. (Thorndike, 1911, p. 244)

Psikolojide pekiştirmeli öğrenme Throndike (1898): uyaran-yanıt ilişkilendirmesi (stimulus-response association) Skinner (1938): davranışsal düzenleme (behavioral regulation)

Nörobilim açısından Pekiştirmeli öğrenme Beyindeki hangi bölgeler yer alıyor? Bu bölgelerin birbirleriyle bağlantıları neler? Bağlantıları etkileyen mekanizmalar neler?

Pekiştirmeli öğrenmede yer alan nöral yapılar Anterior Cingulate/ Medial orbitofrontal Korteks KORTEKS THALAMUS BASAL GANGLIA BG Ventral Pallidum Ventral Striatum Subtalamik çekirdek Korteks Limbik Çevrim Alexander et.al. Progrss in Brain Research, 1990.

Pekiştirmeli öğrenmede yer alan nöral yapılar Dorsolateral Prefrontal Korteks (DLPFC)/Lateral orbitofrontal Korteks (LOFC) KORTEKS THALAMUS BASAL GANGLIA BG Globus Pallidus externa (GPe) Caudate Subtalamik çekirdek Korteks BG Substantia Nigra pars reticulata (SNr)/ Globus Pallidus interna (GPi) Prefrontal Çevrimler Alexander et.al. Progrss in Brain Research, 1990.

Pekiştirmeli öğrenmede yer alan nöral yapılar Supplementary motor alan (SMA) / Premotor korteks (PMC)/Motor korteks (MC) KORTEKS THALAMUS BASAL GANGLIA BG Globus Pallidus externa (GPe) Putamen Subtalamik çekirdek Beyin kökü/omurga BG Substantia Nigra pars reticulata (SNr)/ Globus Pallidus interna (GPi) Motor Çevrim Alexander et.al. Progrss in Brain Research, 1990.

Haber, N.S. et.al. The journal of neuroscience,

Makina öğrenmesinde pekiştirmeli öğrenme (Machine learning) Ortamdaki belirsizliğe rağmen bir amaca erişmek için aktif karar veren bir aracının ortamla ilişkisi inceleniyor. Aracı davranışlarını seçerken yararlanma-arama ikilemi ile yüzleşir. (exploit-explore) Pekiştirmeli öğrenme sistemi: π yaklaşım (policy) r ödül fonksiyonu (reward function) Q π, V π değer fonksiyonu (value function) s ortam modeli

Makina öğrenmesinde pekiştirmeli öğrenme öğrenen, karar veren aracı etkileşim içinde olduğu ortam amaç: π * optimal yaklaşımı bulmak davranış a t Aracı Ortam r t+1 s t+1 durum ödül s t r t

Makina öğrenmesinde pekiştirmeli öğrenme

Bir Pekiştirmeli öğrenme metodu: Dinamik programlama ortam modeli : Markov karar işlevi (Markov Decision Process (MDP)) ● yaklaşım belirleme : ardışıl

Bir Pekiştirmeli öğrenme metodu: Dinamik programlama ● yaklaşım iyileştirme : ● yaklaşım:

Bir pekiştirmeli öğrenme metodu: Zamansal fark Monte Carlo metoduna benziyor: ortamın tam modeline gereksinimi yok Dinamik programlamaya benziyor: en son çıktıyı beklemeden güncelleme yapabiliyor ● Yaklaşımla: Sarsa yaklaşım ötesinde: Q-öğrenme (Q-learning) ● Aktör-Kritik

Bir zamansal fark metodu: Aktör-kritik davranış durum Davranış belirleme Değer Atama Ortam Aktör Kritik Ödül r δ

Bir Zamansal fark metodu: Aktör-kritik

Biliş bilim ne ile ilgileniyor? Davranışsal: girişe karşılık gelen çıkış ne? Fonksiyonel: çıkış nasıl oluşuyor? Fiziksel: çıkışı ne üretiyor? Pekiştirmeli öğrenmeye ilişkin biliş bilimde bir uygulama

Pekiştirmeli öğrenme için geliştirilecek bir hesaplamalı modelde nelere dikkat edilmeli? Davranışsal: uyaran yanıt yanıt ödül/ceza ödül yararlan (exploit) ceza ara (explore) Fonksiyonel: geçmişi değerlendir beklenti oluştur Fiziksel: nöral yapıların/bağlantıların özelikleri

Pekiştirmeli öğrenme için önerilen bazı hesaplamalı modeller Barto & Sutton & Anderson (1983) makina öğrenmesi TD (temporal difference) Schultz & Dayan & Montague (1997) Kritik,TD Kritik: VTA Suri & Scultz (1998) Aktör-Kritik, TD Kritik: nigrostriatal dopamin nöronları Aktör: Striatum

Bir pekiştirmeli öğrenme metodu: Zamansal fark (Temporal Difference(TD) ) Gelecekteki ödülü öngörme t anındaki öngörü t+1 anındaki öngörü Hata Barto, A.G. IEEE,Syst. Man&Cyber.1983

Canlılarda pekiştirmeli öğrenme için aktör-kritik Suri R.E. & W. Shultz, Exp. Brain Res., 1998 Zamansal gösterim r(t)δ(t) davranış uyaran

Canlılarda pekiştirmeli öğrenme için aktör-kritik CORTEKS STR GPi/SNr STN TALAMUS Lateral ve orbito-frontal PFC MFC VENTRAL DORSAL nucleus accumben s olfactory tube caudate putamen VTA SNc Ventralis anterior Medio dorsal nucleus Ventral pallidum

kritik Davranış seçici- Aktör A 1 B 2 C 3 ödül Davranış değerlendirici ödül r davranış δ Uyaran I

Modelin gerçekleştirilmesine ilişkin bir deneme ve öğrenme ile değiştirilecek

Güncelleme terimleri

Modelin gerçekleştirilmesine ilişkin bir deneme

Ardışıl eşleştirme ödevi ● Amaç: Bir dizi öğrenmek A 1 B 2 C 3 ● Yöntem: 1) U 1 = C Te 1 = 3 U 1 Te 1 ödül 2) U 2 = B Te 2 = 2 U 2 Te 2 U 1 Te 1 ödül 3) U 3 = A Te 3 = 1 U 3 Te 3 U 2 Te 2 U 1 Te 1 ödül