Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.

Slides:



Advertisements
Benzer bir sunumlar
DOÇ. DR.MEHMET ERDOĞAN AKDENİZ ÜNİVERSİTESİ
Advertisements

Prof. Dr. Ahmet Arıkan Gazi Ü niversitesi Gazi Eğitim Fakültesi OFMAE Bölümü Matematik Eğitimi Anabilim Dalı.
Biyomedikal Sistemlerin Modellenmesi ve Kontrolü Neslihan Serap Şengör İ.T.Ü. Elektronik ve Haberleşme Bölümü, oda no:1107 tel no:
Dinamik sistemin kararlılığını incelemenin kolay bir yolu var mı? niye böyle bir soru sorduk? Teorem 1: (ayrık zaman sisteminin sabit noktasının kararlılığı.
Küçük Grup Eğitimi Şifa Üniversitesi Sağlık Bilimleri Yüksekokulu Eğitici Eğitimi Kursu Eylül 2015 / 281.
Sinir Hücresi Nasıl Fark Edilmiş? eCell.jpg/512px-PurkinjeCell.jpg Ramon y Cajal ( )
Çıkış katmanındaki j. nöron ile gizli katmandaki i. nörona ilişkin ağırlığın güncellenmesi Ağırlığın güncellenmesi Hangi yöntem? “en dik iniş “ (steepest.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
Hatırlatma Ortogonal bazlar, ortogonal matrisler ve Gram-Schmidt yöntemi ile ortogonaleştirme vektörleri aşağıdaki özeliği sağlıyorsa ortonormaldir: ortogonallik.
Özdeğerler ve özvektörler
Determinant Bir kare matrisin tersinir olup olmadığına dair bilgi veriyor n- boyutlu uzayda matrisin satırlarından oluşmuş bir paralel kenarın hacmine.
2 Yatırım Karlılık Analizleri Finansal Analizler Basit Yöntemler İndirgenmiş Yöntemler Karlılık Yöntemi Geri Ödeme Süresi Yöntemi Net Bugünkü Değer Yöntemi.
Devre ve Sistem Analizi
Bir örnek : Sarkaç. Gradyen Sistemler E(x)’in zamana göre türevi çözümler boyunca Gradyen sistemlere ilişkin özellikler Teorem 6: (Hirsh-Smale-Devaney,
Devre ve Sistem Analizi Neslihan Serap Şengör Elektronik ve Haberleşme Bölümü, oda no:1107 tel no:
Metrik koşullarını sağlıyor mu?
Yaparak yaşayarak öğrenme. Motivasyon ve yöneltme Learning to Learn Training Amaç ve yetenek Developed with the support of the EU Leonardo da Vinci Programme.
Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise,
KISIM 3 Bilişsel Gelişimi Arttırma BÖLÜM 8 Problem Çözme ve Eleştirel Düşünme.
MÜFREDAT PLANLAMA Tıp Eğitimi Anabilim Dalı Seminerleri / 191.
Lisans Müfredatı ve Erken Klinik Eğitim Tıp Eğitimi Anabilim Dalı Seminerleri / 201.
Ders Hakkında 1 Yarıyıl içi sınavı 16 Nisan 2013 % 22 3 Kısa sınav 12 Mart 9 Nisan 14 Mayıs % 21 1 Ödev % 7 Yarıyıl Sonu Sınavı % 50.
TEST ÇÖZME TEKNİKLERİ. Test çözmede 3 unsur önemlidir.
Hopfield Ağı Ayrık zamanSürekli zaman Denge noktasının kararlılığı Lyapunov Anlamında kararlılık Lineer olmayan sistemin kararlılığı Tam Kararlılık Dinamik.
Arş.Gör.İrfan DOĞAN.  Bugün otizm tedavisinde en önemli yaklaşım, özel eğitim ve davranış tedavileridir.  Tedavi planı kişiden kişiye değişmektedir,
Learning to learn network for low skilled senior learners ÖĞRENCİ Mİ? EVET, O BENİM! Learning to Learn Training Bilinçsiz zihnimiz Developed with the support.
Yrd. Doç. Dr. Nuray Ç. Dedeoğlu İlköğretim Matematik Eğitimi
Momentum Terimi Momentum terimi Bu ifade neyi anımsatıyor? Lineer zamanla değişmeyen ayrık zaman sistemi HATIRLATMA.
Dinamik Yapay Sinir Ağı Modelleri Yinelemeli Ağlar (recurrent networks) İleri yolGeri besleme.
Kaos’a varmanın yolları DüzenKaos Nasıl? Umulmadık yapısal değişiklikler ile Bu nasıl oluşabilir? Ardışıl bir dizi dallanma ile, peryod katlanmasına yol.
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ Hesaplamalı Sinirbilim Modeller farklı zamansal ve konumsal ölçeklerde süreçleri ele.
Doğrusal Olmayan Devreler, Sistemler ve Kaos Neslihan Serap Şengör oda no:1107 tel no: Özkan Karabacak oda no:2307 tel.
What is a ‘Relevant’ Translation? Jacques DERRIDA Hazırlayan: Rabia ARIKAN.
Hata Fonksiyonları Lojistik Fonksiyon ß ß Huber Fonksiyonu ß ß.
Davranış Kritik Ödül r δ Pekiştirmeli Öğrenme Eğitilen Sistem Ortam Değer Atama Hatırlatma.
Probleme Dayalı Öğrenme (Problem Based Learning) Programlama Dilleri 2.
DISCUSSION
PROJE TABANLI ÖĞRENME ATÖLYESİ
Ders notlarına nasıl ulaşabilirim
x* denge noktası olmak üzere x* sabit nokta olmak üzere
Manipülatörlerin Lineer Kontrolü
Uyarlanabilir Yankılaşım Teorisi
Eğitimde ve Psikolojide ÖLÇME VE DEĞERLENDİRME
İlk olarak geçen hafta farklı a değerleri için incelediğiniz lineer sisteme bakalım: MATLAB ile elde ettiğiniz sonuçları analitik ifade ile elde edilen.
Bazı sorular: Topolojik eşdeğerlilik ne işimize yarayacak, topolojik
İleri Algoritma Analizi
BÖLÜM 1 TEMEL KAVRAMLAR. BÖLÜM 1 TEMEL KAVRAMLAR.
SAĞLIK KURUMLARINDA KARAR VERME YÖNTEMLERİ
Eğitimde ve Psikolojide ÖLÇME VE DEĞERLENDİRME
“Bilgi”’nin Gösterimi “Bilgi” İnsan veya Makina Yorumlama Öngörme
SPOR PSİKOLOJİSİ Prof Dr Süheyla Ünal.
• EDVAC (Electronic Discrete Variable Automatic Computer)
Buluş nedir?.
Kullanıcı Kılavuzu DynaMed Plus support.ebsco.com.
MATEMATİK DERSİ ÖĞRETİM PROGRAMI
PROBLEM ÇÖZME VE ALGORİTMALAR
Eğiticisiz Öğrenme Hatırlatma
Okul Öncesi Dönemde Fen Eğitimi
Bu konudaki her şeyi okuyun Microsoft SharePoint Haberler
Test Geliştirme Süreci
PROGRAM DEĞERLENDİRME
EĞİTİME GİRİŞ Mehmet Akif Ersoy Üniversitesi
BENZETIM 3. Ders Prof.Dr.Berna Dengiz Monte Carlo Benzetimi
EĞİTİME GİRİŞ Mehmet Akif Ersoy Üniversitesi
EĞİTİME GİRİŞ Mehmet Akif Ersoy Üniversitesi
Araştırma Önerisi ve Hazırlanması
SOSYAL PSİKOLOJİ 1. DERS.
Chapter 5 – Balancing of accounts
Kesikli Olay benzetimi Bileşenleri
Öğrenme Psikolojisi Kuramları: Davranışçı Yaklaşım IV
Sunum transkripti:

davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her adımında istenilen yanıtı sağlayan bir eğitici yok Eğitilen sistem, sonuçta elde edilecek yanıta erişmek için gerekli davranışı eleştiriyi gözönünde tutarak bulmak bulmak zorunda Hatırlatma

Klasik YaklaşımModern Yaklaşım Ceza- ödül süreci sonunda yüksek beceri gerektiren davranış sergilenmesi Henüz denenmemiş gelecekteki olası durumları gözönüne alarak bir dizi davranışa karar verme: planlama Dinamik programlama Kararlar belirli adımlarda verilir, Verilen kararın sonuçları bir sonraki karar verilmeden nisbetten öngörülebilir, Kararlar tamamen bağımsız verilemez, gelecekteki kazanç gözönüne alınmalı, Kredi atama problemi (Credit assignment problem) Makina öğrenmesinde pekiştirmeli öğrenme (Machine learning)

Ortamdaki belirsizliğe rağmen bir amaca erişmek için aktif karar veren bir aracının ortamla ilişkisi inceleniyor. Aracı davranışlarını seçerken yararlanma-arama ikilemi ile yüzleşir. (exploit-explore) Pekiştirmeli öğrenme sistemi: π yaklaşım (policy) r ödül fonksiyonu (reward function) Q π, V π değer fonksiyonu (value function) s ortam modeli Pekiştirmeli öğrenme

davranış a t Aracı Ortam r t+1 s t+1 durum ödül s t r t yaklaşım durum davranış

Önbilgi: Markov Süreci rasgele değişken durum değişkeni Markov Süreci Markov Sürecinde bir durumdan bir diğer duruma geçiş olasılığa bağlı ancak çıkışı belirleme deterministik Durum geçiş olasılığı: Koşullar:

ortam modeli : Markov karar işlevi (Markov Decision Process (MDP)) Makina öğrenmesinde pekiştirmeli öğrenme Genel Markov Daha öncede benzerini görmüstük, nerede? Durum denklemleri Durum geçiş Yanıt

Makina öğrenmesinde pekiştirmeli öğrenme Markov karar işlevi (MDP) ele alındığında değer fonksiyonları ne oluyor? Bu değerler, deneyimlere dayalı olarak belirlenebilir.Monte Carlo Metodu s a r s’ R.S. Sutton, A.G. Barto, “Reinforcement Learning- An Introduction, MIT Press, 1999

Bir pekiştirmeli öğrenme metodu: Monte Carlo ortam modeli: deneyim gerçek deneyim (on-line) benzeşim deneyim (simulated) yaklaşımla ve yaklaşım ötesinde (on-policy) (off-policy)

Optimal değerleri belirleme:

Bir pekiştirmeli öğrenme metodu: Zamansal fark Monte Carlo metoduna benziyor: ortamın tam modeline gereksinimi yok Dinamik programlamaya benziyor: en son çıktıyı beklemeden güncelleme yapabiliyor ● Yaklaşımla: Sarsa Yaklaşım ötesinde: Q-öğrenme (Q-learning) ● Aktör-Kritik

Aktör-kritik için bir uygulama Değer fonksiyonu Davranış Hata

Psikoloji açısından Pekiştirmeli öğrenme Biz kararlarımızı nasıl veriyoruz? Verdiğimiz kararlar daha sonraki davranışlarımızı nasıl etkiliyor? Verdiğimiz kararların sonuçları öğrenmemizi sağlıyor mu?

Şartlanma-Pekiştirmeli öğrenme İlişkilendirme (association): O 1 T 1 O 2 T 2 O 1 T 2 Klasik Şartlanma Throndike’nin Yasası: U 1 Te 1 U 1 Te 1 U 2 Te 2 U 2 Te 2 Etkin Şartlanma δ

Psikolojide pekiştirmeli öğrenme Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur. The greater the satisfaction or discomfort, the greater the strengthening or weakening of the bond. (Thorndike, 1911, p. 244)

Psikolojide pekiştirmeli öğrenme Throndike (1898): uyaran-yanıt ilişkilendirmesi (stimulus-response association) Skinner (1938): davranışsal düzenleme (behavioral regulation)

Nörobilim açısından Pekiştirmeli öğrenme Beyindeki hangi bölgeler yer alıyor? Bu bölgelerin birbirleriyle bağlantıları neler? Bağlantıları etkileyen mekanizmalar neler?

Haber, N.S. et.al. The journal of neuroscience,