Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise, bir bozulmuş veya eksik örüntü ile başlayarak bu örüntünün bellekteki aslına erişilebilinir mi? Herhangi bir ilk ilk koşul ile başlanıldığında ağa ilişkin dinamik hangi kararlı durum çözümünü verecek ? Küçük hata ile kaç örüntü belleğe yerleştirilebilinir?
Hopfield Ağı yakınsıyor, ama nereye? Ağırlıkları yerleştirelim: n büyük ise p > 0.38n ise bellek anlamsızlaşıyor
Sürekli Zaman Hopfield Ağı ile Çağrışımlı Bellek Tasarımı Ayrık zaman Hopfield ağındaki gibi ağırlıklar belirlenir ve diferansiyel Denklem takımı çözülür.
davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her adımında istenilen yanıtı sağlayan bir eğitici yok Eğitilen sistem, sonuçta elde edilecek yanıta erişmek için gerekli davranışı eleştiriyi gözönünde tutarak bulmak bulmak zorunda Hatırlatma
Klasik YaklaşımModern Yaklaşım Ceza- ödül süreci sonunda yüksek beceri gerektiren davranış sergilenmesi Henüz denenmemiş gelecekteki olası durumları gözönüne alarak bir dizi davranışa karar verme: planlama Dinamik programlama (Bertsekas Tsitsiklis 1996) Kararlar belirli adımlarda verilir, Verilen kararın sonuçları bir sonraki karar verilmeden nisbetten öngörülebilir, Kararlar tamamen bağımsız verilemez, gelecekteki kazanç gözönüne alınmalı, Kredi atama problemi (Credit assignment problem) Makina öğrenmesinde pekiştirmeli öğrenme (Machine learning)
Ortamdaki belirsizliğe rağmen bir amaca erişmek için aktif karar veren bir aracının ortamla ilişkisi inceleniyor. Aracı davranışlarını seçerken yararlanma-arama ikilemi ile yüzleşir. (exploit-explore) Pekiştirmeli öğrenme sistemi: π yaklaşım (policy) r ödül fonksiyonu (reward function) Q π, V π değer fonksiyonu (value function) s ortam modeli Pekiştirmeli öğrenme
davranış a t Aracı Ortam r t+1 s t+1 durum ödül s t r t yaklaşım durum davranış
Önbilgi: Markov Süreci rasgele değişken durum değişkeni Markov Süreci Markov Sürecinde bir durumdan bir diğer duruma geçiş olasılığa bağlı ancak çıkışı belirleme deterministik Durum geçiş olasılığı: Koşullar:
ortam modeli : Markov karar işlevi (Markov Decision Process (MDP)) Makina öğrenmesinde pekiştirmeli öğrenme Genel Markov Daha öncede benzerini görmüstük, nerede? Durum denklemleri Durum geçiş Yanıt
Makina öğrenmesinde pekiştirmeli öğrenme Markov karar işlevi (MDP) ele alındığında değer fonksiyonları ne oluyor? Bu değerler, deneyimlere dayalı olarak belirlenebilir.Monte Carlo Metodu s a r s’ R.S. Sutton, A.G. Barto, “Reinforcement Learning- An Introduction, MIT Press, 1999
Bir pekiştirmeli öğrenme metodu: Monte Carlo ortam modeli: deneyim gerçek deneyim (on-line) benzeşim deneyim (simulated) yaklaşımla ve yaklaşım ötesinde (on-policy) (off-policy)
Optimal değerleri belirleme:
Bir pekiştirmeli öğrenme metodu: Zamansal fark Monte Carlo metoduna benziyor: ortamın tam modeline gereksinimi yok Dinamik programlamaya benziyor: en son çıktıyı beklemeden güncelleme yapabiliyor ● Yaklaşımla: Sarsa Yaklaşım ötesinde: Q-öğrenme (Q-learning) ● Aktör-Kritik
Aktör-kritik için bir uygulama Değer fonksiyonu Davranış Hata
Araba – Çubuk (Cart – Pole ) Problemi -2,4 m < x < -2,4 m 12° < θ < +12° Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011
Sisteme ilişkin denklemler; Sisteme ilişkin yeni denklemler Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011
Araba çubuk probleminden izlenen yöntem; ACE: n ASE: w(t+1) = w(t) + α (t) e(t) e(t+1) = δ e(t) + (1- δ) y(t) x(t) F= r^(t) = r(t) + γ p(t) – p(t-1) v(t+1) = v(t) + β [ r(t) + γ p(t) – p(t-1) ] x (t) x(t+1) = λ x (t) + (1 - λ) x(t) y = f [w T (t) * x(t) + n(t) ], n(t) : gürültü Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011
Simülasyon Sonuçları Başlangıç Koşulları; Q1(2)= 11; ‘Çubuğun Düşey Eksene Göre Açısı’ Q2(2)= 0; ‘Çubuğun Açısının Değişim Hızı’ x1(2)= 2.3; ‘Arabanın Referans Noktasına Göre Konumu’ x2(2)= 0; ‘Arabanın Konumunun Değişim Hızı’ Sistemin davranışı ve ödül işaretinin değişimi; Yusuf Kuytumcu, Lisans Bitirme Ödevi, 2011