Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise,

Slides:



Advertisements
Benzer bir sunumlar
MIT563 Yapay Zeka ve Makine Öğrenmesi
Advertisements

PARÇACIĞIN KİNEMATİĞİ
MIT503 Veri Yapıları ve algoritmalar Algoritma Oluşturma – Açgözlü algoritmalar ve buluşsallar Y. Doç. Yuriy Mishchenko.
MIT563 Yapay Zeka ve Makine Öğrenmesi
Bir Hazır Giyim Perakende Zincirinde Rassal Talep Altında Kalıcı İndirim Politikalarının Belirlenmesi Özlem Coşgun1, Ufuk Kula2, Ayhan Demiriz2 1 İstanbul.
MATEMATİKSEL PROGRAMLAMA
İstatistiksel Sınıflandırma
Sürekli Olasılık Dağılım (Birikimli-Kümülatif)Fonksiyonu
Abdulkerim Karabiber Ozan Gül
Koentegrasyon Bir çok makro iktisadi zaman serisi stokastik ya da deterministik trend içermektedir. Bu tür serileri, durağanlığı sağlanıncaya kadar farkını.
Oguzhanhoca.com /oguzhanhocam /oguzhan_hoca.
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü
Bölüm6:Diferansiyel Denklemler: Başlangıç Değer Problemleri
Laplace Transform Part 3.
GEOMETRİK PROGRAMLAMA
BENZETİM Prof.Dr.Berna Dengiz 3. Ders Monte Carlo Benzetimi
BİYOİNFORMATİK NEDİR? BİYOİNFORMATİKTE KULLANILAN SINIFLAMA YÖNTEMLERİ
Havayolu Gelir Yönetimi: Akademi Pratiğin Neresinde?
SONLU ELEMANLAR YÖNTEMİ
Bölüm 3 BİR BOYUTLU HAREKET
PARÇACIĞIN KİNEMATİĞİ Düzlemde Eğrisel Hareket
Probleme Dayalı Öğrenme (Problem Based Learning)
EŞANLI DENKLEMLİ MODELLER. Eşanlı denklem sisteminde, Y den X e ve X den Y ye karşılıklı iki yönlü etki vardır. Y ile X arasındaki karşılıklı ilişki nedeniyle.
BİRİNCİ DERECEDEN BİR BİLİNMEYENLİ DENKLEMLER
İLKÖĞRETİM MATEMATİK 6.SINIF
SONLU ELEMANLARA GİRİŞ DERSİ
DİFERANSİYEL DENKLEMLER
Karar Bilimi 1. Bölüm.
Öğrenci İş Yüküne Dayalı AKTS Kredisi Hesaplama. Giriş Üniversitemiz senatosunun 3 Mayıs 2013 tarihinde aldığı karar gereği eğitim öğretim yılından.
Bölüm 2 Bir boyutta hareket. Kinematik Dış etkenlere maruz kalması durumunda bir cismin hareketindeki değişimleri tanımlar Bir boyutta hareketten kasıt,
ÖLÇME VE ENSTRÜMANTASYON
MKM 311 Sistem Dinamiği ve Kontrol
Lineer Olmayan Denklem Sistemlerinin Çözüm Yöntemleri
Bulanık Mantık Kavramlar:
Sayısal Analiz 7. Hafta SAÜ YYurtaY.
4.1 Kararlılık ) s ( R D(s): Kapalı sistemin paydası
BİL3112 Makine Öğrenimi (Machine Learning)
2K-28>0  K>14 ÖDEV 4 ÇÖZÜMLERİ
Yapay Sinir Ağları (Artificial Neural Networks) Bir Yapay Sinir Ağı Tanımı (Alexander, Morton 1990) Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş,
Geçen hafta anlatılanlar Değişmez küme Değişmez kümelerin kararlılığı Bildiğimiz diğer kararlılık tanımları ve değişmez kümenin kararlılığı ile ilgileri.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
Hatırlatma: Durum Denklemleri
Hopfield Ağı Ayrık zamanSürekli zaman Denge noktasının kararlılığı Lyapunov Anlamında kararlılık Lineer olmayan sistemin kararlılığı Tam Kararlılık Dinamik.
YAPI STATİĞİ 1 KESİT TESİRLERİ Düzlem Çubuk Kesit Tesirleri
1. Mertebeden Lineer Devreler
Zamanla Değişmeyen Lineer Kapasite ve
ISIS IRIR ITIT Z=10e -j45, 3-fazlı ve kaynak 220 V. I R, I S, I T akımları ile her empedansa ilişkin akımları belirleyin.
Davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her.
F(.) y[n+1] Giriş Vektörü Giriş-Çıkış Eşleme Fonksiyonu Çıkış Mahmut Meral, Lisans Bitirme Ödevi, 2003 Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma.
Ayrık Zaman Hopfield Ağı ile Çağrışımlı Bellek Tasarımı Kullanılan Hücre Modeli: McCulloch-Pitts Eksik birşey var!! Örüntüler: 1. Aşama: Belleğin Oluşturulması.
Wisconsin Kart Sıralama Testi WCST
Davranış Kritik Ödül r δ Pekiştirmeli Öğrenme Eğitilen Sistem Ortam Değer Atama Hatırlatma.
“Bilgi”’nin Gösterimi “Bilgi” İnsan veya Makina Yorumlama Öngörme Uygun yanıt verme Depolanmış enformasyon veya model Kurallar: (1) Benzer sınıflardan.
İSTANBUL TEKNİK ÜNİVERSİTESİ ♦ ELEKTRONİK & HABERLEŞME MÜHENDİSLİĞİ Öğrenme nasıl gerçekleşiyor? Ağırlıklar hatayı en azlıyacak şekilde güncelleniyor Öğrenme.
Yapay sinir ağı, basit işlemci ünitelerinden oluşmuş, çok
Algoritmalar II Ders 2 Dinamik Programlama Yöntemi.
ARAÇLAR VE AÇIK-UÇLU ÖĞRENME ORTAMLARI
Dinamik Sistem Dinamik sistem: (T, X, φt ) φt : X X a1) φ0=I
Ayrık Zaman Hopfield Ağı ile Çağrışımlı Bellek Tasarımı
Poincare Dönüşümü
Geçen hafta ne yapmıştık
Sinir Hücresi McCulloch-Pitts x1 w1 x2 w2 v y wm xm wm+1 1 '
Hopfield Ağı Ayrık zaman Sürekli zaman
Sistem Özellikleri: Yönetilebilirlik, Gözlenebilirlik ve Kararlılık
C Programlama Yrd.Doç.Dr. Ziynet PAMUK BMM211-H11
S. Haykin, “Neural Networks- A Comprehensive Foundation”,
MONTE CARLO BENZETİMİ U(0,1) rassal değişkenler kullanılarak (zamanın önemli bir rolü olmadığı) stokastik ya da deterministik problemlerin çözümünde kullanılan.
Yapay Öğrenme Teorisi Bölüm-1
Algoritmalar II Ders 2 Dinamik Programlama Yöntemi.
G(s) 2b-1 Laplace Dönüşümü:
Sunum transkripti:

Bazı Sorular Gerçekten de belirlenen ağırlıklar ile istenilen kararlı denge noktalarına erişmemizi sağlayacak dinamik sistem yaratıldı mı? Eğer evet ise, bir bozulmuş veya eksik örüntü ile başlayarak bu örüntünün bellekteki aslına erişilebilinir mi? Herhangi bir ilk ilk koşul ile başlanıldığında ağa ilişkin dinamik hangi kararlı durum çözümünü verecek ? Küçük hata ile kaç örüntü belleğe yerleştirilebilinir?

Hopfield Ağı yakınsıyor, ama nereye? Ağırlıkları yerleştirelim: n büyük ise p > 0.38n ise bellek anlamsızlaşıyor

Sürekli Zaman Hopfield Ağı ile Çağrışımlı Bellek Tasarımı Ayrık zaman Hopfield ağındaki gibi ağırlıklar belirlenir ve diferansiyel Denklem takımı çözülür.

davranış durum Eğitilen sistem Değer Atama Ortam Kritik Ödül r δ Eğiticisiz Öğrenme Pekiştirmeli Öğrenme (reinforcement learning) Öğrenme işleminin her adımında istenilen yanıtı sağlayan bir eğitici yok Eğitilen sistem, sonuçta elde edilecek yanıta erişmek için gerekli davranışı eleştiriyi gözönünde tutarak bulmak bulmak zorunda Hatırlatma

Klasik YaklaşımModern Yaklaşım Ceza- ödül süreci sonunda yüksek beceri gerektiren davranış sergilenmesi Henüz denenmemiş gelecekteki olası durumları gözönüne alarak bir dizi davranışa karar verme: planlama Dinamik programlama (Bertsekas Tsitsiklis 1996) Kararlar belirli adımlarda verilir, Verilen kararın sonuçları bir sonraki karar verilmeden nisbetten öngörülebilir, Kararlar tamamen bağımsız verilemez, gelecekteki kazanç gözönüne alınmalı, Kredi atama problemi (Credit assignment problem) Makina öğrenmesinde pekiştirmeli öğrenme (Machine learning)

Ortamdaki belirsizliğe rağmen bir amaca erişmek için aktif karar veren bir aracının ortamla ilişkisi inceleniyor. Aracı davranışlarını seçerken yararlanma-arama ikilemi ile yüzleşir. (exploit-explore) Pekiştirmeli öğrenme sistemi: π yaklaşım (policy) r ödül fonksiyonu (reward function) Q π, V π değer fonksiyonu (value function) s ortam modeli Pekiştirmeli öğrenme

davranış a t Aracı Ortam r t+1 s t+1 durum ödül s t r t yaklaşım durum davranış

Önbilgi: Markov Süreci rasgele değişken durum değişkeni Markov Süreci Markov Sürecinde bir durumdan bir diğer duruma geçiş olasılığa bağlı ancak çıkışı belirleme deterministik Durum geçiş olasılığı: Koşullar:

ortam modeli : Markov karar işlevi (Markov Decision Process (MDP)) Makina öğrenmesinde pekiştirmeli öğrenme Genel Markov Daha öncede benzerini görmüstük, nerede? Durum denklemleri Durum geçiş Yanıt

Makina öğrenmesinde pekiştirmeli öğrenme Markov karar işlevi (MDP) ele alındığında değer fonksiyonları ne oluyor? Bu değerler, deneyimlere dayalı olarak belirlenebilir.Monte Carlo Metodu s a r s’ R.S. Sutton, A.G. Barto, “Reinforcement Learning- An Introduction, MIT Press, 1999

Bir pekiştirmeli öğrenme metodu: Monte Carlo ortam modeli: deneyim gerçek deneyim (on-line) benzeşim deneyim (simulated) yaklaşımla ve yaklaşım ötesinde (on-policy) (off-policy)

Optimal değerleri belirleme:

Bir pekiştirmeli öğrenme metodu: Zamansal fark Monte Carlo metoduna benziyor: ortamın tam modeline gereksinimi yok Dinamik programlamaya benziyor: en son çıktıyı beklemeden güncelleme yapabiliyor ● Yaklaşımla: Sarsa Yaklaşım ötesinde: Q-öğrenme (Q-learning) ● Aktör-Kritik

Aktör-kritik için bir uygulama Değer fonksiyonu Davranış Hata

Araba – Çubuk (Cart – Pole ) Problemi -2,4 m < x < -2,4 m 12° < θ < +12° Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011

Sisteme ilişkin denklemler; Sisteme ilişkin yeni denklemler Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011

Araba çubuk probleminden izlenen yöntem; ACE: n ASE: w(t+1) = w(t) + α (t) e(t) e(t+1) = δ e(t) + (1- δ) y(t) x(t) F= r^(t) = r(t) + γ p(t) – p(t-1) v(t+1) = v(t) + β [ r(t) + γ p(t) – p(t-1) ] x (t) x(t+1) = λ x (t) + (1 - λ) x(t) y = f [w T (t) * x(t) + n(t) ], n(t) : gürültü Yusuf Kuyumcu, Lisans Bitirme Ödevi, 2011

Simülasyon Sonuçları Başlangıç Koşulları; Q1(2)= 11; ‘Çubuğun Düşey Eksene Göre Açısı’ Q2(2)= 0; ‘Çubuğun Açısının Değişim Hızı’ x1(2)= 2.3; ‘Arabanın Referans Noktasına Göre Konumu’ x2(2)= 0; ‘Arabanın Konumunun Değişim Hızı’ Sistemin davranışı ve ödül işaretinin değişimi; Yusuf Kuytumcu, Lisans Bitirme Ödevi, 2011