Geriye Yayılım Algoritması (Back-Propagation Algorithm) Hatırlatma Verilenler: Eğitim Kümesi Hesaplananlar: Eğitim Kümesindeki l. çifte ilişkin çıkış katmanındaki j. nörondaki hata Nöron j için ani hata: Toplam ani hata: Neden sadece çıkış katmanı? Ortalama karesel hata: Ağdaki hangi büyüklüklere bağlı?
ölçütünü enazlayan parametreleri belirle. Hatırlatma Verilen eğitim kümesi için, ortalama karesel hata ‘yı öğrenme performansının ölçütü olarak al ve bu amaç ölçütünü enazlayan parametreleri belirle. EK BİLGİ Bazı Eniyileme (Optimizasyon) Teknikleri Eniyileme problemi Kısıtlar: Kısıtsız Eniyileme Problemi
‘in ekstremum noktası ise Teorem: Hatırlatma 1. Mertebeden gerek koşul ‘in ekstremum noktası ise Teorem: 2. Mertebeden yeter koşul kesin pozitif Nasıl hesaplanır? ‘in minimum noktasıdır. Doğrultu Belirleme (Line Search) Algoritması başlangıç noktasını belirle doğrultusunu belirle ‘yı ‘ya göre enazlayan ‘yı belirle doğrultusunu belirle
Algoritma fonksiyonu enazlayan ‘a yakınsayacak Hatırlatma Amaç: Beklenti: Algoritma fonksiyonu enazlayan ‘a yakınsayacak Ne zaman sona erdilecek? doğrultusunu belirle Nasıl ? “en dik iniş “ (steepest descent) Newton Metodu Gauss-Newton Metodu Bu doğrultuların işe yaradığını nasıl gösterebiliriz?
Gauss-Newton Metodu ile sağlanır mı? Kısıtlama:
Gauss-Newton Metodu’nun amacı özel bir için Hessian matrisini kullanmadan 2. mertebe yöntem kadar iyi sonuç elde etmek. Bu ifade aslında nedir?
varsa Sonuç: ‘a yakınsayacak EK BİLGİNİN SONU Amaç: Verilen eğitim kümesi için, ortalama karesel hata ‘yı öğrenme performansının ölçütü olarak al ve bu amaç ölçütünü enazlayan parametreleri belirle. Toplam ani hata: Ortalama karesel hata:
Yapılan: yerine ‘yi en azlamak Eğitim kümesindeki k. veri için ileri yolda hesaplananı yazalım: 1. Gizli Katman Çıkışı 2. Gizli Katman Çıkışı
Eğitim kümesindeki k. veri için hesaplanan toplam ani hata
Ağırlığın güncellenmesi “en dik iniş “ (steepest descent) Çıkış katmanındaki j. nöron ile gizli katmandaki i. nörona ilişkin ağırlığın güncellenmesi Hangi yöntem? Ağırlığın güncellenmesi “en dik iniş “ (steepest descent)
Notasyona Dikkat!!!!! k eğitim kümesindeki kaçıncı veri olduğu aynı zamanda güncellemede bir iterasyon içinde kaçıncı defa güncellendiği çıkış katmanında j. nöron çıkışı gizli katmandaki i. nöron çıkışı Çıkış katmanı Yeni notasyon Gizli katmanın sayısı
Gizli katman ve çıkış katmanındaki her nöron iki iş yapıyor: Hatırlatma Gizli katman ve çıkış katmanındaki her nöron iki iş yapıyor: (i) nöron çıkışındaki işareti nöron girişindeki işaretler cinsinden hesaplıyor, (ii) gradyen vektörünü geriye yayılım için yaklaşık olarak hesaplıyor Yerel gradyen
Çıkış katmanındaki tüm ağırlıkların güncellenmesi
gizli katman (gks-1)’deki j. nöron ile gizli katman (o)’daki i. nörona ilişkin ağırlığın güncellenmesi
Tanıdık birşeyler arayalım ilgilenilen ağırlığının toplam ani hataya etkisi Tanıdık birşeyler arayalım
Yerel gradyen
Herhangi bir gizli katmandaki yerel gradyen Gizli katmanındaki tüm ağırlıkların güncellenmesi Herhangi bir gizli katmandaki yerel gradyen
Geriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı Öğrenme hızını belirleyen büyüklük küçük ağırlıklardaki değişim bir iterasyondan diğerine küçük olacağı için, ağırlık uzayında düzgün bir değişim gözlenecek öğrenme yavaş olacak büyük öğrenme hızlanacak salınım oluşacağından yakınsama mümkün olmayabilir Hızı artıralım ama salınım da olmasın. Bu mümkün mü?