Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron) Teorem: (Kolmogorov 1957) ‘e bağlı olmayan monoton artan sürekli tek değişkenli fonksiyon sürekli.

Benzer bir sunumlar


... konulu sunumlar: "Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron) Teorem: (Kolmogorov 1957) ‘e bağlı olmayan monoton artan sürekli tek değişkenli fonksiyon sürekli."— Sunum transkripti:

1 Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron) Teorem: (Kolmogorov 1957) ‘e bağlı olmayan monoton artan sürekli tek değişkenli fonksiyon sürekli tek değişkenli fonksiyon

2 Teoremin sonuçları..... Kolmogorov Teoremi bir varlık teoremi ‘i özel bir şekilde ifade edebileceğimizi söylüyor. ve ‘nin ne yapıda olduklarını ve kaç tanesinin yeterli olacağını söylüyor. Kolmogorov Teoremi bir varlık teoremi olduğundan nasıl belirlenir söylemiyor. Kolmogorov Teoreminde bazı şeylerden vazgeçelim; tam olmasın yaklaşık olsun ama fonksiyonları bilelim. Teorem: (Cybenko 1989) yeterince büyük herhangi bir sürekli sigmoid fonksiyon

3 İleri Yol Ağı ve Eğiticili Öğrenme Giriş vektörü Çıkış vektörü Gizli katmanlar Çıkış katmanı

4 GirişGizli katman 1 Gizli katman 2 Çıkış Ağ yapısı giriş katmanı işlem yapan gizli katmanlar işlem yapan çıkış katmanı Nöron sürekli türetilebilir, lineer olmayan aktivasyon fonksiyonu var Eğitim eğiticili öğrenme Öğrenme algoritması geriye yayılım Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron)

5 + - Gizli katman ve çıkış katmanındaki her nöron iki iş yapıyor: (i) nöron çıkışındaki işareti nöron girişindeki işaretler cinsinden hesaplıyor, (ii) gradyen vektörünü geriye yayılım için yaklaşık olarak hesaplıyor

6 Geriye Yayılım Algoritması (Back-Propagation Algorithm) Verilenler: Eğitim Kümesi Hesaplananlar: Eğitim Kümesindeki l. çifte ilişkin çıkış katmanındaki j. nörondaki hata Nöron j için ani hata: Toplam ani hata: Ortalama karesel hata: Neden sadece çıkış katmanı? Ağdaki hangi büyüklüklere bağlı? Verilen eğitim kümesi için, ortalama karesel hata ‘yı öğrenme performansının ölçütü olarak al ve bu amaç ölçütünü enazlayan parametreleri belirle.

7 Yapılan: yerine ‘yi en azlamak Eğitim kümesindeki k. veri için ileri yolda hesaplananı yazalım: 1. Gizli Katman Çıkışı 2. Gizli Katman Çıkışı

8 Eğitim kümesindeki k. veri için hesaplanan toplam ani hata

9 Çıkış katmanındaki j. nöron ile gizli katmandaki i. nörona ilişkin ağırlığın güncellenmesi Ağırlığın güncellenmesi Hangi yöntem? “en dik iniş “ (steepest descent)

10 Notasyona Dikkat!!!!! k eğitim kümesindeki kaçıncı veri olduğu aynı zamanda güncellemede bir iterasyon içinde kaçıncı defa güncellendiği çıkış katmanında j. nöron çıkışı gizli katmandaki i. nöron çıkışı Yeni notasyon Çıkış katmanı Gizli katmanın sayısı

11 Gizli katman ve çıkış katmanındaki her nöron iki iş yapıyor: (i) nöron çıkışındaki işareti nöron girişindeki işaretler cinsinden hesaplıyor, (ii) gradyen vektörünü geriye yayılım için yaklaşık olarak hesaplıyor Yerel gradyen

12 Çıkış katmanındaki tüm ağırlıkların güncellenmesi

13 gizli katman (gks-1)’deki j. nöron ile gizli katman (o)’daki i. nörona ilişkin ağırlığın güncellenmesi

14 ilgilenilen ağırlığının toplam ani hataya etkisi Tanıdık birşeyler arayalım

15 Yerel gradyen

16 Gizli katmanındaki tüm ağırlıkların güncellenmesi Herhangi bir gizli katmandaki yerel gradyen

17 Geriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı Öğrenme hızını belirleyen büyüklük küçük ağırlıklardaki değişim bir iterasyondan diğerine küçük olacağı için, ağırlık uzayında düzgün bir değişim gözlenecek öğrenme yavaş olacak büyüköğrenme hızlanacak salınım oluşacağından yakınsama mümkün olmayabilir Hızı artıralım ama salınım da olmasın. Bu mümkün mü?

18 Momentum Terimi Momentum terimi Bu ifade neyi anımsatıyor? Lineer zamanla değişmeyen ayrık zaman sistemi HATIRLATMA

19 Bu sistemin çözümü nereye gidiyor? A matrisinin özdeğerleri birim daire içinde ise girişin belirlediği değere A matrisinin özdeğerleri birim daire üstünde ise salınım yapan bir sistem A matrisinin özdeğerleri birim daire dışında ise sonsuza hatırlatmanın sonu Momentum terimi varken güncellemede ne oluyor ona bakalım

20 Ardışık iterasyonlarda aynı işaretli ise ‘nın genliği büyüyecek, ağırlıklardaki değişim büyük olacak. Ardışık iterasyonlarda farklı işaretli ise ‘nın genliği azalacak, ağırlıklardaki değişim küçük olacak Momentum teriminin gradyenin işaretinin değiştiği doğrultularda kararlı kılma etkisi var.

21 S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2 nd Edition, Prentice Hall, 1999, New Jersey.

22 S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2 nd Edition, Prentice Hall, 1999, New Jersey.

23 S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2 nd Edition, Prentice Hall, 1999, New Jersey.

24 Adaptif Öğrenme Hızı

25 Grup-Veri Uyarlamalı Eğitim Veri Uyarlamalı Eğitim “sequential mode” “on-line mode” “ pattern mode” “stochastic mode” Grup Uyarlamalı Eğitim “batch mode” Eğitim kümesindeki her örüntü ağa uyarlandıktan sonra ağırlıklar değiştiriliyor Eğitim kümesindeki tüm örüntüler ağa uyarlandıktan sonra ağırlıklar değiştiriliyor

26 Grup UyarlamalıVeri uyarlamalı Amaç Ölçütü Her bağlantı için gereken bellek Örüntülerin ağa sunuluşu Algoritmanın yakınsaması Paralelliğin sağlanması Eğitim kümesinin fazlalıklı olması Algoritmanın basitliği Büyük boyutlu ve zor problemlerde etkin çözüm sağlanması

27 Geriye Yayılım Algoritmasının Yakınsaması Genlikte Ayrık Algılayıcıdaki gibi yakınsaması garanti değil. Ne zaman durduracağız? Kramer+Sangionanni-Vincentelli (1989) Çapraz değerlendirme (cross-validation) Eğitim Kümesi Yaklaşıklık Kümesi (estimation subset) Değerlendirme Kümesi (validation subset)

28 S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2 nd Edition, Prentice Hall, 1999, New Jersey.


"Çok Katmanlı Algılayıcı-ÇKA (Multi-Layer Perceptron) Teorem: (Kolmogorov 1957) ‘e bağlı olmayan monoton artan sürekli tek değişkenli fonksiyon sürekli." indir ppt

Benzer bir sunumlar


Google Reklamları