Konuşma Terapisine Yönelik Otomatik Konuşma Tanıma Yöntemleri 1 Konuşma Terapisine Yönelik Otomatik Konuşma Tanıma Yöntemleri Oytun Türk Levent M. Arslan oytun@sestek.com.tr arslanle@boun.edu.tr Boğaziçi Üniversitesi, Elektrik-Elektronik Müh. Bölümü, www.busim.ee.boun.edu.tr Sestek A.Ş., Ar-Ge Bölümü İTÜ Ayazağa Kampüsü, ARI-1 Teknopark Binası, İstanbul www.sestek.com.tr
İÇERİK AMAÇ 2 Konuşma İşleme ve Otomatik Konuşma Tanıma Konuşma Bozuklukları ve Konuşma İşleme Konuşma Tanıma Yöntemleri Yalıtılmış Fonem Tanıma Türkçe Yalıtılmış Sözcük Tanıma Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması Sonuçlar AMAÇ Türkçe konuşma terapisinde kullanılabilecek konuşma tanıma yöntemlerinin incelenmesi
KONUŞMA İŞLEME VE KONUŞMA TANIMA 3 KONUŞMA İŞLEME VE KONUŞMA TANIMA Akustik Analiz Konuşma Kodlama Konuşma İşleme Konuşma Sentezi Konuşma Tanıma
KONUŞMA TERAPİSİ 4 Teşhis: Okuma testleri Tedavi: Okuma testleri Akustik ölçüm: f0, tilt, jitter, shimmer, harmonikler, ... Fiziksel muayene, işitme testleri, ... Fonemlerin seslendirilmesi Hecelerin ve hece gruplarının seslendirilmesi Sözcüklerin seslendirilmesi Cümlelerin seslendirilmesi Paragraf okuma çalışmaları Görsel/İşitsel egzersizler
KONUŞMA TERAPİSİ VE KONUŞMA İŞLEME 5 KONUŞMA TERAPİSİ VE KONUŞMA İŞLEME Yöntemler: Avantajlar: Konuşma tanıma Akustik analiz Konuşma sentezi Hızlı teşhis Terapi sürecinin izlenmesi Değerlendirmede nesnel ölçütlerin kullanılması Yardımcı yazılım araçlarının geliştirilmesi Kendi kendine test imkanı
6 Konuşma İşleme Konuşma Bozuklukları Artikülasyon Konuşma Tanıma Akustik Analiz Akış Kusurları Süre Analizi Ses Kalitesi Bozuklukları Ses Kalitesi Analizi Vurgu Sorunları Vurgu Analizi
İncelenen Konuşma Tanıma Yöntemleri 7 İncelenen Konuşma Tanıma Yöntemleri Üç problem: Yalıtılmış fonemlerin tanınması Sözcük listesinden tanıma Birbirine çok yakın sözcüklerin tanınması Yöntem: Saklı Markov Modelleri’ne (SMM) dayalı konuşma tanıma Mel frekansı kepstrum katsayıları, log enerji, ötümlülük olasılığı (Pö ), fark ve ivme parametreleri Enerji eşikleme tabanlı konuşma başlangıç/bitiş anı sezimi Fonem Türü Fonem Çifti Örnek Diş-dudak ünsüzleri /f/-/v/ defa – deva Dil ucu-Dişeti ünsüzleri /s/-/z/ /t/-/d/ kas – kaz katı - kadı Dişeti-damak ünsüzleri /ş/-/j/ /c/-/ç/ beş – bej cam – çam Çift dudak ünsüzleri /p/-/b/ put – but Art damak ünsüzleri /k/-/g/ kar – gar Dişeti ünsüzü ve sert (ön) damak ünsüzü /r/-/y/ bir – biy Türkçe’de sıklıkla birbirine karıştırılan fonem çiftleri
Yalıtılmış Fonem Tanıma Yalıtılmış fonem tanımada kullanılan fonemler 8 Yalıtılmış Fonem Tanıma Veritabanı: 14 fonem (x5), 16 KHz, ~2 s. 12 konuşmacı (4 bayan, 8 bay), 20-36 yaş Çapraz-geçerleme: (11 kişi eğitim, 1 kişi test) x 12 Ünlüler /a/, /e/, /ı/, /i/, /o/, /ö/, /u/, /ü/ Ünsüzler /f/, /j/, /s/, /ş/, /v/, /z/ Yalıtılmış fonem tanımada kullanılan fonemler
Yalıtılmış Fonem Tanıma: Sonuçlar 9 Yalıtılmış Fonem Tanıma: Sonuçlar Ortalama: %84.9 (σ = 6.8) En düşük: /ı/ (%63.3) /u/ (%77.5) /ü/ (%79.6) En çok hata: /ı//ö/ (%34.7) /o//u/ (%16.3) /u//o/ (%14.3) Fonem tanıma oranları (%)
Türkçe Yalıtılmış Sözcük Tanıma 126 Türkçe sözcük için tanıma oranları 10 Türkçe Yalıtılmış Sözcük Tanıma Veritabanı: Terapide kullanılan 126 sözcük, 16 KHz 11 konuşmacı (4 bayan, 7 bay), 20-36 yaş Model: N+2 durumlu SMM (N = fonem sayısı) Her durum 2 bileşenli GKM MFKK + Log enerji + Pö + Fark parametreleri Çapraz-geçerleme: (10 kişi eğitim, 1 kişi test) x 11 Eğitim ve Test Tanıma Oranı Konuşmacı bağımsız %94.2 Konuşmacı bağımlı %97.2 126 Türkçe sözcük için tanıma oranları
Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması 11 Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması Veritabanı: 24 sözcük çifti (x5), 16 KHz 9 kişi (4 bayan, 5 bay), 20-36 yaş Model: N+2 durumlu SMM Her durum 2 bileşenli GKM MFKK + Log en. + Pö + Fark Çapraz-geçerleme: (8 kişi eğitim, 1 kişi test) x 9 Konuşmacı bağımlı Birbirine çok yakın sözcükler
Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması 12 Birbirine Çok Yakın Türkçe Sözcüklerin Tanınması Eğitim ve Test Tanıma Oranı Konuşmacı bağımsız %80.3 Konuşmacı bağımlı %88.0 Ortalama tanıma oranları En az hata: /r/-/y/ (%1.7) /t/-/d/ (%2.5) En çok hata: /k/-/g/ (%25.0) /c/-/ç/ (%16.7) Konuşmacı bağımlı tanıma oranları
(*) Birbirine çok yakın sözcükler 13 SONUÇLAR /ı/-/ö/ için tanıma oranı düşük Hastaya uyarlanabilir terapi yazılımı geliştiriliyor Yöntemler terapiste yardımcı olabilecek Konuşma terapisine yönelik konuşma tanıma yöntemleri için tanıma oranları (*) Birbirine çok yakın sözcükler
Ünlü Tanıma Terapist (Prototip) 14 SESTEK YAZILIMLARI Ünlü Tanıma Terapist (Prototip)
15 TARTIŞMA Disiplinlerarası ortak çalışma gerekli: Mühendislik, Tıp, Dilbilim, Psikoloji, Pedagoji, ... Türkçe fonetik – B.Ü. Dilbilim bölümüyle: http:\\www.busim.ee.boun.edu.tr\speech\speech.html Türkçe için temel incelemelerin gerçekleştirilmesi: Türk, O., Şayli, Ö., Özsoy, S. ve Arslan, L., “Türkçe’de Ünlüler Formant Frekans İncelemesi”, 18. Ulusal Dilbilim Konferansı (Ankara, Mayıs 2004) Arısoy, E., Özsoy S., Arslan, L., Türk, O., ... “Acoustic Analysis of Turkish Sounds” ICTL 2004 (İzmir, Ağustos 2004) Türkçe terapi testleri tasarlanmalı: Artikülasyon testleri, akış testleri, vurgu testleri, ses kalitesi testleri, ... Türk, O. Ve Arslan, L., “Pronunciation Scoring for the Hearing-Impaired”, SPECOM (St. Petersburg, Rusya, Eylül 2004) KAYNAKÇA [1] Russel, M., Brown, C., Skilling, A., Series, R., Wallace, J., Bonham, B. ve Barker, P., “Applications of Automatic Speech Recognition to Speech and Language Development in Young Children”, Proceedings of ICSLP 1996, Philedelphia, PA, ABD, 1996, sf. 176-179. [2] Neumeyer, L. F. H., Weintraub, M. ve Price, P., “Pronunciation Scoring of Foreign Language Student Speech”, Proceedings of ICSLP 1996, Philedelphia, PA, ABD, 1996, sf. 1457-1460. [3] Neumeyer, L. F. H., Digalakis, V. ve Weintraub, M., “Automatic scoring of pronunciation quality”, Speech Communication, 30 (2-3), sf. 83-93, 2000. [4] Bunnell, H. T., Yarrington, D. M., ve Polikoff, J. B., “STAR: Articulation training for young children”, Proceedings of ICSLP 2000, c. 4, sf. 85-88. [5] Witt, S. M. ve Young, S. J., “Phone-level pronunciation scoring and assessment for interactive language learning”, Speech Communication, 30 (2-3), sf. 95-108, 2000. [6] Chanwoo K. C. ve Sung, W., “Implementation of an intonational quality assessment system”, Proceedings of ICSLP 2002, Denver, Colorado, ABD, c. 2, sf. 1225-1228. [7] Rabiner, L. R. ve Juang, B.-H., Fundamentals of Speech Recognition, Prentice-Hall, Inc., New Jersey, NJ, 1993. [8] Girgin, C., M., Türkçe konuşan doğal işitsel sözel yöntemle eğitim gören işitme engelli kız çocukların konuşma anlaşılırlığı ile süre ve perde özellikleri ilişkisi, Anadolu Üniversitesi Yayınları, No. 1167., Eğitim Fakültesi Yayınları, No. 63., 1999.