KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk

KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk
<arslanle, SESTEK A.Ş. Konaklar Mah. Selvili Sk. 13/C Blok.No:8. D:2 80620, 4.Levent, İstanbul. BOĞAZİÇİ ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ BÖLÜMÜ 80815, Bebek, İstanbul. 4. VOX NASIL ÇALIŞIR? İki kişiden ses kayıtları alınır [Şekil 3]. Bu iki kişiden biri hedef konuşmacı (örneğin Kemal Sunal), diğeri ise kaynak konuşmacı (sesi Kemal Sunal’ın sesine dönüştürülecek kişi) olarak adlandırılır. Kayıtlarda aynı cümleler ya da kelimeler söylenmelidir. Alınan kayıtlar eğitimde kullanılır [Şekil 4]. Eğitimin amacı, kişilerin seslerini birbirine otomatik olarak dönüştürmede kullanılacak bilgilerin elde edilmesidir. Eğitimin yalnızca bir kez gerçekleştirilmesi yeterlidir. Elde edilen bilgilerle daha sonra sınırsız sayıda dönüştürme çok kısa sürede gerçekleştirilebilir. Dönüştürme için, sesi Kemal Sunal’a dönüştürülecek kişiden ses kaydı alınır ve Kemal Sunal’ın sesine dönüştürülür [Şekil 5]. Böylece Kemal Sunal’ın söylememiş olduğu şeyler Kemal Sunal’ın sesinden dinlenebilir. Ses üzerinde başka değişiklikler de kolayca yapılabilir (Konuşma tonunu, vurgusunu değiştirme, çeşitli ses efektleri eklenmesi, gürültü temizleme, süzgeçleme gibi) [Şekil 6]. Bu işlemler, gerektiği takdirde eğitimde kullanılacak kayıtlar üzerinde de gerçekleştirilebilir. 1. KONUŞMACI DÖNÜŞTÜRME NEDİR? Bir kişinin sesinin başka bir kişinin sesine dönüştürülmesi “Konuşmacı Dönüştürme” olarak adlandırılmaktadır [Şekil 1]. Örnek : Amaçlanan herhangi bir konuşmacının sesini Kemal Sunal’ın sesine dönüştürmek. Herhangi bir konuşmacının sesi KONUŞMACI DÖNÜŞTÜRME Kemal Sunal’ın sesi Şekil 3. Ses kayıt arabirimi Şekil 1. Konuşmacı Dönüştürme 2. VOX YAZILIMI Geliştirdiğimiz “VOX” isimli yazılım, bu işlemi kolay ve kaliteli bir şekilde gerçekleştirmektedir [Şekil 2]. Şekil 4. Eğitim arabirimi Şekil 2. VOX Konuşmacı Dönüştürme Yazılımı 3. NERELERDE KULLANILIR? 3.1. FİLM SEKTÖRÜ VE SESLENDİRME UYGULAMALARI : Oyuncular başka bir dilde kendi ses tonlarıyla konuşabilirler. Örnek : Tom Cruise’un (İngilizce olarak) seslendirdiği bir filmi ele alalım. Bu film Türkiye’de gösterileceği zaman, Tom Cruise bir seslendirmeci tarafından Türkçe seslendirilmekte ve doğal olarak, Tom Cruise’un özgün ses tonu yitirilmektedir. Konuşmacı dönüştürme kullanılarak Tom Cruise’un kendi ses tonuyla hiç bilmediği bir dilde konuşturulması mümkündür. Hayatta olmayan, yaşlanmış ya da ses özellikleri değişmiş kişilerin sesleri yeniden elde edilebilir. Örnek : Kemal Sunal’ın sesi bu yöntemle yeniden elde edilebilir. Birkaç kişi kullanılarak bir filmin tüm seslendirmesi gerçekleştirilebilir. Örnek : Bir kadın, bir çocuk, bir de erkek seslendirmeciyle tüm film seslendirilebilir. Ses kayıtlarında istenmeyen kısımların çıkarılıp bunların yerine başka sözcüklerin konulabilir. Örnek : Televizyon yayınlarında küfürlü konuşmalar “bip” sesiyle sansürlenmektedir Konuşmacı dönüştürme kullanılarak küfürlü kısımlar, o an konuşan kişinin ses tonunda daha uygun sözcüklerle değiştirilir. Çizgi film ve animasyonlarda sanal karakterlerin sesleri üretilebilir. Radyo yayınlarında, televizyon reklamlarında ünlü kişilerin sesleri üretilebilir ve kullanılabilir. 3.2. SAĞLIK ALANINDAKİ UYGULAMALAR : Gırtlak Kanseri : Her yıl gırtlak kanseri nedeniyle pek çok insan sesini kaybetmektedir. Konuşmacı dönüştürme ve ses sentezi teknolojileri kullanılarak bu kişilerin bilgisayar yardımıyla seslerine yeniden kavuşmaları sağlanabilir. Ses ve Konuşma Bozuklukları : Ses ve konuşma bozukluklarında belli oranda anlaşılırlığı arttırıcı katkılar sağlanabilir. 3.3. YAZIDAN KONUŞMA SENTEZİ (TTS) : Günümüzde yazılı metinleri okuyabilen bilgisayar programları oldukça yaygınlaşmaya başlamıştır. Bu programlar yazılı metinleri bir (ya da en fazla birkaç) kişinin sesiyle okuyabil-mektedir. Yeni bir kişinin sesiyle yazıdan konuşma sentezlenebilmesi için birkaç haftalık ça-lışma gerekmekte ve her yeni ses için bu çalışma tekrarlanmak zorundadır. Oysa konuşmacı dönüştürme kullanılarak çok daha kısa bir sürede (1-2 saat) sistemi yeni kişinin sesiyle bir defalığına eğitmek ve yeni sesle yazılı metinlerin okunmasını sağlamak mümkündür. Böyle- ce kişiselleştirilmiş yazıdan konuşma sentezi sistemleri herhangi bir kişinin sesiyle konuşabilecektir. 3.4. SESLİ BİLGİSAYAR UYGULAMALARI : Telefon bankacılığında kullanılan “Sesli Yanıt (Interactive Voice Response ya da IVR) Sistemleri” nde farklı kişilerin sesleriyle anonslar elde edilebilir. 3.5. MÜZİK VE KARAOKE : İnsanlar, artık sevdikleri sanatçıların sesleriyle şarkı söyleyebilir. 3.6. KONUŞMA/KONUŞMACI TANIMA : Konuşmacı dönüştürme, kişilerin ses özellikleriyle ilgili önemli bilgiler elde etmemizi sağlamaktadır. Bu konudaki bilgi birikimi, bilgisayarın sesten ne söylendiğini anlamasını sağlayan “Konuşma Tanıma” ve sesten kimlik belirleyen “Konuşmacı Tanıma” sistemlerinde kullanılabilecektir. 3.7. ESKİ/BOZULMUŞ SES KAYITLARININ DÜZELTİLMESİ : Örnek : Atatürk’ün şu anda bozulmuş olan ses kayıtları yeniden elde edilebilir. 3.8. FARKLI DİLLER ARASINDA OTOMATİK SİMULTANE ÇEVİRİ : Örnek : Gelecekte, telefon yoluyla bir Çinliyle Türkçe konuşmak mümkün olacaktır Çince-Türkçe ve Türkçe-Çince çeviri, ses özellikleri de korunacak şekilde bilgisayar tarafından gerçekleştirilebilecektir. Bunun için konuşma tanıma, diller arası çeviri, konuşma sentezi ve konuşmacı dönüştürme sistemlerinin yeterince gelişmesi gerekmektedir. Şekil 5. Dönüştürme arabirimi Şekil 6. Dönüştürme öncesi ve sonrası kullanılabilecek çeşitli ses işleme arabirimleri Performans ölçümü ve testler yazılım içerisinden gerçekleştirilerek dönüşüm kalitesi arttırılır [Şekil 7]. Şekil 7. Analiz arabirimleri 5. YÖNTEMİN VE VOX YAZILIMININ ÖZELLİKLERİ : Konuşmacı dönüştürme amacıyla tasarlanmış ve gerekli tüm özellikleri bir araya getiren dünyadaki tek yazılım. Patenti Doç.Dr. Levent M. Arslan’a ait olan yöntem, benzerleri arasında en başarılı olanı. Yazılım tümüyle Türkiye’de geliştirildi. Dilden bağımsız, herhangi bir dilde ve diller arası çeviri gerektiren uygulamalara uygun. Çok kısa ses kayıtlarıyla (5 dk.) başarılı eğitim ve dönüştürme. Ses tonu ve süresi değiştirme, ses gizleme ve ses efektleri. Yüksek kalitede ses kaydı, eğitim ve dönüştürme. Kullanımı kolaylaştıran arabirim (ses işleme konusunda uzman olmayan kişilerin dönüştürme işlemini kolayca gerçekleştirebilmelerini sağlar). Windows ortamında, ses kartı bulunan herhangi bir PC’de çalışma (Windows 98, NT, 2000, XP uyumlu). 6.KAYNAKÇA [1] Arslan, L.M., “Speaker Transformation Algorithm using Segmental Codebooks (STASC)”, Speech Communication 28 (1999), sf [2] Türk, O., Arslan, L.M., “Subband Based Voice Conversion”, ICSLP 2002, Denver-Colorado, ABD. [3] Arslan, L.M., Talkin, D., “Voice Conversion by Codebook Mapping of Line Spectral Frequencies and Excitation Spectrum”, Proceedings EUROSPEECH 1997, Rodos,Yunanistan, cilt 3, sf [4] Ormancı, E., Nikbay, U.H., Türk, O., Arslan, L.M., “Subjective Assessment of Frequency Bands for Perception of Speaker Identity”, ICSLP 2002, Denver-Colorado, ABD.

KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk

Benzer bir sunumlar

... konulu sunumlar: "KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim

Giriş

Sosyal ağ üzerinden giriş yapmak:

KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk

Benzer bir sunumlar

... konulu sunumlar: "KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk"— Sunum transkripti:

Benzer bir sunumlar

Proje hakkında

Geri bildirim