KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk

Slides:



Advertisements
Benzer bir sunumlar
E-posta Forum Sohbet Sesli Görüntülü Konferans
Advertisements

SES BİLGİSİ (ÜNSÜZ BENZEŞMESİ)
OKTAY TUNCER hayatımızda noktalama işaretleri....
Windows 7 ile Windows Ürünleri Arasındaki Farklar
BİLGİSAYARLI GÖRMENİN UYGULAMA ALANLARI
KELİME İŞLEMCİLER.
(Kurumsal / Şirket / Fabrika / Ürün)
INTERNET TABANLI HASTA KAYDI PAYLAŞIMI VE TELEKONSÜLTASYON PLATFORMU
Windows işletim sistemi ve sürümlerinin incelenmesi
VII. Geleneksel TED İ stanbul Koleji Kitap Haftası Ocak 2014.
WEB TABANLI ÖĞRETİM.
Hazirlayan: Yrd. Doç. DR. Emin BORANDAĞ
Öğretİm Materyallerİ Yrd. Doç. Dr. Cenk Akbıyık.
Muğla, 2010 Yrd. Doç. Dr. Zerrin Ayvaz Reis 1, Doç Dr. Sevinç Gülseçen 2, Betül Bayrakdar 2 1 İstanbul Üniversitesi, Hasan Ali Yücel Eğitim Fakültesi Bilgisayar.
BİLİŞİM TEKNOLOJİLERİ & BİLGİ TOPLUMU
ÖĞRENME NESNESİ Sibel SOMYÜREK.  Çeşitli öğrenme ortamlarında tekrar kullanılabilen küçük parçalara bölünmüş olan e-içeriklere öğrenme nesnesi denir.
K İ MYAGER BAKIŞIYLA TEKNOLOJ İ N İ N K İ LOMETRE TAŞLARI 19. yüzyıl sonlarından günümüze kimya, mühendislik ve elektronikteki gelişmeler dünyadaki her.
Takımlar Neden Bu Kadar Popüler Oldu? Onlarca yıl önce W. L. Gore, Volvo ve General Foods gibi firmalar, üretim aşamalarına takımları da dâhil.
EĞİTİM FAKÜLTELERİ, TEKNOLOJİ VE DEĞİŞİM
DUBLAJ-SESLENDİRME Tiyatrodan Sinemaya Uzanan Yol A Deep Approach to Turkish Teaching and Learning Wisconsin Center for Education Research, University.
DİKEY GEÇİŞ SINAVI (DGS)
İletişim Araçları.
İNTERNETİN KULLANIM ALANLARI
SAN-TEZ Bilgilendirme ve Tecrübe Paylaşım Günü
İLKÖĞRETİMDE TEKNOLOJİNİN KULLANILMASI VE UYGULANMASI
BİYOGRAFİ NEDİR? , BİYOGRAFİ ÖRNEĞİ,
E-Öğrenme Nedir?
DynEd Kastamonu Milli Eğitim Müdürlüğü.
SIP PLATFORMU  Genel Özellikleri  SIP (Session Initiation Protocol) tabanlı IVR (Interactive Voice Response) platformudur.
ÖĞRETİM TASARIMININ TARİHSEL GELİŞİMİ
BİLİŞİM TEKNOLOJİLERİ
TÜRK DİLİNİN YOZLAŞMASI
Windows XP Konu: Denetim Masası Windows 8 Windows XP Windows 7.
Konuşma Terapisine Yönelik Otomatik Konuşma Tanıma Yöntemleri
UZAKTAN EĞİTİMDE YAYIN YOLLARI
Facebook.com/HotMobilePress Twitter.com/HotMobilePress :: EYLÜL 2012 :: MOBİL TEKNOLOJİLERE ODAKLI İLK ve TEK TÜRKÇE ONLINE YAYIN.
UE TEKNOLOJİLERİ Ders UZAKTAN EĞİTİMİN TEMELLERİ Ders Sorumlusu
Web Ortamında Arama Yapmak R. Orçun MADRAN. Arama Motorları Arama Motorları, günümüzün popüler bilgiye erişim sistemlerinin başında yer almaktadır. Bir.
Prepared by Yasin Tunç A Deep Approach to Turkish Teaching and Learning Wisconsin Center for Education Research, University of Wisconsin-Madison.
ÇAĞDAŞ EĞİTİMDE YENİ TEKNOLOJİLER
CAN KULAĞI Ramazan Bayraktar.
UZAKTAN EĞİTİMİN TARİHSEL GELİŞİMİ
Kaynak: NOKTALAMA İŞARETLERİ Kaynak:
ENES KARAAĞAÇ TÜRKÇE ÖĞRETMENLIĞI II. SıNıF (ÖRGÜN ÖĞRETIM) Web 2.0 Araçları Tanıtım Sunusu.
Bünyamin AĞGÜRBÜZ Mustafa AY Muhammed ALTINTAŞ Ahmet ZENCİRLİ
Yrd. Doç. Dr. Özcan PALAVAN
Bilgi Destek Sistemlerin Kurulması Yrd. Doç. Dr
Mesleki ve Teknik Anadolu Lisesi Eğitim Alanında Teknolojik Gelişmeler
WİNDOWS LİVE MOVİE MAKER
Tipografi Yrd. Doç. Dr. Cenk Akbıyık.
AçIk oturum MÜRÜVVET KILINÇ.
En fazla ödül kazanmış olan İngilizce Dil Eğitimi Programı.
İnternet Nedir Bilgisayar Ağları Ağ Çeşitleri
Ahmet Keleşoğlu Eğitim Fakültesi
Windows Live Movie Maker Nedir? Movie Maker ile, bilgisayarınızda yer alan fotoğraf ve videolarınızı kullanarak, bunlar üzerinde düzenlemeler, değişiklikler.
GÖZDEHAN ÖZTÜRK  Sunucu (Server), herhangi bir ağ üzerinde bir programı veya bir bilgiyi farklı kullanıcılara/sistemlere paylaştıran/dağıtan.
İş için neden simültane çeviri önemlidir? Bir işin başarısı veya başarısızlığı büyük ölçüde iletişime dayanır. İletişim ne kadar etkiliyse, işinizin başarıya.
SAMET UÇAR
BİLGİ İŞLEM ORGANİZASYONU -Voice/VoIP
Bilgisayar Mühendisliği Bölümü
E-posta Forum Sohbet Sesli Görüntülü Konferans
Bilgi ve İletişim Teknolojileri
İletişim Araçları.
Mesleki ve Teknik Anadolu Lisesi Eğitim Alanında Teknolojik Gelişmeler
Bilgisayar ile Çeviri Sistemleri
E-posta Forum Sohbet Sesli Görüntülü Konferans
İletişim teknolojilerinde ki hızlı gelişim küreselleşmeyi hızlandırmaktadır. Özelikle mobil iletişim sistemlerinin yaygınlaşması ile dolaşımda olan bireylerin.
Yrd.doç.dr.h.deniz gülleroğlu
Madde Örnekleri Yrd. Doç. Dr. Ömer Kutlu.
Sunum transkripti:

KONUŞMACI DÖNÜŞTÜRME Doç. Dr. Levent M. Arslan Oytun Türk <arslanle, turkoytu>@boun.edu.tr, oytun@sestek.com.tr SESTEK A.Ş. Konaklar Mah. Selvili Sk. 13/C Blok.No:8. D:2 80620, 4.Levent, İstanbul. BOĞAZİÇİ ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ BÖLÜMÜ 80815, Bebek, İstanbul. 4. VOX NASIL ÇALIŞIR? İki kişiden ses kayıtları alınır [Şekil 3]. Bu iki kişiden biri hedef konuşmacı (örneğin Kemal Sunal), diğeri ise kaynak konuşmacı (sesi Kemal Sunal’ın sesine dönüştürülecek kişi) olarak adlandırılır. Kayıtlarda aynı cümleler ya da kelimeler söylenmelidir. Alınan kayıtlar eğitimde kullanılır [Şekil 4]. Eğitimin amacı, kişilerin seslerini birbirine otomatik olarak dönüştürmede kullanılacak bilgilerin elde edilmesidir. Eğitimin yalnızca bir kez gerçekleştirilmesi yeterlidir. Elde edilen bilgilerle daha sonra sınırsız sayıda dönüştürme çok kısa sürede gerçekleştirilebilir. Dönüştürme için, sesi Kemal Sunal’a dönüştürülecek kişiden ses kaydı alınır ve Kemal Sunal’ın sesine dönüştürülür [Şekil 5]. Böylece Kemal Sunal’ın söylememiş olduğu şeyler Kemal Sunal’ın sesinden dinlenebilir. Ses üzerinde başka değişiklikler de kolayca yapılabilir (Konuşma tonunu, vurgusunu değiştirme, çeşitli ses efektleri eklenmesi, gürültü temizleme, süzgeçleme gibi) [Şekil 6]. Bu işlemler, gerektiği takdirde eğitimde kullanılacak kayıtlar üzerinde de gerçekleştirilebilir. 1. KONUŞMACI DÖNÜŞTÜRME NEDİR? Bir kişinin sesinin başka bir kişinin sesine dönüştürülmesi “Konuşmacı Dönüştürme” olarak adlandırılmaktadır [Şekil 1]. Örnek : Amaçlanan herhangi bir konuşmacının sesini Kemal Sunal’ın sesine dönüştürmek. Herhangi bir konuşmacının sesi KONUŞMACI DÖNÜŞTÜRME Kemal Sunal’ın sesi Şekil 3. Ses kayıt arabirimi Şekil 1. Konuşmacı Dönüştürme 2. VOX YAZILIMI Geliştirdiğimiz “VOX” isimli yazılım, bu işlemi kolay ve kaliteli bir şekilde gerçekleştirmektedir [Şekil 2]. Şekil 4. Eğitim arabirimi Şekil 2. VOX Konuşmacı Dönüştürme Yazılımı 3. NERELERDE KULLANILIR? 3.1. FİLM SEKTÖRÜ VE SESLENDİRME UYGULAMALARI : Oyuncular başka bir dilde kendi ses tonlarıyla konuşabilirler. Örnek : Tom Cruise’un (İngilizce olarak) seslendirdiği bir filmi ele alalım. Bu film Türkiye’de gösterileceği zaman, Tom Cruise bir seslendirmeci tarafından Türkçe seslendirilmekte ve doğal olarak, Tom Cruise’un özgün ses tonu yitirilmektedir. Konuşmacı dönüştürme kullanılarak Tom Cruise’un kendi ses tonuyla hiç bilmediği bir dilde konuşturulması mümkündür. Hayatta olmayan, yaşlanmış ya da ses özellikleri değişmiş kişilerin sesleri yeniden elde edilebilir. Örnek : Kemal Sunal’ın sesi bu yöntemle yeniden elde edilebilir. Birkaç kişi kullanılarak bir filmin tüm seslendirmesi gerçekleştirilebilir. Örnek : Bir kadın, bir çocuk, bir de erkek seslendirmeciyle tüm film seslendirilebilir. Ses kayıtlarında istenmeyen kısımların çıkarılıp bunların yerine başka sözcüklerin konulabilir. Örnek : Televizyon yayınlarında küfürlü konuşmalar “bip” sesiyle sansürlenmektedir. Konuşmacı dönüştürme kullanılarak küfürlü kısımlar, o an konuşan kişinin ses tonunda daha uygun sözcüklerle değiştirilir. Çizgi film ve animasyonlarda sanal karakterlerin sesleri üretilebilir. Radyo yayınlarında, televizyon reklamlarında ünlü kişilerin sesleri üretilebilir ve kullanılabilir. 3.2. SAĞLIK ALANINDAKİ UYGULAMALAR : Gırtlak Kanseri : Her yıl gırtlak kanseri nedeniyle pek çok insan sesini kaybetmektedir. Konuşmacı dönüştürme ve ses sentezi teknolojileri kullanılarak bu kişilerin bilgisayar yardımıyla seslerine yeniden kavuşmaları sağlanabilir. Ses ve Konuşma Bozuklukları : Ses ve konuşma bozukluklarında belli oranda anlaşılırlığı arttırıcı katkılar sağlanabilir. 3.3. YAZIDAN KONUŞMA SENTEZİ (TTS) : Günümüzde yazılı metinleri okuyabilen bilgisayar programları oldukça yaygınlaşmaya başlamıştır. Bu programlar yazılı metinleri bir (ya da en fazla birkaç) kişinin sesiyle okuyabil-mektedir. Yeni bir kişinin sesiyle yazıdan konuşma sentezlenebilmesi için birkaç haftalık ça-lışma gerekmekte ve her yeni ses için bu çalışma tekrarlanmak zorundadır. Oysa konuşmacı dönüştürme kullanılarak çok daha kısa bir sürede (1-2 saat) sistemi yeni kişinin sesiyle bir defalığına eğitmek ve yeni sesle yazılı metinlerin okunmasını sağlamak mümkündür. Böyle- ce kişiselleştirilmiş yazıdan konuşma sentezi sistemleri herhangi bir kişinin sesiyle konuşabilecektir. 3.4. SESLİ BİLGİSAYAR UYGULAMALARI : Telefon bankacılığında kullanılan “Sesli Yanıt (Interactive Voice Response ya da IVR) Sistemleri” nde farklı kişilerin sesleriyle anonslar elde edilebilir. 3.5. MÜZİK VE KARAOKE : İnsanlar, artık sevdikleri sanatçıların sesleriyle şarkı söyleyebilir. 3.6. KONUŞMA/KONUŞMACI TANIMA : Konuşmacı dönüştürme, kişilerin ses özellikleriyle ilgili önemli bilgiler elde etmemizi sağlamaktadır. Bu konudaki bilgi birikimi, bilgisayarın sesten ne söylendiğini anlamasını sağlayan “Konuşma Tanıma” ve sesten kimlik belirleyen “Konuşmacı Tanıma” sistemlerinde kullanılabilecektir. 3.7. ESKİ/BOZULMUŞ SES KAYITLARININ DÜZELTİLMESİ : Örnek : Atatürk’ün şu anda bozulmuş olan ses kayıtları yeniden elde edilebilir. 3.8. FARKLI DİLLER ARASINDA OTOMATİK SİMULTANE ÇEVİRİ : Örnek : Gelecekte, telefon yoluyla bir Çinliyle Türkçe konuşmak mümkün olacaktır. Çince-Türkçe ve Türkçe-Çince çeviri, ses özellikleri de korunacak şekilde bilgisayar tarafından gerçekleştirilebilecektir. Bunun için konuşma tanıma, diller arası çeviri, konuşma sentezi ve konuşmacı dönüştürme sistemlerinin yeterince gelişmesi gerekmektedir. Şekil 5. Dönüştürme arabirimi Şekil 6. Dönüştürme öncesi ve sonrası kullanılabilecek çeşitli ses işleme arabirimleri Performans ölçümü ve testler yazılım içerisinden gerçekleştirilerek dönüşüm kalitesi arttırılır [Şekil 7]. Şekil 7. Analiz arabirimleri 5. YÖNTEMİN VE VOX YAZILIMININ ÖZELLİKLERİ : Konuşmacı dönüştürme amacıyla tasarlanmış ve gerekli tüm özellikleri bir araya getiren dünyadaki tek yazılım. Patenti Doç.Dr. Levent M. Arslan’a ait olan yöntem, benzerleri arasında en başarılı olanı. Yazılım tümüyle Türkiye’de geliştirildi. Dilden bağımsız, herhangi bir dilde ve diller arası çeviri gerektiren uygulamalara uygun. Çok kısa ses kayıtlarıyla (5 dk.) başarılı eğitim ve dönüştürme. Ses tonu ve süresi değiştirme, ses gizleme ve ses efektleri. Yüksek kalitede ses kaydı, eğitim ve dönüştürme. Kullanımı kolaylaştıran arabirim (ses işleme konusunda uzman olmayan kişilerin dönüştürme işlemini kolayca gerçekleştirebilmelerini sağlar). Windows ortamında, ses kartı bulunan herhangi bir PC’de çalışma (Windows 98, NT, 2000, XP uyumlu). 6.KAYNAKÇA [1] Arslan, L.M., “Speaker Transformation Algorithm using Segmental Codebooks (STASC)”, Speech Communication 28 (1999), sf. 211-226. [2] Türk, O., Arslan, L.M., “Subband Based Voice Conversion”, ICSLP 2002, Denver-Colorado, ABD. [3] Arslan, L.M., Talkin, D., “Voice Conversion by Codebook Mapping of Line Spectral Frequencies and Excitation Spectrum”, Proceedings EUROSPEECH 1997, Rodos,Yunanistan, cilt 3, sf. 1347-1350. [4] Ormancı, E., Nikbay, U.H., Türk, O., Arslan, L.M., “Subjective Assessment of Frequency Bands for Perception of Speaker Identity”, ICSLP 2002, Denver-Colorado, ABD.