TEXT-TO-SPEECH
BAHASA
INDONESIA MENGGUNAKAN CONCATENATION SYNTHESIZER BERBASIS FONEM
Sistem konversi text-to-speech (TTS) merupakan suatu sistem
yang mampu memproduksi sinyal ucapan secara otomatis melalui transkripsi
grafem-ke-fonem untuk kalimat yang diucapkan. Perbedaan sistem TTS dengan
talking machine biasa adalah keotomatisannya dalam mengucapkan kata-kata baru.
Oleh karena itu TTS memungkinkan untuk diimplementasikan pada bidang aplikasi
yang beragam seperti aplikasi sms bicara, buku digital dan pembaca email
otomatis. Luasnya aplikasi yang ditawarkan oleh sistem TTS ini, dan
berkembangnya beberapa perangkat/platform, seperti Handphone dan PDA, telah
mendorong diimplementasikannya sistem TTS pada berbagai platform untuk berbagai
keperluan.
Sistem TTS memproduksi sinyal ucapan
secara otomatis melalui transkripsi grafem ke fonem pada kalimat yang
diberikan. Hal inilah yang membedakan sistem TTS dengan mesin bicara lainnya.
Sistem voice response systems misalnya, bekerja dengan merangkai susunan kata terpisah
(isolated word), hanya sesuai untuk aplikasi dengan jumlah kosa kata yang
terbatas. Dalam konteks sistem TTS, sangat tidak mungkin (selain tidak berguna)
untuk menyimpan seluruh kata dari satu bahasa. Tugas sistem TTS secara umum
dapat dibagi dalam 2 bagian besar, analisa teks dan sintesa ucapan. Beberapa
aplikasi dimana sistem TTS ini dapat diterapkan antara lain :
1. Layanan telekomunikasi seperti akses
informasi tekstual melalui telepon, Telephone relay service, SMS bicara,
Pembacaan e-mail melalui telepon, IVR (Interactive Voice Respons), dan
Automatic Caller Identity
2. Pembelajaran bahasa
3. Pemecahan terhadap beberapa
permasalahan kemanusiaan seperti membantu tuna netra mengakses informasi
tertulis atau membantu tuna wicara mengungkapkan pesannya dalam bentuk ucapan
4. Buku bicara (talking books) dan
mainan bicara
5. Multimedia, komunikasi man-machine
6. Penelitian dasar dan terapan
Secara umum proses dalam sistem TTS
terdiri dari Natural Language Prossesing (NLP) yang berupa modul konversi teks
ke fonem yang menghasilkan transkripsi fonetik beserta informasi intonasi dan
ritme (dikenal dengan prosodi) dan Digital Signal Processing (DSP) yang berupa
modul konversi fonem ke ucapan, yang mengubah informasi fonetis yang
diterimanya menjadi sinyal ucapan.
Perancangan Sistem TTS Berbasis
Fonem Beberapa kriteria yang diperhatikan dalam merancang sistem TTS ini adalah
:
a. Versatility
(kecakapan), seberapa luas kata yang dapat diproses akan menentukan tingkat kecakapan
sistem TTS.
b. Metoda
analisis teks. Sebagaimana telah dijelaskan sebelumnya, bahwa pemilihan metoda analisis
teks akan memberikan konsekuensi yang berbeda terhadap hasil perancangan.
Sistem look-up dictionary akan memerlukan memori yang sangat besar. Sebaliknya
sistem rule-based
akan bermasalah ketika menemukan
permasalahan pengecualian aturan yang kompleks.
c. Metode
sintesis, pemilihan metoda sintesis sangat mempengaruhi hasil kualitas
speechyang diproduksi sistem ini.
d. Platform,
pada platform mana sistem ini bekerja.
Speech
to Text
Speech to text yaitu kebalikan dari text to speech,
yaitu apabila kita mencari sesuatu dengan salah satu web resmi kita mengucapkan
kata maka akan keluar kata kita dalam bentuk text, contohnya ingin mengucapkan
"apa itu buku", nanti setelah kita ucapkan itu maka akan tercetak apa
itu buku, ini mempermudah masyarakat apabila lagi malas untuk mengetik. Itu
adalah salah satu tekhnologi yang mempermudah masyarakat dalam melakukan
sesuatunya.
Sumber
: