Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Pengembangan Prosodi Pada Text To Speech Bahasa Indonesia
Iker Apensi (2018) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Text to speech (TTS) merupakan suatu sistem yang mengkonversi teks menjadi ucapan. Sistem ini dapat mempermudah interaksi manusia dengan komputer, terutama untuk manusia yang memiliki kekurangan seperti tunanetra, dapat juga digunakan sebagai alat belajar suatu bahasa dan dapat digunakan sebagai pembaca pesan. Permasalahan pada TTS saat ini adalah kemampuan ucapan yang dihasilkan dari teks masih datar, sehinga suara sintesis yang dihasilkan masih terdengar monoton. Pada tugas akhir ini dilakukan pengembangan prosodi untuk menambahkan emosi pada TTS bahasa Indonesia. Emosi yang dikembangkan adalah 3 emosi dasar manusia yaitu emosi marah, emosi senang, dan emosi sedih. Metode pengengembang prosodi ini dilakukan dengan cara membuat file prosodi untuk masing-masing emosi, kemudian dijalankan menggunakan aplikasi espeakedit. Data yang digunakan adalah data rekaman TTS standar (dihasilkan dari aplikasi yang di bangun), data rekaman suara manusia (dihasilkan dari perekaman secara langsung oleh manusia), dan data rekaman output (dihasilkan dari file prosodi untuk tiap emosi). Penelitian ini menggunakan espeak sebagai pensintesa ucapan dengan diphone database id1 bersuara bahasa Indonesia yang digunakan melalui Mbrola. Selain itu, untuk segmentasi data rekaman menggunakan tools Praat. Segmentasi bertujuan untuk mencari nilai durasi, pitch awal, dan pitch akhir berdasarkan segmentasi suku kata. Berdasarkan hasil eksperimen dan pengujian persepsi disimpulkan bahwa pengaruh pengembangan nilai prosodi terhadap identifikasi emosi yang dikenali yaitu: semakin besar persentase kemiripan nilai prosodi maka semakin besar pula persentase tingkat identifikasi emosi yang dikenali. Hal tersebut dapat dilihat dari emosi marah yang memiliki persentase kemiripan 62% dengan identifikasi emosi yang dikenali sebesar 84%. Emosi senang memiliki persentase kemiripan 58% dengan identifikasi emosi yang dikenali sebesar 57.5%. Emosi sedih memiliki persentase kemiripan 51% dengan identifikasi emosi yang dikenali sebesar 65%. Kata Kunci: Text to speech, prosodi, emosi, espeak, segmentasi.
Ringkasan Alternatif
Text To Speech (TTS) is a system which converts text to speech. This system facilitates human to interact with computer, especially disabled people; blind people, also it can be used as a language learning device and a message reader. The problem occurs in TTS currently is the speech capability result by the text is still toneless, with the result that the synthesis result sounds monotonous. In this final assignment prosody development is done to add emotion in Indonesian Language TTS. The developed emotions are humanâÃâ¬Ãâ¢s three primary emotions; anger, happiness, and sadness. Prosody development is done by making a prosody file for each emotion, then run by using espeakedit application. Used data are TTSâÃâ¬Ãâ¢s standard recording data (from a built application), human speech recording data (from recording by human) and output recording data (from prosody file for each emotion). This research uses espeak as a speech synthesizer with diphone database id1 Indonesian sound which used via Mbrola. Furthermore, recording data uses Praat tools for segmentation. Segmentation aims to find value of the duration, starting pitch, ending pitch base on syllables segmentation. Based on experimental result and perception testing it is concluded that the recognizable effect of prosody value development on emotion identification; that greater the similarity percentage of prosody value, the greater the percentage of recognizable emotion identification. It can be seen from the anger emotion percentage which is 62% of similarity percentage with 84% of recognizable emotion identification. Happiness emotion has 58% of similarity percentage with 57.5% of recognizable emotion identification. Sadness emotion has 51% of similarity percentage with 65% of recognizable emotion identification. Keywords: Text to speech, prosody, emotion, espeak, segmentation.