Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Speech Recognition Menggunakan Elman Recurrent Neural Network Untuk Kata Dalam Bahasa Indonesia
Wildan Kurniadi NIM. (2018) | Skripsi | Teknik Informatika , Teknik Informatika
Bagikan
Ringkasan
Speech Recognition merupakan salah satu cabang ilmu komputer yang masih terus dikaji hingga saat ini. Dalam sebuah speech recognition diperlukan sebuah algoritma klasifikasi untuk mengenali makna dari sinyal suara. Salah satu algoritma klasifikasi yang dapat digunakan pada speech recognition adalah Elman Recurrent Neural Network (ERNN). ERNN telah dicoba pada beberapa penelitian mengenai speech recognition dalam Bahasa Inggris, Bahasa Arab, dan Bahasa Indonesia dalam kasus kata yang berbeda-beda dan menghasilkan akurasi yang dapat dikatan baik yaitu diantara 87.5% hingga 99.47%. Pada penelitian ini ERNN digunakan untuk mengenali sepuluh kata verba dengan rank paling tinggi menurut Leipzig Corpora Collection. Dataset diambil dari 40 pembicara berjenis kelamin laki-laki dimana setiap orang akan mengucapkan 10 kata dan diulang 4 kali sehingga didapatkan 1600 dataset (40 × 10 × 4 = 1600). Dataset yang dimiliki disimpan dalam bentuk file .wav dengan frekuensi sampling 16000 Hz. Data latih yang digunakan adalah 800 sampel data (20 pembicara ×10 kata × 4 repetisi=800 dataset) dan data uji adalah 800 sampel data dari 20 orang yang berbeda dengan data latih. Adapun metode ekstraksi ciri yang digunakan penelitian ini adalah MFCC, akurasi terbaik yang dihasilkan oleh penelitian ini sebesar 83.88%.
Ringkasan Alternatif
Speech Recognition is one popular field of computer science. In a speech recognition system, a classification algorithm is needed to determine the meaning of the voice signal. One of the algorithms that can be used in speech recognition is Elman Recurrent Neural Network (ERNN). ERNN has been tested on several speech recognition research like in English, Arabic, and Bahasa Indonesia in different case, and the results are quite good, the accuracy resulted by ERNN are between 87.5% to 99.47%. In this research, ERNN is used to recognize ten highest-ranked verb words according to Leipzig Corpora Collection. The dataset consist of 40 male speakers each speakers will say 10 words and repeat it for 4 times to produce 1600 datasets (40 × 10 × 4 = 1600). The dataset is stored as a wav file with 16000 Hz sampling frequency. The training data used were 800 data samples (20 speakers × 10 words × 4 reps = 800 dataset) and the test data were 800 samples of data from 20 different speakers from the training data. The method of feature extraction used in this study was MFCC, the best accuracy produced by this study was 83.88%.
Sumber