Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Deteksi Dan Koreksi Kesalahan Real-Word Pada Penulisan Kata Menggunakan Metode N-GRAM Dalam Teks Berbahasa Indonesia
Muhammad Aburizal Siregar NIM. (2017) | Skripsi | Teknik Informatika
Bagikan
Ringkasan
Dalam bidang Natural Language Processing (NLP), kesalahan kata merupakan hal yang penting diperhatikan. Terdapat dua jenis kesalahan ejaan, yaitu non-word dan real-word. Beberapa penelitian telah dilakukan untuk mengatasi masalah kesalahan ejaan real-word dalam bahasa Inggris. Sementara penelitian tentang kesalahan ejaan dalam bahasa Indonesia masih terbatas pada kesalahan non-word. Maka dari itu, penelitian ini bertujuan untuk mengukur akurasi metode deteksi dan koreksi kesalahan ejaan real-word dalam bahasa Indonesia. Metode yang digunakan berdasarkan kepada metode bigram dan trigram lokal yang diajukan Samanta dan Chaudhuri (2016). Aplikasi yang dibangun akan membuat confusion set untuk setiap kata kandidat menggunakan Levenshtein distance dari kata-kata kamus, lalu menghitung peringkat setiap elemen dalam confusion set tersebut. Berdasarkan itu, kesalahan dideteksi dan diberikan sugesti kata koreksi. Dari hasil pengujian pada 30 artikel berita menggunakan korpus sebesar 1,7 juta string didapatkan akurasi deteksi dan koreksi sebesar 11%. Nilai akurasi yang sangat kecil ini disebabkan karena sangat kecilnya ukuran korpus bigram dan trigram yang digunakan.
Ringkasan Alternatif
In Natural Language Processing (NLP), word errors are things to watch out for. There are two kinds of spelling errors, non-word error and realword error. Studies have been done to solve real-word spelling errors in English. Meanwhile studies about spelling errors in Indonesian are limited to non-word errors. Therefore this study aims to measure the accuracy of the detection and correction of real-word spelling errors in Indonesian. The method used is based on the local bigrams and trigrams method proposed by Samanta dan Chaudhuri (2016). The program creates a confusion set for all candidate words using Levenshtein distance, then calculates the ranks of the elements of the confusion set. Based on that, errors are detected and given suggestions of the correction. Based on test results on 30 news articles using n-gram corpus sized 1,7 million strings, the accuracy for detection and correction is 11%. The very low results produced is caused by the extremely small size of the bigram and trigram corpus used.
Sumber