Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Koreksi Kesalahan Ejaan Pada Hasil Konversi File Dalam Ekstraksi Informasi
Abdul Rohim NIM. (2018) | Skripsi | Teknik Informatika , Teknik Informatika
Bagikan
Ringkasan
File yang dihasilkan dari proses konversi file dapat memiliki kesalahan ejaan yang mencakup kesalahan ejaan non-word dan word-boundary. Kesalahan ejaan non-word disebabkan oleh ejaan yang tidak terdapat pada kamus. Kesalahan ini dapat ditangani dengan menggunakan dua metode pengoreksi ejaan yaitu metode Soundex untuk memberikan rekomendasi perbaikan kata dan metode Damerau-Levenshtein Distance digunakan untuk memilih perbaikan kata dari yang direkomendasikan. Metode Soundex mengoreksi ejaan berdasarkan kemiripan ucapan (phonetic string matching) dan metode Damerau-Levenshtein Distance berdasarkan kemiripan tulisan (approximate string matching). Soundex akan mencari kata yang memiliki kemiripan berdasarkan kode fonetis yang sama sebagai kata yang direkomendasikan dan Damerau-Levenshtein Distance mencari nilai jarak edit terkecil dari kata yang dianggap salah eja dengan kata yang direkomendasikan sedangkan kesalahan ejaan word-boundary karena letak spasi yang tidak sesuai antar kata sehingga menyebabkan dua kata menjadi satu kata. Kesalahan word-boundary ditangani dengan mencari dua kata pada kamus Indonesia (KBBI), apabila dua kata tersebut digabungkan akan sama dengan kata yang dianggap salah eja word-boundary. Berdasarkan hasil pengujian terhadap 11 dokumen disertasi berupa cover dan abstrak, deteksi kata yang salah eja memiliki rata-rata recall sebesar 100% dan precision sebesar 59,5%, sedangkan hasil perbaikan kata memiliki rata-rata recall sebesar 100% dan precision sebesar 71,4%.
Ringkasan Alternatif
Files generated from the file conversion process may have spelling errors that include non-word and word-boundary spelling errors. Non-word spelling mistakes are caused by spellings that are not available in the dictionary. This error can be handled using two spelling correction methods that are Soundex methods to provide remedial improvements to the word and method of Damerau-Levenshtein Distance used to select the correct word from the recommended. The Soundex method corrects spelling based on the phonetic string matching and the Damerau-Levenshtein Distance method based on the approximate string matching. Soundex will look for words that resemble the same phonetic code as the recommended word and the Damerau- evenshtein Distance finds the smallest edit distance value of the word that is considered misspelled with the recommended word while the word-boundary spelling mistake is due to inappropriate spacing between words resulting in two words being one word. Word-boundary errors are handled by searching two words in Indonesian dictionary (KBBI), when the two words are combined will be the same as words that are considered word-boundary misspellings. Based on the test results on 11 cover and abstract dissertation documents, misspelled word detection has a 100% recall average and 59.5% precision, while word improvement has a 100% recall average and a precision of 71, 4%.
Sumber