Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Word Sense Disambiguation Menggunakan Metode Lesk Untuk Cerpen Anak Berbahasa Indonesia
Dina Ramandha Putri NIM. (2017) | Skripsi | Teknik Informatika
Bagikan
Ringkasan
Word Sense Disambiguation adalah suatu proses mengidentifikasi makna kata yang yang digunakan dalam suatu konteks ketika kata memiliki sejumlah makna yang berbeda. Pada penelitian sebelumnya, Word Sense Disambiguation menggunakan Simplified Lesk memiliki kompleksitas waktu lebih rendah dan akurasi yang dihasilkan lebih besar dibandingkan Original Lesk. Tahap sistem Word Sense Disambiguation dimulai dari penerimaan input teks dokumen hingga melakukan preprocessing yang terdiri dari tokenisasi kalimat, tokenisasi kata dan removal stopword. Hasil dari preprocessing berupa kalimat yang diproses dengan menentukan kata yang ambigu dan mencari makna dari kata yang ambigu menggunakan kamus kateglo. Apabila kata yang memiliki makna lebih dari satu dan jenis kata lebih noun (kata benda) atau verb (kata kerja) akan dipilih sebagai kata yang ambigu. Selanjutya dihitung berapa kali kemunculan kata yang sama yang ada pada kalimat dan kata pada setiap makna kata yang ambigu menggunakan Simplified Lesk. Banyaknya kemunculan kata yang sama akan menghasilkan bobot terbesar dan menjadi kandidat makna terpilih yang tepat untuk kata yang ambigu. Berdasarkan hasil pengujian menggunakan data sebanyak 35cerpen anak online berbahasa Indonesia yang diambil dari beberapa sumber, disimpulkan bahwa Word Sense Disambiguation menggunakan Simplified Lesk menghasilkan performansi yang sangat kecil dengan nilai rata-rata recall sebesar 22.08%, precision sebesar 18.82%, f-measure sebesar 19.68%, dan akurasi sebesar 14.04%. Hal tersebut disebabkan karena inventori kata dasar yang kurang lengkap pada kamus kateglo sehingga banyak kata yang tidak terdeteksi, penggunaan sinonim yang digunakan untuk menambah bobot Simplified Lesk tidak menghasilkan hasil yang signifikan dan adanya kesalahan pada proses removal stopword dimana kata yang terdapat pada daftar stopword termasuk kedalam kata yang ambigu sehingga kata tidak diproses pada tahap Simplified Lesk.
Ringkasan Alternatif
Word Sense Disambiguation is a process of identifying the meaning of the word is used in a context when the word has several different meanings. In previous research, Word Sense Disambiguation using Simplified Lesk have lower time complexity and the resulting accuracy greater than Original Lesk. Word Sense Disambiguation system stage starting from the receipt of the text input documents to do the preprocessing consists of sentences tokenizing, words tokenizing and stopword removal. The result of preprocessing in the form of sentences that are processed by specifying an ambiguous word, and searching for the meaning of an ambiguous word using kateglo dictionary. If a word has more than one meaning and the kind words more noun or verb to be selected as an ambiguous word. Next, counted how many times the occurrence of the same word in the sentence and word on every ambiguous word meaning using Simplified Lesk. The large number of occurrences of the same word will produce the largest weights and a candidate selected the proper meaning to the ambiguous words. Based on the test results using the data as much as 35 Indonesian short stories online taken from several sources, it was concluded that the Word Sense Disambiguation using Simplified Lesk produces a very small performance with an average value of 30% recall, precision of 18.82%, f-measure of 19.68%, and 14% of accuracy. It is caused due to a complete lack of said inventory in the kateglo dictionary so that many dictionary words which are not detected, synonyms that are used to add weights Simplified Lesk did not produce significant results and an error in the process of the stopword removal where the words in the stopword list contains ambiguous words so that word is not processed in the Simplified Lesk.
Sumber