Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Part Of Speech Tagger Untuk Bahasa Indonesia Menggunakan Conditional Random Field (CRF)
Fivip Saefulloh NIM. (2017) | Skripsi | Teknik Informatika
Bagikan
Ringkasan
Part-of-speech tagging (POS tagging) merupakan proses penandaan untuk menentukan kelas kata atau kelas leksikal lain untuk setiap kata dalam teks input. Proses ini memainkan peranan penting di beberapa bidang NLP seperti speech recognition, natural language parsing dan information retrieval [2]. Salah satu metode probabilistik yang digunakan untuk pengembangan POS tagging adalah Conditional Random Field (CRF). Pada Bahasa Indonesia sendiri telah dilakukan penelitian dengan menggunakan metode ini dengan akurasi 80,21 % serta 91,15 % [5,3] menggunakan 37 dan 25 tagset dengan menggunakan data training sebanyak 26346 kata. Dari dua penelitian tersebut, akurasi yang dihasilkan masih belum maksimal. Maka penelitian ini bertujuan untuk menghasilkan POS tagger untuk Bahasa Indonesia dengan menggunakan CRF yang diharapkan dapat menghasilkan akurasi yang lebih baik. CRF merupakan framework untuk membangun model probabilistik untuk segmentasi dan pelabelan data sekuens yang memiliki kelebihan dibandingkan model probabilistik lainnya. Tiga tahap utama dalam penelitian ini adalah ekstraksi fitur, training dan testing. Data training dan data testing yang digunakan berasal dari “Indonesian_Manually_Tagged_Corpus” [8] berisi 250000 kata menggunakan 23 tagset. Pada proses training digunakan data training sebanyak 200 kalimat yang berisi 3910 kata dengan nilai standar deviasi 2 dan learning rate 0,000001. Dari hasil pengujian yang dilakukan terhadap 4 data testing, rata-rata akurasi yang dihasilkan adalah 78,20 %.
Ringkasan Alternatif
Part-of-speech tagging (POS tagging) is the process of assigning a part-of-speech marker to each word in an input text. This process plays an important role in several fields of NLP such as speech recognition, natural language parsing and information retrieval. One of the probabilistic methods used for the development of POS tagging is Conditional Random Fields (CRF). In Indonesian language itself has been conducting research using this method with accuracy 80.21% and 91.15% [5,3]using 37 and 25 tagset and training data with 26346 words. Based on the two studies before, the accuracy is still not optimal. The study aims to produce POS tagger for Bahasa Indonesia using CRF expected to result in better accuracy. CRF is a framework to build a probabilistic model for segmenting and labeling sequence data that has advantages compared with other probabilistic models. Three main phase in this method are the feature extraction, training and testing. Training data and testing data used comes from "Indonesian_Manually_Tagged_Corpus" [8] contains 250,000 words using 23 tagset. In the training process used training data of 200 sentences containing 3910 words with value of standard deviation is 2 and learning rate is 0,000001. From the testing result performed on 4 testing data, resulting average accuracy 78,20%.
Sumber