Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Aplikasi Rules-Based Part-Of-Speech-Tagging dan Named Entity Recognition untuk Bahasa Indonesia
Arlita Rahma Setiadi (2019) | Tugas Akhir | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Tugas Akhir ini berkaitan dengan pengembangan aplikasi komputer untuk penandaan kelas kata pada suatu satuan gramatika untuk Bahasa Indonesia. Hasil yang diharapkan dari Tugas Akhir ini adalah suatu aplikasi komputer yang dapat secara otomatis menandai kelas kata pada suatu kalimat, yang selanjutnya diperlukan untuk melakukan pengolahan bahasa alami yang lebih lanjut. Part-of-speech tagging adalah kegiatan menandai sebuah satuan gramatika dengan kelas katanya. Penandaan kelas kata ini memberikan wawasan linguistik bagaimana suatu satuan gramatika digunakan dalam suatu cakupan konteks. Proses yang fundamental dalam hampir semua aplikasi pengolahan bahasa alami tingkat lanjut ini sangat perlu untuk diotomasi, terlebih dengan banyaknya data yang diproses. Aplikasi yang sudah ada, memiliki kemampuan untuk menandai satuan gramatika pada level kata dengan memanfaatkan aturan morfologi kata dan juga aturan disambiguasi untuk kata yang memiliki kelas kata lebih dari satu. Namun, aplikasi yang sudah ada ini belum dapat menandai kata yang berupa kata dalam bahasa asing. Aplikasi ini juga belum dapat mengelompokkan satuan gramatika yang lebih tinggi dari kata dan melakukan pengelompokkan kata benda khusus. Sehingga, pengolahan bahasa alami tingkat lanjut yang membutuhkan informasi tersebut tidak bisa dilakukan. Pendekatan yang dilakukan pada Tugas Akhir untuk mengatasi masalah di atas adalah dengan cara menyempurnakan aplikasi yang sudah ada dengan menggunakan metode aturan. Digunakan aturan fraseologi sebagai acuan pengelompokkan frasa dan proses named entity recognition untuk menandai kata benda khusus. Digunakan juga korpus kata dalam Bahasa Inggris sebagai acuan penandaan kata dalam Bahasa Inggris dan korpus prefiks sebagai penunjang proses named entity recognition. Hasil dari Tugas Akhir adalah aplikasi part-of-speech tagger untuk Bahasa Indonesia yang telah dapat menandai kata Bahasa Inggris ke dalam kelompok bahasa asing. Kemampuan lain bisa dilakukan adalah mengelompokkan dan menandai frasa serta menandai kata benda khusus yang menunjukkan orang, lokasi dan organisasi. Implikasi dari aplikasi yang dibuat ini memberi nilai lebih dari aplikasi yang sudah ada sebelumnya. Namun demikian kata bahasa asing yang dapat ditandai hanya kata dasar dalam Bahasa Inggris dan pengelompokkan frasa tunggal. Penandaan kata benda khusus yang menunjukkan nama orang belum dapat dilakukan. Pengembangan lebih lanjut dapat dilakukan dengan menambah korpus bahasa asing dan aturan frasa untuk jenis-jenis lainnya. Selain itu diperlukan metode lain untuk menyelesaikan penandaan kata benda khusus yang merupakan nama orang. Kata kunci: part-of-speech tagging, metode aturan, fraseologi, named entity recognition.
Ringkasan Alternatif
This Final Project related with the development of computer applications for tagging part of speech on a grammatical unit for Indonesian. The expected result of this Final Project is a computer application that can automatically tag the part of speech in a sentence, which is then needed for more advanced natural language processing. Part of speech tagging is the activity of marking a grammatical unit with its part of speech. This part of speech marking provides linguistic insight into how a grammatical unit is used in a context. The fundamental process in almost all advanced natural language processing applications is very necessary to be automated, especially with the large amount of data that is processed. Existing application, has the ability to tag grammatical units at the word level by utilizing word morphology rules and disambiguation rules for words that have more than one part of speech. However, it cannot mark words in foreign languages. This application also has not been able to classify grammatical units that are higher than word and mark specific proper noun. Thus, the processing of advanced natural language that requires this information cannot be done. The approach taken in the Final Project to overcome the problem above is by improving existing application using the rule method. Phraseology rules are used as a reference for grouping phrases and named entity recognition to mark proper nouns. It also requres word corpus in English as a reference for English word and and prefixes corpus as support for named entity recognition process. The results of the Final Project is part of speech tagger application for Indonesian Language by which adds the ability to mark English words into foreign language. Other capabilities that are added are grouping and marking phrases and marking proper nouns that indicate people, locations and organizations. The implication of this application is that it gives more value to the existing application. However, word in foreign language that can be marked are only basic words in English and grouping single phrases. Proper noun marking that indicate person names have not been able to be done. Further development can be done by adding foreign language corpus and phrase rules of other types. In addition, other methods are needed to complete the marking of proper nouns that indicates person names. Keywords: part-of-speech tagging, rule method, phraseology, named entity recognition.