Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Analisis Sentimen Untuk Menentukan Profil Tokoh Publik pada Tweet Berbahasa Indonesia
Muhammad Mawaqitmakani Hendrayana (2018) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Metode pembelajaran mesin dapat digunakan untuk mengolah informasi yang terkandung pada twitter, sehingga dapat diperoleh informasi mengenai profil seorang tokoh publik. Dalam penelitian tugas akhir ini dikaji dan dianalisis tweet berbahasa indonesia yang membicarakan tentang calon gubernur Jakarta 2017. Akan tetapi, penggunaan pembelajaran mesin supervised membutuhkan sampel data yang telah diberi label. Hal tersebut dapat memakan waktu dan usaha yang banyak. Active learning dimanfaatkan untuk mengurangi data latih yang harus diberi label. Proses pembentukan profil dilakukan dengan meng-ekstraksi fitur dan mengelompokkannya berdasarkan sinonim dengan daftar kata thesaurus yang mencerminkan sifat jujur, jiwa pemimpin, perhatian, tegas dan berwibawa, pintar, ramah dan santun, dan enak dipandang. Selanjutnya fitur tersebut dijadikan parameter untuk klasifikasi sentimen terhadap calon gubernur Jakarta. Pengklasifikasian menggunakan transformed weight-normalized complement naïve bayes (TWCNB) yaitu berupa metode naïve bayes yang telah dimodifikasi dengan estimasi parameter berupa tf-idf. Sehubungan dengan hal itu, metode TWCNB dapat mengatasi permasalahan komposisi data yang tidak seimbang. Pengurangan data latih dengan active learning dilakukan dengan membagi data menjadi 3 yaitu data latih awal, data pool dan data pengetahuan. Selanjutnya data latih awal dibentuk menjadi model klasifikasi dan dievaluasi. Model klasifikasi yang terbentuk diperbarui dengan cara mengambil data paling informatif dari data pool dan dilakukan proses pemberian label berdasarkan data pengetahuan. Proses pembaharuan model dilakukan sampai target performa yang diharapkan tercapai. Dari hasil eksperimen penggunaan metode TWCNB dapat menghasilkan nilai f-measure hingga 76.05% dan penggunaan active learning dapat mengurangi pemberian label data latih hingga 25.68%. Variabel yang berpengaruh terhadap performa klasifikasi sentimen dan efektivitas pengurangan data latih pada active learning adalah komposisi jumlah data positif, negatif dan netral untuk masing-masing dataset. Kata Kunci: klasifikasi profil, twitter, analisis sentimen, active learning, TWCNB.
Ringkasan Alternatif
Machine Learning can be used to process information in twitter, to obtain information about the profile of a public figure. Tweet that talks about the candidate for Jakarta governor 2017 has been studied and analyzed in this final project. However, supervised machine learning require much time and effort to label sample data. On the other hand active learning can be used to reduce labeled train data. Profiling was done by extracting features and then that features are group based on synonym in Thesaurus that reflect trait such as honesty, leadership, attention, firm and authoritative, smart, friendly and courteous and good looking. Then that features are used as estimation parameters to classify the Jakarta governor's candidate sentiment. The classification used transformed weight-normalized complement naïve bayes (TWCNB) method that is a modified naïve bayes method with tf-idf as estimation parameter. Moreover, TWCNB method can solve problem about imbalanced data. Reduction of training data with active learning was done by dividing the data into three they were. preliminary training data, pool data, and knowledge data. Then preliminary training data be formed into classification model and then evaluated. The preliminary model were updated by retrieving the most informative data from pool data and labeled based on knowledge data. The process of model renewal was done until target performance achieved. Experiment showed that TWCNB method produced f-measure value 76.05% and Active learning reduced the training data labeled to 25.68%. Influential variables to sentiment classification performance and the effectiveness of training data reduction on active learning were the composition of the amount of positive, negative and neutral data of each dataset. Keywords: profile classification, twitter, sentiment analysis, active learning, TWCNB.