Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Peningkatan Akurasi Analisis Sentimen Menggunakan Supervised Term Weighting Dan Unsupervisd Term Weighting Pada Algoritma Support Vector Machine (Studi Kasus: Opini Ulasan Film dari IMDB)
Aditia Rakhmat Sentiaji NIM. (2017) | Tesis | Sistem Informasi
Bagikan
Ringkasan
Pertumbuhan pengguna internet terus meningkat sesuai dengan berjalannya waktu. Terhitung mulai dari tahun 1993 hingga 2016 pengguna internet mencapai 3,4 miliar dengan tingkat penetrasi 46%. Pertumbuhan pengguna internet memberikan dampak pada pertumbuhan data secara signifikan. Data tersebut akan menjadi sampah jika hanya disimpan tanpa dianalisis lebih lanjut. Salah satu teknik analisis yang bisa dilakukan adalah analisis sentimen. Teknik tersebut dapat menganalisis pendapat, sentimen, evaluasi, penilaian, sikap, dan emosi masyarakat terhadap entitas seperti produk, layanan, organisasi, individu, isu, peristiwa, topik, dan atribut. Dalam perkembangan analisis sentimen, algoritma yang digunakan untuk melakukannya terus dikembangkan untuk menaikkan akurasi klasifikasi sentimen suatu opini. Dalam penelitian yang dilakukan Tim OÃâKeefe dan Fatimah Wulandini, algoritma Support Vector Machine (SVM) dinilai memiliki tingkat akurasi tertinggi. Tahapan awal melakukan analisis sentimen menggunakan algoritma SVM adalah melakukan pembobotan yang merubah kata-kata menjadi angka yang didasarkan pada kemunculannya. Ada yang memperhitungkan kemunculannya berdasarkan label dari dokumen yaitu Term Frequency Odd Ratio (TF-OR), ada yang tanpa memperhitungkan kemunculannya berdasarkan label dari dokumen yaitu Term Weighting Ãâ Inverse Document Frequency (TF-IDF). Pemilihan dua teknik pembobotan dapat mempengaruhi tingkat akurasi yang dihasilkan algoritma SVM. Penelitian Man Lan menunjukkan bahwa teknik pembobotan TF-OR memiliki tingkat akurasi tertinggi dengan catatan komposisi data latih positif dan negatif yang digunakan seimbang, Dalam menghadapi dataset yang tidak seimbang, akurasi yang didapat menjadi lebih rendah dibanding teknik pembobotan TF-IDF. Maka penelitian ini bermaksud untuk membuat suatu model pembobotan dengan memanfaatkan TF-OR dan TF-IDF sehingga membuat akurasi algoritma SVM menjadi relatif stabil ketika menggunakan data latih yang seimbang atau tidak seimbang.
Ringkasan Alternatif
The growth of internet users continues to increase over time. Starting from 1993 to 2016, internet users reached 3.4 billion with a penetration rate of 46%. The growth of internet users has a significant impact on data growth. The data will become useless if it is only stored without further analysis. One of the analytical techniques that can be done is the sentiment analysis. The technique can analyze opinions, sentiments, evaluations, judgments, attitudes, and public emotions on entities such as products, services, organizations, individuals, issues, events, topics, and attributes. In the development of sentiment analysis, the algorithm used to perform sentiment analysis continues to be developed to increase the sentiments' accuracy of opinion. In a study by Tim O'Keefe and Fatimah Wulandini, the Support Vector Machine (SVM) algorithm was rated as having the highest accuracy. The initial stage of performing sentiment analysis using the SVM algorithm is to weight the words that change into numbers based on their appearance. Some would count the appearance based on the label of the Term Frequency Odd Ratio (TF-OR) document, some would disregard its appearance based on the document's Term Weighting - Inverse Document Frequency (TF-IDF) document. Selection of two weighting techniques can affect the accuracy of SVM algorithm results. Man Lan's research shows that the TF-OR weighting technique has the highest level of the positive and negative practice data composition used in balance. Unbalanced datasets will result in lower accuracy than the TF-IDF weighting technique. Furthermore, this study intends to create a weighting model by utilizing TF-OR and TF-IDF to make the SVM algorithm relatively stable in accuracy when using either balanced or unbalanced training data.