Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Analisis Pengaruh Persentase Rasio Jumlah Data dengan Metode SMOTE untuk Sentiment Analysis
Muhammad Aldo Masendi (2021) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Sentiment Analysis (SA) merupakan salah satu cabang dari machine learning klasifikasi teks Natural Language Processing (NLP), yang bertugas untuk menganalisis opini, ulasan, hingga komentar-komentar terhadap objek tertentu. Banyak aplikasi SA mengasumsikan dataset yang dimiliki adalah seimbang, namun kenyataannya tidak semua dataset yang dimiliki seimbang antara kelas positif dan kelas negatif. Selama ini belum ditemukan kriteria dataset yang bisa dikatakan seimbang dengan yang tidak seimbang. Tujuan dari penelitian ini adalah memberi pengetahuan mengenai kriteria dataset yang masih dikatakan seimbang dan yang tidak seimbang dengan membandingkan performansi dari komposisi persentase rasio antar kelas yang berbeda-beda. Dengan tidak seimbangnya dataset mengakibatkan model klasifikasi menjadi kurang optimal, sehingga perlu adanya proses penyeimbangan data agar model klasifikasi menjadi lebih optimal. Banyak metode atau cara untuk menyeimbangkan dataset salah satu caranya yaitu dengan melakukan proses oversampling menggunakan metode Syntethic Minority Oversampling Technique (SMOTE). Proses eksperimen menggunakan 15 kriteria persentase rasio antar kelas yang berbeda-beda. Eksperimen dilakukan dua tahap, yaitu kriteria menggunakan metode SMOTE dengan yang tidak menggunakan metode apapun. Tahapan eksperimen dimulai dengan melakukan proses text preprocessing, feature extraction (TF-IDF), oversampling (SMOTE), training data dengan Naive Bayes, dan pengujian dengan menghitung precision, recall, dan F1-Measure. Hasil eksperimen dengan total 30 eksperimen menunjukan terdapat 5 (lima) kriteria persentase rasio yang masih bisa dikatakan seimbang dan 10 kriteria persentase rasio yang tidak seimbang. Dari 5 (lima) kriteria persentase tersebut memiliki nilai F1-Measure diatas 50% dan 10 kriteria persentase memiliki nilai F1-Measure dibawah 50%. Dengan menggunakan metode SMOTE dapat meningkatkan performansi dari model klasifikasi sebanyak 60%. Implikasi dari penelitian ini adalah dengan 5 (lima) kriteria persentase rasio tersebut masih dikatakan seimbang sehingga tidak perlu untuk dilakukan proses oversampling sedangkan 10 kriteria persentase lainnya memerlukan proses oversampling, karena dapat meningkatkan performansi model klasifikasi sebesar 60% dibandingkan tanpa menggunakan metode apapun. Kata Kunci: sentiment analysis, imbalanced dataset, SMOTE.
Ringkasan Alternatif
Sentiment Analysis (SA) is a branch of the Natural Language Processing (NLP) text classification machine learning, which is responsible for analyzing opinions, reviews, and comments on certain objects. Many SA applications assume that their datasets are balanced, but in reality not all datasets that are owned are balanced between positive and negative classes. So far, there are no criteria for a dataset that can be said to be balanced and unbalanced. The purpose of this study is to provide knowledge about the criteria for a dataset that is still said to be balanced and unbalanced by comparing the performance of the percentage composition of ratios between different classes. With the imbalance of the dataset, the classification model is less than optimal, so there is a need for a data balancing process so that the classification model becomes more optimal. There are many methods or ways to balance the dataset, one way is to do the oversampling process using the Syntethic Minority Oversampling Technique (SMOTE) method. The experimental process used 15 different percentage ratio criteria between classes. The experiment was carried out in two stages, namely the criteria using the SMOTE method and those that did not use any methods. The experimental stage began with the process of text preprocessing, feature extraction (TF-IDF), oversampling (SMOTE), training data with Naive Bayes, and testing by calculating precision, recall, and F1-Measure. The experimental results with a total of 30 experiments show that there are 5 (five) criteria for the percentage ratio that can still be said to be balanced and 10 criteria for the percentage ratio that is not balanced. Of the 5 (five) criteria the percentage has an F1-Measure value above 50% and the 10 percentage criteria have an F1-Measure value below 50%. By using the SMOTE method can improve the performance of the classification model as much as 60%. The implication of this research is that the 5 (five) percentage ratio criteria are still said to be balanced so that there is no need for an oversampling process while the other 10 percentage criteria require an oversampling process, because it can improve the performance of the classification model by 60% compared to without using any method. Keyword: sentiment analysis, imbalanced dataset, SMOTE.
Sumber