Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Perbandingan Metode CBOW dan Skip Gram pada Random Forest untuk Klasifikasi Teks Berisi Ujaran Kebencian
Firya Nadhifa (2021) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Seiring dengan meningkatnya jumlah pengguna jejaring sosial dan konten daring, penyebaran ujaran kebencian juga meningkat. Ujaran kebencian merupakan salah satu bentuk cyberbullying yang bisa menimbulkan berbagai macam dampak negatif. Salah satu solusi yang ditawarkan untuk mengatur dan menindaklanjuti penyebaran ujaran kebencian yaitu dengan mendeteksi ujaran kebencian dengan pendekatan machine learning. Penelitian ini bertujuan untuk membuat model klasifikasi ujaran kebencian berbahasa Indonesia (studi kasus: tweet) yang menerapkan algoritma Random Forest dan dua jenis metode ekstraksi fitur: Skip Gram dan CBOW. Metode ekstraksi fitur Skip Gram dan CBOW menggunakan struktur neural network untuk menghasilkan representasi kata dalam dimensi vektor dengan memperhitungkan hubungan semantik antar katanya. Skip Gram menggunakan kata target untuk memprediksi kata konteks yang ada disekitarnya, sedangkan CBOW sebaliknya. Adapun hal yang diamati pada penelitian ini yaitu pengaruh metode Skip Gram dan CBOW terhadap nilai akurasi hasil klasifikasi. Terdapat 40 jenis pengujian pada skenario eksperimen. Keseluruhan pengujian menunjukkan bahwa Skip Gram menghasilkan akurasi yang lebih tinggi dibandingkan dengan CBOW. Nilai akurasi tertinggi yang dihasilkan Skip Gram adalah 82,49% sedangkan CBOW 81,48%. Berdasarkan hasil eksperimen tersebut, dapat dikatakan bahwa metode Skip Gram lebih sesuai diterapkan untuk klasifikasi ujaran kebencian dengan studi kasus teks tweet berbahasa Indonesia. Kata Kunci: Random Forest, Skip Gram, CBOW, Klasifikasi tweet.
Ringkasan Alternatif
The increasing number of social network users and online content also increases the spread of hate speech in the social network. Hate speech is a form of cyberbullying that can left various negative effects on its victims. One of the proposed solutions to control the spread of hate speech is using machine learning approach to detect hate speech. This study aims to create a classification model for hate speech in Bahasa (case study: tweet) using Random Forest algorithm and two types of feature extraction methods: Skip Gram and CBOW. These feature extraction methods implement neural network structure to yield word representations in vector dimensions by taking into account the semantic relationships between words. Skip Gram uses the target word to predict context words, while CBOW is the opposite of it. This study focuses on the effects of both methods on the accuracy of the classification results. There are 40 scenarios carried out to determine the effect of each method on the accuracy of classification results. The overall testing shows that the Skip Gram method yields higher accuracy compares to CBOW method. The highest accuracy value produced by Skip Gram is 82,49%, while CBOW is 81,48%. Based on the experimental results, it can be said that the Skip Gram method is more suitable for hate speech classification with a case study of tweet in Bahasa. Keywords: Random Forest, Skip Gram, CBOW, Tweet Classification
Sumber