Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Perbandingan Frequency Based dan Prediction Based dalam Model Support Vector Machine (SVM) Multiclass (Studi Kasus: Teks Berita)
Anggastya Diah Andita H.P. (2019) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Penelitian ini melakukan perbandingan akurasi dari dua metode word embedding pada proses klasifikasi dokumen. Word embedding adalah representasi dokumen dalam bentuk vektor numerik. Penelitian ini melakukan klasifikasi menggunakan algoritma Support Vector Machine (SVM), dimana input yang diperlukan pada algoritma SVM adalah vektor numerik. Terdapat dua jenis metode pada word embedding yaitu frequency based TF-IDF dan prediction based skip gram. Pada dasarnya SVM adalah algoritma klasifikasi binary-class, sedangkan studi kasus yang digunakan dalam penelitian ini adalah klasifikasi dokumen teks berita berbahasa Inggris ke dalam multiclass. Oleh karena itu, untuk menangani permasalah tersebut dilakukanlah klasifikasi biner termodifikasi secara iteratif hingga k kelas terbentuk (k adalah banyaknya kelas). Terdapat 30 skenario eksperimen yang diujikan. Eksperimen dilakukan menggunakan metode k-fold cross validation, dengan nilai k sebesar 10. Hasil eksperimen dengan 30 skenario menunjukkan bahwa metode prediction based skip gram selalu menghasilkan akurasi lebih baik dibandingkan metode frequency based TF-IDF. Selisih akurasi antara metode prediction based skip gram dan frequency base TF-IDF hampir mencapai 10% pada dataset berita dengan rasio kategori 1:1. Dengan rincian, metode prediction based skip gram menghasilkan akurasi 97,04% sedangkan metode frequency based TF-IDF menghasilkan akurasi 86,60%. Oleh karena itu, metode prediction based skip gram direkomendasikan untuk digunakan pada klasifikasi multiclass dengan Support Vector Machine. Kata Kunci: multiclass, skip gram, TF-IDF, word embedding.
Ringkasan Alternatif
This study compares the accuracy between two word embedding methods in document classification. Word embedding is a representation of document into numerical vector. this study classifies document using Support Vector Machine (SVM) algorithm, where the input required in SVM algorithm must be numerical vector. There are two type of methods on word embedding, namely frequency based TF-IDF and prediction based skip gram. Basically SVM is a binary-class classifier, this case study classify English news document into multiclass. Therefore, to handle this problem, modified binary classifying was done iteratively until k classes created (k is the number of classes). There are 30 experiment scenarios which are tested. The experiment was done using k-fold cross validation method, with the value of k is 10. Experiment result on 30 scenarios shows that prediction based skip gram always produces better accuracy than prediction based TF-IDF. The difference accuracy between prediction based skip gram and frequency based TF-IDF reached almost 10% when dataset with category ratio was 1:1. Prediction based skip gram produce 97,04% accuracy while frequency based TF-IDF produces 86,60%. Therefore, skip gram is recommended to use for multiclass classification with Support Vector Machine. Keywords: multiclass, skip gram, TF-IDF, word embedding.