Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Analisis Akurasi Metode Term Weighting Untuk Penilaian Otomatis Esai Berbahasa Indonesia Dengan K-Nearest Neighbor
Harut Digdaya Muttaqin (2018) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Penilaian esai otomatis dapat menjadi solusi bagi permasalahan yang ada pada penilaian esai secara manual yaitu waktu pemeriksaan yang lama, tidak reliabel, dan tidak objektif. Penilaian esai otomatis dilakukan dengan cara melihat kemiripan antara esai yang akan dinilai dengan esai data latih yang telah diberikan label nilai oleh penilai manusia. Untuk menghitung kemiripan, setiap esai diubah menjadi bentuk vektor yang berisi bobot dari setiap term. Penelitian ini membandingkan hasil akurasi dari penggunaan 2 jenis metode pembobotan term yaitu unsupervised term weighting TF-IDF, dan supervised term weighting TF-Chi2 dan TF-RF. Penelitian ini menggunakan algoritma k-nearest neighbor sebagai metode machine learning. Terdapat 15 skenario eksperimen yang diujikan. Eksperimen dilakukan dengan menggunakan metode k-fold cross validation, dengan k bernilai 2 sampai 10. Hasil eksperimen terhadap 15 skenario memperlihatkan bahwa metode supervised term weighting selalu menghasilkan akurasi yang lebih baik dibandingkan metode unsupervised term weighting. Dengan rincian yaitu TF-Chi2 menjadi metode pembobotan term dengan akurasi terbaik pada 8 skenario, sedangkan TF-RF pada 7 skenario. Selisih hasil akurasi antara metode supervised term weighting dan unsupervised term weighting mencapai 14% pada dataset sejarah 1 rasio 1:1 dengan nilai k dari KNN bernilai 3. Dengan rincian yaitu metode TF-Chi2 menghasilkan akurasi 89,71%, metode TF-RF menghasilkan akurasi 88,07%, dan metode TF-IDF menghasilkan akurasi 74,93%. Walapun metode TF-Chi2 menjadi metode pembobotan term dengan akurasi terbaik pada 8 skenario, sedangkan TF-RF hanya pada 7 skenario, namun metode TF-RF memiliki performa yang lebih stabil dibandingkan TF-Chi2. Hal ini dibuktikan dengan hasil eksperimen pada skenario lainnya yaitu TF-Chi2 menjadi metode pembobotan dengan akurasi terendah pada 5 skenario, sedangkan TF-RF hanya pada 1 skenario. Oleh karena itu, metode pembobotan term yang direkomendasikan untuk digunakan dalam kasus penilaian esai otomatis dengan k-nearest neighbor adalah metode TF-RF dengan nilai k dari KNN bernilai 3. Kata Kunci: k-nearest neighbor, supervised term weighting, TF-Chi2, TF-RF, unsupervised term weighting, TF-IDF.
Ringkasan Alternatif
Automatic essay scoring can be a solution for problems that exist in manual scoring that is time consuming, unreliable and unobjective. Automatic essay scoring is done by looking at the similarity between an essay that will be scored and essay data training that has been scored by the human rater. To calculate similarity, each essay is transformed into a vector that contains the weight of each term. This study compared the accuracy of 2 types of term weighting method which are unsupervised term weighting TF-IDF and supervised term weighting TF-Chi2 and TF-RF. This study used K-Nearest Neighbor algorithm as machine learning method. There are 15 experiment scenarios which are tested. The experiment was done by using k-fold cross validation method, with the value of k is 2 to 10. Experiment result on 15 scenarios shows that supervised term weighting method always produces better accuracy than that of unsupervised term weighting; TF-Chi2 became the term weighting method with the best accuracy in 8 scenarios and TF-RF in 7 scenarios. The difference in accuracy between supervised term weighting and unsupervised term weighting reached 14% in the Sejarah 1 data set ratio 1:1 with k of KNN value is 3; TF-Chi2 method produces 89,71% accuracy, TF-RF method produces 88,07% accuracy, and TF-IDF method produces 74,93% accuracy. Although the TF-Chi2 method is the best term weighting method in 8 scenarios while TF-RF only in 7 scenarios, but TF-RF method has a more stable performance than TF-Chi2. This experiment result is proven in other scenarios that are TF-Chi2 became the term weighting method with the lowest accuracy in 5 scenarios while TF-RF only in 1 scenarios. Therefore, the recommended term weighting method used for automated essay scoring with K-Nearest Neighbor is the TF-RF method with the k of KNN value is 3. Keywords: k-nearest neighbor, supervised term weighting, TF-Chi2, TF-RF, unsupervised term weighting, TF-IDF.
Sumber