Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Analisis Penerapan Stopword Removal pada Text Classifier Naive Bayes untuk Klasifikasi Teks Berita
Andre Febrianto (2019) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Tujuan dari klasifikasi dokumen adalah agar memudahkan dalam mendapatkan informasi tertentu. Pendekatan machine learning dapat mempermudah proses klasifikasi dokumen. Namun, pendekatan machine learning memerlukan data berukuran besar untuk melatih model. Penggunaan data dengan ukuran yang besar menimbulkan masalah tersendiri, yaitu data dengan ukuran yang besar biasanya memiliki noise yang besar pula. Penelitian ini mencoba menganalisis dan menyelesaikan permasalahan noise pada data latih dengan menerapkan stopword removal pada tahap text preprocessing. Masalah yang dianalisis dalam penelitian ini adalah pengaruh penerapan stopword removal terhadap performa model classifier yang menerapkan multinomial naive bayes, ukuran dimensi ruang fitur, dan penggunaan memori. Studi kasus yang digunakan dalam penelitian ini adalah klasifikasi dokumen berita berbahasa Inggris. Teks berita bahasa Inggris dipilih karena umumnya sudah menerapkan struktur gramatikal yang baik dan benar. Terdapat 5 metode stopword removal yang digunakan dalam penelitian ini, yaitu metode klasik, metode berdasarkan aturan Zipf (terdiri atas 3 metode), dan metode mutual information. Hasil eksperimen menunjukkan bahwa penerapan metode klasik memberikan hasil yang paling baik dibandingkan keempat metode lainnya. Metode klasik ini mampu meningkatkan performa model, mengurangi ukuran dari dimensi ruang fitur, dan mengurangi penggunaan memori. Kata Kunci: klasifikasi dokumen, multiclass classification, stopword removal, multinomial naive bayes.
Ringkasan Alternatif
The purpose of document classification is to make information searching easier. Machine learning approach can simplify the document classification process. However, machine learning approach require large dataset to train model. Handling large dataset raises its own problems, that is, it also has a large noise. This study tries to analyze and solve noise problem in training dataset by applying stopword removal in the text preprocessing stage. The problem being analyzed in this study is the effect of the application of stopword removal on the performance of classifier models that implement multinomial naive bayes, the size of feature space dimension, and memory usage. The case of this study is the classification of English news texts. The English news text was chosen because they generally have implemented proven grammatical structure. There are 5 stopword removal methods used in this study, namely the classical method, the Zipf rule method (consist of 3 methods), and the mutual information method. Experiment shows that the application of the classical method provides the best results compared to the other four methods. This classical method is able to improve model performance, reduce the size of feature space dimension, and reduce memory usage. Keywords: Document classification, multiclass classification, stopword removal, multinomial naive bayes.