Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Analisis Pengaruh Reduksi Dimensi Metode PCA pada Klasifikasi Teks Berita Berbahasa Inggris dengan K-Nearest Neighbor
Fakhrana Pradnya Paramita (2019) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Berita merupakan salah satu kebutuhan sumber informasi bagi masyarakat untuk memenuhi dan memperluas cakrawala pengetahuannya. Perkembangan teknologi informasi dan internet, mendorong pertumbuhan situs berita online dengan menyajikan teks berita terklasifikasi. Mengingat jumlah berita yang dirilis setiap harinya sangat banyak, waktu proses klasifikasi menjadi lama dan tidak reliabel apabila klasifikasi dilakukan secara manual. Dengan pendekatan machine learning, klasifikasi dapat dilakukan secara otomatis. K-nearest neighbor merupakan salah satu metode machine learning yang mampu memberikan akurasi tinggi untuk beberapa kasus klasifikasi, namun rentan terhadap data berdimensi tinggi. Di sisi lain, dalam kasus klasifikasi dokumen teks berita seringkali dihadapkan dengan data berdimensi tinggi. Hal ini berimplikasi terhadap menurunnya akurasi bagi k-nearest neighbor. Penelitian ini bertujuan untuk meningkatkan akurasi dari k-Nearest Neighbor dalam menangani kasus klasifikasi data berdimensi tinggi, seperti dokumen teks berita, dengan melakukan reduksi dimensi. Metode reduksi dimensi yang digunakan sebagai solusi adalah Principal Component Analysis (PCA). Pengaruh dari penerapan solusi ini akan diamati melalui eksperimen dengan kombinasi jumlah principal component, nilai k dari k-Nearest Neighbor, dan jumlah data. Eksperimen dilakukan untuk menguji akurasi yang dihasilkan oleh k-Nearest Neighbor baik tanpa dan dengan penerapan PCA. Teks berita berbahasa Inggris dipilih sebagai studi kasus karena pada umumnya telah memiliki struktur gramatikal yang baik dan benar. Hasil eksperimen menunjukkan bahwa reduksi dimensi dengan metode PCA dapat meningkatkan akurasi yang dihasilkan oleh k-Nearest Neighbor. Penerapan PCA dapat meningkatkan akurasi k-Nearest Neighbor sebesar 8,31% untuk original dataset dan sebesar 9,31% untuk balanced dataset. Dalam kasus klasifikasi teks berita berbahasa Inggris, kombinasi terbaik yaitu pada penggunaan original dataset dengan 40 principal component dan nilai k = 1 dari k-Nearest Neighbor dengan akurasi sebesar 94%. Kata Kunci: data berdimensi tinggi, klasifikasi dokumen teks, k-nearest neighbor, principal component analysis, reduksi dimensi.
Ringkasan Alternatif
News is one of the information sources for society to fulfill and to expand their horizons. The development of information technology and internet has pushed the growth of online news by presenting of classified news texts. Considering the large number of news released by online news sites every day, the classification process takes a longer time and is not reliable if the classification is done manually. With the Machine learning approach, classification can be done automatically. K-Nearest Neighbor is one of the machine learning methods that is able to provide high accuracy for some cases of classification, but it is vulnerable to high-dimensional data. On the other hand, in the case of news text classification, it is often faced with high-dimensional data. This has implications for decreasing accuracy for k-Nearest Neighbor. This study aims to improve the accuracy of k-Nearest Neighbor in handling cases of high-dimensional data classification, such as news text documents, by reducing dimensionality. The dimensionality reduction method that used as a solution is Principal Component Analysis (PCA). The effect of implementing the solution will be observed through experiments with a combination of the principal component, k-Nearest Neighbor value, and the amount of data. Experiments are conducted to test the accuracy produced by k-Nearest Neighbor both without and with the application of PCA. The English news text was chosen as case study because in general it has a good grammatical structur. The experimental results show that dimensionality reduction using PCA method can increase the accuracy of k-Nearest Neighbor. PCA implementation improve k-Nearest Neighbor accuracy by 8.31% for original dataset and 9.31% for balanced dataset. In the case of English language news text classification, the best combination is to use original dataset with 40 principal components and k = 1 of k-Nearest Neighbor is 94%. Keywords: high-dimensional data, text document classification, k-nearest neighbor, principal component analysis, dimensionality reduction.
Sumber