Logo Eventkampus
Perpustakaan judul masih dalam tahap pengembangan, admin siap menampung kritik dan saran
Perbandingan Perpaduan Single Linkage dan K-means dengan Perpaduan Complete Linkage dan K-means (Studi Kasus: Clustering Abstrak Skripsi)
Rafi Andrian (2017) | Skripsi | Teknik Informatika , Teknik Komputer
Bagikan
Ringkasan
Di era ini, ketersediaan data dan informasi dalam bentuk elektronik semakin melimpah. Oleh sebab itu, teknologi data mining sangatlah penting. Salah satu data yang banyak tersedia adalah skripsi. Clustering sebagai salah satu teknik data mining dapat digunakan dalam mengelompokkan skripsi. Skripsi dan katalognya banyak tersedia dalam bentuk elektronik. Hasil clustering terhadap skripsi dapat dijadikan acuan pengelompokkan skripsi dalam katalog elektronik tersebut. Selain itu, hasil clustering dapat dijadikan parameter advanced search pada pencarian skripsi dalam katalog elektronik untuk mempersempit area pencarian. Terdapat dua jenis metode clustering yaitu partisi dan hirarki. Algoritma partisi yang popular adalah algoritma k-means. Namun, Algoritma k-means memiliki kekurangan. Algoritma k-means ini memerlukan inisialisasi centroid awal. Penentuan centroid awal biasanya dilakukan secara acak sehingga hasil clustering tidak konsisten dan berubah-ubah sesuai nilai centroid awal. Selain itu, penentuan centroid yang tidak baik dapat menyebabkan terjadinya local minima yang tidak baik pada k-means. Salah satu cara untuk menentukan centroid awal pada algoritma k-means adalah dengan melakukan penerapan algoritma hirarki, Terdapat beberapa algoritma metode hirarki yang digunakan yaitu single linkage dan complete linkage. Hasil penelitian menunjukkan perpaduan complete linkage dan k-means memiliki variance yang lebih baik untuk data yang memiliki banyak outliers. Sedangkan untuk data yang tidak atau sedikit terdapat outliers, perpaduan algoritma single linkage dan k-means memiliki variance yang lebih baik jika jumlah cluster relatif sedikit. Namun pada jumlah cluster yang relatif banyak, perpaduan complete linkage dan k-means memiliki variance yang lebih baik. Pada penelitian ini, jumlah cluster dapat mempengaruhi variance. Oleh karena itu, perlu kajian lebih lanjut dalam menentukan jumlah cluster. Kata kunci: clustering, perpaduan, algoritma hirarki, algoritma partisi, variance.
Ringkasan Alternatif
In this era, the availability of electronic data and information is abundant. Therefore, data mining technology is very important. One of the data that is widely available is thesis. Clustering as one of data mining techniques can be used for grouping thesis. Theses and the thesis catalogue exist in electronic form. The clustering results of the thesis can be used as a reference for grouping thesis in the electronic catalogue. In addition, the clustering results can be used as a parameter for advanced search on search engine in the electronic catalogue to narrow the search area. There are two types of clustering methods, namely the partition and hierarchy. Popular partitioning algorithm is k-means algorithm. However, the k-means algorithm has shortcomings. K-means algorithm requires initialization of initial centroid. Determination of initial centroid is usually done randomly so that the clustering results are inconsistent and vary according to the value of the initial centroid. In addition, bad determination of the centroid can lead to bad local minima at the k-means. One way to determine the initial centroid in k-means algorithm is the application of hierarchical algorithm, There are several algorithms hierarchical method used is single linkage and complete linkage. In this final project research related with the problem above is conducted. The results showed that combination of complete linkage and k-means has better variance for data with a lot of outliers. As for the data that there are no or few outliers, combination of single linkage and k-means has a better variance if the number of cluster is relatively small. But in a relatively large number of clusters, combination of complete linkage and k-means has better variance. This result shows that number of clusters can affect variance. Therefore, requiring further investigation to determine the good number of clusters. Keywords: clustering, combination, hierarchical algorithm, partitional algorithm, variance.
Sumber