Author : Muhammad Alfian   , Ali Ridho Barakbah, Idris Winarno
ABSTRAK

Terdapat 43.000 media online di Indonesia yang setiap jamnya menerbitkan sedikitnya satu hingga dua berita. Besarnya informasi tersebut melebihi kapasitas pemrosesan manusia, sehingga mengakibatkan beberapa dampak bagi manusia seperti kebingungan dan tekanan psikologis. Pada penelitian ini, kami mengajukan suatu pendekatan untuk membuat kesatuan sistem News Agregator dan Search Engine. Sistem tersebut merupakan implementasi dari metodologi news mining dengan menggunakan fitur Semantic Information Retrieval dan Klasterisasi berbasis Evolving System. Penelitian ini terbagi menjadi 3 layer, yaitu (1) Input & Preprocess Layer, (2) Analytics Layer, dan (3) Output Layer (Visualization). Hasil percobaan menunjukkan dari 3.000 berita didapatkan 388 cluster sebagai predefined cluster dengan satu cluster sebagai unknown cluster. Data berita yang berjalan streaming berjumlah 12.164 berita selama 3 hari diolah menggunakan Incremental Clustering menghasilkan 490 cluster baru. Hasil evaluasi yang diambil dari 50 sampel cluster lama dan 50 cluster baru menunjukkan nilai akurasi algoritma Automatic Incremental Clustering sebesar 88%. Berita dapat terkelompok berdasarkan informasi yang sama, namun pada beberapa kasus terdapat cluster yang kurang tepat. Hal tersebut menjadi masukan bagi penelitian setelahnya, untuk dapat memperhatikan semantik dan pola perkembangan cluster. Kemudian, pendekatan baru kami yang lain adalah stemming menggunakan Vector Space Model. kami melakukan pengujian terhadap 498 kata yang didapatkan dari beberapa artikel. Metode vector space mendapatkan nilai akurasi sebesar 65,662 %. Hal ini menunjukkan metode yang kami ajukan masih belum dapat bersaing dengan metode lainnya yang sudah ada. Namun, pencapaian akurasi yang menembus 65% merupakan sebuah capaian bagi pengembangan metode stemming dengan pendekatan baru. Hal tersebut membuat diperlukannya evaluasi kembali agar dapat menghasilkan hasil yang lebih akurat. Sementara itu, dalam segi catatan waktu, metode vector space yang mencatatkan waktu terlamban dengan waktu 0,363 detik. Hal tersebut perlu ditingkatkan lagi meningat waktu eksekusi merupakan hal yang krusial dalam stemming karena stemming menuntut data dapat diproses dengan cepat dan tidak membebani komputasi. Hal tersebut dikarenakan masih adanya tahapan analytics yang memiliki beban komputasi dan waktu eksekusi yang lama.

[DOWNLOAD ABSTRACT]