NEWS MINING DENGAN FITUR SEMANTIC INFORMATION RETRIEVAL DAN KLASTERISASI BERBASIS EVOLVING SYSTEM
ABSTRAK
Terdapat 43.000 media online di Indonesia yang setiap jamnya menerbitkan sedikitnya satu hingga dua berita. Besarnya informasi tersebut melebihi kapasitas pemrosesan manusia, sehingga mengakibatkan beberapa dampak bagi manusia seperti kebingungan dan tekanan psikologis. Pada penelitian ini, kami mengajukan suatu pendekatan untuk membuat kesatuan sistem News Agregator dan Search Engine. Sistem tersebut merupakan implementasi dari metodologi news mining dengan menggunakan fitur Semantic Information Retrieval dan Klasterisasi berbasis Evolving System. Penelitian ini terbagi menjadi 3 layer, yaitu (1) Input & Preprocess Layer, (2) Analytics Layer, dan (3) Output Layer (Visualization). Hasil percobaan menunjukkan dari 3.000 berita didapatkan 388 cluster sebagai predefined cluster dengan satu cluster sebagai unknown cluster. Data berita yang berjalan streaming berjumlah 12.164 berita selama 3 hari diolah menggunakan Incremental Clustering menghasilkan 490 cluster baru. Hasil evaluasi yang diambil dari 50 sampel cluster lama dan 50 cluster baru menunjukkan nilai akurasi algoritma Automatic Incremental Clustering sebesar 88%. Berita dapat terkelompok berdasarkan informasi yang sama, namun pada beberapa kasus terdapat cluster yang kurang tepat. Hal tersebut menjadi masukan bagi penelitian setelahnya, untuk dapat memperhatikan semantik dan pola perkembangan cluster. Kemudian, pendekatan baru kami yang lain adalah stemming menggunakan Vector Space Model. kami melakukan pengujian terhadap 498 kata yang didapatkan dari beberapa artikel. Metode vector space mendapatkan nilai akurasi sebesar 65,662 %. Hal ini menunjukkan metode yang kami ajukan masih belum dapat bersaing dengan metode lainnya yang sudah ada. Namun, pencapaian akurasi yang menembus 65% merupakan sebuah capaian bagi pengembangan metode stemming dengan pendekatan baru. Hal tersebut membuat diperlukannya evaluasi kembali agar dapat menghasilkan hasil yang lebih akurat. Sementara itu, dalam segi catatan waktu, metode vector space yang mencatatkan waktu terlamban dengan waktu 0,363 detik. Hal tersebut perlu ditingkatkan lagi meningat waktu eksekusi merupakan hal yang krusial dalam stemming karena stemming menuntut data dapat diproses dengan cepat dan tidak membebani komputasi. Hal tersebut dikarenakan masih adanya tahapan analytics yang memiliki beban komputasi dan waktu eksekusi yang lama.
[DOWNLOAD ABSTRACT]Kategori
D3 Teknik ElektronikaD3 Teknik Telekomunikasi
D3 Teknik Elektro Industri
D3 Teknik Informatika
D3 Teknologi Multimedia Broadcasting
D4 Teknik Elektronika
D4 Teknik Telekomunikasi
D4 Teknik Elektro Industri
D4 Teknik Informatika
D4 Teknik Mekatronika
D4 Teknik Komputer
D4 Teknik Teknologi Game
S2 Teknik Elektro
S2 Teknik Informatika dan Komputer