Author : Zahiroh Marwadila   , Ahmad Syauqi Ahsan, Rengga Asmara
ABSTRAK

Sumber berita online merupakan salah satu media berita yang banyak digunakan sebagai sumber informasi dalam berbagai aspek kehidupan, mulai dari pemerintahan, gaya hidup, olah raga, kuliner, dan sebagainya. Kami menelusuri berbagai sumber berita online di Indonesia yang mencapai sekitar 452 situs berita online. Situs berita ini dapat menghasilkan ribuan data berita yang memberikan informasi tentang situasi di lingkungan sekitarnya. Kami menerapkan teknologi Big Data untuk menghasilkan ribuan hingga jutaan data dengan menggunakan aplikasi Apache Nutch untuk menjalankan proses pengambilan data berita dari sumber berita online atau web crawling. Kemudian, kami menyimpan data berita tersebut pada aplikasi media penyimpanan Hadoop HDFS. Aplikasi itu merupakan salah satu service yang kami gunakan pada aplikasi open source Cloudera Distribution Hadoop atau CDH. Selain itu, kami juga menggunakan service lainnya seperti Oozie sebagai media penjadwalan pada crawl job, Hue sebagai web user interface UI untuk menjalankan service Oozie, Solr sebagai media untuk mempercepat dalam pencarian data yang telah disimpan sebelumnya atau indexing data dan lain-lain. Pada tahap proses analisis data, kami menganalisa data berita dengan menggunakan metode text mining dengan tahap awal analisis yaitu pre processing. Tahap ini adalah suatu proses untuk membersihkan data terhadap angka jika diperlukan, tanda baca, konversi keseluruhan kata menjadi huruf kecil, dan lain sebagainya. Penelitian ini memberikan informasi mengenai tren topik berita di Indonesia melalui aplikasi user interface berbasis website dalam bentuk grafik. Dimana, visualisasi tersebut menampilkan kurva dalam beberapa waktu dan adapula visualisasi dalam bentuk peta untuk mengetahui beberapa daerah berdasarkan lokasi kantor redaksi portal berita online di Indonesia.

[DOWNLOAD ABSTRACT]