Author : Ikbal Rahmat Taupik   , Entin Martiana Kusumaningtyas, Nur Rosyid Mubtadai
ABSTRAK

Keberadaan data yang hilang dalam analisis data merupakan masalah signifikan yang dapat mempengaruhi integritas dan validitas hasil analisis. Untuk mengatasi masalah ini, penelitian ini mengevaluasi dan membandingkan efektivitas tujuh metode imputasi, yaitu K-Nearest Neighbors (KNN), Bayesian, Decision Tree, Random Forest, Regresi, Mean, dan Median, dalam menangani data hilang pada dataset hepatitis, Heart, Diabetes, dan Titanic. Pengukuran kinerja dilakukan menggunakan Root Mean Squared Error (RMSE). Hasil eksperimen menunjukkan bahwa metode Random Forest memiliki kinerja terbaik dengan RMSE terendah pada semua dataset yang diuji, dengan performa yang sangat unggul pada dataset Heart (RMSE: 9.9), Diabetes (RMSE: 13.4), Hepatitis (RMSE: 6.5), dan Titanic (RMSE: 2.9). Metode ini terbukti efektif dalam menangkap kompleksitas data dan memberikan estimasi yang akurat, terutama pada dataset yang kompleks dan memiliki banyak variabilitas. Metode KNN juga efektif pada dataset dengan pola kesamaan yang jelas antar sampel, sementara regresi menunjukkan hasil yang baik pada dataset dengan hubungan linier yang kuat antar variabel. Metode Mean dan Median menunjukkan akurasi terendah karena hanya mengandalkan nilai rata-rata atau median tanpa mempertimbangkan hubungan antar variabel. Kesimpulannya, pemilihan metode imputasi yang tepat harus mempertimbangkan karakteristik spesifik dari dataset yang digunakan, dengan Random Forest dan KNN cenderung lebih unggul dalam berbagai kondisi.

[DOWNLOAD ABSTRACT]