Posted in

Peningkatan Kualitas Data untuk Prediksi Kesulitan Keuangan: Pemilihan Fitur, Pengambilan Sampel Ulang Data, dan Kombinasinya dalam Urutan yang Berbeda

Peningkatan Kualitas Data untuk Prediksi Kesulitan Keuangan: Pemilihan Fitur, Pengambilan Sampel Ulang Data, dan Kombinasinya dalam Urutan yang Berbeda
Peningkatan Kualitas Data untuk Prediksi Kesulitan Keuangan: Pemilihan Fitur, Pengambilan Sampel Ulang Data, dan Kombinasinya dalam Urutan yang Berbeda

ABSTRAK
Dalam prediksi kesulitan keuangan (FDP), sangat penting untuk memastikan kualitas data untuk mengembangkan model prediksi yang efektif. Studi terkait sering menerapkan pemilihan fitur untuk menyaring beberapa fitur yang tidak representatif dari serangkaian rasio keuangan, atau pengambilan sampel ulang data untuk menyeimbangkan kembali set pelatihan FDP yang tidak seimbang. Meskipun kedua jenis metode pra-pemrosesan data ini telah menunjukkan keefektifannya, metode tersebut belum sering diterapkan secara bersamaan untuk mengembangkan model FDP. Selain itu, kinerja berbagai algoritma pemilihan fitur, yang dapat dibagi menjadi metode filter, wrapper, dan embedded, dan algoritma pengambilan sampel ulang data, yang dapat dibagi menjadi metode pengambilan sampel kurang, pengambilan sampel lebih, dan pengambilan sampel hibrida, belum diselidiki sepenuhnya dalam FDP. Oleh karena itu, dalam studi ini beberapa metode pemilihan fitur dan pengambilan sampel ulang data, yang digunakan sendiri dan dalam kombinasi dengan urutan yang berbeda dibandingkan. Hasil eksperimen berdasarkan sembilan set data FDP menunjukkan bahwa pelaksanaan pengambilan sampel ulang data saja selalu mengungguli pelaksanaan pemilihan fitur saja untuk mengembangkan model FDP, di mana pengambilan sampel hibrid adalah pilihan yang lebih baik. Dalam kebanyakan kasus, kinerja prediksi yang lebih baik dapat diperoleh dengan melakukan pemilihan fitur terlebih dahulu dan pengambilan sampel ulang data kedua. Algoritme gabungan terbaik didasarkan pada metode pohon keputusan untuk pemilihan fitur dan Synthetic Minority Over-sampling Technique-Edited Nearest Neighbors (SMOTE-ENN) untuk pengambilan sampel hibrid. Kombinasi ini memungkinkan pengklasifikasi hutan acak menghasilkan tingkat akurasi prediksi tertinggi. Di sisi lain, untuk kesalahan Tipe I, di mana kasus krisis salah diklasifikasikan ke dalam kelas non-krisis, tingkat kesalahan terendah dihasilkan dengan menjalankan under-sampling saja menggunakan algoritme ClusterCentroids yang dikombinasikan dengan pengklasifikasi hutan acak.

Leave a Reply

Your email address will not be published. Required fields are marked *