Penerapan Kemiripan Dokumen pada Mesin Pencari Menggunakan Metode Hellinger

Authors

  • Fatkhul Amin universitas Stikubank
  • Eko Nur Wahyudi Universitas Stikubank
  • Budi Hartono Universitas Stikubank

DOI:

https://doi.org/10.37631/jri.v5i2.985

Keywords:

Hellinger, Bahasa Indonesia, kemiripan dokumen

Abstract

Penerapan alat pendeteksi kemiripan dokumen teks bahasa Indonesia dibuat untuk bisa menunjukkan seberapa tingkat pebedaan antar dokumen teks yang digunakan untuk mengurangi plagiarism.  Model pendeteksi kemiripan dokumen menggunakan metode algoritma Hellinger yang ditujukan untuk menghasilkan tingkat akurasi yang tinggi.  Proses Pra Perhitungan hellinger dilakukan tahap-tahap tokenisasi, penyaringan dan pembuatan akar kata.  Penyaringan menggunakan stopword tala dan proses pembuatan akar kata menggunakan metode rule base stemmer bahasa Indonesia.  Proses uji alat pendeteksi kemiripan didahului dengan uji persepsi menggunakan kamus besar bahasa indonesia untuk menetapkan kata yang dicari relevan atau tidak relevan.  Hasil akhir pengujian alat pendeteksi kemiripan dokumen menggunakan metode Hellinger didapatkan tingkat akurasi rata-rata  0,71 dan tingkat rata-rata dokumen terambil 0,31.

References

Arslan, A., & Velioglu, S. G. (2015). The Comparison of Hellinger and Kullback-Leibler Divergences on Fuzzy Information Measure. Journal of Intelligent & Fuzzy Systems, Vol. 29(6), 2421-2428.

Arman, M. (2020). Metode pertahanan web server terhadap distributed slow HTTP DoS attack. JATISI (Jurnal Teknik Informatika dan Sistem Informasi), Vol. 7(1), 56-70

Cieslak, D. A., Hoens, T. R., Chawla, N. V., & Kegelmeyer, W. P. (2012). Hellinger distance decision trees are robust and skew-insensitive. Data Mining and Knowledge Discovery, Vol. 24, 136-158.

Fiedor, P., & Kawałek, A. (2019). A new distance measure based on Hellinger distance and fuzzy numbers for outlier detection. Central European Journal of Operations Research, Vol. 27(3), 783-799.

Karlis, D., & Xekalaki, E. (1998). Minimum Hellinger distance estimation for Poisson mixtures. Computational Statistics & Data Analysis, Vol. 29(1), 81-103.

Kraljeta, V. (2012). Business Constellations-New Tool for Entrepreneurial Learning. Učenje za poduzetništvo, Vol. 2(2), 177-187.

Kumar, N., Kaur, A., & Arora, N. (2019). A comparative analysis of Jensen-Shannon and Hellinger distances for document clustering. International Journal of Applied Engineering Research, Vol. 14(12), 3218-3221.

Lee, C. H. (2007). A Hellinger-based discretization method for numeric attributes in classification learning. Knowledge-Based Systems, Vol. 20(4), 419-425.

Lindsay, B. G. (1994). Efficiency versus robustness: the case for minimum Hellinger distance and related methods. The annals of statistics, Vol. 22(2), 1081-1114.

Li, H., Liu, Y., & Liu, Y. (2018). Application of Hellinger Distance in Image Retrieval. Journal of Physics: Conference Series, 1049(1), 012046.

Lourenzutti, R., & Krohling, R. A. (2014). The Hellinger distance in Multicriteria Decision Making: An illustration to the TOPSIS and TODIM methods. Expert Systems with Applications, Vol. 41(9), 4414-4421.

Madani, A., & Ahmadi, A. (2021). Performance Comparison of Hellinger Distance and Entropy on Particle Swarm Optimization for Data Clustering. Journal of Computational and Theoretical Nanoscience, Vol. 18(9), 4999-5004.

Ramona, S. A. M., Pompiliu, C. M., & Constantin, S. L. (2017). Attainment of K-means algorithm using hellinger distance. Economic Sciences Series, Vol. 17(2), 324-329.

Salvi, A., & Sathya, G. (2020). Hellinger Distance Based Fuzzy Clustering for Medical Image

Segmentation. Journal of King Saud University-Computer and Information Sciences, Vol. 32(1), 31-39.

Wahyudin, W. (2020). Aplikasi Topic Modeling Pada Pemberitaan Portal Berita Online Selama Masa Psbb Pertama. In Seminar Nasional Official Statistics Vol. 2020(1), 309-318.

Downloads

Published

2023-10-25

Issue

Section

Articles