Koleksi Pustaka
Popularitas lagu-lagu Indonesia di media sosial dan layanan streaming telah menimbulkan kekhawatiran terkait lirik yang tidak sesuai usia, terutama dampaknya terhadap perilaku dan emosi anak-anak dan remaja. Oleh karena itu, diperlukan pengembangan model yang mampu mengklasifikasikan lirik lagu Indonesia ke dalam empat kategori usia pendengar: anak-anak, remaja, dewasa, dan semua usia. Penelitian terdahulu telah melakukan klasifikasi lirik lagu Indonesia berdasarkan kategori usia menggunakan algoritma Naïve Bayes Classifier (NBC), menghasilkan hasil yang kurang memuaskan dengan akurasi 65%. Penelitian ini mengusulkan metode baru yang menggabungkan Large Language Model (LLM), khususnya LLAMA3:70B untuk meningkatkan kinerja klasifikasi dan memperluas jumlah dataset hingga 1000%. Tiga strategi augmentasi dataset diterapkan dalam metode ini, yaitu zero-shot, sample-based, dan translation-based. Performa klasifikasi berhasil ditingkatkan secara signifikan melalui model terbaik hasil fine-tune IndoBERT multiclass classification dengan pendekatan sample-based, yang mencapai F1 macro score sebesar 74%. Model ini kemudian diimplementasikan dalam bentuk aplikasi web yang dilengkapi dengan fitur speech-to-text dengan Whisper-Large-V3. Hasil pengujian menunjukkan bahwa akurasi klasifikasi mencapai 75% pada benchmark dataset. Hasil evaluasi usability menunjukkan nilai System Usability Scale (SUS) sebesar 78,21 dan Net Promoter Score (NPS) sebesar 45%.