Ringkasan Eksekutif
Sejumlah penelitian terbaru di bidang Analitik Pembelajaran atau Learning Analytics (LA), telah fokus secara intensif memanfaatkan pendekatan pembelajaran mesin untuk memprediksi siswa berisiko secara drastis guna segera memulai intervensi dan dengan demikian cepat meningkatkan tingkat retensi dan penyelesaian. Fitur utama dari sebagian besar penelitian ini sepenuhnya berfokus pada ilmu prediksi secara keseluruhan. Komponen analitik prediktif yang berkaitan dengan menafsirkan internal model dan menjelaskan prediksi mereka untuk kasus individu kepada pemangku kepentingan sebagian besar diabaikan sepenuhnya. Selain itu, karya yang mencoba memanfaatkan analitik preskriptif berbasis data secara otomatis untuk menghasilkan saran perbaikan berbasis bukti untuk siswa berisiko masih dalam tahap awal. AI yang dapat dijelaskan adalah bidang yang baru-baru ini muncul yang menyediakan alat terdepan yang sepenuhnya mendukung analitik prediktif transparan dan teknik untuk menghasilkan saran yang disesuaikan untuk siswa berisiko.
Penelitian ini mengusulkan kerangka kerja baru yang menyatukan pembelajaran mesin transparan dan teknik untuk sepenuhnya memungkinkan analitik preskriptif, sambil mengintegrasikan kemajuan terbaru dalam model bahasa besar untuk secara drastis mengkomunikasikan wawasan kepada para siswa. Karya ini mendemonstrasikan kerangka kerja pemodelan prediktif untuk mengidentifikasi para siswa yang berisiko tidak menyelesaikan kualifikasi berdasarkan dataset dunia nyata yang terdiri dari ∼ 7.000 siswa dengan hasil mereka, mencakup 2018 – 2022. Studi ini lebih lanjut mendemonstrasikan bagaimana pemodelan prediktif dapat ditambahkan dengan analitik preskriptif pada dua studi kasus untuk secara drastis menghasilkan umpan balik preskriptif yang dapat dibaca manusia untuk mereka yang berisiko menggunakan ChatGPT.
Metodologi
1. Dataset
Setting
Data diperoleh dari data Higher Education Institutions (HEI) Australasia. Data berasal dari Sistem Manajemen Mahasiswa, institusi dan Virtual Learning Environment (VLE)- Moodle. Dataset terdiri dari mahasiswa sarjana yang memulai studi dari 2018 hingga 2022 dan yang menyelesaikan atau meninggalkan studi mereka selama periode ini. Kedua kategori hasil mewakili variabel target yang seimbang dimana total jumlah pelajar yang lulus berjumlah 52% (3693), dan mereka yang meninggalkan studi mereka sebanyak 48% (3415).
Gambar: Dataset distribusi mahasiswa berdasarkan sepuluh program studi yang paling populer
Perumusan masalah prediktif
Variabel prediksi target adalah penyelesaian program/kualifikasi. Mengingat sifat data yang mendasarinya, setiap siswa mewakili satu titik data pada titik waktu tertentu yang dinyatakan dengan tahun akademik. Sebagian besar siswa terdaftar di beberapa tahun akademik program mereka, dan oleh karena itu dataset mewakili siswa sebagai cuplikan di setiap tahun pendaftaran mereka. Misalnya, jika seorang siswa terdaftar dalam kualifikasi sarjana tiga tahun dengan akhirnya kelulusan yang berhasil, maka siswa akan direpresentasikan dalam dataset dengan tiga titik data dan masing-masing akan ditunjuk variabel target ‘selesai’. Akibatnya, total dataset terdiri dari 14918 titik data. Para siswa yang menyelesaikan program studi mereka mencakup 72% (10736) dari semua titik data karena mereka terdaftar di beberapa tahun akademik, sedangkan siswa yang tidak menyelesaikan mencakup 28% (4182), sehingga membuat dataset akhir relatif tidak seimbang.
Mengingat sifat dataset dengan perjalanan pendidikan siswa yang direpresentasikan oleh beberapa titik data, masalah prediksi dalam hal ini adalah _formatif_ dan _sumatif_. Dalam pendekatan prediktif formatif terhadap prediksi hasil belajar siswa, hasil siswa dipertimbangkan di berbagai titik pemeriksaan studi mereka dari perjalanan menuju penyelesaian. Namun, dalam prediksi sumatif, hasil belajar siswa diprediksi di akhir kualifikasi atau semester ketika model prediktif tingkat kursus digunakan.
2. Pembelajaran Mesin Prediktif
Algoritma:
Berbagai algoritma dari beragam keluarga teknik pembelajaran mesin digunakan untuk eksperimen untuk menghasilkan model kandidat sebagai bagian dari Langkah (3). Ini terdiri dari implementasi Python Scikit-learn (Scikit-Learn, 2021) dari Random Forest (RF) (Breiman, 2001), Regresi K-Nearest Neighbour (kNN) (Cover and Hart, 1967), Naive Bayes (NB), Support Vector Machines (SVM), Gradient Boosting (GB ), Regresi Logistik (LR), Decision Tree (DT) dan CatBoost (CB) (Prokhorenkova et al., 2017) Catatan kaki 3. Dua model dasar digunakan untuk mendemonstrasikan nilai prediktif model kandidat, yaitu model tebakan acak yang terstratifikasi (Dasar 1) dan mode (Dasar 2). Pemilihan fitur juga dilakukan dalam Langkah (3) sejalan dengan eksperimen dengan berbagai algoritma, dan pemilihan subset fitur didasarkan pada output kepentingan fitur bersama dengan evaluasi pengaruhnya terhadap ketergeneralisasian model.
Persiapan Data:
Dalam kasus di mana ada nilai yang hilang dan algoritma yang mendasarinya mensyaratkan adanya semua nilai, ini diganti dengan nol. Untuk algoritma yang mensyaratkan semua nilai bernilai numerik, Encoding Biner dari nilai kategoris digunakan yang menghasilkan himpunan fitur yang lebih padat dan mengurangi kemungkinan overfitting
Kesimpulan
Fitur prediktif yang konsisten dari penelitian dari Learning Analytics (LA) yang menargetkan pelajar berisiko adalah fokus secara eksklusif hanya pada komponen prediktif. Analitik prediktif bagaimanapun jauh lebih luas dan mencakup penguraian internal perilaku model prediktif kepada para pemangku kepentingan. Ini juga mencakup penggunaan sistem otomatisasi ini yang bertanggung jawab membantu pengambilan keputusan yang mempengaruhi manusia. Ini termasuk kemampuan untuk menginterogasi model prediktif dan mencari alasan mereka bagaimana mereka telah sampai pada kesimpulan tertentu. AI yang dapat dijelaskan adalah bidang yang menawarkan rangkaian alat matang yang memungkinkan bentuk transparansi yang sebagian besar tidak ada dalam literatur LA saat ini.
Lebih dari itu, prediksi dan pemahaman mereka meskipun penting, hanya mengatasi satu bagian dari tantangan dalam meningkatkan tingkat retensi dan meningkatkan hasil pembelajar yang berhasil. Pendekatan tambahan diperlukan yang dapat memberikan saran perbaikan khusus dan disesuaikan untuk siswa yang paling mungkin meningkatkan hasil mereka. Alat analitik preskriptif mendukung tujuan ini dan membuat upaya analitik apa pun lebih lengkap.
Karya ini mengusulkan kerangka kerja analitik preskriptif yang mendemonstrasikan bagaimana analitik prediktif transparan dapat dicapai dan digabungkan dengan teknik analitik preskriptif. Penelitian ini mengembangkan model prediktif untuk mengidentifikasi siswa berisiko tidak menyelesaikan program. Karya ini mendemonstrasikan melalui studi kasus bagaimana pemodelan prediktif transparan dan bertanggung jawab dapat diperkaya dengan analitik preskriptif untuk menghasilkan umpan balik preskriptif yang dapat dibaca manusia bagi mereka yang berisiko melalui kemajuan terbaru dalam AI dengan menggunakan model bahasa besar.
Kata kunci:
Kesimpulan, Analitik Prediktif, AI yang dapat dijelaskan, Analitik Preskriptif, Model Prediktif Transparan, Analitik Pembelajaran, AI yang dapat dijelaskan, Model Bahasa Besar, Analitik Preskriptif, Umpan Balik Preskriptif, Siswa Berisiko.