Ringkasan Eksekutif
Model multimodal skala besar yang dikomandai prompt, meskipun memiliki kekurangan yang jelas, terbukti menjadi alat kognitif yang fleksibel dan mewakili tingkat generalitas yang belum pernah ada sebelumnya. Namun, intensitas, keragaman, dan derajat interaksi pengguna yang tinggi menciptakan “generalitas yang berpusat pada manusia” (HCG) yang khas, bukan yang sepenuhnya otonom. HCG berarti bahwa untuk pengguna tertentu, sistem hanya seefektif mungkin untuk tugas yang relevan bagi pengguna dan gaya prompt yang mendominasi.
Evaluasi yang berpusat pada manusia dari sistem AI serba guna perlu mencerminkan sifat pribadi interaksi, tugas dan kognisi pengguna. Kami berpendapat bahwa cara terbaik untuk memahami sistem ini adalah sebagai perluasan kognitif yang sangat terkait, dan untuk menganalisis adaptasi kognitif dua arah yang intens antara mereka dan manusia.
Makalah ini memberikan formulasi HCG dan ikhtisar tingkat tinggi tentang elemen dan pertukaran yang melekat dalam proses prompt yang intens. Kami menyelesaikan dengan menguraikan pertanyaan penelitian kritis dan saran untuk memperbaiki praktik evaluasi di masa depan, yang kami bayangkan sebagai karakteristik untuk evaluasi kecerdasan buatan umum.
Introduksi
Paradigma AI baru telah muncul di persimpangan model generatif dan model bahasa skala besar. Sistem AI yang dihasilkan mampu melakukan berbagai tugas dengan diberi ‘prompt’, di mana input yang fleksibel ‘dilanjutkan’ oleh output yang sama fleksibelnya. Kami memperkenalkan istilah model multimodal skala besar (M⋆s) untuk menekankan koneksi dengan model bahasa skala besar dan kapabilitas multimodal mereka—baik input maupun output berisi cuplikan teks, gambar, atau audio, dan mode output mungkin berbeda dari mode input.
Karena fleksibilitas interaksi dan dilaporkan kemampuan sistem, berinteraksi dengan AI yang dikomandai prompt berbeda dari cara lain berinteraksi dengan mesin, termasuk sistem AI lainnya. Perbedaan ini, bersama dengan harapan ketersediaan dan kemampuan di masa depan, menuntut analisis yang lebih sistematis tentang apa yang ditunjukkan ‘prompting AI’ untuk evaluasi sistem umum serupa. Secara konkret, kami membahas apa yang baru dan bagaimana ini mempengaruhi kognisi manusia, kami mempertimbangkan peringatan agregasi dan sifat pribadi kognisi dan utilitas, dan kami menguraikan elemen yang relevan dari proses pemberian prompt. Terakhir, kami memperkuat argumen kami dengan menyoroti beberapa proses aktif yang secara efektif mengubah kognisi, dan menyelesaikan dengan beberapa pertanyaan penelitian penting.
Alat Kognitif Jenis Baru
Alat-alat kognitif adalah artefak eksternal yang digunakan untuk membantu kapasitas psikologis otak manusia dalam menyelesaikan tugas kognitif (Heersmink, 2021; Clark, 2008, 2004; Hutchins, 1999). Alat yang berbeda menempatkan kebutuhan kognitif yang berbeda pada pengguna, baik melepaskan atau meningkatkan permintaan tertentu (Gilbert et al., 2020; Risko & Gilbert, 2016; Sparrow et al., 2011; Clark, 2004). Seperti teknologi lainnya, tuntutan kognitif yang ditempatkan M⋆s pada pengguna berasal dari kapasitas fungsional persis dan persyaratan penggunaan. Hanya ilustrasi, Gambar 1 menunjukkan contoh tugas kognitif yang diselesaikan oleh manusia dengan menggunakan artefak kognitif yang semakin kuat.
Ada banyak diskusi tentang peran teknologi sebagai ekstender kognitif—alat yang menjadi bagian harfiah dari pikiran agen—baik dalam filsafat maupun ilmu kognitif, tetapi ini sebagian besar berfokus pada teknologi sederhana, seperti pena dan kertas atau kalkulator, seperti yang ditunjukkan dalam (A) dan (B) pada Gambar 1 (Clark & Chalmers, 1998; Menary, 2010). Kami berpendapat bahwa kombinasi tiga properti membuat interaksi dengan M⋆s unik: (i) fleksibilitas, seperti dalam ruang input/output mereka, mengambil bahasa bebas, gambar, kode, dll.; (ii) umum, karena dapat diterapkan pada berbagai tugas; dan (iii) orisinalitas, karena dapat digunakan untuk menghasilkan konten baru dan orisinal. Fitur ini dapat dibandingkan dengan kaku alat kognitif lainnya, seperti asisten digital saat ini, yang dibatasi dalam hal koleksi tugas atau mencari Internet untuk konten yang sudah ada, atau untuk korektor ejaan, yang memang menghasilkan konten orisinal.
Lingkaran interaksi antara manusia (secara global di sebelah kiri dan secara individual di sebelah kanan) dan M⋆s. Memahami evolusi sistem ini perlu mempertimbangkan loop ini.
Secara global, konten dan kapasitas dari M⋆s dibentuk oleh umpan balik kolektif dari interaksi manusia dengan sistem. Setiap interaksi individu dengan M⋆s berpotensi memberikan umpan balik ke pengembang sistem tentang apa yang berguna, tidak berguna atau dapat disempurnakan. Umpan balik global dan individual melalui interaksi dengan M⋆s akan mendorong perbaikan bertahap yang akan terakumulasi menjadi perubahan substansial dari waktu ke waktu. Perubahan ini dapat meliputi tata letak antarmuka pengguna, dukungan domain, kapasitas generatif dan kinerja sistem, serta metode pelatihan dan pengembangan.
Secara bersamaan, penggunaan berulang M⋆s oleh individu akan mengubah pola interaksi pengguna dengan sistem seiring waktu. Pengguna akan mempelajari kelebihan dan kekurangan sistem, mengembangkan kebiasaan dan gaya interaksi yang paling efektif, serta menyesuaikan ekspektasi mereka tentang kinerja dan kapabilitas sistem. Perubahan perilaku pengguna ini juga dapat memberikan umpan balik ke pengembang, baik secara langsung melalui pengumpulan data interaksi pengguna, maupun tidak langsung melalui preferensi pengguna atau keluhan yang disampaikan kepada pengembang.
Dengan demikian, untuk memahami dan mengantisipasi evolusi M⋆s, sangat penting untuk memeriksa bagaimana loop umpan balik antara pengguna dan pengembang beroperasi dan saling berinteraksi.
Kata kunci: multimodal, generalitas yang berpusat pada manusia, sistem AI serba guna, evaluasi, prompt intens, Interaksi manusia-AI, umpan balik pengguna, evolusi sistem AI