Google Punya Cara Baru Kurangi Halusinasi AI, Model Kini Bisa Bilang 'Ini Tebakan Saya'

Google Punya Cara Baru Kurangi Halusinasi AI, Model Kini Bisa Bilang ‘Ini Tebakan Saya’

CLB.my.id - Setiap kali model bahasa besar (LLM) menjawab pertanyaan dengan penuh percaya padahal jawabannya salah, itu disebut halusinasi. Masalah ini sudah lama jadi momok bagi pengembang dan pengguna AI. Google kini punya pendekatan baru yang berbeda dari solusi selama namanya “faithful uncertainty,” atau ketidakpastian yang jujur.

Para peneliti di Google memperkenalkan konsep ini dalam makalah terbaru yang dipublikasikan pekan ini. Idanya sederhana tapi mendalam: alih-alih memaksa model memilih antara “menjawab” atau “tidak tahu,” biarkan model mengungkapkan tingkat keyakinannya secara natural. Jika model ragu, ia bisa berkata, “Tebakan terbaik saya adalah…” tanpa harus berpura-pura yakin atau menolak menjawab sama sekali.

Masalah yang Belum Terpecahkan

Selama ini, cara paling umum mengurangi halusinasi adalah dengan menurunkan ambang batas error. Jika sebuah model punya tingkat kesalahan 25 persen, pengembang biasanya menurunkannya ke target 5 persen. Tapi ada harga yang harus dibayar. Menurut temuan peneliti Google, menurunkan error rate dari 25 persen ke 5 persen bisa mengharuskan model membuang 52 persen jawaban yang sebenarnya benar.

Ini yang disebut “utility tax” atau pajak utilitas. Model jadi terlalu hati-hati sampai kehilangan banyak jawaban yang berguna. Akibatnya, banyak pengembang memilih jalan tengah yang mengorbankan akurasi, membiarkan halusinasi yang percaya diri tetap muncul agar model tidak jadi terlalu “penakut.”

Bagaimana Faithful Uncertainty Bekerja

Pendekatan Google mengubah definisi halusinasi itu sendiri. Menurut para peneliti, kesalahan faktual hanya menjadi halusinasi jika disampaikan dengan penuh percaya diri tanpa kualifikasi. Jika kesalahan yang sama diungkapkan sebagai hipotesis yang dijelaskan keraguannya, itu bukan halusinasi, melainkan “tebakan yang jujur.”

Analoginya seperti dokter terpercaya. Seorang dokter yang baik akan membedakan antara diagnosis yang yakin dan hipotesis yang perlu diuji lebih lanjut. “Berdasarkan gejala Anda, kemungkinan besar ini A, tapi saya perlu tes tambahan untuk memastikan.” Model AI yang menerapkan faithful uncertainty akan melakukan hal serupa.

Intinya adalah menyelaraskan dua hal: ketidakpastian linguistik (apa yang dikatakan model) dengan ketidakpastian intrinsik (keyakinan statistik internal model). Model hanya boleh mengekspresikan keraguan ketika kondisi internalnya memang mencerminkan informasi yang bertentangan atau probabilitas rendah.

Dampak Besar untuk Agen AI

Konsep ini punya implikasi khusus untuk sistem agen AI yang sedang banyak dikembangkan saat ini. Agen AI adalah sistem yang tidak hanya menjawab pertanyaan, tapi juga mengambil tindakan menggunakan tools eksternal seperti pencarian database, API, atau aplikasi lain.

Dengan metacognition atau kesadaran diri ini, sebuah agen bisa mengetahui kapan pengetahuan internalnya cukup dan kapan ia perlu mencari informasi tambahan. Agen tidak akan membuang waktu melakukan pencarian untuk hal yang sudah diketahuinya, sekaligus tidak akan gegabah mengambil keputusan berdasarkan informasi yang tidak ia pahami sepenuhnya.

Yang lebih penting, agen yang sadar akan ketidakpastiannya bisa mengevaluasi hasil pencarian eksternal dengan lebih baik. Jika tool mengembalikan informasi yang tidak terduga atau berkualitas rendah, agen yang memiliki metacognition tidak akan langsung menerimanya begitu saja. Ia akan membandingkan informasi baru dengan pengetahuan internalnya, mencegah perilaku “sycophantic” di mana agen terlalu mudah mengiyakan apa pun yang diberikan sumber luar.

Tantangan Implementasi

Menerapkan faithful uncertainty bukan hal yang mudah. Ada paradoks yang disebut “bootstrapping paradox.” Untuk mengajarkan model cara mengekspresikan ketidakpastian dengan benar, diperlukan supervised fine-tuning (SFT). Tapi ekspresi ketidakpastian yang “benar” itu spesifik untuk setiap model dan berubah seiring waktu. Jika dilatih dengan label statis, model justru bisa “menghalusinasikan ketidakpastian,” berpura-pura tidak tahu padahal sebenarnya tahu.

Untuk implementasi jangka pendek, para peneliti merekomendasikan prompt engineering sebagai jalur dengan gesekan paling rendah. Framework open-source bernama MetaFaith, yang salah satu penulisnya adalah Gal Yona dari tim peneliti Google, bisa diterapkan ke model yang sudah ada tanpa pelatihan ulang.

Untuk jangka panjang, diperlukan reinforcement learning (RL) tingkat lanjut untuk menanamkan metacognition ke dalam pelatihan model. Tapi ini masih menjadi tantangan besar, terutama dalam mengembangkan kerangka evaluasi yang bisa membedakan antara model yang benar-benar sadar diri dan model yang hanya meniru gaya ketidakpastian.

Apa Artinya untuk Pengguna Biasa

Bagi pengguna sehari-hari, pendekatan ini berarti chatbot dan asisten AI di masa depan akan lebih jujur tentang batas pengetahuannya. Alih-alih memberikan jawaban yang terdengar meyakinkan tapi salah, model akan lebih sering mengatakan, “Saya tidak yakin, tapi kemungkinan…” atau “Berdasarkan informasi yang saya miliki, ini tebakan terbaik saya.”

Perubahan ini terdengar sederhana, tapi dampaknya signifikan. Dalam dunia yang semakin bergantung pada AI untuk pengambilan keputusan, mengetahui kapan harus mempercayai AI dan kapan harus memverifikasi secara manual bisa menjadi perbedaan antara keputusan yang tepat dan kesalahan yang mahal.

Google Punya Cara Baru Kurangi Halusinasi AI, Model Kini Bisa Bilang 'Ini Tebakan Saya'

Google Punya Cara Baru Kurangi Halusinasi AI, Model Kini Bisa Bilang ‘Ini Tebakan Saya’

Masalah yang Belum Terpecahkan

Bagaimana Faithful Uncertainty Bekerja

Dampak Besar untuk Agen AI

Tantangan Implementasi

Apa Artinya untuk Pengguna Biasa

Read more

Agentjacking: Laporan Bug Palsu Bisa Kendalikan Agen Coding AI dari Jarak Jauh

OpenSSL Rilis Patch Darurat, Celah Use-After-Free Bisa Picu Remote Code Execution

Microsoft Rilis MAI-Thinking-1, Model AI yang Kalahkan Claude Sonnet di Uji Manusia Buta

Flourish Raih US$500 Juta dari Bezos untuk Cari Algoritma Otak Manusia