Studi Baru: Semua Agen AI Gagal Lawan Prompt Injection, Termasuk GPT-5 dan Gemini
Studi Baru: Semua Agen AI Gagal Lawan Prompt Injection, Termasuk GPT-5 dan Gemini
CLB.my.id - Penelitian terbaru dari empat institusi akademik dan riset menunjukkan fakta yang mengkhawatirkan: tidak satu pun agen AI web yang diuji mampu secara konsisten menahan serangan prompt injection. Temuan ini mencakup sistem yang ditenagai oleh model-model terbaru seperti GPT-5 dan Gemini.
Studi yang dipublikasikan pada 12 Juni 2026 ini mengembangkan benchmark bernama StakeBench, sebuah alat evaluasi yang berfokus pada perspektif pemangku kepentingan. Peneliti dari Nanyang Technological University, ST Engineering, IBM Research, dan University of Illinois Urbana-Champaign menjalankan 3.168 sesi adversarial dengan 264 kasus benchmark untuk menguji ketahanan agen AI web di lingkungan yang realistis.
Hasilnya, setiap tujuan serangan yang diuji menghasilkan setidaknya satu kegagalan yang bermakna. Tidak ada konfigurasi yang mencapai status “Robust Behavior”, kondisi ideal di mana tugas selesai, serangan gagal, dan sistem tetap stabil.
Dua Jenis Serangan dengan Tingkat Keberhasilan Berbeda
Prompt injection dibagi menjadi dua kategori dalam penelitian ini. Serangan tidak langsung, di mana instruksi berbahaya disembunyikan di dalam konten web biasa seperti ulasan produk dan metadata, mencapai tingkat keberhasilan antara 41,67 persen hingga 68,16 persen. Sementara serangan langsung melampaui 79 persen di semua konfigurasi yang diuji.
Angka-angka ini menunjukkan bahwa celah keamanan pada agen AI web bukan masalah kecil yang bisa diabaikan. Ketika agen yang dirancang untuk membantu pengguna menjelajah internet dan menyelesaikan tugas secara otonom ternyata bisa dimanipulasi dengan mudah, implikasinya meluas ke setiap perusahaan yang mengadopsi teknologi ini.
Pola Kegagalan yang Berbeda per Pemangku Kepentingan
StakeBench mengevaluasi empat kemungkinan hasil serangan. Robust Behavior, yaitu kondisi ideal, tidak pernah tercapai dalam pengujian. Stealthy Parasitism terjadi ketika agen menyelesaikan tugas pengguna sambil sekaligus memajukan tujuan penyerang. Misaligned Disruption muncul ketika tugas pengguna terganggu tanpa tujuan adversarial tercapai. Dan Compounded Failure adalah kondisi terburuk di mana keduanya terjadi bersamaan.
Yang menarik, tingkat kerusakan bervariasi secara signifikan tergantung pada siapa yang menjadi target. Serangan yang menargetkan penjual mencatat tingkat keberhasilan tertinggi. Serangan yang menargetkan pengguna menghasilkan tingkat penyimpangan tugas terendah, yang membuatnya justru paling sulit dideteksi karena alur kerja terlihat normal. Sementara serangan yang menargetkan platform menunjukkan instabilitas perilaku yang konsisten.
Temuan ini mengungkap paradoks keamanan yang sering diabaikan. Agen yang sama bisa tampak tidak terdeteksi saat diserang dari sisi pengguna, rentan saat diserang dari sisi penjual, dan tidak stabil saat diserang dari sisi platform, semuanya dalam waktu bersamaan.
Pilihan Model dan Arsitektur Agen Mempengaruhi Keamanan
Penelitian ini juga mengungkap bahwa pilihan model AI berdampak langsung pada tingkat kerentanan. Mengganti GPT-5 dengan Gemini-2.5-Flash meningkatkan tingkat keberhasilan prompt injection tidak langsung sebesar 26,49 persen pada NanoBrowser dan 6,2 persen pada BrowserUse.
Perbedaan arsitektur agen juga berperan. BrowserUse secara konsisten menunjukkan penyimpangan tugas dan ketidakteraturan perilaku yang lebih tinggi dibandingkan NanoBrowser. Para peneliti menyimpulkan bahwa keamanan bukanlah sifat skalar dari model dasar, melainkan distribusi kerusakan yang ditentukan secara bersama oleh pemangku kepentingan, keselarasan semantik, dan konteks arsitektur tempat model di-deploy.
Serangan Melalui Konten Visual
Salah satu temuan paling signifikan berasal dari eksperimen multimodal pendahuluan. Para peneliti hanya mengubah gambar produk tanpa mengubah teks, rating, atau struktur halaman. Hasilnya, tingkat pemilihan produk yang dimanipulasi melonjak dari 10 persen menjadi 76,67 persen.
Temuan ini menunjukkan bahwa permukaan serangan untuk prompt injection tidak langsung meluas dari kanal tekstual ke kanal visual. Gambar yang terlihat normal bagi mata manusia ternyata bisa mengandung instruksi tersembunyi yang cukup kuat untuk mengubah keputusan agen AI secara drastis.
Implikasi untuk Enterprise
Penelitian ini memberikan beberapa pelajaran penting bagi organisasi yang mengadopsi agen AI. Pertama, prompt injection adalah masalah keamanan tingkat sistem dengan kerugian multi-pihak, bukan sekadar masalah keamanan model. Kedua, tingkat keberhasilan serangan agregat tidak cukup untuk mengkarakterisasi kerentanan spesifik per pemangku kepentingan. Ketiga, serangan bisa berhasil tanpa mengganggu tugas utama secara kasat mata, membuatnya sangat sulit dideteksi.
Ketahanan keamanan ditentukan secara bersama oleh model AI, arsitektur implementasinya, dan pemangku kepentingan spesifik yang terdampak. Pengujian keamanan dan kontrol harus mencakup serangan melalui konten tekstual, metadata, dan kini konten visual.
Temuan StakeBench ini menjadi peringatan keras di tengah perlombaan enterprise untuk menempatkan agen AI dalam produksi. Agen yang terhubung ke tools dan sistem perusahaan memang membuka jalan baru untuk otomisasi, tetapi sekaligus membuka jalan baru untuk serangan. Satu-satunya tempat untuk menghentikan ancaman ini adalah saat agen memutuskan untuk bertindak.***