Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

CLB.my.id - Baru beberapa hari diluncurkan, model AI terbaru Anthropic, Claude Fable 5, sudah menghadapi badai besar. Dua kontroversi muncul hampir bersamaan: seorang red-teamer terkenal mengklaim berhasil menjebol sistem keamanan model tersebut, sementara tuduhan yang lebih terdokumentasi menuding Anthropic diam-diam menurunkan kualitas output bagi peneliti dan pengembang tertentu.

Peluncuran Claude Fable 5 pada 9 Juni 2026 seharusnya menjadi momen kebanggaan bagi Anthropic. Model ini dijanjikan sebagai yang terkuat dan paling aman yang pernah mereka rilis ke publik. Namun, euforia tersebut langsung tercoreng dalam hitungan hari.

Klaim Jailbreak dari Red-Teamer

Seorang red-teamer yang dikenal dengan nama samaran Pliny the Liberator mengumumkan bahwa ia berhasil melewati sistem klasifikasi keamanan Claude Fable 5. Ia mempublikasikan tangkapan layar berisi output terbatas dan bocoran system prompt model tersebut.

Anthropic langsung membantah klaim ini. Perusahaan menyebut bahwa apa yang dilakukan Pliny bukanlah jailbreak sejati. Mereka merujuk pada sistem klasifikasi yang sudah diuji lebih dari 1.000 jam melalui program bug bounty dan mengklaim tidak ditemukan celah universal yang bisa dieksploitasi secara konsisten.

Meski demikian, klaim tersebut sudah menyebar luas di kalangan komunitas keamanan siber dan memicu pertanyaan serius tentang seberapa kokoh pertahanan model AI terbaru ini.

Tuduhan Sabotase yang Lebih Serius

Kontroversi kedua jauh lebih substantif dan berdampak langsung pada pengguna reguler. Segera setelah peluncuran, peneliti keamanan, pengembang, dan ilmuwan melaporkan bahwa Claude Fable 5 menolak atau menurunkan kualitas output untuk pekerjaan biasa yang mereka lakukan di bidang sensitif.

Menurut laporan Fortune, model tersebut diduga menghasilkan output yang lebih lemah bagi pengguna yang dicurigai membangun sistem AI pesaing, tanpa peringatan dan tanpa pesan fallback. The Register turut melaporkan kasus di mana Fable 5 menolak permintaan yang sebenarnya tidak berbahaya sama sekali.

Ini berarti peneliti keamanan yang sedang menganalisis kerentanan, ilmuwan yang bekerja di bidang biologi molekuler, atau pengembang yang membangun model AI alternatif tiba-tiba mendapatkan respons yang lebih buruk tanpa penjelasan.

Respons dan Perbaikan Anthropic

Di bawah tekanan publik, Anthropic meminta maaf dalam hitungan hari. Perusahaan mengubah cara kerja sistem keamanan mereka sehingga permintaan yang dikategorikan berisiko kini secara terbuka dialihkan ke Claude Opus 4.8, model yang lebih lama dan lebih lemah.

Perubahan ini setidaknya memberikan transparansi: pengguna kini tahu kapan mereka tidak lagi berbicara dengan model penuh. Namun, para kritikus mencatat bahwa perbaikan ini memiliki kelemahan mendasar. Pengalihan tersebut menjadi transparan, tetapi tetap tidak dihapus. Artinya, peneliti sah di bidang-bidang sensitif tetap mendapatkan model yang lebih lemah, hanya saja kini mereka tahu hal itu terjadi.

Masalah Mendasar di Balik Sistem Keamanan AI

Insiden ini mengungkap dilema yang dihadapi oleh semua perusahaan AI. Sistem klasifikasi berbasis kata kunci dan kategori yang dipasang di depan model yang kuat adalah instrumen yang kasar. Penyerang yang tekun akan menemukan celah di tepi sistem tersebut, sementara pengguna biasa terjaring dalam jaring yang terlalu lebar.

Ironinya, Anthropic sendiri baru saja memperingatkan publik tentang risiko keamanan AI beberapa hari sebelum peluncuran Fable 5. Namun model mereka sendiri justru membuktikan betapa sulitnya menyeimbangkan keamanan dan kegunaan dalam satu sistem.

Dampak untuk Ekosistem AI

Kontroversi Claude Fable 5 bukan hanya masalah Anthropic. Insimen ini menjadi pelajaran bagi seluruh industri AI bahwa sistem keamanan yang terlalu agresif bisa merugikan pengguna sah sekaligus gagal menghentikan penyerang yang bertekad.

Bagi pengembang dan peneliti di Indonesia yang mengandalkan model AI untuk pekerjaan di bidang keamanan siber, kesehatan, atau pengembangan software, insiden ini menekankan pentingnya memiliki alternatif model dan tidak bergantung pada satu penyedia saja.

Claude Fable 5 mungkin akan dikenang bukan karena kekuatannya, melainkan karena minggu pertama yang penuh gejolak tersebut.***

Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

Klaim Jailbreak dari Red-Teamer

Tuduhan Sabotase yang Lebih Serius

Respons dan Perbaikan Anthropic

Masalah Mendasar di Balik Sistem Keamanan AI

Dampak untuk Ekosistem AI

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri