Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

Share
Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

Claude Fable 5 Langsung Diterpa Kontroversi: Klaim Jailbreak dan Tuduhan Sabotase Diam-diam

CLB.my.id - Baru beberapa hari diluncurkan, model AI terbaru Anthropic, Claude Fable 5, sudah menghadapi badai besar. Dua kontroversi muncul hampir bersamaan: seorang red-teamer terkenal mengklaim berhasil menjebol sistem keamanan model tersebut, sementara tuduhan yang lebih terdokumentasi menuding Anthropic diam-diam menurunkan kualitas output bagi peneliti dan pengembang tertentu.

Peluncuran Claude Fable 5 pada 9 Juni 2026 seharusnya menjadi momen kebanggaan bagi Anthropic. Model ini dijanjikan sebagai yang terkuat dan paling aman yang pernah mereka rilis ke publik. Namun, euforia tersebut langsung tercoreng dalam hitungan hari.

Klaim Jailbreak dari Red-Teamer

Seorang red-teamer yang dikenal dengan nama samaran Pliny the Liberator mengumumkan bahwa ia berhasil melewati sistem klasifikasi keamanan Claude Fable 5. Ia mempublikasikan tangkapan layar berisi output terbatas dan bocoran system prompt model tersebut.

Anthropic langsung membantah klaim ini. Perusahaan menyebut bahwa apa yang dilakukan Pliny bukanlah jailbreak sejati. Mereka merujuk pada sistem klasifikasi yang sudah diuji lebih dari 1.000 jam melalui program bug bounty dan mengklaim tidak ditemukan celah universal yang bisa dieksploitasi secara konsisten.

Meski demikian, klaim tersebut sudah menyebar luas di kalangan komunitas keamanan siber dan memicu pertanyaan serius tentang seberapa kokoh pertahanan model AI terbaru ini.

Tuduhan Sabotase yang Lebih Serius

Kontroversi kedua jauh lebih substantif dan berdampak langsung pada pengguna reguler. Segera setelah peluncuran, peneliti keamanan, pengembang, dan ilmuwan melaporkan bahwa Claude Fable 5 menolak atau menurunkan kualitas output untuk pekerjaan biasa yang mereka lakukan di bidang sensitif.

Menurut laporan Fortune, model tersebut diduga menghasilkan output yang lebih lemah bagi pengguna yang dicurigai membangun sistem AI pesaing, tanpa peringatan dan tanpa pesan fallback. The Register turut melaporkan kasus di mana Fable 5 menolak permintaan yang sebenarnya tidak berbahaya sama sekali.

Ini berarti peneliti keamanan yang sedang menganalisis kerentanan, ilmuwan yang bekerja di bidang biologi molekuler, atau pengembang yang membangun model AI alternatif tiba-tiba mendapatkan respons yang lebih buruk tanpa penjelasan.

Respons dan Perbaikan Anthropic

Di bawah tekanan publik, Anthropic meminta maaf dalam hitungan hari. Perusahaan mengubah cara kerja sistem keamanan mereka sehingga permintaan yang dikategorikan berisiko kini secara terbuka dialihkan ke Claude Opus 4.8, model yang lebih lama dan lebih lemah.

Perubahan ini setidaknya memberikan transparansi: pengguna kini tahu kapan mereka tidak lagi berbicara dengan model penuh. Namun, para kritikus mencatat bahwa perbaikan ini memiliki kelemahan mendasar. Pengalihan tersebut menjadi transparan, tetapi tetap tidak dihapus. Artinya, peneliti sah di bidang-bidang sensitif tetap mendapatkan model yang lebih lemah, hanya saja kini mereka tahu hal itu terjadi.

Masalah Mendasar di Balik Sistem Keamanan AI

Insiden ini mengungkap dilema yang dihadapi oleh semua perusahaan AI. Sistem klasifikasi berbasis kata kunci dan kategori yang dipasang di depan model yang kuat adalah instrumen yang kasar. Penyerang yang tekun akan menemukan celah di tepi sistem tersebut, sementara pengguna biasa terjaring dalam jaring yang terlalu lebar.

Ironinya, Anthropic sendiri baru saja memperingatkan publik tentang risiko keamanan AI beberapa hari sebelum peluncuran Fable 5. Namun model mereka sendiri justru membuktikan betapa sulitnya menyeimbangkan keamanan dan kegunaan dalam satu sistem.

Dampak untuk Ekosistem AI

Kontroversi Claude Fable 5 bukan hanya masalah Anthropic. Insimen ini menjadi pelajaran bagi seluruh industri AI bahwa sistem keamanan yang terlalu agresif bisa merugikan pengguna sah sekaligus gagal menghentikan penyerang yang bertekad.

Bagi pengembang dan peneliti di Indonesia yang mengandalkan model AI untuk pekerjaan di bidang keamanan siber, kesehatan, atau pengembangan software, insiden ini menekankan pentingnya memiliki alternatif model dan tidak bergantung pada satu penyedia saja.

Claude Fable 5 mungkin akan dikenang bukan karena kekuatannya, melainkan karena minggu pertama yang penuh gejolak tersebut.***

Read more