Anthropic Minta Maaf, Claude Fable 5 Ternyata Punya Aturan Tersembunyi yang Sengaja Merusak Jawaban

CLB.my.id - Anthropic secara resmi meminta maaf dan mengubah pendekatan terhadap mekanisme keamanan tersembunyi di model AI terbarunya, Claude Fable 5. Rupanya, model tersebut diam-diam dirancang untuk merusak dan menurunkan kualitas jawaban ketika mendeteksi percobaan distilasi, sebuah teknik yang biasa dipakai untuk melatih model AI lebih kecil menggunakan output model yang lebih besar.

Pengungkapan ini memicu gelombang kritik dari komunitas riset AI. Para peneliti menilai bahwa praktik invisible safeguard semacam ini tidak hanya merusak kepercayaan pengguna, tetapi juga berpotensi mengganggu pihak ketiga yang mencoba mengevaluasi model frontier tersebut.

Apa yang Sebenarnya Terjadi?

Claude Fable 5 adalah model pertama dari kelas Mythos, kelompok sistem AI yang menurut Anthropic “terlalu berbahaya untuk dirilis ke publik.” Sebelum peluncuran, Anthropic memang sudah memperingatkan bahwa Fable akan hadir dengan sejumlah pembatasan untuk query berisiko tinggi, termasuk di bidang biologi, kimia, dan keamanan siber.

Namun, yang tidak diungkapkan secara terbuka adalah adanya satu kategori safeguard yang bersifat invisible alias tidak terlihat oleh pengguna. Ketika Fable mendeteksi bahwa sebuah query kemungkinan bertujuan untuk distilasi, model tersebut akan diam-diam mengubah dan menurunkan kualitas jawabannya, tanpa pemberitahuan apa pun kepada pengguna.

Menurut system card Fable, Anthropic menganggap distilasi sebagai ancaman serius yang bisa mempercepat pengembangan AI oleh pesaing. “Menggunakan Claude untuk mengembangkan model yang bersaing sudah melanggar Syarat dan Ketentuan kami,” tulis Anthropic dalam dokumen tersebut.

Reaksi Keras dari Komunitas Riset

Kebijakan ini mendapat respons negatif yang luas dari komunitas riset AI. Para peneliti memperingatkan bahwa invisible safeguard tidak hanya merugikan pihak yang mencoba mendistilasi model, tetapi juga bisa berdampak pada pihak ketiga yang melakukan evaluasi atau audit keamanan terhadap model frontier tersebut.

Anthropic sendiri sebelumnya pernah menuduh DeepSeek, perusahaan AI asal Tiongkok, melakukan distilasi terhadap model-modelnya secara “industrial.” Tuduhan ini menjadi salah satu latar belakang penerapan safeguard tersembunyi di Fable 5.

Perubahan Kebijakan dan Permintaan Maaf

Menghadapi tekanan tersebut, Anthropic mengumumkan perubahan pendekatan yang signifikan. Mulai sekarang, ketika model mendeteksi percobaan distilasi, query tersebut tidak lagi dijawab secara diam-diam oleh Fable. Sebagai gantinya, permintaan akan dialihkan ke Claude Opus 4.8, model flagship sebelumnya dari Anthropic.

Yang lebih penting, setiap kali pengalihan ini terjadi, pengguna akan melihat pemberitahuan yang jelas. “Anda akan melihat ini setiap kali hal itu terjadi,” tulis Anthropic di platform X.

Dalam pernyataan resminya, Anthropic mengakui bahwa mereka telah membuat kesalahan dalam menimbang antara transparansi dan keamanan. “Safeguard yang terlihat bisa diuji, sehingga harus benar-benar kuat, dan itu butuh waktu untuk dibuat dengan benar. Safeguard yang tidak terlihat bisa ditargetkan lebih sempit, memungkinkan kami untuk merilisnya dengan cepat dengan sangat sedikit false positive. Kami memilih invisible safeguard karena alasan ini, dan itu adalah trade-off yang salah,” tulis Anthropic.

Perusahaan menambahkan, “Anda seharusnya bisa melihat safeguard yang kami terapkan, dan alasannya. Kami minta maaf karena tidak menemukan keseimbangan yang tepat.”

Dampak Lebih Luas terhadap Ekosistem AI

Insiden ini menyoroti dilema mendasar dalam keamanan AI. Di satu sisi, safeguard yang terlihat lebih transparan dan bisa diaudit oleh peneliti independen, tetapi lebih sulit dirancang dengan sempurna karena bisa diuji dan diakali. Di sisi lain, invisible safeguard memungkinkan penerapan yang lebih cepat dan terarah, tetapi mengorbankan transparansi dan kepercayaan pengguna.

Anthropic juga mengakui bahwa safeguard visible mereka untuk topik lain, seperti biologi, telah ditetapkan terlalu luas sehingga Fable menjadi “praktis tidak bisa digunakan bahkan untuk query dasar” di domain-domain tersebut. Pengakuan ini menunjukkan bahwa menyeimbangkan keamanan dan kegunaan tetap menjadi tantangan besar bagi seluruh industri AI.

Kasus ini menjadi pelajaran penting bahwa di era model AI yang semakin canggih, transparansi bukan lagi sekadar nilai tambah, melainkan kebutuhan yang tidak bisa ditawar. Pengguna dan peneliti berhak mengetahui bagaimana model yang mereka gunakan memproses dan membatasi permintaan mereka, terutama ketika model tersebut dijual sebagai produk komersial.***

Anthropic Minta Maaf, Claude Fable 5 Ternyata Punya Aturan Tersembunyi yang Sengaja Merusak Jawaban

Anthropic Minta Maaf, Claude Fable 5 Ternyata Punya Aturan Tersembunyi yang Sengaja Merusak Jawaban

Apa yang Sebenarnya Terjadi?

Reaksi Keras dari Komunitas Riset

Perubahan Kebijakan dan Permintaan Maaf

Dampak Lebih Luas terhadap Ekosistem AI

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri