OpenAI Rilis LifeSciBench, Benchmark 750 Tugas untuk Uji AI di Riset Ilmu Kehidupan

CLB.my.id - OpenAI meluncurkan LifeSciBench, sebuah benchmark baru yang dirancang untuk mengukur seberapa baik sistem AI menangani tugas-tugas riset ilmu kehidupan yang realistis. Berbeda dari benchmark konvensional yang menguji jawaban atas pertanyaan isolat, LifeSciBench menghadirkan 750 tugas yang ditulis dan dikaji langsung oleh para ilmuwan profesional, lengkap dengan lebih dari seribu artefak pendukung seperti gambar mikroskop, file PDF penelitian, dan sekuens genetik.

Apa Itu LifeSciBench dan Mengapa Penting?

LifeSciBench lahir dari kebutuhan untuk mengukur kemampuan AI secara lebih mendalam. Selama ini, benchmark AI cenderung menguji kemampuan menjawab pertanyaan pilihan ganda atau singkat. Padahal, pekerjaan nyata seorang peneliti ilmu kehidupan jauh lebih kompleks. Mereka harus menafsirkan bukti eksperimen, memecahkan masalah metodologi, dan mengambil keputusan translasional di bawah ketidakpastian.

Benchmark ini mencakup tujuh alur kerja riset inti yang diidentifikasi dari survei terhadap para ilmuwan praktisi. Ketujuh alur kerja tersebut meliputi penanganan bukti, analisis, desain dan optimasi, penalaran ilmiah, validasi dan operasi, translasi dari laboratorium ke klinik, serta komunikasi ilmiah.

Siapa yang Terlibat?

Proyek ini melibatkan 173 kontributor ilmuwan yang semuanya bergelar Ph.D. dan memiliki pengalaman di industri bioteknologi atau farmasi. Selain itu, 453 peninjau independen turut memvalidasi kualitas benchmark ini. Sebanyak 97 persen dari para peninjau tersebut juga bergelar doktor, dengan rata-rata pengalaman 12 tahun di bidang riset.

Hasil validasi menunjukkan angka persetujuan yang sangat tinggi. Sebanyak 98,3 persen peninjau setuju bahwa tugas-tugas dalam benchmark mencerminkan pekerjaan nyata di dunia riset. Sementara itu, 96,5 persen menyatakan tugas-tugas tersebut dapat dijawab dan berbasis bukti, dan 96,6 persen menilai benchmark ini sebagai evaluasi yang kuat.

Bagaimana Performa AI dalam Benchmark Ini?

OpenAI menguji berbagai model AI dalam LifeSciBench dan menemukan hasil yang menarik. Model frontier terbaru mereka, GPT-Rosalind, berhasil mencatatkan pass rate sebesar 36,1 persen, naik signifikan dari GPT-5.5 yang hanya mencapai 25,7 persen. Pass rate diukur berdasarkan keberhasilan model meraih skor rubrik minimal 70 persen.

Kenaikan terbesar terjadi pada tugas komunikasi ilmiah, di mana GPT-Rosalind mencapai pass rate 71,1 persen. Untuk kategori translasi dari bench to bedside, angkanya menyentuh 57,7 persen. Namun, performa turun drastis pada tugas-tugas yang memerlukan interpretasi artefak visual. Dalam skenario tersebut, pass rate anjlok dari sekitar 45 persen menjadi hanya 28 persen.

Tugas desain, optimasi, dan prediksi tetap menjadi yang paling menantang dengan pass rate sekitar 30 persen. Untuk output yang memerlukan angka, sekuens, atau struktur presisi, pass rate bahkan lebih rendah, hanya 14,8 hingga 27,3 persen.

Contoh Tugas dalam Benchmark

Salah satu contoh tugas dalam LifeSciBench meminta AI untuk mengkritisi paket uji klinis terapi gen AAV9 untuk distrofi muskular Duchenne. Respons berkualitas tinggi harus mampu mengidentifikasi kelemahan metodologi, seperti masalah pada Western blot yang menggunakan epitope bersama dengan distrofin endogen, validitas pengganti yang membingungkan antara massa protein dan fungsi klinis, serta desain studi yang mengandalkan kontrol riwayat alamiah eksternal.

Setiap tugas dalam benchmark dilengkapi dengan rubrik penilaian granuler yang mencakup rata-rata 25 kriteria. Total terdapat 19.020 kriteria rubrik di seluruh benchmark. Sebanyak 79 persen tugas memerlukan langkah penalaran ganda dengan rata-rata empat langkah per tugas, sementara 53 persen tugas mengharuskan interpretasi artefak.

Keterbatasan dan Langkah ke Depan

OpenAI mengakui bahwa LifeSciBench memiliki keterbatasan. Benchmark ini menggunakan tugas-tugas yang bersifat self-contained dan belum menangkap sifat iteratif serta dinamis dari riset langsung di laboratorium. Performa kuat dalam benchmark menunjukkan kapabilitas level tugas, bukan jaminan dampak di dunia nyata.

Langkah selanjutnya adalah menghubungkan hasil benchmark dengan studi deployment di lingkungan riset langsung untuk mengukur percepatan penemuan secara aktual. Dengan fondasi yang dibangun LifeSciBench, pengembangan AI untuk riset ilmu kehidupan kini memiliki tolok ukur yang lebih relevan dan menantang.***

OpenAI Rilis LifeSciBench, Benchmark 750 Tugas untuk Uji AI di Riset Ilmu Kehidupan

OpenAI Rilis LifeSciBench, Benchmark 750 Tugas untuk Uji AI di Riset Ilmu Kehidupan

Apa Itu LifeSciBench dan Mengapa Penting?

Siapa yang Terlibat?

Bagaimana Performa AI dalam Benchmark Ini?

Contoh Tugas dalam Benchmark

Keterbatasan dan Langkah ke Depan

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri