Sistem Riset AI Otomatis Kalahkan Peneliti Manusia di 3 Benchmark Sekaligus

CLB.my.id - Perusahaan riset AI Recursive merilis hasil awal dari sistem riset AI otomatis mereka yang berhasil mencapai state-of-the-art di tiga benchmark sekaligus. Yang mengejutkan, sistem ini mengalahkan solusi terbaik yang dibuat oleh komunitas manusia, termasuk peneliti dan agen AI yang sudah bekerja selama bertahun-tahun.

Sistem Recursive mampu mengotomasi seluruh siklus riset: mengajukan ide, mengimplementasikan, menjalankan eksperimen, memvalidasi hasil, dan menggunakan temuan untuk mengeksperimen lebih lanjut. Sistem ini menjalankan banyak thread riset secara paralel, mempertahankan konteks, dan memvalidasi hasil secara ketat untuk menghindari reward hack.

NanoChat: Melampaui Komunitas Manusia

Benchmark pertama bernama NanoChat Autoresearch, yang menugaskan model bahasa kecil untuk dilatih mencapai loss terendah dalam anggaran waktu 5 menit pada satu GPU. Sistem Recursive mencapai skor validation BPB (bits per byte) sebesar 0,9109, lebih baik dari solusi komunitas autoresearch@home yang terdiri dari puluhan manusia dan ratusan agen dengan skor 0,9372.

Pencapaian ini setara dengan percepatan 1,3 kali lipat untuk mencapai loss yang sama. Bukan satu trik tunggal, melainkan kombinasi modifikasi di berbagai lapisan arsitektur, memori, fungsi loss, mekanisme attention, optimizer, dan pengaturan compiler.

Salah satu inovasi kuncinya adalah penggunaan tabel hash bigram dan trigram yang dimasukkan ke jalur nilai attention melalui gerbang yang dipelajari. Pendekatan ini secara murah menggabungkan informasi n-gram lokal tanpa perlu konvolusi atau attention yang lambat.

NanoGPT Speedrun: 77,5 Detik

Benchmark kedua adalah NanoGPT Speedrun, yang mengukur seberapa cepat sebuah model bahasa kecil bisa dilatih hingga mencapai validation loss tertentu pada node 8 GPU H100. Sistem Recursive memangkas waktu pelatihan dari 79,7 detik menjadi 77,5 detik.

Beberapa teknik yang diterapkan termasuk proyeksi attention FP8 yang menggandakan throughput, noise eksplorasi terjadwal yang diinjeksikan ke pembaruan optimizer, dan modifikasi Cautious Adam pada embedding yang menyaring pembaruan yang bertentangan dengan arah gradien asli.

Menariknya, sistem Recursive juga menemukan solusi dari awal yang mencapai sekitar 185 detik dengan pendekatan berbeda dari rekor manusia, termasuk perhatian stitched-stream yang mengemas 8 urutan pendek menjadi satu stream panjang dan piramida window per-lapisan yang mencampur perhatian lokal dan jangka panjang.

Optimasi GPU Kernel: Mendekati Batas Perangkat Keras

Benchmark ketiga, SOL-ExecBench, menguji kemampuan menulis kernel GPU yang cepat dan benar untuk 235 tugas beban kerja nyata di GPU B200. Sistem Recursive mencapai skor rata-rata SOL sebesar 0,754, mengurangi celah ke batas optimal perangkat keras sebesar 18% dari pencapaian terbaik sebelumnya sebesar 0,699.

Pencapaian ini penting karena optimasi kernel GPU menentukan biaya pelatihan dan inference di dunia nyata. Sistem ini menemukan penemuan-penemuan yang saling memperkuat: menciptakan optimasi baru, mengemas ulang ide-ide yang sudah diketahui dengan batasan yang lebih ketat, dan mengombinasikan perbaikan di berbagai lapisan.

Apa Artinya untuk Masa Depan Riset AI

Semua artefak dari penelitian Recursive dirilis secara terbuka untuk diperiksa dan digunakan kembali. Hasil ini menjadi sinyal awal bahwa sistem riset otomatis mampu mendorong batas kemampuan di tugas-tugas pelatihan model dan infrastruktur AI, terutama ketika tujuannya terukur dan bisa dievaluasi berkali-kali.

Implikasinya lebih luas: kemajuan AI tidak hanya datang dari model yang lebih besar atau komputasi yang lebih banyak, tetapi juga dari membuat sistem yang sudah ada berjalan lebih cepat, lebih murah, dan menggunakan perangkat keras secara lebih efisien. Recursive berharap sistem seperti ini pada akhirnya dapat mengotomasi bagian-bagian yang lebih besar dari proses riset frontier.***

Sistem Riset AI Otomatis Kalahkan Peneliti Manusia di 3 Benchmark Sekaligus

Sistem Riset AI Otomatis Kalahkan Peneliti Manusia di 3 Benchmark Sekaligus

NanoChat: Melampaui Komunitas Manusia

NanoGPT Speedrun: 77,5 Detik

Optimasi GPU Kernel: Mendekati Batas Perangkat Keras

Apa Artinya untuk Masa Depan Riset AI

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri