Google Rilis OpenRL, API Open-Source untuk Fine-Tuning Model AI di Kubernetes Sendiri
Google Rilis OpenRL, API Open-Source untuk Fine-Tuning Model AI di Kubernetes Sendiri
CLB.my.id - Google melalui GKE Labs merilis OpenRL, proyek open-source baru yang memungkinkan peneliti dan developer melakukan fine-tuning model bahasa besar (LLM) dengan reinforcement learning (RL) di infrastruktur Kubernetes mereka sendiri. Rilis ini ditujukan untuk menyederhanakan salah satu proses paling rumit dalam pengembangan AI modern.
Post-training, tahap di mana model AI disempurnakan setelah dilatih, dikenal sebagai proses yang membutuhkan koordinasi lusinan komponen berbeda. Mulai dari pemilihan dan pembersihan dataset, pemilihan lingkungan RL, debugging loop pelatihan, pengelolaan sinyal reward, penanganan ketidakcocokan inferensi, hingga alokasi hardware. Semua itu bercampur menjadi satu, membuat peneliti AI dan insinyur infrastruktur saling terjalin dalam kompleksitas yang sama.
Inspirasi dari Tinker dan Pola Kubernetes
OpenRL terinspirasi kuat dari Tinker, API post-training dari Thinking Machines. Tinker menyembunyikan seluruh infrastruktur post-training di balik empat API utama, dan OpenRL membawa pola yang sama tetapi berjalan di infrastruktur milik pengguna sendiri.
Filosofinya mirip dengan apa yang Kubernetes lakukan untuk aplikasi cloud. Kubernetes mengabstraksi infrastruktur sehingga developer aplikasi dan SRE bisa bekerja secara independen. OpenRL melakukan hal serupa untuk post-training AI, memisahkan kebutuhan infrastruktur dari kebutuhan riset AI.
Hasilnya, peneliti AI mendapat fleksibilitas penuh atas loop RL mereka, sementara insinyur infrastruktur bisa fokus pada skalabilitas, orkestrasi, dan keandalan.
Berbagi GPU dan Efisiensi Baru
Salah satu fitur menarik OpenRL adalah kemampuannya untuk menjalankan beberapa pekerjaan RL secara bersamaan. Loop RL tradisional bersifat sekuensial: trainer menunggu sampler menyelesaikan rollouts, sampler menunggu lingkungan memberikan skor reward, dan seluruh loop terblokir. GPU mahal menghabiskan banyak waktu dalam keadaan menganggur.
Dengan abstraksi yang tepat, OpenRL memungkinkan beberapa pekerjaan RL berjalan paralel dan mengemas langkah training serta sampling untuk memanfaatkan GPU secara lebih optimal. Data menunjukkan peningkatan utilisasi GPU yang signifikan saat satu, dua, hingga tiga pekerjaan RL dijalankan bersamaan.
Pengalaman Pengguna yang Lebih Baik
Ketika infrastruktur dipisahkan di balik API, pengalaman pengembangan juga membaik secara dramatis. Peneliti AI tidak lagi harus berurusan dengan dependensi Python yang rumit seperti CUDA. Saat melakukan riset dan pengembangan, mereka bisa menjalankan loop RL di Mac mereka dan mengarahkannya ke endpoint training yang berjalan di cluster Kubernetes atau VM.
OpenRL juga dilengkapi dengan resep “autoresearch” yang terinspirasi dari pekerjaan Karpathy, pendiri Thinking Machines. Resep ini mendemonstrasikan bagaimana menjalankan eksperimen paralel untuk melakukan parameter sweep dan meningkatkan sinyal reward untuk resep text-to-SQL pada model Gemma.
Bukan Layanan Terkelola
Google menegaskan bahwa OpenRL bukan layanan terkelola. Proyek ini dirancang agar pengguna bisa men-deploy dan mengoperasikannya di cluster Kubernetes mereka sendiri. OpenRL juga bukan framework RL, melainkan API yang memberi peneliti AI kendali penuh atas loop RL mereka.
Untuk memulai, pengguna bisa menjalankan OpenRL di Mac, GPU NVIDIA, atau di GKE. Ini memungkinkan pengujian loop RL di Mac, dan ketika siap untuk skalabilitas, loop RL bisa diarahkan ke endpoint OpenRL yang berjalan di cluster GKE.
Langkah Selanjutnya
Tim OpenRL mengatakan mereka sudah memulai dengan arsitektur sederhana yang berfokus pada LoRA fine-tuning dan berencana mengembangkan proyek ini dalam beberapa bulan ke depan. Beberapa hal yang sedang dikerjakan termasuk full parameter fine-tuning dan multitenancy, yaitu kemampuan menjalankan RL secara simultan pada berbagai tipe model dasar yang berbeda.
Rilis ini juga kompatibel dengan Tinker-Cookbook, salah satu sumber daya terbaik untuk infrastruktur post-training RL, sehingga pengguna yang sudah familiar dengan ekosistem Tinker bisa langsung memanfaatkan OpenRL.
Konteks untuk Developer Indonesia
Bagi komunitas AI dan machine learning di Indonesia, OpenRL membuka peluang baru untuk melakukan post-training model secara mandiri tanpa bergantung pada layanan cloud mahal. Dengan Kubernetes yang semakin banyak digunakan oleh perusahaan teknologi lokal, infrastruktur yang dibutuhkan untuk menjalankan OpenRL sudah tersedia di banyak organisasi.
Kemampuan untuk menjalankan loop RL dari Mac lokal sambil mengarahkan komputasi berat ke cluster GPU juga sangat relevan untuk tim riset yang tersebar di berbagai kota atau kampus. Tidak perlu lagi semua anggota tim berada di jaringan yang sama untuk berkolaborasi dalam fine-tuning model.
Google tampaknya ingin menurunkan barrier masuk untuk penelitian AI tingkat lanjut, dan OpenRL adalah langkah konkret ke arah itu. Dengan lisensi open-source dan dukungan untuk berbagai hardware, proyek ini berpotensi menjadi fondasi penting bagi ekosistem post-training AI global.***