NVIDIA Cosmos 3: Model AI Terbuka yang Bisa Bikin Robot dan Mobil Otonom Makin Pintar

Share
NVIDIA Cosmos 3: Model AI Terbuka yang Bisa Bikin Robot dan Mobil Otonom Makin Pintar

NVIDIA Cosmos 3: Model AI Terbuka yang Bisa Bikin Robot dan Mobil Otonom Makin Pintar

CLB.my.id - NVIDIA meluncurkan Cosmos 3, sebuah model foundation terbuka untuk physical AI yang menggabungkan penalaran visi, generasi dunia, dan prediksi aksi dalam satu sistem tunggal. Model ini menggunakan arsitektur mixture-of-transformers dan dirancang khusus untuk robot, kendaraan otonom, dan sistem visi AI. Pengumuman ini disampaikan langsung oleh CEO NVIDIA Jensen Huang di acara GTC Taipei pada 8 Juni 2026.

“Big bang physical AI sudah di depan mata berkat terobosan dalam bahasa penalaran multimodal, visi, dan model dunia,” ujar Jensen Huang. “Keluarga model omni terbuka Cosmos 3 memberikan lompatan generasional bagi pengembang untuk membangun robot, kendaraan otonom, dan visi AI yang mampu mempersepsi, bernalar, merencanakan, dan bertindak di dunia fisik.”

Apa yang Membuat Cosmos 3 Berbeda?

Cosmos 3 adalah model omni yang mampu memproses dan menghasilkan teks, gambar, video, suara lingkungan, dan aksi berbasis fisika dengan akurasi tinggi. Arsitekturnya menggabungkan reasoning transformer dengan expert generation transformer, memungkinkan model untuk memproses interaksi objek, gerakan, dan hubungan spasial-temporal sebelum menghasilkan output. Model ini sudah dilatih pada salah satu dataset physical AI multimodal terbesar yang pernah ada, sehingga mengurangi kebutuhan data dan biaya pelatihan bagi para pengembang secara signifikan.

Tiga varian model tersedia untuk kebutuhan berbeda. Cosmos 3 Super ditujukan untuk post-training model robotik dan kendaraan otonom yang membutuhkan akurasi fisika dan kualitas generasi tinggi. Cosmos 3 Nano hadir untuk penalaran video dan aksi berkualitas tinggi dalam hitungan sepersekian detik. Sementara Cosmos 3 Edge, yang akan segera hadir, dirancang untuk inferensi real-time di perangkat edge.

Performa di Benchmark Physical AI

Model Cosmos 3 menempati peringkat pertama di antara model terbuka pada sejumlah benchmark physical AI utama. Di antaranya Artificial Analysis, Physics-IQ, PAI-Bench, dan R-Bench untuk akurasi generasi dunia. Untuk kebijakan aksi, Cosmos 3 unggul di RoboLab dan RoboArena. Sementara untuk pemahaman visi, model ini memuncaki leaderboard VANTAGE-Bench dan TAR.

Pencapaian ini menjadikan Cosmos 3 sebagai model terbuka paling komprehensif untuk physical AI yang tersedia saat ini. Para pengembang bisa menggunakannya sebagai model bahasa visi untuk penalaran multimodal, model dunia atau video untuk mensimulasikan lingkungan dan memprediksi keadaan, hingga sebagai backbone untuk melatih model aksi robot yang spesifik untuk tugas tertentu.

Ekosistem dan Cosmos Coalition

NVIDIA juga membentuk Cosmos Coalition, sebuah kolaborasi antara pembangun model dunia dan pengembang AI. Anggota pendiri termasuk Agile Robots, Black Forest Labs, Generalist, LTX, Runway, dan Skild AI. Mereka bekerja sama mengembangkan model dunia generasi berikutnya untuk berbagai aplikasi industri.

Sejumlah perusahaan besar sudah mulai membangun di atas Cosmos, termasuk Agile Robots, Doosan Robotics, LG Electronics, Samsung, Li Auto, dan Milestone Systems untuk aplikasi di bidang robotik, kendaraan otonom, dan visi industri. NVIDIA juga menyediakan dataset baru untuk robotika, fisika, gerakan manusia, kendaraan otonom, dan penalaran spasial yang bisa digunakan oleh komunitas pengembang secara terbuka.

Ketersediaan dan Cara Mengakses

Cosmos 3 Super dan Cosmos 3 Nano sudah tersedia saat ini. Pengembang bisa mencobanya di build.nvidia.com, mengunduh model terbuka dari Hugging Face, menyesuaikan model dan menghasilkan data sintetis menggunakan Hugging Face Diffusers serta sumber daya di GitHub, dan menerapkan model sebagai mikroservis NVIDIA NIM.

Infrastruktur mitra yang mendukung termasuk Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra, dan Classmethod. Bagi pengembang dan peneliti di Indonesia yang bergerak di bidang robotik, kendaraan otonom, atau visi komputer, ketersediaan Cosmos 3 sebagai model terbuka membuka peluang besar untuk bereksperimen dan membangun solusi tanpa harus mengembangkan model dari nol atau mengeluarkan biaya pelatihan yang sangat besar.***

Read more