LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

CLB.my.id - Tim peneliti dari Ulsan National Institute of Science and Technology atau UNIST di Korea Selatan mengembangkan LightSplat, teknologi pengenalan ruang 3D yang memungkinkan pengguna mencari dan mengedit objek di ruang tiga dimensi menggunakan bahasa manusia biasa. Hasil riset ini diterima di CVPR 2026, konferensi visi komputer paling prestisius di dunia.

Teknologi ini menyelesaikan masalah besar yang selama ini menghambat pengenalan ruang 3D berbasis kosakata terbuka. Sistem yang ada menyimpan fitur bahasa berdimensi tinggi langsung untuk setiap titik dalam model 3D, menghasilkan konsumsi memori yang sangat besar dan pemrosesan yang lambat, hingga 100 menit untuk satu proses.

Inovasi yang Mengubah Permainan

LightSplat mengambil pendekatan berbeda secara fundamental. Alih-alih menyimpan data bahasa panjang di setiap titik partikel 3D, sistem ini hanya menetapkan indeks pendek 2 byte pada setiap titik. Informasi semantik objek yang sebenarnya disimpan di tabel terpisah dan hanya diakses melalui indeks ketika diperlukan.

Pendekatan ini mengurangi penggunaan memori menjadi 1/64 dibandingkan teknologi pengenalan ruang 3D berbasis kosakata terbuka yang ada. Dari sisi kecepatan, waktu injeksi semantik, proses menghubungkan informasi semantik ke Gaussians 3D sehingga bisa dicari menggunakan bahasa alami, dipangkas menjadi sekitar 5 detik. Ini 50 hingga 400 kali lebih cepat dibandingkan teknologi terkini yang memerlukan 4 hingga 100 menit.

Tim peneliti juga menerapkan proses pengelompokan 3D yang memilih hanya titik-titik yang berkontribusi tinggi dalam merepresentasikan objek nyata dan mengikat informasi tentang objek yang sama dari berbagai gambar. Ketika pengguna mengirimkan kueri, sistem membandingkan hanya terhadap klaster tingkat objek yang sudah dikelompokkan secara semantik, bukan terhadap ratusan juta partikel satu per satu.

Akurasi yang Tetap Unggul

Meskipun secara dramatis meningkatkan memori dan kecepatan, LightSplat melampaui teknologi yang ada dalam hal akurasi. Dalam eksperimen menggunakan berbagai dataset, sistem ini mampu membedakan objek dengan detail tinggi, mulai dari telur di atas ramen atau teh dalam gelas, hingga mobil yang jauh dan furnitur yang tersusun kompleks di kantor.

Dalam eksperimen segmentasi semantik 3D menggunakan ScanNet, dataset akademik untuk ruang dalam, LightSplat mencatat mIoU sebesar 37,11 across 19 kategori dengan waktu inferensi hanya 0,002 detik per kueri. Teknologi ini menggunakan metode Gaussian Splatting yang mengubah gambar 2D menjadi ruang 3D menggunakan partikel titik yang menyimpan posisi, warna, dan transparansi.

Dukungan dan Pendanaan

Riset ini dipimpin oleh Profesor Joo Kyung-don dari Graduate School of Artificial Intelligence UNIST dengan Bang Jae-hoon sebagai penulis pertama. Penelitian didanai oleh Kementerian Sains dan ICT Korea, IITP, UNIST AI Graduate School, AI Star Fellowship, program LG AI STAR, dan proyek InnoCORE.

“Untuk menerapkan teknologi pengenalan objek 3D berbasis kosakata terbuka ke lingkungan industri yang sebenarnya, bukan hanya akurasi yang dibutuhkan tetapi juga kecepatan dan efisiensi memori. Riset ini adalah pencapaian bermakna karena mengamankan ketiga elemen tersebut sekaligus,” kata Bang Jae-hoon.

Profesor Joo Kyung-don menambahkan bahwa teknologi ini akan diterapkan luas pada pengembangan robot berbasis interaksi manusia-mesin yang langsung menjalankan misi ketika diberi instruksi dalam bahasa manusia, pembuatan konten AR dan VR yang bisa menunjuk dan mengedit objek di ruang virtual melalui teks, serta teknologi digital twin untuk menjelajahi dan mengelola pabrik kompleks menggunakan bahasa alami.***

LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

Inovasi yang Mengubah Permainan

Akurasi yang Tetap Unggul

Dukungan dan Pendanaan

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri