LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

Share
LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

LightSplat: AI 3D dari Korea yang Pahami Bahasa Manusia, Pencarian Objek 400 Kali Lebih Cepat

CLB.my.id - Tim peneliti dari Ulsan National Institute of Science and Technology atau UNIST di Korea Selatan mengembangkan LightSplat, teknologi pengenalan ruang 3D yang memungkinkan pengguna mencari dan mengedit objek di ruang tiga dimensi menggunakan bahasa manusia biasa. Hasil riset ini diterima di CVPR 2026, konferensi visi komputer paling prestisius di dunia.

Teknologi ini menyelesaikan masalah besar yang selama ini menghambat pengenalan ruang 3D berbasis kosakata terbuka. Sistem yang ada menyimpan fitur bahasa berdimensi tinggi langsung untuk setiap titik dalam model 3D, menghasilkan konsumsi memori yang sangat besar dan pemrosesan yang lambat, hingga 100 menit untuk satu proses.

Inovasi yang Mengubah Permainan

LightSplat mengambil pendekatan berbeda secara fundamental. Alih-alih menyimpan data bahasa panjang di setiap titik partikel 3D, sistem ini hanya menetapkan indeks pendek 2 byte pada setiap titik. Informasi semantik objek yang sebenarnya disimpan di tabel terpisah dan hanya diakses melalui indeks ketika diperlukan.

Pendekatan ini mengurangi penggunaan memori menjadi 1/64 dibandingkan teknologi pengenalan ruang 3D berbasis kosakata terbuka yang ada. Dari sisi kecepatan, waktu injeksi semantik, proses menghubungkan informasi semantik ke Gaussians 3D sehingga bisa dicari menggunakan bahasa alami, dipangkas menjadi sekitar 5 detik. Ini 50 hingga 400 kali lebih cepat dibandingkan teknologi terkini yang memerlukan 4 hingga 100 menit.

Tim peneliti juga menerapkan proses pengelompokan 3D yang memilih hanya titik-titik yang berkontribusi tinggi dalam merepresentasikan objek nyata dan mengikat informasi tentang objek yang sama dari berbagai gambar. Ketika pengguna mengirimkan kueri, sistem membandingkan hanya terhadap klaster tingkat objek yang sudah dikelompokkan secara semantik, bukan terhadap ratusan juta partikel satu per satu.

Akurasi yang Tetap Unggul

Meskipun secara dramatis meningkatkan memori dan kecepatan, LightSplat melampaui teknologi yang ada dalam hal akurasi. Dalam eksperimen menggunakan berbagai dataset, sistem ini mampu membedakan objek dengan detail tinggi, mulai dari telur di atas ramen atau teh dalam gelas, hingga mobil yang jauh dan furnitur yang tersusun kompleks di kantor.

Dalam eksperimen segmentasi semantik 3D menggunakan ScanNet, dataset akademik untuk ruang dalam, LightSplat mencatat mIoU sebesar 37,11 across 19 kategori dengan waktu inferensi hanya 0,002 detik per kueri. Teknologi ini menggunakan metode Gaussian Splatting yang mengubah gambar 2D menjadi ruang 3D menggunakan partikel titik yang menyimpan posisi, warna, dan transparansi.

Dukungan dan Pendanaan

Riset ini dipimpin oleh Profesor Joo Kyung-don dari Graduate School of Artificial Intelligence UNIST dengan Bang Jae-hoon sebagai penulis pertama. Penelitian didanai oleh Kementerian Sains dan ICT Korea, IITP, UNIST AI Graduate School, AI Star Fellowship, program LG AI STAR, dan proyek InnoCORE.

“Untuk menerapkan teknologi pengenalan objek 3D berbasis kosakata terbuka ke lingkungan industri yang sebenarnya, bukan hanya akurasi yang dibutuhkan tetapi juga kecepatan dan efisiensi memori. Riset ini adalah pencapaian bermakna karena mengamankan ketiga elemen tersebut sekaligus,” kata Bang Jae-hoon.

Profesor Joo Kyung-don menambahkan bahwa teknologi ini akan diterapkan luas pada pengembangan robot berbasis interaksi manusia-mesin yang langsung menjalankan misi ketika diberi instruksi dalam bahasa manusia, pembuatan konten AR dan VR yang bisa menunjuk dan mengedit objek di ruang virtual melalui teks, serta teknologi digital twin untuk menjelajahi dan mengelola pabrik kompleks menggunakan bahasa alami.***

Read more