PixelRAG: Sistem RAG Visual yang Kalahkan Text Parser, Hemat Token AI hingga 10 Kali Lipat

Share
PixelRAG: Sistem RAG Visual yang Kalahkan Text Parser, Hemat Token AI hingga 10 Kali Lipat

PixelRAG: Sistem RAG Visual yang Kalahkan Text Parser, Hemat Token AI hingga 10 Kali Lipat

CLB.my.id - Para peneliti dari UC Berkeley, Princeton University, EPFL, dan Databricks memperkenalkan PixelRAG, sistem Retrieval-Augmented Generation (RAG) yang mengambil pendekatan radikal: alih-alih mengonversi dokumen menjadi teks lalu mencari informasi dari sana, PixelRAG langsung merender halaman web sebagai tangkapan layar, mengindeks gambar tersebut, dan menampilkannya ke model Vision-Language. Hasilnya, akurasi naik hingga 18,1 persen dibanding text parser terbaik, sementara biaya token agen AI turun 10 kali lipat.

Masalah Lama yang Tak Pernah Tuntas

RAG berbasis teks selama ini menjadi tulang punggung sistem pencarian informasi di banyak aplikasi AI. Namun, pipeline ini punya kelemahan mendasar. Ketika halaman web dikonversi dari HTML ke teks polos, banyak sinyal penting yang hilang. Struktur tabel, layout visual, dan konteks posisi konten lenyap begitu saja.

Berdasarkan benchmark SimpleQA, kegagalan text-based RAG berasal dari tiga sumber utama. Pertama, kehilangan parser sebesar 36,6 persen, di mana konversi HTML ke teks menghancurkan konten terstruktur sehingga tidak ada chunk teks yang berisi jawaban. Kedua, kehilangan ranking sebesar 55,2 persen, di mana jawaban sebenarnya ada tetapi kalah peringkat oleh infobox yang padat kata kunci. Ketiga, kehilangan reader sebesar 8,2 persen, di mana konten yang benar sampai ke pembaca tetapi struktur yang rata menyebabkan salah atribusi.

“Memperbaiki parser adalah proses tanpa akhir karena setiap situs web memerlukan penanganan khusus,” kata Yichuan Wang dari UC Berkeley.

Cara Kerja PixelRAG

Ide intinya sederhana: lewati sama sekali tahap parsing teks. PixelRAG menggunakan Playwright untuk merender halaman web pada lebar 875 piksel, lalu memotongnya menjadi tile setinggi 1024 piksel. Untuk seluruh Wikipedia yang terdiri dari sekitar 7 juta artikel, proses ini menghasilkan sekitar 30 juta tile gambar.

Setiap tile kemudian dienkode menjadi vektor berdimensi 2048 menggunakan model Qwen3-VL-Embedding-2B dan disimpan dalam indeks FAISS berukuran sekitar 120 GB. Proses pelatihan menggunakan data kontrastif sintetik dan hard-negative mining dinamis. Fine-tuning dengan LoRA pada model bahasa dan encoder visual hanya membutuhkan waktu kurang dari 3 jam di satu GPU H100 untuk 40.000 pasang data.

Salah satu inovasi kunci adalah pendekatan render-on-demand. Alih-alih menyimpan semua 5,6 TB tile gambar secara permanen, PixelRAG hanya menyimpan indeks vektor dan merender ulang tile saat kueri masuk. Ini menghemat penyimpanan secara drastis.

Hasil Benchmark: Unggul di Semua Pengujian

PixelRAG diuji pada enam benchmark yang mencakup tanya jawab faktual Wikipedia, kueri berbasis tabel, tanya jawab multimodal, dan pengambilan berita langsung. Di semua enam pengujian, PixelRAG mengungguli RAG berbasis teks, bahkan pada tugas yang bisa dijawab dari teks saja.

Pada benchmark SimpleQA, PixelRAG mencapai akurasi 78,8 persen dibanding 71,6 persen untuk text parser terkuat. Untuk kueri tabel terstruktur, angkanya 48,8 persen versus 42,5 persen. Namun, ada syaratnya: tim pengembang memerlukan model setara Qwen3-VL-4B atau lebih tinggi untuk mendapatkan manfaat ini. Model yang lebih kecil justru tertinggal lebih dari 12,5 persen dibanding text retrieval.

Penghematan Token yang Signifikan

Keunggulan paling langsung terasa dari sisi biaya. Dalam pengujian benchmark, agen AI yang menggunakan PixelRAG sebagai backend pencarian hanya mengonsumsi 3,6 juta prompt token, dibanding 37,5 juta untuk text retrieval. Itu penghematan 10 kali lipat. Biaya keseluruhan juga 2 hingga 4 kali lebih rendah dibanding alternatif termasuk Google, dengan akurasi yang lebih tinggi. Kompresi gambar bahkan bisa memangkas anggaran token sepertiga lagi.

Tantangan yang Belum Terpecahkan

PixelRAG bukan tanpa kelemahan. Masalah utama saat ini adalah visual chunking. Implementasi saat ini menggunakan pemotongan berdasarkan tinggi piksel tetap, yang bisa membelah tabel atau paragraf di tengah tile. Komunitas text retrieval sudah bertahun-tahun menyempurnakan strategi chunking semantik, sementara visual retrieval masih sangat muda.

Wang menyarankan pendekatan hybrid sebagai jalur adopsi paling praktis. PixelRAG bisa menjadi lapisan peningkatan di atas sistem text retrieval yang sudah ada, bukan pengganti total. Data VB Pulse Q1 2026 menunjukkan niat adopsi retrieval hybrid naik tiga kali lipat dari 10,3 persen menjadi 33,3 persen dalam tiga bulan, menjadikannya posisi strategis dengan pertumbuhan tercepat di dataset tersebut.

Bagi pengembang di Indonesia yang membangun sistem pencarian berbasis AI, temuan ini membuka peluang baru. Menggabungkan visual retrieval dengan text retrieval yang sudah ada bisa meningkatkan akurasi sekaligus menekan biaya operasional, sesuatu yang sangat relevan untuk startup dan perusahaan yang mengelola volume data besar dengan anggaran terbatas.***

Read more