Model AI 3,8 Miliar Parameter Ini Kalahkan Rival 80 Miliar, Kuncinya Bukan Skala Tapi Data

Share
Model AI 3,8 Miliar Parameter Ini Kalahkan Rival 80 Miliar, Kuncinya Bukan Skala Tapi Data

Model AI 3,8 Miliar Parameter Ini Kalahkan Rival 80 Miliar, Kuncinya Bukan Skala Tapi Data

CLB.my.id - Microsoft Research merilis Lens, model text-to-image yang mengubah asumsi lama tentang hubungan antara ukuran model dan kualitas hasil. Dengan hanya 3,8 miliar parameter, Lens berhasil mengungguli model seperti Hunyuan-Image-3.0 yang punya 80 miliar parameter di sejumlah benchmark. Rahasianya terletak pada satu hal yang sering diabaikan: kualitas data pelatihan.

Bukan Soal Besar, Tapi Soal Tepat

Selama ini, industri AI berlomba-lomba membangun model dengan parameter sebanyak mungkin. Asumsinya sederhana: semakin besar model, semakin pintar hasilnya. Lens membuktikan bahwa asumsi itu tidak selalu benar.

Model ini hanya membutuhkan sekitar seperlima daya komputasi yang dipakai model sejenis selama tahap pre-training. Hasilnya? Lens mengungguli FLUX.2-Klein dan Z-Image dalam benchmark prompt fidelity, rendering teks, dan pembuatan gambar dengan adegan kompleks. Bahkan model Qwen-Image yang punya lima kali lebih banyak parameter harus mengakui keunggulan Lens di beberapa area.

Kuncinya ada pada Lens-800M, dataset berisi 800 juta pasangan gambar dan teks. Setiap caption dalam dataset ini dibuat oleh GPT-4.1 dengan rata-rata 100 kata per deskripsi. Jauh lebih detail dibandingkan alt-text web yang biasanya kabur atau bahkan salah.

Peneliti Microsoft melakukan studi ablation dan menemukan bahwa melatih model dengan caption panjang menghasilkan performa yang jelas lebih baik dibandingkan caption pendek atau campuran. Alt-text dari web sering kali terlalu umum atau tidak akurat, yang pada akhirnya melemahkan sinyal pembelajaran model.

Arsitektur Cerdas yang Hemat Sumber Daya

Keunggulan Lens tidak hanya soal data. Arsitektur dan strategi pelatihannya juga dirancang untuk efisiensi maksimal. Model ini dilatih dengan campuran resolusi dan rasio aspek yang berbeda dalam setiap batch. Meskipun hanya dilatih pada ukuran gambar tertentu, Lens mampu menggeneralisasi ke format dan resolusi yang belum pernah dilihat hingga sekitar 2 megapiksel. Pendekatan ini menghilangkan kebutuhan untuk menjalankan pelatihan beresolusi tinggi yang mahal.

Untuk komponen VAE (Variational Autoencoder), tim Microsoft menguji beberapa varian dan memilih semantic VAE dari FLUX.2 karena memberikan performa terbaik sekaligus mempercepat konvergensi. Sementara itu, text encoder menggunakan GPT-OSS, model bahasa terbuka dari OpenAI.

Pemilihan text encoder yang kuat membawa manfaat ganda. Pertama, model belajar lebih cepat. Kedua, dan ini yang mengejutkan, Lens mampu menerima prompt dalam bahasa Tionghoa, Prancis, Jepang, dan Spanyol, meskipun hanya dilatih dengan data berbahasa Inggris. Kemampuan multilingual zero-shot ini muncul berkat encoder bahasa yang lebih kuat.

Lens-Turbo: Satu Gambar dalam Hitungan Detik

Untuk kebutuhan inferensi cepat, Microsoft juga merilis Lens-Turbo, varian hasil distilasi yang mampu menghasilkan gambar 1 megapiksel dalam empat langkah saja. Model standar membutuhkan sekitar tiga detik pada GPU H100. Lens-Turbo menyelesaikannya dalam waktu kurang dari satu detik.

Kecepatan ini membuka peluang penggunaan real-time yang sebelumnya tidak praktis untuk model text-to-image dengan kualitas tinggi. Dari aplikasi desain grafis hingga alat bantu kreatif untuk konten kreator, Lens-Turbo menawarkan kombinasi kecepatan dan kualitas yang sulit ditandingi.

Reasoner yang Membuat Prompt Lebih Pintar

Salah satu fitur menarik dari Lens adalah keberadaan reasoner, model tambahan yang memproses ulang prompt pengguna sebelum masuk ke generator gambar. Ketika pengguna menulis prompt yang terlalu sederhana atau tidak jelas, reasoner akan mengubahnya menjadi deskripsi yang lebih detail dan terstruktur.

Reasoner default yang digunakan adalah GPT-5.5, meskipun GPT-OSS juga bisa dipakai tanpa memori tambahan. Yang menarik, tim peneliti mengembangkan metode untuk meningkatkan kualitas system prompt reasoner secara iteratif tanpa perlu melatih ulang model. Strategi ini bahkan berhasil ditransfer ke model yang jauh lebih besar seperti Qwen-Image.

Tersedia Terbuka, Tapi Ada Catatan

Microsoft merilis kode dan bobot model Lens di bawah lisensi MIT. Bobotnya tersedia di Hugging Face, sementara kode inference ada di repository GitHub. Namun ada catatan penting: Lens dirancang untuk riset dan belum disetujui untuk penggunaan produksi.

Karena data pelatihan sebagian berasal dari sumber web, model ini berpotensi menghasilkan konten yang bias atau bermasalah. Microsoft menyarankan pengguna untuk menambahkan langkah-langkah keamanan mereka sendiri sebelum menggunakan Lens dalam konteks apapun.

Proyek Lens dari Microsoft Research ini terpisah dari model gambar konsumer MAI-Image-2 dan MAI-Image-2.5 yang baru-baru ini dirilis oleh tim MAI. Kedua lini menunjukkan bahwa Microsoft berinvestasi serius di bidang generasi gambar, baik dari sisi riset fundamental maupun produk siap pakai.

Rilis Lens mengirimkan sinyal penting bagi industri AI: perlombaan menambah parameter bukan satu-satunya jalan menuju kualitas. Data yang lebih baik, arsitektur yang lebih cerdas, dan strategi pelatihan yang efisien bisa mengalahkan model raksasa dengan biaya yang jauh lebih murah.***

Read more