Google Rilis DiffusionGemma, Model AI 4 Kali Lebih Cepat dari Model Biasa

CLB.my.id - Google merilis DiffusionGemma, model AI eksperimental open source yang menjanjikan kecepatan teks 4 kali lebih cepat dari model autoregressive konvensional. Dirilis pada 10 Juni 2026 di bawah lisensi Apache 2.0, model ini mengadopsi pendekatan text diffusion yang memproses seluruh blok teks secara bersamaan, bukan satu per satu seperti model bahasa besar pada umumnya.

Model berarsitektur Mixture of Experts (MoE) dengan total 26 miliar parameter ini hanya mengaktifkan 3,8 miliar parameter selama inferensi. Artinya, model ini bisa berjalan dengan nyaman di GPU konsumen kelas atas yang memiliki VRAM minimal 18GB dalam mode kuantisasi.

Bagaimana Cara Kerjanya?

Berbeda dari model autoregressive seperti GPT atau Gemini yang menghasilkan teks secara sekuensial token demi token, DiffusionGemma menggunakan pendekatan yang terinspirasi dari model difusi untuk gambar. Prosesnya dimulai dari kanvas placeholder token acak, lalu melalui beberapa iterasi, token yang benar dikunci dan sisanya terus disempurnakan hingga menghasilkan output akhir.

Setiap forward pass menghasilkan 256 token secara paralel menggunakan mekanisme perhatian dua arah (bi directional attention). Mekanisme ini memungkinkan model memproses konteks dari kedua arah sekaligus, bukan hanya dari kiri ke kanan seperti model autoregressive.

Google mengibaratkan perbedaannya seperti membandingkan mesin tik sekuensial dengan mesin cetak besar yang menempelkan seluruh blok teks sekaligus.

Kecepatan di Atas Kertas

Angka yang dijanjikan cukup mengesankan. Di atas satu GPU NVIDIA H100, DiffusionGemma mampu menghasilkan lebih dari 1.000 token per detik. Sementara di GPU konsumen NVIDIA GeForce RTX 5090, kecepatannya mencapai lebih dari 700 token per detik.

Kecepatan ini dicapai dengan menggeser bottleneck inferensi dari bandwidth memori ke komputasi. Pendekatan ini sangat cocok untuk tugas tugas yang membutuhkan respons instan seperti editing inline, iterasi cepat, dan penyusunan teks non linier.

Model ini juga dilengkapi kemampuan self correction yang cerdas. Selama proses iterasi, model terus menyempurnakan seluruh blok teks secara real time untuk memperbaiki kesalahan, bukan hanya memprediksi token berikutnya berdasarkan konteks sebelumnya.

Untuk Siapa Model Ini?

Google menegaskan bahwa DiffusionGemma bukan pengganti model Gemma 4 standar yang direkomendasikan untuk produksi. Model ini ditujukan untuk peneliti dan pengembang yang menjelajahi workflow lokal yang mengutamakan kecepatan.

Kasus penggunaan terbaiknya adalah aplikasi lokal dengan concurrency rendah yang membutuhkan respons cepat. Sementara untuk serving cloud dengan QPS tinggi, model autoregressive tetap lebih efisien dan cost effective.

Perlu dicatat bahwa arsitektur unified memory seperti Apple Silicon Mac mungkin tidak mendapatkan percepatan yang sama. Karena kecepatan DiffusionGemma bergantung pada intensitas aritmetika akselerator yang tinggi, perangkat yang terbottleneck oleh bandwidth memori tidak akan mendapat manfaat penuh.

Kompatibilitas Hardware dan Tools

Google sudah mengoptimalkan DiffusionGemma untuk seluruh tumpukan hardware NVIDIA. Model ini mendukung kernel NVFP4 (4 bit floating point) yang mempercepat throughput komputasi dengan akurasi yang hampir tanpa loss.

Untuk GPU konsumen, model sudah dioptimalkan untuk RTX 5090 dan RTX 4090 dalam mode kuantisasi. Untuk sistem enterprise, tersedia optimasi untuk arsitektur Hopper dan Blackwell, termasuk NVIDIA DGX Spark dan DGX Station.

Bobot model sudah tersedia untuk diunduh di Hugging Face. Untuk serving, pengembang bisa menggunakan MLX, vLLM dengan integrasi dari Red Hat, atau Hugging Face Transformers. Dukungan untuk llama.cpp akan segera hadir.

Fine Tuning dan Eksperimen

Google juga merilis Hackable Diffusion, toolbox modular berbasis JAX yang dirancang untuk komposabilitas. Toolbox ini memungkinkan pengembang melakukan fine tuning untuk tugas tugas spesifik.

Selain itu, fine tuning juga bisa dilakukan melalui Unsloth dan NVIDIA NeMo. Google sudah menyediakan contoh fine tuning untuk berbagai kasus, termasuk sudoku melalui Unsloth dan text to 3D SVG melalui Hugging Face.

Model ini bisa dijalankan secara lokal di desktop dengan GPU dedicated atau diakses melalui cloud lewat Gemini Enterprise Agent Platform Model Garden dan NVIDIA NIM.

Kualitas vs Kecepatan

Seperti setiap tradeoff dalam teknologi, ada konsekuensi dari kecepatan yang ditawarkan DiffusionGemma. Kualitas outputnya masih di bawah model Gemma 4 standar. Namun, Google menyebutkan bahwa fine tuning bisa meningkatkan performa untuk tugas tugas spesifik.

Rilis ini menunjukkan arah baru dalam pengembangan model AI yang bukan hanya soal membuat model lebih pintar, tetapi juga lebih cepat dan lebih efisien untuk kasus penggunaan tertentu di dunia nyata.***