Gemma 4 QAT: Model AI Google Kini Hanya Butuh 1 GB RAM, Bisa Jalan di Ponsel Biasa

Share
Gemma 4 QAT: Model AI Google Kini Hanya Butuh 1 GB RAM, Bisa Jalan di Ponsel Biasa

Gemma 4 QAT: Model AI Google Kini Hanya Butuh 1 GB RAM, Bisa Jalan di Ponsel Biasa

CLB.my.id - Google merilis checkpoint baru untuk keluarga model Gemma 4 yang dioptimasi dengan Quantization-Aware Training (QAT). Hasilnya, model Gemma 4 E2B kini hanya butuh memori di bawah 1 GB untuk menjalankan varian teks saja. Artinya, model AI yang sebelumnya butuh GPU mahal kini bisa berjalan di ponsel dan laptop biasa.

QAT berbeda dari metode kompresi model konvensional yang disebut Post-Training Quantization (PTQ). Pada PTQ, model dikompresi setelah pelatihan selesai, yang sering kali menurunkan kualitas secara signifikan. QAT mensimulasikan proses kompresi selama pelatihan berlangsung, sehingga model belajar untuk tetap akurat meskipun sudah dikompresi. Hasilnya, kualitas model tetap terjaga meskipun ukurannya menyusut drastis.

Dua Format Kuantisasi untuk Kebutuhan Berbeda

Google menyediakan dua format kuantisasi baru. Format pertama adalah Q4_0, standar populer yang sudah banyak dipakai di komunitas open-source untuk performa optimal di berbagai perangkat. Format kedua adalah skema kuantisasi khusus mobile yang dirancang untuk prosesor ponsel.

Format mobile ini menggunakan empat teknik utama. Static Activations memperhitungkan pengaturan skala selama pelatihan sehingga mengurangi beban kerja perangkat saat inferensi. Channel-wise Quantization menyusun data terkompresi agar sejalan dengan desain akselerator mobile untuk eksekusi native. Targeted 2-bit Quantization mengompresi bagian generasi token secara agresif ke 2-bit sambil mempertahankan lapisan penalaran inti pada presisi lebih tinggi. Terakhir, optimasi Embedding dan KV Cache memfokuskan kompresi pada daftar kosakata dan memori jangka pendek untuk mengurangi jejak memori aktif secara drastis.

Ekosistem Luas Siap Mendukung

Google memastikan model QAT ini langsung bisa dipakai di berbagai tools populer. Untuk pengguna desktop dan lokal, model tersedia di llama.cpp, Ollama, dan LM Studio. Untuk deployment di perangkat dan web, Google menyediakan runtime LiteRT-LM dan dukungan Transformers.js. Pengembang yang butuh performa server bisa memakai SGLang, vLLM, atau MLX untuk Apple Silicon.

Model juga tersedia di Hugging Face dalam format GGUF untuk llama.cpp dan compressed tensor untuk vLLM. Google juga merilis checkpoint tanpa kuantisasi yang bisa dikonversi ke format lain sesuai kebutuhan. Untuk fine-tuning, tersedia dukungan dari Hugging Face Transformers dan Unsloth.

Multi-Token Prediction Juga Dioptimasi

Selain QAT, Google juga merilis checkpoint QAT untuk fitur Multi-Token Prediction (MTP). Fitur ini mempercepat inferensi dengan memprediksi beberapa token sekaligus dalam satu langkah. Dengan checkpoint QAT MTP, pengembang bisa mendapatkan percepatan inferensi dari MTP sekaligus efisiensi memori dari kuantisasi tanpa kehilangan kualitas.

Rilis ini datang dua bulan setelah peluncuran awal Gemma 4, menyusul pengenalan Multi-Token Prediction dan model 12B yang menjembatani kesenjangan antara varian E4B dan 26B MoE. Bagi pengembang dan startup di Indonesia, checkpoint QAT ini membuka peluang besar untuk menjalankan model AI berkualitas tinggi langsung di perangkat pengguna tanpa bergantung pada cloud. Dengan ukuran di bawah 1 GB, model ini bisa diintegrasikan ke aplikasi mobile, perangkat IoT, hingga sistem point-of-sale di warung dan toko kecil. Pendekatan ini tidak hanya menekan biaya operasional server, tetapi juga meningkatkan privasi data karena seluruh pemrosesan terjadi secara lokal di perangkat pengguna.***

Read more