Google Gemma 4 12B: Model AI Multimodal yang Bisa Jalan di Laptop Biasa

Share
Google Gemma 4 12B: Model AI Multimodal yang Bisa Jalan di Laptop Biasa

Google Gemma 4 12B: Model AI Multimodal yang Bisa Jalan di Laptop Biasa

CLB.my.id - Google merilis Gemma 4 12B, model AI multimodal dengan arsitektur encoder-free yang bisa berjalan secara lokal di laptop dengan VRAM 16 GB. Ini adalah anggota pertama keluarga Gemma yang menggabungkan pemrosesan visual, audio, dan teks dalam satu model terpadu tanpa encoder terpisah.

Rilis ini menandai perubahan signifikan dalam desain model AI multimodal. Sebelumnya, model seperti ini memerlukan encoder vision dan audio terpisah yang menambah latensi dan fragmentasi memori. Gemma 4 12B menghilangkan kebutuhan itu sepenuhnya.

Arsitektur Tanpa Encoder

Model tradisional multimodal biasanya mengandalkan encoder vision beku terpisah dan encoder audio. Gemma 4 12B menggantinya dengan satu transformer decoder-only yang memproses semua jenis input secara langsung.

Untuk visual, model ini menggunakan embedder ringan berparameter 35 juta yang memproses patch piksel mentah 48x48. Informasi spasial dilampirkan langsung melalui faktorisasi lookup koordinat. Untuk audio, model memproses sinyal mentah 16 kHz yang dipotong menjadi frame 40 milidetik dan diproyeksikan langsung ke ruang input LLM.

Keuntungan utama dari pendekatan ini adalah fine-tuning terpadu. Input visual, audio, dan teks berbagi bobot yang sama, sehingga adapter seperti LoRA atau fine-tuning penuh bisa memperbarui seluruh loop multimodal dalam satu kali proses.

Kemampuan yang Ditunjukkan

Gemma 4 12B mendukung berbagai tugas mulai dari pengenalan suara, reasoning agentic, hingga pemahaman video. Dalam demonstrasi, model ini mampu membuat aplikasi Gradio untuk pemrosesan gambar yang kemudian ditenagai oleh model Gemma 4 12B itu sendiri.

Model juga diuji untuk menganalisis segmen video berdurasi lima menit dari keynote Google I/O. Dengan 313 frame pada satu frame per detik, trek audio dari video, dan prompt tekstual, model bisa menjawab pertanyaan detail tentang apa yang terjadi dalam video tersebut.

Berjalan Lokal di macOS

Untuk pertama kalinya, Google merilis aplikasi desktop macOS yang bisa dijalankan sepenuhnya secara lokal. Google AI Edge Gallery diperluas ke desktop, menjalankan Gemma 4 12B secara offline di GPU Apple Silicon. Aplikasi ini dilengkapi eksekusi Python terisolasi yang memungkinkan penulisan, eksekusi, dan pembuatan grafik langsung di dalam chat.

Selain itu, Google AI Edge Eloquent di Mac menambahkan dukungan input edit suara dengan Gemma 12B. Untuk pengembang yang ingin menjalankan model sebagai server API, perintah litert-lm serve menyediakan server kompatibel OpenAI yang bisa diintegrasikan dengan alat seperti Continue, Aider, atau OpenCode.

Multi-Token Prediction

Google juga merilis model dedicated multi-token prediction untuk memaksimamkan kecepatan inferensi lokal. Model ini menghasilkan beberapa token sekaligus dalam satu langkah, yang secara signifikan mempercepat waktu respons dibandingkan generasi token satu per satu.

Tersedia untuk Pengembang

Bobot model pre-trained dan instruction-tuned tersedia di Hugging Face dan Kaggle. Pengembang bisa menggunakan berbagai framework termasuk Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, atau melakukan fine-tuning dengan Unsloth.

Untuk deployment, model tersedia melalui Google Cloud di Gemini Enterprise Agent Platform Model Garden, Cloud Run, dan GKE. Google juga menyediakan repositori Gemma Skills untuk pengembangan agentic.

Rilis Gemma 4 12B menunjukkan arah baru dalam pengembangan model AI lokal. Dengan arsitektur encoder-free dan ukuran yang bisa dijalankan di perangkat konsumen, Google membuka peluang bagi pengembang di Indonesia untuk membangun aplikasi AI multimodal tanpa bergantung pada infrastruktur cloud yang mahal.***

Read more