Google Rilis Gemma 4 12B, Model AI Multimodal yang Bisa Jalan di Laptop RAM 16 GB

Share
Google Rilis Gemma 4 12B, Model AI Multimodal yang Bisa Jalan di Laptop RAM 16 GB

CLB.my.id - Google DeepMind merilis Gemma 4 12B, model AI open-source terbaru yang bisa berjalan di laptop biasa dengan RAM 16 GB. Model ini menawarkan kemampuan multimodal canggih yang memproses teks, gambar, dan audio secara langsung tanpa encoder terpisah, menjadikannya salah satu model AI lokal paling efisien saat ini.

Gemma 4 12B dirancang untuk mengisi celah antara model E4B yang ringan dan model 26B Mixture of Experts (MoE) yang lebih berat. Performanya mendekati model 26B pada benchmark standar, tetapi dengan footprint memori kurang dari setengahnya. Ini menjadikannya pilihan ideal bagi pengembang yang ingin menjalankan AI secara lokal tanpa membutuhkan hardware mahal.

Arsitektur Unik Tanpa Encoder

Yang membuat Gemma 4 12B berbeda dari model multimodal lainnya adalah pendekatannya yang menghilangkan encoder terpisah untuk memproses input visual dan audio. Model multimodal tradisional biasanya mengandalkan encoder terpisah untuk menerjemahkan gambar dan audio sebelum meneruskannya ke model bahasa. Proses ini menambah latensi dan meningkatkan penggunaan memori.

Gemma 4 12B mengatasi masalah ini dengan arsitektur unified yang memproses semua input secara langsung melalui backbone LLM. Untuk input visual, Google mengganti vision encoder dengan modul embedding ringan yang hanya terdiri dari satu operasi perkalian matriks, positional embedding, dan normalisasi. Sementara untuk audio, encoder dihapus sepenuhnya dan sinyal audio mentah diproyeksikan langsung ke dimensi yang sama dengan token teks.

Pendekatan ini menghasilkan latensi yang lebih rendah dan penggunaan memori yang lebih efisien tanpa mengorbankan kualitas output. Model ini juga mendukung Multi-Token Prediction (MTP) drafters untuk mengurangi latensi inferensi.

Bisa Dipakai di Laptop Biasa

Dengan ukuran model sekitar 8,1 GB saat dikuantisasi, Gemma 4 12B dapat berjalan di laptop dengan RAM 16 GB. Namun, untuk pengalaman terbaik, RAM 24 GB atau 32 GB direkomendasikan. Untuk pengguna dengan GPU diskrit, minimal 12 GB VRAM sudah cukup, sementara sistem dengan unified memory seperti chip Apple M-series juga dapat menangani beban ini dengan baik.

Model ini tersedia di Hugging Face, Ollama, LM Studio, dan platform lainnya di bawah lisensi Apache 2.0 yang memungkinkan penggunaan komersial. Google juga merilis Skills Repository resmi yang dirancang khusus untuk memungkinkan agen membangun dengan model Gemma.

Capaian Gemma dan Dampak untuk Pengembang Indonesia

Seri model Gemma telah melampaui 150 juta unduhan berkat kontribusi komunitas pengembang global. Dari lengan robotik wearable untuk bantuan fisik hingga keamanan AI tingkat enterprise, model ini telah digunakan dalam berbagai aplikasi nyata. Dengan lisensi Apache 2.0, pengembang di Indonesia dapat menggunakan Gemma 4 12B secara gratis untuk proyek komersial maupun riset.

Bagi startup dan pengembang lokal yang ingin membangun produk AI tanpa bergantung pada API berbayar, Gemma 4 12B menawarkan solusi yang sangat menarik. Kemampuannya berjalan di hardware konsumer membuat AI multimodal semakin terjangkau dan dapat diakses oleh lebih banyak orang.


Read more