Count Anything: Model AI yang Bisa Hitung Objek Apa Pun di Foto Hanya dengan Prompt Teks

CLB.my.id - Menghitung objek dalam gambar terdengar sederhana, tapi ini adalah masalah yang selama ini sulit dipecahkan oleh AI secara universal. Peneliti dari Universitas Tsinghua dan sejumlah institusi lain memperkenalkan Count Anything, sebuah model AI yang mampu menghitung dan melabeli objek di berbagai jenis gambar, dari citra satelit dan pemindaian medis hingga foto sehari-hari, hanya bermodal prompt teks.

Dua Strategi yang Saling Melengkapi

Kunci pendekatan Count Anything adalah menggabungkan dua metode penghitungan yang saling mengisi kekurangan masing-masing. Strategi pertama adalah region-based counter yang menggambar kotak pembatas di sekitar objek besar dan mudah terlihat. Strategi kedua adalah pixel-based counter yang menempatkan titik pada setiap target kecil yang padat dan berdekatan. Kedua hasil prediksi kemudian digabungkan menggunakan aturan berbasis kepercayaan untuk menghindari penghitungan ganda.

Model ini dibangun di atas model pretrained dari Meta bernama SAM3 yang bisa memproses gambar dan teks secara bersamaan. Alih-alih melatih ulang seluruh model dari awal, Count Anything hanya menambahkan komponen adapter ringan di atasnya untuk tugas penghitungan. Pendekatan ini menghemat waktu dan sumber daya komputasi secara signifikan.

Dataset CLOC: Fondasi Pembelajaran Cross-Domain

Agar model bisa belajar menghitung objek di berbagai domain, para peneliti terlebih dahulu membangun dataset besar bernama CLOC (Count Anything Dataset). Dataset ini berisi sekitar 220.000 gambar dengan 619 kategori dan 15 juta objek berlabel. Cakupannya luas: foto sehari-hari, citra satelit dan drone, jaringan medis, mikroskopi, pertanian seperti malai gandum, hingga kultur bakteri.

Para peneliti menggabungkan dataset publik yang sudah ada, membersihkan label yang kontradiktif, dan merilis hasilnya sebagai CLOC. Mereka mengklaim ini adalah dataset terbesar untuk penghitungan berbasis teks yang pernah ada. Metrik error turun tajam seiring bertambahnya data pelatihan, membuktikan nilai dataset cross-domain dalam tugas ini.

Performa di Atas Kompetitor

Dalam uji perbandingan, Count Anything mengungguli sejumlah sistem pesaing termasuk CountGD, CLIP-Count, dan Grounding DINO. Rata-rata, model ini meleset hitungan sekitar 9 objek per kategori yang ditanyakan dalam satu gambar. Model kompetitor terbaik meleset lebih dari dua kali lipat angka itu.

Untuk penghitungan kerumunan, Count Anything tetap kompetitif tetapi tidak melampaui sistem-sistem khusus yang memang dirancang spesifik untuk crowd counting. Kode model sudah tersedia di GitHub untuk diimplementasikan dan diuji oleh publik.

Batasan yang Perlu Dicatat

Model ini mengalami kesulitan ketika istilah yang dimasukkan ambigu atau sangat spesifik. Dalam adegan yang sangat padat dengan oklusi berat, juga sulit membedakan apakah dua prediksi merujuk pada objek yang sama atau dua objek berbeda. Para peneliti mengakui keterbatasan ini dan menyebutnya sebagai area pengembangan selanjutnya.

Menariknya, perbandingan dengan kemampuan manusia juga menunjukkan gap yang signifikan. Pada benchmark BabyVision, bahkan model AI tercanggih seperti Gemini 3 Pro masih mencetak skor di bawah anak-anak berusia 3 tahun dalam tugas visual dasar, terutama saat menghitung objek yang terhalang.

Relevansi untuk Berbagai Sektor

Potensi aplikasi Count Anything sangat luas. Di bidang medis, model ini bisa membantu menghitung sel atau jaringan dalam citra patologi. Di pertanian, bisa digunakan untuk menghitung malai gandum atau populasi tanaman dari foto drone. Di perencanaan kota, bisa menganalisis kepadatan kendaraan atau bangunan dari citra satelit. Untuk peneliti dan pengembang di Indonesia yang bekerja di bidang computer vision, ketersediaan kode dan dataset CLOC membuka peluang untuk mengadopsi dan mengembangkan lebih lanjut teknologi ini sesuai kebutuhan lokal.***

Count Anything: Model AI yang Bisa Hitung Objek Apa Pun di Foto Hanya dengan Prompt Teks

Count Anything: Model AI yang Bisa Hitung Objek Apa Pun di Foto Hanya dengan Prompt Teks

Dua Strategi yang Saling Melengkapi

Dataset CLOC: Fondasi Pembelajaran Cross-Domain

Performa di Atas Kompetitor

Batasan yang Perlu Dicatat

Relevansi untuk Berbagai Sektor

Read more

15 Plugin JetBrains Marketplace Ketahuan Curi API Key AI, Total 70 Ribu Pengguna Terdampak

Satu Klik di Microsoft 365 Copilot Bisa Bocorkan Email, File Rahasia, dan Kode MFA Perusahaan

Serangan Agentjacking Bikin Agen AI Coding Jalankan Kode Jahat Tanpa Disadari Pengembang

GitHub Copilot Kini Punya Agent Finder, Agen AI Bisa Cari Tools yang Dibutuhkan Sendiri