Alibaba Rilis Qwen3.7-Plus, Model AI yang Baca Layar dan Operasikan Aplikasi Otomatis
Alibaba Rilis Qwen3.7-Plus, Model AI yang Baca Layar dan Operasikan Aplikasi Otomatis
Alibaba meluncurkan Qwen3.7-Plus, model multimodal yang bisa membaca layar, mengoperasikan aplikasi, dan menjalankan perintah terminal secara otomatis.
CLB.my.id - Alibaba melalui tim Tongyi Qianwen resmi meluncurkan Qwen3.7-Plus, sebuah model multimodal interaktif hybrid agent yang dirancang untuk otomatisasi layar dan coding. Berbeda dari chatbot konvensional yang hanya memahami teks, Qwen3.7-Plus mampu membaca antarmuka visual, memilih aksi seperti klik atau ketik, mengeksekusi langkah-langkah, dan memverifikasi hasilnya. Model ini menandai langkah besar Alibaba dalam perlombaan computer-use AI yang semakin ramai.
Bukan Sekadar Chatbot
Masalah utama dalam workflow computer-use bukan soal pemahaman bahasa, melainkan kemampuan menemukan elemen UI yang tepat. Sebuah model mungkin memahami perintah “klik tombol kirim”, tetapi gagal menemukan tombol tersebut di antara puluhan elemen layar. Qwen3.7-Plus mengatasi masalah ini dengan menggabungkan persepsi visual dengan kemampuan agentic dalam satu model.
Model ini mendukung input visual native, persepsi screenshot, otomatisasi browser dan aplikasi, navigasi layar, eksekusi tugas terminal, serta pembangkitan kode dan operasi tools. Dalam demonstrasi yang diklaim tim Qwen, sebuah sesi agen hybrid menggunakan Qwen3.7-Plus menghasilkan lebih dari 10.000 baris kode melalui lebih dari 1.000 panggilan agen selama sebelas jam pembangunan aplikasi vocabulary.
Klaim lain yang tidak kalah mencolok, model ini dikatakan mampu membuat ulang aplikasi bawaan macOS Stocks dengan memparses antarmukanya, menghasilkan kode SwiftUI, menghubungkan API, mengompilasi hasilnya, dan menjalankan sepuluh pengujian fungsional. Untuk tugas cloud, Qwen for Chrome dapat masuk mode agen dengan izin pengguna untuk memilih instance server virtual berbiaya rendah.
Harga dan Performa
Dari sisi komersial, Qwen3.7-Plus dibanderol 0,40 dolar AS per juta token input dan 2,40 dolar AS per juta token output. Angka ini jauh di bawah Qwen3.7-Max yang hanya menangani bahasa, yang dihargai 2,50 dolar AS dan 7,50 dolar AS untuk input dan output.
Pada benchmark, model ini mencatat skor 79,0 di ScreenSpot Pro untuk tugas grounding layar dan 70,3 di Terminal-Bench untuk tugas terminal. Angka-angka ini memberikan titik perbandingan, tetapi perlu dicatat bahwa benchmark dan demonstrasi yang diatur belum tentu mencerminkan kondisi dunia nyata.
Dari sisi kompatibilitas, Qwen3.7-Plus mendukung protokol API Anthropic, termasuk alat pengembang Claude Code, gateway agen OpenClaw, dan Qwen Code dari Alibaba sendiri. Ini memudahkan pengembang yang sudah berada di ekosistem tersebut untuk berpindah atau mencoba model baru.
Pesaing yang Sudah Lebih Dulu Bergerak
Alibaba bukan yang pertama di arena computer-use. Anthropic memperkenalkan fitur computer use untuk Claude pada Oktober 2024, memberikan Claude 3.5 Sonnet kemampuan melihat layar, menggerakkan kursor, mengklik tombol, dan mengetik melalui tools. OpenAI menyusul pada 2025 dengan Operator untuk aksi browser, sementara Microsoft Research memperkenalkan model Fara1.5 pada Mei 2026 sebagai agen browser computer-use dalam ukuran 4B, 9B, dan 27B.
Yang membedakan Qwen3.7-Plus adalah klaim fungsionalitas yang lebih luas, mencakup aplikasi, terminal, coding, dan konsol cloud. Model ini merupakan gabungan dari dua rilis sebelumnya: Qwen3-Coder untuk coding agentic dan Qwen3-VL untuk fondasi vision-language, yang kini disatukan dalam satu model.
Tantangan yang Menanti
Meski klaimnya mengesankan, ada beberapa catatan penting. Workflow agen yang panjang bisa mengakumulasi kesalahan kecil menjadi masalah besar. Kemampuan model menangani recovery dari error, perubahan antarmuka, dan kegagalan dalam produksi belum terbukti. Benchmark dan demo terarah menunjukkan arah yang benar, tetapi bukti dari pengguna nyata di lingkungan kerja sesungguhnya sangat dibutuhkan.
Keberhasilan enterprise adoption akan bergantung pada kemampuan Alibaba menangani perubahan antarmuka, izin akses, kegagalan sistem, dan kebutuhan audit dalam workflow yang dikelola. Tanpa bukti konkret dari lingkungan produksi, Qwen3.7-Plus berisiko hanya menjadi demo yang menjanjikan tanpa implementasi nyata.***