Microsoft Rilis MAI-Thinking-1, Model AI yang Kalahkan Claude Sonnet di Uji Manusia Buta

CLB.my.id - Microsoft resmi memperkenalkan MAI-Thinking-1, model reasoning pertama dari divisi Microsoft AI yang dirancang untuk masalah kompleks di dunia nyata. Model ini mengklaim posisi sejajar dengan Claude Opus 4.6 pada benchmark SWE-Bench Pro, dan lebih disukai daripada Claude Sonnet 4.6 dalam evaluasi manusia buta berdampingan.

Pengumuman ini menandai langkah besar Microsoft dalam persaingan model AI reasoning, di tengah dominasi OpenAI, Anthropic, dan Google DeepMind. Yang membedakan MAI-Thinking-1 dari pesaingnya adalah pendekatan pembangunannya: Microsoft mengklaim tidak melakukan distilasi dari model pihak ketiga mana pun.

Arsitektur dan Spesifikasi

MAI-Thinking-1 dibangun sebagai model Mixture of Experts (MoE) dengan 35 miliar parameter aktif dari total sekitar 1 triliun parameter. Meskipun ukuran inferensinya relatif kecil dibandingkan model frontier lainnya, performanya mampu menyaingi model berukuran jauh lebih besar.

Pada benchmark AIME 2025, model ini mencapai skor 97,0 persen, sementara pada AIME 2026 meraih 94,5 persen. Angka ini menunjukkan kemampuan penalaran matematis dan saintifik yang kuat untuk kelas bobotnya.

“Kami tidak mendistilasi dari laboratorium lain dan kami tidak bergantung pada data yang tidak transparan,” tulis tim Superintelligence Microsoft dalam pengumumannya. “Dataset kami bersih, dapat dilacak, dan bergradasi enterprise.”

Uji Manusia Buta

Microsoft melakukan evaluasi blind side-by-side bersama mitranya, Surge, menggunakan panel penilai profesional. Evaluasi ini mencakup 1.276 tugas dalam berbagai kasus penggunaan, baik percakapan satu giliran maupun banyak giliran, dengan fokus pada seberapa membantu setiap respons dan apakah respons tersebut benar-benar memajukan tujuan pengguna.

Hasilnya, pengguna lebih memilih MAI-Thinking-1 daripada Claude Sonnet 4.6 dari Anthropic. Ini adalah klaim signifikan mengingat Sonnet 4.6 merupakan salah satu model yang banyak digunakan di kalangan pengembang.

Filosofi “Hill-Climbing Machine”

Microsoft tidak hanya meluncurkan satu model, tetapi juga memperkenalkan konsep “Hill-Climbing Machine”, yaitu pipeline yang dirancang bersama agar setiap komponen pengembangan model dapat ditingkatkan secara berkelanjutan.

Tiga pilar utama filosofi ini adalah pertama, kemampuan harus dipelajari, bukan diwarisi. Meskipun lebih cepat diperoleh, kecerdasan yang diwarisi dari model lain kurang dapat diarahkan untuk penggunaan di dunia nyata. Kedua, data bersih. Model dilatih dari awal dengan data yang bersih dan dapat dilacak. Ketiga, kemandirian di seluruh tumpukan teknologi, mulai dari desain akselerator hingga kerangka kerja reinforcement learning.

Kesiapan Enterprise

MAI-Thinking-1 mendukung konteks panjang dengan jendela 256 ribu token, cukup untuk memproses dokumen setebal 600 halaman. Model ini juga mendukung function calling dan fleksibilitas untuk menambahkan instruksi pengembang.

Model ini kompatibel dengan Chat Completions API yang banyak digunakan, sehingga pengembang tidak perlu mengubah infrastruktur yang sudah ada. Semua model MAI dilengkapi keamanan dan kepatuhan enterprise melalui Microsoft Foundry.

Saat ini MAI-Thinking-1 tersedia dalam preview privat di Microsoft Foundry dan akan segera hadir dalam preview publik di MAI Playground. Microsoft juga mengumumkan bahwa model ini tersedia bersamaan dengan peluncuran tujuh model MAI baru lainnya, termasuk MAI-Code-1-Flash untuk pengembangan kode, MAI-Image-2.5 untuk pembuatan gambar, dan MAI-Transcribe-1.5 untuk transkripsi audio.

Dengan jendela konteks 256 ribu token, pengembang dapat memproses kode base besar atau dokumen panjang dalam satu sesi tanpa kehilangan konteks. Fitur ini sangat berguna untuk tugas debugging lintas file, analisis kode legacy, dan review dokumen hukum atau teknis yang panjang.

Persaingan Model AI Makin Ketat

Peluncuran ini terjadi di tengah persaingan sengit antar penyedia model AI. OpenAI baru-baru ini mengakuisisi Ona untuk memperkuat Codex, sementara Anthropic menghadapi tekanan pemerintah AS terkait model Fable 5 dan Mythos 5 yang dinilai terlalu berisiko untuk keamanan nasional.

Microsoft, dengan sumber daya komputasi Azure dan kemitraan strategisnya dengan OpenAI, berada dalam posisi unik untuk mengejar ketertinggalan di segmen model reasoning. MAI-Thinking-1 menjadi sinyal bahwa Microsoft serius membangun kemampuan AI internalnya sendiri, bukan hanya mengandalkan investasi di OpenAI.

Bagi pengembang dan perusahaan di Indonesia yang menggunakan layanan Microsoft Azure, kehadiran model reasoning berperforma tinggi dengan jejak inferensi yang lebih kecil berarti potensi penurunan biaya operasional AI yang signifikan tanpa mengorbankan kualitas output.***