Microsoft Rilis MAI-Transcribe-1.5, Model Transkripsi Terakurat di 43 Bahasa

Share
Microsoft Rilis MAI-Transcribe-1.5, Model Transkripsi Terakurat di 43 Bahasa

Microsoft Rilis MAI-Transcribe-1.5, Model Transkripsi Terakurat di 43 Bahasa

CLB.my.id - Microsoft merilis MAI-Transcribe-1.5, model speech-to-text multilingual yang diklaim sebagai yang paling akurat di dunia saat ini. Model ini mencatat Word Error Rate (WER) terbaik pada benchmark FLEURS untuk 43 bahasa, sekaligus menjadi yang tercepat di kelasnya.

Diumumkan pada 2 Juni 2026, MAI-Transcribe-1.5 merupakan bagian dari keluarga besar tujuh model baru yang dikembangkan tim Superintelligence Microsoft AI. Model ini sudah diintegrasikan ke sejumlah produk Microsoft seperti Copilot, Teams, GitHub, dan Dynamics 365 Contact Centre, serta tersedia melalui Microsoft Foundry untuk pengembang eksternal.

Lima Kali Lebih Cepat dari Kompetitor

Keunggulan utama MAI-Transcribe-1.5 terletak pada kombinasi akurasi dan kecepatan. Model ini mampu mentranskripsi satu jam audio dalam waktu kurang dari 15 detik. Angka ini lima kali lebih cepat dibandingkan model sekelas seperti Gemini 3.1, Scribe v2, dan GPT-4o-Transcribe untuk file audio panjang.

Pada leaderboard Artificial Analysis, model ini mencatat Word Error Rate sebesar 2,4 persen dan menempati posisi ketiga. Namun yang lebih penting, rasio akurasi terhadap kecepatannya menempati posisi terdepan, menjadikannya pilihan paling efisien untuk kebutuhan transkripsi di skala enterprise.

Cakupan bahasa juga diperluas dari 25 menjadi 43 bahasa tanpa mengorbankan akurasi. Ini termasuk bahasa-bahasa yang sebelumnya belum terlayani dengan baik oleh model transkripsi lain, memberikan akses yang lebih luas bagi pengguna di berbagai belahan dunia.

Fitur Keyword Biasing yang Mengubah Permainan

Salah satu fitur paling menarik dari MAI-Transcribe-1.5 adalah Keyword Biasing. Fitur ini memungkinkan pengguna untuk menyediakan daftar istilah khusus domain, seperti nama orang, istilah medis, akronim internal, atau kosakata spesifik perusahaan, yang akan dijadikan acuan oleh model saat melakukan transkripsi.

Yang membedakan pendekatan Microsoft adalah model ini tidak secara membabi buta memaksa kecocokan. Sebaliknya, MAI-Transcribe-1.5 menggunakan konteks kalimat untuk memutuskan kapan keyword biasing harus diterapkan. Hasilnya, pengurangan Word Error Rate hingga 30 persen pada benchmark FLEURS ketika fitur ini diaktifkan.

Untuk menunjukkan kemampuan ini, Microsoft memberikan contoh transkripsi percakapan yang berisi nama-nama sulit seperti Shaun, Aoife, Xochitl, Soren, dan Niamh. Tanpa keyword biasing, model salah mengenali hampir semua nama. Setelah daftar keyword diberikan, seluruh nama tertulis dengan benar.

Integrasi ke Produk Microsoft dan Akses untuk Pengembang

MAI-Transcribe-1.5 tidak hanya tersedia sebagai model mandiri. Microsoft sudah mengintegrasikannya ke dalam produk-produk andalannya. Di Teams, model ini akan meningkatkan akurasi transkripsi rapat dari lima bahasa menjadi lebih dari 70 bahasa. Perubahan ini sangat signifikan bagi perusahaan multinasional yang sering mengadakan rapat dengan peserta dari berbagai negara.

Di GitHub, kemampuan transkripsi ini bisa dimanfaatkan untuk dokumentasi kode berbasis suara. Sementara di Dynamics 365 Contact Centre, model ini membantu meningkatkan kualitas analitik percakapan dengan pelanggan di berbagai bahasa dan aksen.

Untuk pengembang eksternal, model tersedia melalui API di Microsoft Foundry. Microsoft mengklaim MAI-Transcribe-1.5 sebagai model transkripsi tercepat, paling efisien, dan paling hemat biaya di antara semua hyper-scaler. Klaim ini didukung oleh data benchmark yang menunjukkan bahwa model ini unggul dalam rasio akurasi terhadap biaya komputasi.

Optimasi untuk skenario dunia nyata juga patut dicatat. Model ini dirancang untuk menangani transkripsi dengan latar belakang bising, sesuatu yang sering menjadi tantangan bagi model speech-to-text lain. Kemampuan ini membuatnya lebih andal untuk digunakan di lingkungan kerja yang tidak ideal, seperti pabrik, ruang terbuka, atau panggilan dari lokasi dengan koneksi audio yang buruk.

Rencana ke Depan

Microsoft sudah menyiapkan sejumlah fitur tambahan untuk iterasi selanjutnya. Yang pertama adalah diarization, kemampuan untuk mengidentifikasi siapa yang berbicara dalam audio multi-pembicara. Fitur ini sangat penting untuk rapat, wawancara, dan analitik call centre.

Selain itu, Microsoft juga akan merilis native streaming API yang memungkinkan transkripsi real-time untuk aplikasi live dan voice agent. Saat ini, model masih menggunakan pendekatan batch-first. Dukungan bahasa juga akan terus diperluas dengan tingkat akurasi dan ketangguhan yang sama seperti 43 bahasa yang sudah ada.

Bagi pengembang yang ingin mencoba langsung, MAI-Transcribe-1.5 sudah bisa diakses melalui MAI Playground dan dokumentasi API di Microsoft Foundry.***

Read more