Chatterbox v3: TTS Open-Source 25 Bahasa dengan Watermarking Otomatis, Gratis Dipakai

Share
Chatterbox v3: TTS Open-Source 25 Bahasa dengan Watermarking Otomatis, Gratis Dipakai

Chatterbox v3: TTS Open-Source 25 Bahasa dengan Watermarking Otomatis, Gratis Dipakai

CLB.my.id - Resemble AI merilis Chatterbox Multilingual v3, model text-to-speech open-source yang mendukung 25 bahasa dengan watermarking audio otomatis di setiap output. Model ini menggunakan backbone Llama 0,5 miliar parameter dan dilisensikan di bawah MIT, menjadikannya salah satu TTS multilingual paling terbuka yang tersedia saat ini.

Perilisan ini disertai integrasi NVIDIA NIM untuk deployment enterprise dan tersedia langsung di katalog build NVIDIA. Bagi pengembang yang membutuhkan TTS berkualitas tinggi tanpa biaya lisensi, Chatterbox v3 menawarkan kombinasi langka antara kualitas suara, cakupan bahasa, dan kepatuhan regulasi.

Watermarking Bukan Lagi Opsional

Fitur paling signifikan di v3 bukan hanya kualitas suara, tetapi watermarking PerTh yang aktif secara default di setiap audio yang dihasilkan. Watermark ini menancapkan sinyal yang tidak terdengar oleh telinga manusia ke dalam gelombang suara saat generasi berlangsung.

Sinyal ini tahan terhadap manipulasi umum seperti kompresi MP3 dan Opus, codec telepon, editing, dan konversi format. Pustaka deteksinya juga open-source di GitHub, memungkinkan siapa pun memverifikasi apakah sebuah audio dibuat oleh Chatterbox.

Kebutuhan watermarking semakin mendesak seiring berlakunya regulasi baru. EU AI Act Article 50 yang efektif Agustus 2026 dan TAKE IT DOWN Act di AS mewajibkan penandaan yang bisa dibaca mesin pada konten audio buatan AI. Chatterbox v3 langsung memenuhi persyaratan ini tanpa perlu konfigurasi tambahan.

Peningkatan Kualitas di 25 Bahasa

Chatterbox v3 dibangun di atas fondasi v2 dengan data pelatihan yang diperluas dari 25.600 menjadi 36.700 jam. Tim pengembang memperbaiki masalah yang dilaporkan pengguna v2 seperti kelanjutan di luar prompt, pengulangan, drift aksen, dan penurunan kemiripan penutur lintas bahasa.

Hasilnya dibagi menjadi beberapa tingkat berdasarkan Character Error Rate (CER). Bahasa seperti Italia, Jerman, Spanyol Latin, Mandarin, dan Inggris berada di bawah 1% CER yang berarti siap produksi. Sementara bahasa seperti Ceko (32,21%), Jepang (21,87%), dan Korea (70,90%) masih memerlukan perbaikan signifikan.

Enam model Single-Language Pack juga tersedia untuk bahasa prioritas. Model Mandarin mencapai CER 0,69%, Spanyol Eropa 0,62%, dan Portugis Brasil 0,35%. Pack ini memberikan kualitas mendekati penutur asli untuk bahasa-bahasa yang membutuhkan presisi tinggi.

Performa dan Deployment

Dari sisi latensi, Chatterbox v3 mencapai Time-to-First-Byte sekitar 280 milidetik, di bawah ambang percakapan natural 300 milidetik. Model ini menghasilkan audio 5 kali lebih cepat dari real-time pada GPU H100 tanpa optimasi khusus.

Untuk deployment enterprise, integrasi NVIDIA NIM menawarkan throughput 2 hingga 39 kali lebih tinggi dibanding PyTorch yang belum dioptimasi. Konfigurasi ini menyediakan batching yang dioptimasi, autoscaling, dan pembaruan keamanan secara berkala.

Keterbatasan yang Perlu Diperhatikan

Korea dan Vietnam belum layak untuk penggunaan komersial karena keterbatasan data pelatihan berkualitas tinggi. Ceko, Jepang, dan Finlandia bisa digunakan dengan catatan, sementara metrik evaluasi saat ini hanya berbasis CER yang mengukur keterbacaan tetapi belum menangkap prosodi dan naturalitas suara.

Pengembang berencana menambahkan evaluasi subjektif MOS dan metrik kemiripan penutur di pembaruan berikutnya. Watermarking juga akan diperluas untuk atribusi tenant dan ketahanan adversarial.

Chatterbox v3 tersedia sekarang melalui repository open-source dan API gratis di situs Resemble AI. Untuk deployment NVIDIA NIM dengan fitur watermarking, pengguna perlu menghubungi Resemble AI untuk mendapatkan kunci API Watermarker.***

Read more