OpenAI meluncurkan mode suara tingkat lanjut pada tanggal 24 September 2024, yang menandai perkembangan signifikan dalam teknologi AI percakapan. Pembaruan ini terungkap dalam tangkapan layar yang dibagikan oleh seorang pengguna di X (sebelumnya Twitter). Menurut posting blog terlampir, fitur suara tersebut awalnya hanya akan tersedia untuk sekelompok pengguna tertentu melalui rilis alfa terbatas.
Meskipun pelanggan ChatGPT Plus jangka panjang dan peserta uji beta sebelumnya, seperti SearchGPT, lebih mungkin dipilih, akses akan ditentukan oleh beberapa kriteria. Perusahaan telah menyatakan bahwa tidak semua pengguna akan menerima mode suara saat peluncuran.
GPT-40 OpenAI, yang diluncurkan pada acara Spring Update, telah memamerkan kapabilitas multimoda yang mengesankan, termasuk fungsionalitas teks, visual, dan audio. Demo terjemahan real-time, bantuan kode, bimbingan belajar, puisi, dan nyanyian menarik perhatian luas. Akan tetapi, terlepas dari berbagai kemajuan ini, fitur suara yang sangat dinanti-nantikan tidak menjadi bagian dari rilis tersebut.
Beberapa bulan yang lalu, ketika CEO OpenAI Sam Altman ditanya tentang pembaruan suara, ia menjawab dengan nada jenaka, “Bagaimana kalau kita bersyukur selama beberapa minggu atas kecerdasan ajaib di langit, dan kemudian kita bisa segera memiliki lebih banyak mainan?”
Persaingan Semakin Panas
Seiring dengan meningkatnya persaingan, OpenAI meluncurkan mode suara tingkat lanjut untuk memenuhi permintaan yang terus meningkat akan kemampuan suara. Sementara OpenAI telah bersiap untuk meluncurkan Mode Suara Tingkat Lanjut, persaingan di bidang AI telah meningkat secara signifikan. Kyutai, sebuah laboratorium penelitian AI nirlaba Prancis, memperkenalkan Moshi, sebuah model AI multimoda yang mampu melakukan percakapan secara langsung dengan pengguna. Model ini serupa dengan visi yang dimaksudkan OpenAI untuk fitur suaranya yang akan datang.
Pada saat yang sama, Hume AI meluncurkan EVI 2, model AI suara-ke-suara yang mendasar. Tersedia dalam versi beta, EVI 2 menjanjikan percakapan yang lebih alami dan mirip manusia. Ia dapat terlibat dalam interaksi yang lancar dan cepat, menyesuaikan nada dan gayanya berdasarkan preferensi pengguna. EVI 2 mencakup kemampuan multibahasa dan dilatih untuk mempertahankan kepribadian dan suara tertentu bagi pengguna, mencegah kloning suara untuk memastikan privasi dan keamanan. Salah satu fitur menonjol EVI 2 adalah sistem modulasi suara eksperimentalnya, yang memungkinkan pengembang menyesuaikan suara dengan menyesuaikan elemen-elemen seperti jenis kelamin, nada, dan nasalitas.
Sementara itu, Amazon telah bekerja sama dengan perusahaan rintisan keamanan AI Anthropic untuk meningkatkan kemampuan percakapan asisten virtualnya, Alexa.
Google juga telah meningkatkan kemampuannya, merilis Astra, agen AI dari keluarga model Gemini. Pemrosesan multimoda canggih Astra memungkinkannya untuk menafsirkan dan menanggapi masukan teks, audio, video, dan visual secara bersamaan, menawarkan solusi AI yang serbaguna.
Keunggulan Kompetitif: Apakah OpenAI Tertinggal?
Dengan fitur-fiturnya yang inovatif, OpenAI meluncurkan mode suara tingkat lanjut, yang menjanjikan pengalaman pengguna yang lebih alami. Sementara OpenAI telah mengerjakan fitur-fitur suaranya, perusahaan-perusahaan lain telah membuat langkah-langkah signifikan. Misalnya, EVI 2 milik Hume AI telah memperkenalkan model suara-ke-suara yang sangat dapat disesuaikan, yang dirancang untuk mensimulasikan interaksi yang lebih mirip manusia. Dengan kemampuannya untuk menyesuaikan karakteristik suara seperti nada, nasalitas, dan gender, EVI 2 menawarkan fleksibilitas kepada pengembang yang belum ditunjukkan oleh OpenAI. Kustomisasi suara semacam ini dapat menjadi kunci dalam industri-industri seperti hiburan, layanan pelanggan, dan pendidikan.
Lebih jauh, Moshi dari Kyutai dan Astra dari Google telah memasuki ruang AI percakapan waktu nyata, menawarkan kemampuan suara serupa yang masih ditunggu-tunggu oleh pengguna OpenAI. Lanskap persaingan menunjukkan bahwa OpenAI mungkin mengejar ketertinggalan dalam ruang AI suara. Sementara reputasi perusahaan dan keberhasilan sebelumnya dengan GPT-40 menguntungkannya, perkembangan pesat oleh para pesaing menunjukkan bahwa pasar tidak akan menunggu. Jika OpenAI tidak segera membuat mode suaranya dapat diakses secara luas, keterlambatan masuknya dapat mengurangi dampaknya, terutama ketika perusahaan seperti Amazon bermitra dengan Anthropic untuk meningkatkan asisten suara mereka.
Seiring peluncuran mode suara OpenAI, ia memasuki lanskap kompetitif di mana berbagai perusahaan teknologi berupaya keras untuk membuat AI lebih komunikatif, interaktif, dan mirip manusia. Dengan beberapa fitur baru yang sedang dikembangkan, persaingan untuk mendominasi pasar AI suara semakin memanas.
Baca Juga: Bapak AI Memberi Peringatan Tentang Model Baru OpenAI dan Potensi Risikonya.