Kabarinaja.id – OpenAI pada tahun 2026 kembali memperkuat pengembangan teknologi kecerdasan buatan berbasis suara melalui peluncuran GPT-Realtime-2. Model AI terbaru ini di rancang untuk menghadirkan pengalaman percakapan audio yang lebih alami, responsif, dan mampu memahami konteks secara real-time.
Peluncuran tersebut di umumkan lewat pembaruan API bertajuk “Advancing Voice Intelligence with New Models in the API” yang di rilis pada Rabu (13/5/2026). Bersamaan dengan itu, OpenAI juga memperkenalkan dua model baru lain, yakni GPT-Realtime-Translate dan GPT-Realtime-Whisper.
Ketiga model tersebut dinsiapkan untuk mendukung perkembangan layanan berbasis suara seperti customer service otomatis, asisten virtual pintar, hingga agen AI percakapan yang mampu merespons pengguna secara langsung tanpa jeda panjang.
GPT-Realtime-2 Bawa Penalaran Setara GPT-5
GPT-Realtime-2 menjadi model yang paling banyak mendapat perhatian karena di sebut sebagai teknologi audio pertama OpenAI yang membawa kemampuan reasoning kelas GPT-5 ke dalam percakapan suara.
Model ini mampu memahami konteks dialog yang panjang, merespons interupsi pengguna dengan lebih fleksibel, serta menjalankan perintah selama percakapan berlangsung. OpenAI menilai kemampuan tersebut membuat interaksi AI terasa jauh lebih natural di banding voice assistant generasi sebelumnya.
Teknologi speech-to-speech yang di gunakan juga memungkinkan sistem memproses suara secara langsung tanpa harus mengubah audio menjadi teks terlebih dahulu. Pendekatan ini di klaim mampu memangkas latensi sehingga respons AI terdengar lebih cepat dan menyerupai percakapan manusia.
Perkembangan model suara berbasis AI memang menjadi fokus baru industri teknologi global sepanjang 2025 hingga 2026. Banyak perusahaan teknologi berlomba menghadirkan asisten digital yang bukan hanya bisa menjawab pertanyaan, tetapi juga memahami emosi, konteks, dan pola komunikasi pengguna secara lebih realistis.
Hadirkan Fitur Terjemahan dan Transkripsi Real-Time
Tak hanya fokus pada percakapan suara, OpenAI juga menghadirkan GPT-Realtime-Translate yang di fokuskan untuk kebutuhan penerjemahan audio lintas bahasa secara langsung.
Model tersebut mendukung lebih dari 70 bahasa input dan 13 bahasa output. Teknologi ini di proyeksikan dapat dimanfaatkan untuk komunikasi internasional, layanan pelanggan global, hingga kebutuhan meeting lintas negara secara instan.
Sementara GPT-Realtime-Whisper di kembangkan untuk transkripsi audio streaming real-time. Fitur itu memungkinkan pengguna mendapatkan caption otomatis, dokumentasi rapat, hingga live note-taking saat konferensi berlangsung.
Kebutuhan transkripsi otomatis sendiri terus meningkat seiring tren kerja hybrid dan pertemuan virtual yang kini menjadi bagian dari aktivitas bisnis modern. Teknologi AI audio dinilai mampu memangkas waktu pencatatan manual sekaligus meningkatkan efisiensi dokumentasi.
Performa Meningkat dan Sudah Tersedia di API
OpenAI mengungkapkan GPT-Realtime-2 menunjukkan peningkatan performa signifikan di banding generasi sebelumnya. Dalam pengujian Big Bench Audio, versi GPT-Realtime-2 high mencatat skor 15,2 persen lebih tinggi di banding GPT-Realtime-1.5.
Seluruh model terbaru tersebut kini sudah tersedia melalui layanan Realtime API milik OpenAI untuk para pengembang aplikasi.
Untuk biaya penggunaan, GPT-Realtime-2 dipatok sebesar US$32 per 1 juta token input audio dan US$64 per 1 juta token output audio. Tarif token cache input di banderol US$0,40 per 1 juta token.
Sementara GPT-Realtime-Translate di kenakan biaya US$0,034 per menit. Adapun GPT-Realtime-Whisper di pasarkan dengan harga US$0,017 per menit penggunaan.
Kehadiran model-model baru ini memperlihatkan persaingan teknologi AI suara yang semakin agresif. Industri kini bergerak menuju era asisten virtual yang bukan hanya mampu berbicara, tetapi juga memahami konteks percakapan layaknya komunikasi antarmanusia.(Tim)








