OpenAI 7 мая (по времени США) на конференции разработчиков объявила о трех новых Realtime-моделях: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Все они открыты для разработчиков через Realtime API. В официальном объявлении OpenAI говорится, что GPT-Realtime-2 — первая голосовая модель OpenAI с уровнем рассуждений, соответствующим GPT-5: она умеет выполнять рассуждения в реальном времени во время голосового диалога, вызывать инструменты, обрабатывать исправления и поддерживать естественный темп общения.
GPT-Realtime-2: context вырос с 32K до 128K, а силу рассуждений можно настраивать в пяти режимах
Ключевые обновления GPT-Realtime-2:
context window: с 32K до 128K токенов
Сила рассуждений настраивается: minimal, low, medium, high, xhigh — пять уровней
Тест Big Bench Audio: при high точность рассуждений 96,6%, для предшественника GPT-Realtime-1.5 — 81,4%
Инструкции по Audio MultiChallenge: xhigh — 48,5%, у предшественника — 34,7%
Больший context и настраиваемая сила рассуждений позволяют разработчикам переключаться между режимом «дешево и быстро» и «глубокое мышление» в зависимости от сценария: для простой поддержки можно использовать minimal, а для сложных задач переключаться на xhigh, чтобы получать качество рассуждений уровня GPT-5.
Параллельно опубликованы две специализированные модели: Translate для перевода между языками и Whisper для мгновенной расшифровки
На этот раз распределение ролей трех новых моделей:
GPT-Realtime-Translate: мгновенный многоязычный голосовой перевод, поддержка 70 языков ввода и 13 языков вывода
GPT-Realtime-Whisper: потоковая расшифровка с низкой задержкой, текст появляется по мере произнесения, подходит для живых субтитров, записи встреч, а также покадровых расшифровок уроков
GPT-Realtime-2: полноценный диалоговый Agent, умеет рассуждать, использовать инструменты и выполнять действия
Translate и Whisper — модели, оптимизированные под конкретные голосовые сценарии: перевод и расшифровка требуют более чувствительных к задержкам и стоимости параметров, чем универсальный диалог, поэтому отдельные модели позволяют оптимизировать собственные метрики.
Ценообразование: GPT-Realtime-2 — 32 доллара за миллион входящих токенов, 64 доллара за миллион выходных
Структура цен трех моделей:
GPT-Realtime-2: 32 доллара за миллион аудиовхода, cached-ввод 0,40 доллара, выход 64 доллара
GPT-Realtime-Translate: 0,034 доллара в минуту
GPT-Realtime-Whisper: 0,017 доллара в минуту
Конкретные события, за которыми стоит следить дальше: реальное внедрение GPT-Realtime-2 в производственных голосовых Agent-сценариях, степень cannibalization по сравнению с существующими голосовыми моделями GPT-4o, а также реакция конкурентов вроде Anthropic и Google.
Эта статья про то, как OpenAI продвигает GPT-Realtime-2: перенос рассуждений GPT-5 в голосовые Agent и рост context до 128K, впервые появилась в Lianxin ABMedia.
Related News
NVIDIA представила Nemotron 3 Nano Omni — открытый мультимодальный проект
DevDay 2026 от OpenAI пройдет 29 сентября в Сан-Франциско
OpenAI представляет ChatGPT Futures: 26 студентов первого набора получили гранты по 10k долларов, охватившие более 20 университетов
OpenAI публикует протокол сети суперкомпьютера MRC! В сотрудничестве с Nvidia, AMD и Microsoft создаёт базовую инфраструктуру Stargate
ChatGPT выходит в Excel и Google Sheets: GPT-5.5 заходит напрямую в таблицы, а Copilot и Gemini сталкиваются друг с другом в трёхстороннем сравнении