OpenAI 7 мая (по времени США) на конференции разработчиков объявила о трех новых Realtime-моделях: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Все они открыты для разработчиков через Realtime API. В официальном объявлении OpenAI говорится, что GPT-Realtime-2 — первая голосовая модель OpenAI с уровнем рассуждений, соответствующим GPT-5: она умеет выполнять рассуждения в реальном времени во время голосового диалога, вызывать инструменты, обрабатывать исправления и поддерживать естественный темп общения.

GPT-Realtime-2: context вырос с 32K до 128K, а силу рассуждений можно настраивать в пяти режимах

Ключевые обновления GPT-Realtime-2:

context window: с 32K до 128K токенов

Сила рассуждений настраивается: minimal, low, medium, high, xhigh — пять уровней

Тест Big Bench Audio: при high точность рассуждений 96,6%, для предшественника GPT-Realtime-1.5 — 81,4%

Инструкции по Audio MultiChallenge: xhigh — 48,5%, у предшественника — 34,7%

Больший context и настраиваемая сила рассуждений позволяют разработчикам переключаться между режимом «дешево и быстро» и «глубокое мышление» в зависимости от сценария: для простой поддержки можно использовать minimal, а для сложных задач переключаться на xhigh, чтобы получать качество рассуждений уровня GPT-5.

Параллельно опубликованы две специализированные модели: Translate для перевода между языками и Whisper для мгновенной расшифровки

На этот раз распределение ролей трех новых моделей:

GPT-Realtime-Translate: мгновенный многоязычный голосовой перевод, поддержка 70 языков ввода и 13 языков вывода

GPT-Realtime-Whisper: потоковая расшифровка с низкой задержкой, текст появляется по мере произнесения, подходит для живых субтитров, записи встреч, а также покадровых расшифровок уроков

GPT-Realtime-2: полноценный диалоговый Agent, умеет рассуждать, использовать инструменты и выполнять действия

Translate и Whisper — модели, оптимизированные под конкретные голосовые сценарии: перевод и расшифровка требуют более чувствительных к задержкам и стоимости параметров, чем универсальный диалог, поэтому отдельные модели позволяют оптимизировать собственные метрики.

Ценообразование: GPT-Realtime-2 — 32 доллара за миллион входящих токенов, 64 доллара за миллион выходных

Структура цен трех моделей:

GPT-Realtime-2: 32 доллара за миллион аудиовхода, cached-ввод 0,40 доллара, выход 64 доллара

GPT-Realtime-Translate: 0,034 доллара в минуту

GPT-Realtime-Whisper: 0,017 доллара в минуту

Конкретные события, за которыми стоит следить дальше: реальное внедрение GPT-Realtime-2 в производственных голосовых Agent-сценариях, степень cannibalization по сравнению с существующими голосовыми моделями GPT-4o, а также реакция конкурентов вроде Anthropic и Google.

Эта статья про то, как OpenAI продвигает GPT-Realtime-2: перенос рассуждений GPT-5 в голосовые Agent и рост context до 128K, впервые появилась в Lianxin ABMedia.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-08 02:01

OpenAI переключает ChatGPT на модель GPT-5.5 по умолчанию — мгновенно, снижает галлюцинации на 52,5%

05-08 01:25

OpenAI выпускает три голосовые модели в Realtime API; GPT-Realtime-2 предлагает контекстное окно на 128K

05-08 00:08

OpenAI запускает модель GPT-5.5-Cyber и фреймворк Trusted Access для защитников кибербезопасности

Связанные статьи

NVIDIA представила Nemotron 3 Nano Omni — открытый мультимодальный проект

ChainNewsAbmedia05-07 10:56

DevDay 2026 от OpenAI пройдет 29 сентября в Сан-Франциско

ChainNewsAbmedia05-07 10:51