Согласно Beating, Thinking Machines, лаборатории, основанной бывшим CTO OpenAI Мирой Мюрати, выпустила предварительную версию исследования своей Interaction-модели, включающей нативную обработку аудио и видео в реальном времени с микро-ответами на 200 миллисекунд. Модель позволяет одновременно слушать, смотреть и говорить, поддерживая прерывания со стороны пользователя в реальном времени.
Модель TML-Interaction-Small использует архитектуру MoE с 276 миллиардами параметров, при этом активируется 12 миллиардов параметров на один вывод. Официальные данные показывают задержку распознавания смены реплик речи 0,40 секунды и результат FD-bench V1.5 77,8 — оба показателя превышают GPT-Realtime-2.0 и Gemini 3.1 Flash Live. Ограниченный доступ к превью планируется в ближайшие месяцы.
Related News
OpenAI тоже пошла по пути Palantir в роли консультанта? Вложила 4 миллиарда долларов в создание независимой компании и направила FDE для глубокой интеграции AI-рабочих процессов в компании
OpenAI запускает компанию по развертыванию Deployment Company на 4 миллиарда долларов: приобретает Tomoro
Сотрудники OpenAI продали акции на $6,6 млрд, в среднем заработав $11 млн на человека