Thinking Machines запускает модель взаимодействия с откликом 200 мс, опережая GPT-Realtime-2.0

Согласно Beating, Thinking Machines, лаборатории, основанной бывшим CTO OpenAI Мирой Мюрати, выпустила предварительную версию исследования своей Interaction-модели, включающей нативную обработку аудио и видео в реальном времени с микро-ответами на 200 миллисекунд. Модель позволяет одновременно слушать, смотреть и говорить, поддерживая прерывания со стороны пользователя в реальном времени.

Модель TML-Interaction-Small использует архитектуру MoE с 276 миллиардами параметров, при этом активируется 12 миллиардов параметров на один вывод. Официальные данные показывают задержку распознавания смены реплик речи 0,40 секунды и результат FD-bench V1.5 77,8 — оба показателя превышают GPT-Realtime-2.0 и Gemini 3.1 Flash Live. Ограниченный доступ к превью планируется в ближайшие месяцы.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев