Google DeepMind выпустила ИИ со-математика — многoагентного исследовательского помощника по математике, достигнув 47,9% точности в бенчмарке FrontierMath Tier 4, превзойдя предыдущий рекорд GPT-5.5 Pro (39,6%) от 9 мая. Система решила 23 из 48 задач, включая 3, которые до этого не смогли решить ни одна из предыдущих моделей. Построенная на Gemini 3.1 Pro архитектура использует иерархический дизайн: агент-координатор проекта распределяет задачи между субагентами, отвечающими за извлечение литературы, кодирование и рассуждения; перед подачей несколько агентов-ревьюеров валидируют доказательства.
Epoch AI провела слепое тестирование, не позволяя команде DeepMind видеть задачи, при этом на каждый вопрос отводилось по 48 часов вычислений. В реальном применении математик Марк Лакенби использовал систему, чтобы разрешить открытую гипотезу из Kourovka Notebook, демонстрируя ее практическую исследовательскую ценность. Сейчас система доступна ограниченному числу математиков в рамках бета-тестирования.
Related News
Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом
OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям
Киберзащитников вооружает GPT-5.5-Cyber от OpenAI