Согласно Sakana AI и KPMG Japan Azsa, компании представили CoffeeBench — многопользовательский долгосрочный экономический бенчмарк, принятый на воркшопе ICML 2026 «Failure Modes in Agentic AI». Фреймворк симулирует цепочку поставок кофе с двумя фермерами, двумя обжарщиками и двумя розничными продавцами, требуя от каждой модели ИИ управлять предприятием по обжарке в течение 90-дневного периода с использованием переговоров о ценах, заказов транзакций и расчетов по платежам.

Горизонтальная оценка основных моделей выявила различия в торговом поведении: GPT-5.5 и Claude Opus 4.7 стремились к активной коммуникации, часто обговаривали цены и совершали сделки для максимизации продаж, в то время как Gemini 3.1 Pro проявлял пассивную реактивность. Примечательно, что Kimi K2.6 совершил множество вызовов инструментов, но не смог обеспечить ценовую дисциплину, что привело к высокому объему транзакций, но нулевой прибыли. Claude Haiku 4.5 продемонстрировал несоответствие между планированием и выполнением, многократно выбирая бездействие, несмотря на разработку надежных стратегий, что в конечном итоге привело к огромным убыткам по мере накопления постоянных затрат.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

7ч назад

iFLYTEK запускает платформу Procurement AI Agent 2.0 с более чем 200 развернутыми агентами

11ч назад

Платформа Codex от OpenAI обеспечивает 97,9% рабочего объема во всех отделах по состоянию на июнь 2026 года.

21ч назад

Fortune запускает AI-бот-инструмент, завершает интеграцию ликвидности Predict.fun

21ч назад

Meituan LongCat открывает исходный код VitaBench 2.0 для долгосрочного моделирования пользователей

06-25 09:42

World расширяет доступ к Agentkit 24 июня, AI-агенты обрабатывают покупки в 4 странах с тестовой партией из 500 шляп

Детальный анализ