Согласно Sakana AI и KPMG Japan Azsa, компании представили CoffeeBench — многопользовательский долгосрочный экономический бенчмарк, принятый на воркшопе ICML 2026 «Failure Modes in Agentic AI». Фреймворк симулирует цепочку поставок кофе с двумя фермерами, двумя обжарщиками и двумя розничными продавцами, требуя от каждой модели ИИ управлять предприятием по обжарке в течение 90-дневного периода с использованием переговоров о ценах, заказов транзакций и расчетов по платежам.
Горизонтальная оценка основных моделей выявила различия в торговом поведении: GPT-5.5 и Claude Opus 4.7 стремились к активной коммуникации, часто обговаривали цены и совершали сделки для максимизации продаж, в то время как Gemini 3.1 Pro проявлял пассивную реактивность. Примечательно, что Kimi K2.6 совершил множество вызовов инструментов, но не смог обеспечить ценовую дисциплину, что привело к высокому объему транзакций, но нулевой прибыли. Claude Haiku 4.5 продемонстрировал несоответствие между планированием и выполнением, многократно выбирая бездействие, несмотря на разработку надежных стратегий, что в конечном итоге привело к огромным убыткам по мере накопления постоянных затрат.