Sakana AI и KPMG представляют CoffeeBench, 90-дневную симуляцию торговли AI-агентов; GPT-5.5 и Claude демонстрируют контрастные стратегии.

Согласно Sakana AI и KPMG Japan Azsa, компании представили CoffeeBench — многопользовательский долгосрочный экономический бенчмарк, принятый на воркшопе ICML 2026 «Failure Modes in Agentic AI». Фреймворк симулирует цепочку поставок кофе с двумя фермерами, двумя обжарщиками и двумя розничными продавцами, требуя от каждой модели ИИ управлять предприятием по обжарке в течение 90-дневного периода с использованием переговоров о ценах, заказов транзакций и расчетов по платежам.

Горизонтальная оценка основных моделей выявила различия в торговом поведении: GPT-5.5 и Claude Opus 4.7 стремились к активной коммуникации, часто обговаривали цены и совершали сделки для максимизации продаж, в то время как Gemini 3.1 Pro проявлял пассивную реактивность. Примечательно, что Kimi K2.6 совершил множество вызовов инструментов, но не смог обеспечить ценовую дисциплину, что привело к высокому объему транзакций, но нулевой прибыли. Claude Haiku 4.5 продемонстрировал несоответствие между планированием и выполнением, многократно выбирая бездействие, несмотря на разработку надежных стратегий, что в конечном итоге привело к огромным убыткам по мере накопления постоянных затрат.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев