据Sakana AI与KPMG Japan Azsa,两家公司推出了CoffeeBench,这是一个由ICML 2026的Agentic AI失效模式研讨会收录的多智能体长期经济学基准。该框架模拟了一个包含两名农民、两名烘焙商和两名零售商的咖啡供应链,要求每个AI模型在90天内通过定价谈判、订单交易和支付结算来运营一家烘焙业务。
对主流模型的横向评估揭示了不同的交易行为:GPT-5.5和Claude Opus 4.7采取主动沟通,频繁谈判价格并执行交易以最大化销售额,而Gemini 3.1 Pro则表现出被动响应性。值得注意的是,Kimi K2.6进行了大量工具调用,但未能执行定价纪律,导致交易量高但利润为零。Claude Haiku 4.5表现出规划与执行的脱节,尽管制定了坚实的策略却反复选择不作为,最终因固定成本累积而遭受巨额亏损。