Gate News 消息,4月27日——Google DeepMind 的资深产品经理、Google AI Studio 的产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应当建立各自的定制基准,用于衡量 AI 模型的性能。他将其描述为一种方法:让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”
目前,多数公司依赖公开排行榜来选择 AI 模型,但这些排行榜衡量的是通用能力,而往往与特定的业务场景不匹配。Kilpatrick 举了一个合同审查公司的例子,该公司最关心的是条款提取的准确性——这一能力在公开基准中缺失,因而无法评估模型在该任务上的表现。定制基准带来两项关键优势:首先,它们使公司能够针对自身的业务任务来评估每一次模型更新,并选择在其实际用例中表现最佳的模型,而不是只看总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而推动在对公司业务而言重要的领域实现持续优化。
Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在实施这种做法,并表示“这里可以创造出大量的 alpha”。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
法律 AI 初创公司 Jurisphere 从 InfoEdge 和 Flourish Ventures 融资 220 万美元
据 Jurisphere 称,这家法律 AI 初创公司已从 InfoEdge Ventures 和 Flourish Ventures 获得 220 万美元融资。该资金将用于支持平台扩张,并推出一个市场平台,通过其 AI 工作区将客户与律师连接起来。Jurisphere 的软件目前
GateNews1小时前
香港投资推广署启动第九个快速通道计划 2026,覆盖包括区块链在内的 8 个领域
根据香港投资推广署,第九届“快速通道”项目 2026 于 5 月 5 日开放报名,申请截止日期为 9 月 25 日。该项目首次推出八个领域,包括区块链与数字资产、金融科技和保险科技、人工智能应用于
GateNews1小时前
Anthropic 神話太強大!白宮擬要求新 AI 模型发布前通过政府安全審查
由于 Anthropic Mythos 的强大能力及安全风险,美国白宫考虑在新 AI 模型公开前实施政府审查,成立跨部门审核小组,参考英国模式统一标准。政策转向与以往放任形成鲜明对比。Anthropic 与五角大楼的合约及国安风险争议仍在延续,军民用 AI 合作加速,平衡创新与安全仍是难题。
鏈新聞abmedia2小时前
OpenClaw 于 5 月 5 日发布 2026.5.4 版本,优化插件安装和网关启动
根据 BlockBeats,OpenClaw 于 5 月 5 日发布版本 2026.5.4,重点改进插件安装、网关启动和平台稳定性。该更新包含在 npm 与 ClawHub 之间更顺畅的插件包恢复、更快的网关启动路径,并减少冷启动扫描造成的影响 ov
GateNews2小时前
Vobiz.ai 为语音 AI 基础设施获得 $1M 种子轮融资
总部位于班加罗尔的 Vobiz.ai 是一家面向语音 AI 的电话基础设施初创公司,根据公司消息,该公司已在种子轮融资中筹集 100 万美元,领投方为 Piper Serica VC Fund。Vobiz 由此前曾任 Plivo 和 Finin 高管的 Suman Gandham 以及 Vikash Srivastava 创立。Vobiz
GateNews2小时前
OpenAI 总裁 Brockman 法庭揭露持股 300 亿美元、与 Altman 私人投资高度交织
5月4日 Musk 诉讼法庭揭露 Greg Brockman 持有约300亿美元的 OpenAI 股权,与 Sam Altman 的私人投资高度交织,涉及 Cerebras、Helion Energy 及 Altman 家族基金三项利益。此交织被视为 Brockman 支持营利化的动机证据,也触及 OpenAI 从非营利转为营利的治理争议。
鏈新聞abmedia2小时前