10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Cursor披露「自举」训练法:用旧Composer给新模型搭环境,Terminal-Bench涨14个点
据动察 Beating 监测,Cursor 公开了 Composer 系列模型的一个训练技巧:用上一代模型为下一代的强化学习(RL)自动搭建可运行环境。训练 Composer 2 时,Cursor 用 Composer 1.5 来完成这项工作,称之为 autoinstall。
RL 训练需要可运行的代码环境。环境搭不好,模型把 token 浪费在调 bug 上,学不到东西;极端情况下环境彻底跑不通,整轮训练的算力白烧。autoinstall 分两步解决这个问题:第一步,一个 agent 读代码库的文档和配置,提出 10 条验证命令及预期输出;第二步,另一个 agent 拿到其中 3 条命令,从零开始配环境直到命令跑通。第二步最多重试 5 次,全部失败则丢弃该环境。
配环境的过程中,agent 会主动补齐缺失依赖:伪造数据库表、创建 MinIO 配置替代 S3、启 Docker 容器充当 sidecar 服务,甚至生成占位图片。博文以区块链项目 celo-org/celo-monorepo 为例演示了全流程,agent 在第一轮配环境失败后,第二轮自行创建 mock 用户绕过认证,最终跑通测试。
Composer 2 在 Terminal-Bench(测试模型搭建开发环境能力的基准)上得分 61.7%,比 Composer 1.5 的 47.9% 高出近 14 个百分点。Cursor 表示未来计划让旧版 Composer 参与更多训练环节,包括数据预处理、运行管理和架构调优。