Gate 新闻消息,4月23日——Google 研究人员(包括何凯明和谢赛宁)发布了一篇论文,介绍 Vision Banana,这是一种通用型视觉理解模型,通过对该公司 Nano Banana Pro (Gemini 3 Pro Image) 图像生成模型进行轻量指令微调而创建。关键创新将所有视觉任务的输出统一为 RGB 图像,使得在不需要任务特定架构或损失函数的情况下,通过图像生成即可实现分割、深度估计和表面法线预测。
在语义分割方面,Vision Banana 在 Cityscapes 上比专门模型 SAM 3 高 4.7 个百分点;在指列表达式分割(referring expression segmentation)方面,它超过了 SAM 3 Agent。不过,在实例分割(instance segmentation)方面,它落后于 SAM 3。对于 3D 任务,度量深度估计在四个标准数据集上取得了 0.929 的平均准确率,超过 Depth Anything V3 的 0.918;推理时仅使用合成数据,无需真实深度信息或相机参数。表面法线估计在三个室内基准测试上达到了最先进的结果。
微调过程仅将少量视觉任务数据混入原始图像生成训练,从而保留了模型的生成能力——在生成质量测试中,其性能与原始 Nano Banana Pro 相当。论文提出,视觉中的图像生成预训练与语言中的文本生成预训练相类似:模型在生成过程中学习图像理解所需的内部表征,而指令微调只是释放这种能力。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Sierra 募资 9.5 亿美元、估值 158 亿美元:Bret Taylor 以 OpenAI 主席身分抢夺 AI 客服龙头
Sierra 由 Bret Taylor 共同创办,宣布完成 9.5 亿美元 Series E、估值 158 亿美元,由 Tiger Global 与 GV 首投。8 季达成 1.5 亿 ARR、Fortune 50 渗透率超过 40%。定位为以 AI agent 为核心的垂直企业客服平台,提供即用型工作流。Taylor 同时为 OpenAI 董事长,治理与利益披露成焦点。
鏈新聞abmedia36 分钟前
OpenAI 重构 WebRTC 语音堆栈:9 亿周活用户、Go 编写的 Relay 为核心
OpenAI 发布了一款使用 Go 编写的瘦型 relay 以及集中式 transceiver 架构,重构 WebRTC 媒体层以支撑每周 9 亿活跃用户的语音服务。状态密集的连接集中在 transceiver,relay 是无状态数据平面,解决每个端口一 session、ICE/DTLS 拥有者以及低首跳延迟等瓶颈,便于横向扩展。后续将观察是否开源、Realtime API 的规模与定价,以及竞争对手的跟进。
鏈新聞abmedia38 分钟前
Gemini API 推出 Webhooks:Google 解决长期任务轮询痛点、Batch/Veo 可即时推送
Google Gemini API 于 5 月 4 日推出 Webhooks。长任务完成时会自动将结果推送到 callback URL,替代轮询,降低资源和延迟、简化程序。适用于 Batch API、Veo2 和长 context 推理,特别适合 serverless。相较 OpenAI 偏 SSE、Anthropic 仍使用轮询,Google 强调开发者基础设施。未来关注安全机制与扩展模型。对台湾开发者而言,立即整合可显著降低 quota 和系统负载。
鏈新聞abmedia40 分钟前
Krutrim 于 5 月 5 日转向 AI 云服务,并发布首份盈利,随着 FY26 营收达到 3160 万美元
据 Press Trust of India 报道,印度 AI 公司 Krutrim 于 5 月 5 日将自身重新定位为本土 AI 云服务提供商,暂停芯片设计工作,并将资本和人才转向云基础设施。
该公司公布的 26 财年收入约为 30 亿卢比(US$31.6 m
GateNews1小时前
Haun Ventures 于 5 月 5 日完成 10 亿美元基金收盘,瞄准加密和 AI 初创公司
据 Cointelegraph 报道,Haun Ventures 于 5 月 5 日完成为一只新基金募集 10 亿美元,资金将平均分配用于早期和晚期投资。该基金将聚焦于加密、人工智能和替代行业领域
GateNews2小时前
Anthropic、OpenAI 投资自 2026 年开始以来在零售加密交易中累计超过 11 亿美元
据彭博报道,自 2026 年初以来,散户投资者已向私营 AI 公司衍生品的杠杆交易投入约 11.3 亿美元。加密平台 Ventuals 和 PreStocks 支持 24 小时交易,包括 Anthropic、OpenAI 和 SpaceX 等公司,同时不授予直接的交易权限。
GateNews2小时前