百度发布 PP-OCRv6,支持 50 种语言,10M 级参数匹配百亿级 VLMs

百度的 PaddlePaddle 团队最近发布了 PP-OCRv6,这是一套新的 OCR 系统,提供三个版本:Tiny(1.5M 参数)、Small(7.7M)和 Medium(34.5M)。与 PP-OCRv5 相比,Medium 模型在检测准确率方面提升了 4.6%,在识别准确率方面提升了 5.1%,同时将中文、英文、日文以及 46 种拉丁字母脚本语言整合为一个统一模型。

该系统采用结构重参数化技术,以降低计算开销并提升准确率。在 OpenVINO 优化下,Medium 版本的 CPU 推理速度最高可提升 5.2 倍。根据官方基准测试,尽管仅使用数百万参数,PP-OCRv6 仍能与部分十亿级参数的视觉-语言模型相匹敌或超过其性能。代码已集成进开源的 PaddleOCR 项目中。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论