Baidu выпустила PP-OCRv6 с поддержкой 50 языков; параметры уровня 10 млн соответствуют VLM на уровне миллиардов

Команда PaddlePaddle от Baidu недавно выпустила PP-OCRv6 — новую систему оптического распознавания символов (OCR) с тремя версиями: Tiny (1,5 млн параметров), Small (7,7 млн) и Medium (34,5 млн). Модель Medium обеспечивает прирост на 4,6% в точности детекции и на 5,1% в точности распознавания по сравнению с PP-OCRv5, при этом объединяя в одном едином модели китайский, английский, японский и 46 языков латинской письменности.

Система использует техники структурной репараметризации, чтобы снизить вычислительные затраты и при этом повысить точность. При оптимизации под OpenVINO версия Medium достигает до 5,2x более быстрой инференции на CPU. Согласно официальным бенчмаркам, PP-OCRv6 соответствует или превосходит производительность некоторых моделей «зрение-язык» с миллиардами параметров, при том что использует лишь миллионы параметров. Код был интегрирован в проект PaddleOCR с открытым исходным кодом.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев