L’équipe de PaddlePaddle de Baidu a récemment publié PP-OCRv6, un nouveau système d’OCR proposant trois versions : Tiny (1,5 million de paramètres), Small (7,7 millions) et Medium (34,5 millions). Le modèle Medium offre une amélioration de 4,6 % de la précision de détection et de 5,1 % de la précision de reconnaissance par rapport à PP-OCRv5, tout en intégrant le chinois, l’anglais, le japonais et 46 langues en écriture latine dans un seul modèle unifié.
Le système utilise des techniques de reparamétrisation structurelle pour réduire la charge de calcul tout en améliorant la précision. Avec l’optimisation OpenVINO, la version Medium atteint jusqu’à 5,2× une vitesse d’inférence CPU plus rapide. D’après les benchmarks officiels, PP-OCRv6 correspond ou dépasse les performances de certains modèles vision-langage à plusieurs milliards de paramètres malgré l’utilisation de seulement quelques millions de paramètres. Le code a été intégré au projet open source PaddleOCR.