A equipe do PaddlePaddle, da Baidu, lançou recentemente o PP-OCRv6, um novo sistema de OCR que oferece três versões: Tiny (1,5 milhão de parâmetros), Small (7,7 milhões) e Medium (34,5 milhões). O modelo Medium proporciona uma melhoria de 4,6% na acurácia de detecção e de 5,1% na acurácia de reconhecimento em comparação ao PP-OCRv5, ao mesmo tempo em que integra chinês, inglês, japonês e 46 idiomas com alfabeto latino em um único modelo unificado.
O sistema usa técnicas de reparametrização estrutural para reduzir a carga computacional e aumentar a precisão. Com otimização do OpenVINO, a versão Medium alcança até 5,2x de velocidade mais rápida na inferência em CPU. De acordo com benchmarks oficiais, o PP-OCRv6 atinge ou supera o desempenho de alguns modelos de visão e linguagem com bilhões de parâmetros, apesar de usar apenas milhões de parâmetros. O código foi integrado ao projeto open-source PaddleOCR.