De acordo com a monitorização de Beating, a DeepSeek lançou oficialmente o Modo Vision em ambas as plataformas, web e aplicação, com análise profunda de cenas, raciocínio espacial e a capacidade de converter capturas de ecrã da interface diretamente em código estruturado em HTML.
A nova capacidade de visão foi construída sobre o quadro de investigação da DeepSeek, “Thinking with Visual Primitives”, co-desenvolvido com investigadores da Universidade de Pequim e da Universidade Tsinghua. A abordagem subjacente aborda as lacunas de raciocínio espacial nos modelos actuais de linguagem visual ao tratar pontos de coordenadas e caixas delimitadoras como unidades centrais de pensamento, permitindo que o modelo execute raciocínio visual com referência espacial integrada durante a inferência. O artigo académico fundador foi disponibilizado brevemente a 30 de abril, mas foi retirado pela DeepSeek a 1 de maio. O Modo Vision suporta actualmente apenas a entrada de imagens, sem suporte para vídeo ou áudio, e não tem capacidades de geração de imagens.