O DeepSeek adiciona o Modo de Visão quando os chips chineses correspondem ao suporte no lançamento

CryptoFrontier

A DeepSeek, uma empresa de inteligência artificial sediada em Hangzhou, adicionou capacidades de reconhecimento de imagens e de vídeo ao seu chatbot principal através de uma nova funcionalidade “modo de reconhecimento de imagem”, colocando-se ao nível de outros grandes chatbots de IA. O lançamento coincidiu com um marco significativo na cadeia de abastecimento de chips da China, já que quatro empresas nacionais de semicondutores — Huawei Ascend, Cambricon, Hygon Information e Moore Threads — confirmaram, no mesmo dia, o suporte para o modelo topo de gama mais recente da DeepSeek, o DeepSeek-V4, assinalando uma mudança em relação aos períodos de adaptação anteriores, típicos durante meses fora do ecossistema da Nvidia.

Visão da DeepSeek e Expansão de Modelos

A DeepSeek lançou discretamente o modo de reconhecimento de imagem juntamente com dois outros modos lançados mais cedo no mês: “expert” e “flash”. De acordo com Chen Xiaokang, que lidera a equipa multimodal da DeepSeek, a ferramenta foi primeiro testada com um pequeno grupo de utilizadores tanto no website como na aplicação móvel. Chen Deli, um investigador sénior da empresa, celebrou o lançamento com uma publicação que fazia referência ao logótipo da empresa: “A pequena baleia consegue agora ver.”

A funcionalidade de imagem e vídeo chegou apenas dias depois de a DeepSeek ter disponibilizado uma pré-visualização do DeepSeek-V4 e disponibilizado os pesos do modelo para download e utilização públicos. O V4 está estruturado como dois modelos distintos: DeepSeek-V4-Pro, com 1,6 biliões de parâmetros, concebido para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, e DeepSeek-V4-Flash, otimizado para lidar com grandes volumes de pedidos a um custo mais baixo. Ambos os modelos suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida que a empresa afirma reduzir os requisitos de capacidade de computação e memória durante a inferência.

Fabricantes Chineses de Chips Alcançam Suporte de Lançamento no Mesmo Dia

O que captou a atenção da indústria não foi apenas o próprio modelo, mas o suporte coordenado de hardware demonstrado no dia do lançamento do V4. A Huawei Ascend confirmou compatibilidade com os seus chips A2, A3 e 950, com o Ascend 950 a utilizar processos de computação fundida e fluxos de processamento em paralelo para acelerar a inferência tanto para o V4-Pro como para o V4-Flash. A Cambricon concluiu a sua adaptação usando o framework de inferência open-source vLLM e publicou o seu código no GitHub. A Hygon Information realizou otimização profunda do modelo na sua plataforma DCU para permitir uma transição suave do lançamento do modelo para a implementação. A Moore Threads fez parceria com a Beijing Academy of Artificial Intelligence para executar o V4 no seu cartão MTT S5000, utilizando a stack de software FlagOS.

Este suporte no mesmo dia, abrangendo vários conjuntos de chips, representa uma rutura com padrões históricos. Antes, o hardware fora do ecossistema da Nvidia normalmente exigia meses para suportar os principais novos modelos. Observadores da indústria referem que conseguir compatibilidade em quatro conjuntos de chips domésticos diferentes no dia do lançamento sinaliza uma mudança real na maturidade da infraestrutura de semicondutores e de IA da China.

Implicações Estratégicas: Custos e Independência da Cadeia de Abastecimento

O significado mais amplo do lançamento da DeepSeek vai além das realizações técnicas individuais. Ao permitir que o V4 seja executado nativamente em vários chips chineses em simultâneo, a DeepSeek reduz o risco de dependência de restrições de exportação que historicamente bloquearam as empresas chinesas de aceder aos processadores americanos mais avançados. A eficiência de custos continua a ser central na estratégia da DeepSeek — a empresa deu prioridade a manter baixos os custos de operação do modelo, permitindo que as empresas construam sistemas automatizados sem despesas de computação proibitivas.

Observadores da indústria caracterizam este lançamento como reflexo de toda uma cadeia de abastecimento a amadurecer, e não de um único avanço tecnológico. A coordenação entre a DeepSeek, os fabricantes de chips e as estruturas de software demonstra um desenvolvimento integrado do ecossistema. Esta trajetória sugere que o panorama competitivo na IA está a mudar: o foco deixa de ser a sofisticação individual do modelo para passar a ser a capacidade de manter sistemas completos, económicos e independentes a longo prazo.

FAQ

Que novas capacidades é que a DeepSeek adicionou ao seu chatbot? A DeepSeek adicionou um “modo de reconhecimento de imagem” que permite ao seu chatbot compreender fotos e vídeos, não apenas texto. Esta funcionalidade foi testada pela primeira vez com um pequeno grupo de utilizadores tanto no website como na aplicação móvel, colocando as capacidades da DeepSeek ao nível de outros grandes chatbots de IA que oferecem capacidades semelhantes.

Quais empresas chinesas de chips suportaram a DeepSeek-V4 no dia do lançamento? Quatro empresas chinesas de chips confirmaram suporte no mesmo dia para a DeepSeek-V4: Huawei Ascend (com chips A2, A3 e 950), Cambricon, Hygon Information e Moore Threads. Esta compatibilidade no mesmo dia entre vários conjuntos de chips era anteriormente rara fora do ecossistema da Nvidia, normalmente exigindo meses de trabalho de adaptação.

Quais são as duas versões da DeepSeek-V4 e como é que diferem? A DeepSeek-V4-Pro tem 1,6 biliões de parâmetros e foi concebida para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, enquanto a DeepSeek-V4-Flash é otimizada para lidar com grandes volumes de pedidos a um custo mais baixo. Ambas suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida para reduzir os requisitos de capacidade de computação e de memória.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
TransparentDomeCityvip
· 05-02 09:50
Os grandes modelos nacionais estão a avançar rapidamente, mas a ecologia ainda precisa de melhorar.
Ver originalResponder0
BlueGlassJellyvip
· 05-01 16:16
A fábrica de Hangzhou está a todo vapor, a multimodalidade tornou-se o padrão
Ver originalResponder0
AprDaydreamvip
· 04-30 01:15
A atualização do DeepSeek está ótima, finalmente não preciso mais invejar o GPT-4V
Ver originalResponder0
RugProofRitavip
· 04-29 21:26
Acabei de testar o reconhecimento de imagens, a compreensão do chinês é realmente melhor do que a de uma determinada empresa.
Ver originalResponder0
ybaservip
· 04-29 20:02
Aguenta firme HODL💎 Aguenta firme HODL💎
Ver originalResponder0
GateUser-0b71fc11vip
· 04-29 19:28
De texto simples a multimodal, um semestre para percorrer o caminho de dois anos de outros
Ver originalResponder0
MirrorBallGazingAtTheSkyvip
· 04-29 19:27
Não apenas elogie, o problema de alucinação do RAG foi resolvido?
Ver originalResponder0
GateUser-ced0257avip
· 04-29 19:22
Reconhecimento de vídeo? Quero testar a estabilidade em cenários complexos
Ver originalResponder0
GateUser-8f9ccfecvip
· 04-29 19:20
Esta data de publicação foi perfeita, aproveitando o momento quente dos chips
Ver originalResponder0
GateUser-cb789e81vip
· 04-29 19:15
Reduzir os custos é que é a verdadeira habilidade, aguarde pelo preço da API
Ver originalResponder0
Ver mais