Baseten revela um método de compressão de cache KV ainda mais eficaz, atingindo uma taxa de compressão de 200x

De acordo com Beating, a equipa de investigação da Baseten apresentou o Still, um método de compressão de KV cache que atinge até 200x de compressão num único passe forward, sem otimização online nem atualizações de gradiente. O Still integra compresssões Perceiver leves—com cerca de 1% dos parâmetros do modelo base—em cada camada do Transformer, aplicando cross-attention ao KV cache completo para gerar diretamente a cache comprimida. Testado nos modelos Qwen e Gemma em janelas de contexto de 8k a 64k com taxas de compressão de 8x a 200x, o Still manteve uma elevada precisão ao mesmo tempo que superou métodos comparáveis como SnapKV, H2O e KV-Distill no benchmark RULER.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário