Meituan LongCat disponibiliza em código aberto o VitaBench 2.0 para modelagem de utilizadores de longo prazo

Segundo a Jin10, a Meituan LongCat disponibilizou hoje em código aberto o VitaBench 2.0, o primeiro benchmark para avaliar agentes de modelos de linguagem de grande escala em cenários de interação dinâmica com utilizadores a longo prazo e no mundo real. O benchmark avalia sistematicamente as capacidades de personalização e proatividade dos LLMs no envolvimento contínuo com os utilizadores.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário