A OpenAI lança o LifeSciBench para avaliar a IA em tarefas reais de investigação, com 750 itens escritos por especialistas em 7 áreas de biologia

De acordo com o anúncio oficial da OpenAI de 20 de junho, a empresa lançou o LifeSciBench, um novo benchmark de avaliação concebido para testar sistemas de IA em tarefas reais de investigação científica. O benchmark é composto por 750 tarefas escritas por especialistas, distribuídas por 7 fluxos de trabalho de investigação e 7 domínios de biologia, criadas por 173 investigadores com nível de doutoramento e experiência na indústria de biotecnologia ou farmacêutica.

Mais de 79% das tarefas exigem raciocínio multi-etapa, com uma média de cerca de 4 passos de raciocínio por pergunta. O benchmark inclui 1.062 anexos reais de dados de investigação, como artigos, gráficos, dados de sequências e ficheiros estruturais, destacando capacidades complexas de investigação, incluindo integração de evidência, desenho experimental, análise de dados, raciocínio científico e comunicação de investigação, em vez de perguntas simples de factos.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário