Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gerente sênior de produto na Google DeepMind e líder de produto do Google AI Studio, declarou no X que toda empresa que desenvolve produtos baseados em IA deve criar seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isso como um método para fazer com que as melhorias no modelo “beneficiem desproporcionalmente a sua empresa” e incentivou fundadores e líderes de negócios a “começar amanhã.”
A maioria das empresas atualmente depende de leaderboards públicos para selecionar modelos de IA, mas eles medem capacidades gerais que muitas vezes não se alinham aos cenários específicos do negócio. Kilpatrick citou o exemplo de uma empresa de revisão de contratos mais preocupada com a precisão na extração de cláusulas — uma capacidade ausente de benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Benchmarks personalizados oferecem duas vantagens principais: primeiro, eles permitem que as empresas avaliem cada atualização de modelo em relação às suas próprias tarefas de negócio e escolham o modelo que tem melhor desempenho no caso de uso real, em vez do modelo mais bem classificado no geral; segundo, eles permitem que as empresas compartilhem esses conjuntos de teste com os provedores de modelo, impulsionando a otimização contínua nas áreas que importam para o seu negócio.
Kilpatrick observou que empresas como Zapier e Sierra já estão implementando essa abordagem, afirmando que “há muito alfa que pode ser criado aqui.”
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
IREN adquire a Mirantis por $625M em um acordo 100% em ações para expandir a plataforma de nuvem de IA
Segundo a BlockBeats, a IREN Limited concordou em adquirir a empresa de software de infraestrutura em nuvem Mirantis por aproximadamente US$ 625 milhões em uma transação integralmente em ações em 5 de maio. A aquisição visa fortalecer as capacidades de nuvem com IA da IREN ao introduzir recursos de software e orquestração para
GateNews5h atrás
CEO da Anthropic: EUA analisam processo simplificado de lançamento de modelos de IA, concorrentes de 1 a 3 meses atrás
De acordo com 金十, o CEO da Anthropic revelou em 5 de maio que o governo dos EUA parece estar considerando simplificar o processo de liberação de modelos de inteligência artificial. O CEO observou que as capacidades de outros grandes laboratórios de IA podem ficar atrás da Anthropic em um a três
GateNews6h atrás
A equipe do SGLang conclui uma rodada de captação de sementes $100M , a uma avaliação $400M , com a Accel na liderança
De acordo com Beating, a equipe por trás do mecanismo de inferência de código aberto SGLang estabeleceu formalmente a RadixArk e concluiu uma rodada de captação seed de US$ 100 milhões a uma avaliação pós-money de US$ 400 milhões. A Accel liderou a rodada, com a Spark Capital como investidora co-líder. Concorrentes de semicondutores da Nvidia (via
GateNews6h atrás
OpenAI concede 8.000 desenvolvedores um aumento de 10x no limite de taxa do Codex até 5 de junho
De acordo com Beating, a OpenAI enviou e-mails para mais de 8.000 desenvolvedores que se inscreveram no evento offline do GPT-5.5 em São Francisco, concedendo a eles um aumento de 10x nos limites de taxa do Codex, em vigor imediatamente até 5 de junho. Todos os candidatos recebem o prêmio, independentemente de terem recebido um convite para o evento
GateNews6h atrás
Joint venture da OpenAI com a Anthropic em conversas para adquirir três empresas de serviços de IA em 5 de maio
De acordo com Jin 10, a joint venture da OpenAI com a Anthropic está em negociações para adquirir três empresas de serviços de IA em 5 de maio. As empresas visadas, segundo relatos, incluem firmas com foco em engenharia nos serviços de IA
GateNews6h atrás
A Anthropic lança dez agentes de IA para serviços financeiros na terça-feira
A Anthropic lançou, na terça-feira, dez novos agentes de IA voltados para tarefas de serviços financeiros, incluindo a elaboração de apresentações para reuniões com clientes, a revisão de demonstrações financeiras e a escalada de casos para análise de conformidade. As ferramentas miram profissionais de bancos, seguros, gestão de ativos e fintech
GateNews6h atrás