Opus 4.7 surpasse le maximum de Sonnet 4.6 avec une faible intensité de réflexion, Anthropic publie le premier guide d'optimisation du contrôle des agents.

robot
Création du résumé en cours
AIMPACT message, 20 mai (UTC+8), selon la surveillance de Dongcha Beating, Anthropic a publié son premier guide de développement officiel, dévoilant en profondeur les limites de résolution, la proportion de profondeur de réflexion et le mécanisme de réduction des coûts de cache de Claude 4.6 et Opus 4.7 dans les scénarios de contrôle d'ordinateur et de navigateur. La résolution de l'écran détermine directement la précision des clics de l'agent. La limite du côté long de la capture d'écran analysée par Claude 4.6 est de 1568 pixels, et celle d'Opus 4.7 est de 2576 pixels. Une fois que la capture d'écran dépasse la limite, le serveur API réduit automatiquement l'image de manière proportionnelle, ce qui entraîne un décalage et une dérive entre les coordonnées de clic générées par le modèle et l'image originale du client. Par conséquent, les développeurs doivent réduire la capture d'écran côté client à 1280x720 (recommandé pour Claude 4.6) ou 1080p (recommandé pour Opus 4.7). Le contrôle de l'interface repose principalement sur la perception visuelle et le positionnement des éléments, avec une faible exigence de raisonnement logique en chaîne longue. Les tests montrent que les performances de contrôle d'Opus 4.7 à faible profondeur de réflexion (low) peuvent égaler celles de Sonnet 4.6 à profondeur de réflexion maximale (max), avec un coût en tokens seulement un dixième de ce dernier. Le guide officiel recommande de régler l'option de réflexion sur high ; par rapport à la profondeur max, la consommation de tokens est réduite de moitié et le taux de réussite reste identique, il faut éviter d'activer max pour éviter que le modèle ne réfléchisse trop et ne double la facture. Comme une seule capture d'écran consomme jusqu'à 1800 tokens dans le contexte, le guide officiel propose trois niveaux de réduction des coûts : maintenir un point d'arrêt de cache système permanent, et allouer dynamiquement les 3 autres points d'arrêt aux résultats d'exécution des outils des dernières itérations ; effectuer un élagage de défilement côté client, en ne conservant que les 3 dernières captures d'écran dans le contexte, les autres étant remplacées par des espaces réservés ; déclencher une compression de résumé lorsque la profondeur du contexte approche 90%. De plus, l'API a introduit l'outil batch computer_batch, qui permet d'emballer et d'exécuter plusieurs opérations sans dépendance visuelle en un seul appel ; et fournit un mécanisme de conseiller agent (Advisor Tool), permettant au modèle principal d'invoquer directement en arrière-plan le modèle Opus de haut niveau pour auditer les étapes d'exécution. Les développeurs peuvent également améliorer considérablement le taux de réussite des tâches en utilisant le mode d'enregistrement guidé (Teach Mode, qui enregistre la trajectoire d'opération réelle de l'utilisateur et l'utilise comme référence d'instruction lors de la relecture). (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire