Opus 4.7 faible degré de réflexion dépasse le maximum de Sonnet 4.6, Anthropic publie le premier guide d'optimisation du contrôle des agents intelligents.

robot
Création du résumé en cours

AIMPACT Message, 20 mai (UTC+8), selon la surveillance de Dongcha Beating, Anthropic a publié son premier guide de développement officiel, dévoilant en détail les limites de résolution, la répartition de la profondeur de réflexion et le mécanisme de réduction des coûts par cache de Claude 4.6 et Opus 4.7 dans les scénarios de contrôle d'ordinateur et de navigateur.

La résolution de l'écran détermine directement la précision des clics de l'agent. Claude 4.6 analyse les captures d'écran avec une limite de côté long de 1568 pixels, tandis qu'Opus 4.7 a une limite de 2576 pixels. Si la capture dépasse la limite, le serveur API réduit automatiquement l'image de manière proportionnelle, ce qui provoque un décalage entre les coordonnées de clic générées par le modèle et l'image originale côté client. Par conséquent, les développeurs doivent mettre à l'échelle les captures d'écran côté client à 1280x720 (recommandé pour Claude 4.6) ou 1080p (recommandé pour Opus 4.7).

Le contrôle de l'interface repose principalement sur la perception visuelle et le positionnement des éléments, et nécessite peu de raisonnement logique en chaîne longue. Les tests montrent qu'Opus 4.7, avec une profondeur de réflexion faible (low), égalise les performances de contrôle de Sonnet 4.6 à profondeur maximale (max), avec un coût en tokens dix fois inférieur. Les recommandations officielles suggèrent de régler l'option de réflexion sur high ; par rapport à la profondeur max, la consommation de tokens est réduite de moitié et le taux de réussite est identique. Il faut éviter d'activer max pour éviter que le modèle ne réfléchisse excessivement et ne double la facture.

Étant donné qu'une seule capture d'écran consomme jusqu'à 1800 tokens dans le contexte, les recommandations officielles proposent trois niveaux de réduction des coûts : créer un point de rupture de cache système permanent, et allouer dynamiquement les trois autres points de rupture aux résultats d'exécution des derniers cycles d'outils ; effectuer un élagage de défilement côté client, en ne conservant que les trois dernières captures d'écran dans le contexte et en remplaçant les autres par des espaces réservés ; déclencher un résumé compressif lorsque la profondeur du contexte approche 90 %.

De plus, l'API introduit l'outil par lots computer_batch, qui permet d'exécuter plusieurs opérations sans dépendance visuelle en un seul appel ; et fournit un mécanisme de conseiller d'agent (Advisor Tool), permettant au modèle principal d'invoquer directement en arrière-plan le modèle Opus de haut niveau pour auditer les étapes d'exécution. Les développeurs peuvent également utiliser le mode d'enregistrement guidé (Teach Mode, qui enregistre la trajectoire réelle des actions de l'utilisateur et l'utilise comme référence d'instructions lors de la relecture) pour améliorer considérablement le taux de réussite des tâches.

(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire