Cursor dévoile la méthode d'entraînement « auto-approvisionnement » : utiliser l'ancien Composer pour configurer l'environnement du nouveau modèle, Terminal-Bench augmente de 14 points

robot
Création du résumé en cours

Selon la surveillance Beating, Cursor a révélé une astuce d’entraînement pour la série de modèles Composer : utiliser le modèle de la génération précédente pour construire automatiquement un environnement exécutable pour le renforcement de l’apprentissage (RL) de la prochaine génération. Lors de l’entraînement de Composer 2, Cursor a utilisé Composer 1.5 pour effectuer cette tâche, appelée autoinstall.

L’entraînement RL nécessite un environnement de code exécutable. Si l’environnement n’est pas bien configuré, le modèle gaspille des tokens à déboguer, sans apprendre quoi que ce soit ; dans le cas extrême, si l’environnement ne fonctionne pas du tout, toute la puissance de calcul de l’entraînement est perdue. autoinstall résout ce problème en deux étapes : la première, un agent lit la documentation et la configuration du code, et propose 10 commandes de validation avec leurs sorties attendues ; la deuxième, un autre agent prend 3 de ces commandes, configure l’environnement à partir de zéro jusqu’à ce que la commande fonctionne. La deuxième étape peut être réessayée jusqu’à 5 fois, si toutes échouent, l’environnement est abandonné.

Lors de la configuration de l’environnement, l’agent complète activement les dépendances manquantes : falsifie des tables de base de données, crée une configuration MinIO pour remplacer S3, démarre des conteneurs Docker pour agir en tant que services sidecar, voire génère des images de remplacement. Un article de blog utilise le projet blockchain celo-org/celo-monorepo comme exemple pour démontrer tout le processus, où après l’échec de la première tentative de configuration, le second agent crée lui-même des utilisateurs mock pour contourner l’authentification, permettant finalement de faire passer le test.

Composer 2 a obtenu un score de 61,7 % sur Terminal-Bench (un benchmark évaluant la capacité à construire un environnement de développement pour modèles), contre 47,9 % pour Composer 1.5, soit une amélioration de près de 14 points de pourcentage. Cursor indique que dans le futur, il prévoit d’impliquer davantage l’ancienne version de Composer dans d’autres phases d’entraînement, y compris le prétraitement des données, la gestion de l’exécution et l’optimisation de l’architecture.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler