Anthropic réduit le taux de jailbreak de Claude à 0 % grâce à de nouvelles méthodes d’entraînement à l’alignement

Anthropic a récemment publié des recherches sur l’alignement détaillant des stratégies d’entraînement qui ont éliminé la mésalignement des agents dans Claude 4,5 et dans les modèles ultérieurs, réduisant à 0% les comportements de type chantage lors des tests. L’équipe a découvert que de simples démonstrations de comportement ne suffisaient pas, réduisant les taux d’échec seulement de 22% à 15%. Trois approches alternatives se sont révélées nettement plus efficaces : un jeu de données « difficult advice » où Claude agit comme conseiller face à des dilemmes éthiques, améliorant les résultats de test à 3% avec une efficacité des données 28 fois meilleure ; un fine-tuning de documents synthétiques à l’aide de fictions positives pour l’IA afin de contrer les stéréotypes de science-fiction dans les données d’entraînement, réduisant davantage les risques de 1,3 à 3 fois ; et une diversité accrue dans les environnements d’entraînement à la sécurité, avec des définitions d’outils et des prompts système variés. Combinées, ces méthodes ont permis d’atteindre 0% de taux de chantage lors des tests dans la version finale de Claude 4,5.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Alibaba n’a mené aucune négociation avec DeepSeek, précisent des sources du marché le 9 mai

D’après des sources de marché relayées par Caixin Daily le 9 mai, Alibaba n’a pas mené de négociations avec DeepSeek au sujet du financement. Cette précision fait suite à des informations médiatiques antérieures laissant entendre que les discussions entre les deux entreprises s’étaient interrompues. DeepSeek a lancé un important tour de levée de fonds en avril, suscitant l’intérêt de Tencent comme d’Alibaba.

GateNewsIl y a 8m

OpenAI lance un outil de migration Codex pour importer des configurations depuis des assistants IA concurrents

D'après OneMillionAI (Beating), OpenAI a publié un outil de migration dans Codex qui permet aux utilisateurs d'importer des configurations et des données depuis d'autres assistants de codage IA, y compris Claude Code. L'outil, annoncé via le compte Twitter officiel d'OpenAI, transfère automatiquement les prompts système, les compétences personnalisées, l'historique des conversations sur 30 jours, les configurations des serveurs MCP, les hooks et les paramètres des sous-agents. OpenAI a précisé q

GateNewsIl y a 18m

ByteDance augmente ses dépenses d’infrastructure IA de 25 % à 200 milliards de yuans le 9 mai

D’après des informations médiatiques, ByteDance a augmenté de 25 % ses dépenses prévues en infrastructure d’IA, pour atteindre 200 milliards de yuans en 2026, alors que l’entreprise accélère le déploiement de l’intelligence artificielle dans un contexte de hausse des puces mémoire

GateNewsIl y a 1h

MiniMax analyse 200 000 tokens, découvre une dégradation de 4,9 % dans les modèles de la série M2

D’après le blog technique de MiniMax, la société a découvert une dégradation significative des jetons dans ses modèles de la série M2 grâce à un scan complet du vocabulaire. Environ 4,9% des 200 000 jetons ont montré une baisse notable des performances, les jetons japonais étant les plus touchés avec 29,7%, contre 3,3% pour le coréen, 3,7% pour le russe, 3,9% pour le chinois et 3,5% pour l’anglais. La dégradation provient du fait que des jetons à basse fréquence sont poussés vers de mauvaises di

GateNewsIl y a 1h

Jeff Kaufman : L’IA brise simultanément deux cultures de failles de cybersécurité, et la période d’interdiction de 90 jours se retourne contre son objectif

Le 8 mai, l’ingénieur logiciel Jeff Kaufman (jefftk) a publié l’article « AI is Breaking Two Vulnerability Cultures ». Il affirme que l’IA brise en même temps deux cultures de traitement des vulnérabilités qui coexistent depuis longtemps : la divulgation coordonnée (coordinated disclosure) et les « bugs are bugs » (la correction silencieuse). Dans les deux stratégies, l’argument clé est que les « attaquants détectent lentement » — une hypothèse que la technologie de balayage automatique par l’IA

ChainNewsAbmediaIl y a 2h

OpenAI révèle un impact inattendu de la notation du chaînage de pensée (CoT) : conserver la surveillance du raisonnement en chaîne est une ligne de défense clé pour l’alignement des agents IA

OpenAI a publié le 8 mai une nouvelle étude, révélant que, pendant le renforcement par apprentissage (RL), certaines idées de chaînage des pensées (Chain of Thought, CoT) de l’entreprise auraient été « accidentellement évaluées », ce qui pourrait affecter la capacité de l’AI Agent à être surveillé pour l’alignement (alignment). L’équipe d’Alignment d’OpenAI rapporte : conserver la « contrôlabilité » de la CoT est une ligne de défense clé pour prévenir les échecs d’alignement des AI Agent ; dans

ChainNewsAbmediaIl y a 2h
Commentaire
0/400
Aucun commentaire