Anthropic a récemment publié des autoencodeurs de langage naturel (NLA), un outil qui traduit les activations internes du modèle en texte lisible par des humains, avec du code et des poids de modèle open-sourcés sur GitHub. Contrairement à des outils existants comme les autoencodeurs clairsemés (Sparse Autoencoders) qui produisent des caractéristiques obscures, le NLA génère directement des descriptions en langage naturel grâce à un cadre à deux modèles : un modèle convertit les activations en texte tandis qu’un autre tente de reconstruire les activations à partir du texte, en améliorant progressivement la précision via de l’apprentissage par renforcement.
Lors des tests de sécurité, le NLA a mis en évidence un raisonnement interne caché : Claude a exprimé des doutes concernant le fait d’être testé dans 16% des scénarios adverses et a démontré une « connaissance des examens » dans 26% des tâches de référence, contre moins de 1% dans les conversations normales. Dans des expériences d’audit, le NLA a augmenté le taux de détection de comportements de modèle trompeurs injectés de moins de 3% à 12-15%, permettant aux auditeurs d’identifier des objectifs cachés sans accès aux données d’entraînement. L’outil est actuellement déployé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Tessera Labs clôture une levée de fonds $60M menée par a16z
Selon Odaily, la startup d’automatisation par l’IA Tessera Labs a annoncé la finalisation d’une levée de fonds de 60 millions de dollars menée par Andreessen Horowitz (a16z), avec la participation de Foundation Capital, Myriad Venture Partners et Osage University Partners. La plateforme native d’IA de la société automatise les entreprises
GateNewsIl y a 1h
Des attaquants injectent 575 compétences malveillantes dans Hugging Face et ClawHub via 13 comptes
D’après le directeur de la sécurité (CISO) de Mist Security, @im23pds, des attaquants ont récemment compromis 13 comptes afin d’injecter 575 compétences malveillantes dans Hugging Face et ClawHub (OpenClaw), comme indiqué sur la plateforme X.
GateNewsIl y a 1h
DeepSeek prévoit de lever jusqu’à 50 milliards de RMB lors d’un tour de table record, avec l’arrivée du modèle V4.1 en juin
D’après PANews le 8 mai, DeepSeek prévoit de lever jusqu’à 50 milliards de RMB lors de son premier tour de financement, ce qui marquerait la plus importante levée unique d’une entreprise chinoise d’IA. Le fondateur et PDG Liang Wenfeng devrait apporter le montant maximal. La société prévoit d’accélérer la grande mise en œuvre de modèles de langage
GateNewsIl y a 1h
Sportix clôture une levée de fonds de 3,2 millions de dollars, menée par Coinvestor Ventures et animée par Animoca Brands
D’après ChainCatcher, la plateforme d’infrastructure d’IA sportive Sportix a finalisé une levée de fonds de 3,2 millions de dollars. La levée a été menée par Coinvestor Ventures, avec la participation d’Animoca Brands, Becker Ventures, X21 Digital et Alpha Capital.
Sportix a indiqué qu’elle utilisera les fonds pour faire progresser son IA
GateNewsIl y a 1h
Les coûts des données d’entraînement pour robots baissent de 65 % depuis 2024, passant de 340 à 118 dollars par heure
D’après Cointelegraph, le coût des données d’entraînement pour les robots a diminué de 65 % depuis 2024, passant de 340 dollars par heure à 118 dollars par heure en 2026.
GateNewsIl y a 2h
China Mobile annonce une alliance d’écosystème pour l’application de jetons avec 8 partenaires le 8 mai
Selon PANews, le 8 mai, China Mobile a annoncé la création d’une Token Application Ecosystem Alliance avec 8 partenaires, dont Alibaba Cloud, Volcano Engine et Huawei Cloud. L’alliance s’appuie sur la plateforme d’agrégation de modèle MoMA pour construire une passerelle de services unifiée pour l’IA nationale m
GateNewsIl y a 2h