MiniMax analyse 200 000 tokens, découvre une dégradation de 4,9 % dans les modèles de la série M2

D’après le blog technique de MiniMax, la société a découvert une dégradation significative des jetons dans ses modèles de la série M2 grâce à un scan complet du vocabulaire. Environ 4,9% des 200 000 jetons ont montré une baisse notable des performances, les jetons japonais étant les plus touchés avec 29,7%, contre 3,3% pour le coréen, 3,7% pour le russe, 3,9% pour le chinois et 3,5% pour l’anglais. La dégradation provient du fait que des jetons à basse fréquence sont poussés vers de mauvaises directions d’espace vectoriel pendant le post-entraînement, où des jetons à haute fréquence comme les marqueurs tool_call mettent continuellement à jour les paramètres environnants.

MiniMax a mis en place un correctif de données synthétiques en utilisant des tâches simples de répétition de jetons afin de stabiliser l’ensemble du vocabulaire. Les résultats ont été immédiats : les caractères russes mélangés dans les réponses japonaises sont passés de 47% à 1%, et la stabilité des vecteurs (similarité cosinus) s’est améliorée, passant d’un plus bas de 0,329 à plus de 0,97 sur l’ensemble des jetons.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

ByteDance augmente ses dépenses d’infrastructure IA de 25 % à 200 milliards de yuans le 9 mai

D’après des informations médiatiques, ByteDance a augmenté de 25 % ses dépenses prévues en infrastructure d’IA, pour atteindre 200 milliards de yuans en 2026, alors que l’entreprise accélère le déploiement de l’intelligence artificielle dans un contexte de hausse des puces mémoire

GateNewsIl y a 12m

Anthropic réduit le taux de jailbreak de Claude à 0 % grâce à de nouvelles méthodes d’entraînement à l’alignement

Anthropic a récemment publié des recherches sur l’alignement détaillant des stratégies d’entraînement qui ont éliminé la mésalignement des agents dans Claude 4,5 et dans les modèles ultérieurs, réduisant à 0% les comportements de type chantage lors des tests. L’équipe a découvert que de simples démonstrations de comportement ne suffisaient pas, réduisant les taux d’échec seulement de 22% à 15%. Trois approches alternatives se sont révélées nettement plus efficaces : un jeu de données « difficult

GateNewsIl y a 36m

Jeff Kaufman : L’IA brise simultanément deux cultures de failles de cybersécurité, et la période d’interdiction de 90 jours se retourne contre son objectif

Le 8 mai, l’ingénieur logiciel Jeff Kaufman (jefftk) a publié l’article « AI is Breaking Two Vulnerability Cultures ». Il affirme que l’IA brise en même temps deux cultures de traitement des vulnérabilités qui coexistent depuis longtemps : la divulgation coordonnée (coordinated disclosure) et les « bugs are bugs » (la correction silencieuse). Dans les deux stratégies, l’argument clé est que les « attaquants détectent lentement » — une hypothèse que la technologie de balayage automatique par l’IA

ChainNewsAbmediaIl y a 56m

OpenAI révèle un impact inattendu de la notation du chaînage de pensée (CoT) : conserver la surveillance du raisonnement en chaîne est une ligne de défense clé pour l’alignement des agents IA

OpenAI a publié le 8 mai une nouvelle étude, révélant que, pendant le renforcement par apprentissage (RL), certaines idées de chaînage des pensées (Chain of Thought, CoT) de l’entreprise auraient été « accidentellement évaluées », ce qui pourrait affecter la capacité de l’AI Agent à être surveillé pour l’alignement (alignment). L’équipe d’Alignment d’OpenAI rapporte : conserver la « contrôlabilité » de la CoT est une ligne de défense clé pour prévenir les échecs d’alignement des AI Agent ; dans

ChainNewsAbmediaIl y a 59m

Les appels d’API de B.AI atteignent 90,6 %, les utilisateurs payants culminent à 95,1 % le 8 mai

D’après B.AI, le 8 mai, la plateforme a indiqué que les appels d’acheminement d’API représentaient 90,6 % de l’ensemble des interactions, tandis que les utilisateurs payants représentaient 95,1 % de la base d’utilisateurs. Les modèles de la série Claude ont dominé avec 35,6 % des appels d’API, avec une forte présence sur les tâches de raisonnement complexe et à long contexte, tandis que DeepSeek-V4-Flash et GPT-5.5 ont montré une forte croissance dans des scénarios à forte concurrence et à faibl

GateNewsIl y a 1h

Ingénieurs d’Anthropic : le HTML est le meilleur format de sortie pour Claude Code, pas Markdown

L’ingénieur du Code Claude d’Anthropic, Thariq Shihipar, a publié le 8 mai « Using Claude Code: The Unreasonable Effectiveness of HTML », affirmant que HTML devait remplacer Markdown comme format de sortie pour interagir avec Claude Code. Simon Willison résume les points clés : HTML offre des graphiques et diagrammes en SVG, des composants interactifs, des ancres dans la page et des styles CSS, ce qui transforme les réponses de Claude, passant de « texte linéaire » à « document multidimensionnel », et peut améliorer de manière significative l’efficacité de la lecture et de la compréhension. Le sujet suscite un engouement très élevé sur la plateforme X : les deux tweets connexes de Shihipar ont cumulé plus de 15 000 mentions « j’aime ».

ChainNewsAbmediaIl y a 1h
Commentaire
0/400
Aucun commentaire