Message de Gate News, 24 avril — Le rapport technique V4 de DeepSeek révèle que V4-Flash et V4-Pro ont été préentraînés respectivement sur 32T et 33T jetons, soit le double des quelque 15T jetons utilisés pour V3. Le rapport reconnaît avoir rencontré des “défis d’instabilité significatifs” pendant l’entraînement, avec des pics de perte survenant à répétition en raison d’anomalies dans la couche (Mixture-of-Experts )MoE( ; le mécanisme de routage lui-même exacerbe ces anomalies, et un simple rollback ne peut pas résoudre le problème.
DeepSeek a mis en œuvre deux solutions désormais appliquées à l’entraînement réel : le routage anticipatif, qui découple le calcul de l’index de routage des mises à jour du réseau backbone et déclenche automatiquement uniquement lorsque des pics de perte sont détectés )ajoutant environ 20 % de surcharge, et le bridage SwiGLU, qui supprime directement les anomalies en limitant les valeurs d’activation à une plage fixe. Le rapport indique que les deux approches sont efficaces, mais admet que “les principes sous-jacents restent insuffisamment compris.”
Susan Zhang, une chercheuse de Google DeepMind qui a auparavant travaillé chez Meta AI et OpenAI, a commenté que l’instabilité déclenchée par le doublement des données d’entraînement “explique le retard.” Elle a décrit les deux solutions comme des “pansements” tout en reconnaissant la transparence technique de DeepSeek.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Elastics clôture une levée pré-amorçage de 2 millions de dollars menée par Frst
Selon ChainCatcher, Elastics, un système d’exploitation de marché prédictif basé sur l’IA, a achevé une levée de fonds Pre-Seed de 2 millions de dollars. Frst a mené la levée, avec la participation de ElevenLabs, XBTO, RedStone et
GateNewsIl y a 8m
L’ancien dirigeant de Qualcomm Alex Katouzian rejoint Intel en tant que directeur exécutif (EVP) du client computing et de l’IA physique le 4 mai
Intel a annoncé le 4 mai qu’Alex Katouzian, un cadre expérimenté de Qualcomm, a rejoint l’entreprise en tant que vice-président exécutif et directeur général du groupe Client Computing et Physical AI, avec un reporting direct auprès du PDG Chen Lixu. Katouzian a passé 25 ans chez Qualcomm, plus récemment en tant que e
GateNewsIl y a 40m
K Wave Media, coté au Nasdaq, supprime sa trésorerie en Bitcoin et redirige $485M vers l’IA
La société K Wave Media, cotée au Nasdaq, a abandonné son projet de trésorerie en bitcoin et réorienté 485 millions de dollars vers des investissements dans l’intelligence artificielle, moins d’un an après avoir levé 500 millions de dollars pour le bitcoin initial.
GateNewsIl y a 43m
Nova Intelligence clôture une levée de fonds de série A de 31,5 millions de dollars menée par Chemistry le 5 mai
Selon Fortune, la plateforme d’agents d’IA Nova Intelligence a clôturé un tour de financement de série A de 31,5 millions de dollars le 5 mai, mené par Chemistry. Accel, Conviction et SAP.io ont également participé au tour.
La plateforme de Nova analyse, modernise et génère du code sur mesure pour la paie, la chaîne d’approvisionnement, et
GateNewsIl y a 58m
Cipher Digital obtient une facilité de crédit de $200M pour étendre ses centres de données IA et HPC
D'après Globenewswire, Cipher Digital, un mineur de bitcoin coté au Nasdaq, a obtenu une facilité de crédit renouvelable de 200 millions de dollars auprès d'institutions financières mondiales afin d'améliorer sa liquidité et d'accélérer l'expansion de sa plateforme de centres de données dédiée à l'IA et au calcul haute performance (HPC). L'entreprise a publié son résultat au T1
GateNewsIl y a 1h
Quantum Leap finalise son introduction en bourse $200M , et vise des acquisitions dans la blockchain et l’IA
D’après Businesswire, le 5 mai, la société d’acquisition à vocation spécifique Quantum Leap a finalisé une introduction en bourse de 200 millions de dollars et a commencé à être cotée à la Bourse de New York sous le symbole QLEPU. La société prévoit de déployer le produit de l’opération afin de poursuivre des acquisitions et des transactions de fusion i
GateNewsIl y a 1h