Le modèle open-source aux billions de paramètres atteint 981 mots/seconde, Cerebras teste KimiK2.6 avec une accélération de 29 fois.

robot
Création du résumé en cours
ME News Message, 20 mai (UTC+8), selon le suivi de Beating, la société de puces à l'échelle du wafer Cerebras a annoncé le lancement en test en entreprise du modèle à trillion de paramètres Kimi K2.6, en intégrant directement les puces sur une tranche entière de silicium de 12 pouces, éliminant ainsi complètement la latence d'interconnexion de la communication au niveau carte. Les tests réels effectués par l'organisme de notation tiers Artificial Analysis montrent une vitesse de génération de 981 tokens/s, soit 6,7 fois plus rapide que les services cloud GPU grand public. Dans une tâche de texte long avec 10 000 tokens en entrée et 500 en sortie, le temps de réponse total est passé de 163,7 secondes pour l'interface officielle de Kimi à 5,6 secondes, soit une accélération de 29 fois. Étant donné que les poids du modèle sont répartis sur plusieurs wafers avec un flux d'activations en continu, la communication inter-couche fonctionne entièrement sur le réseau tissé à l'intérieur du wafer, dont la bande passante de communication physique est plus de 200 fois supérieure à celle de NVLink dans l'architecture NVL72 de Nvidia. Associé à des optimisations de calcul distribué, Kimi K2.6 stocke les poids en 4 bits originaux avec faible perte, utilise des flottants 16 bits pour maintenir la précision lors du calcul, et adopte des noyaux d'opérateurs personnalisés et un décodage spéculatif pour atteindre finalement un fonctionnement en temps réel. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire