Les grands modèles continuent de se concentrer sur le volume de paramètres, mais ce qui commence vraiment à limiter l'industrie, c'est une autre chose : le stockage du contexte.


Lorsque la longueur de l'inférence, la chaîne d'appels de l'Agent, la mémoire à long terme deviennent plus longues, ce qui détermine réellement l'expérience et le coût, ce n'est pas seulement la puissance de calcul, mais aussi la capacité à lire, écrire, orchestrer et réutiliser efficacement le contexte.
C'est aussi pourquoi le marché commence récemment à porter son attention sur l'Infrastructure de Mémoire Contextuelle, le Cache KV, la hiérarchisation du stockage d'inférence.
La prochaine étape de la compétition en IA ne sera peut-être pas de savoir qui peut générer le plus de contenu, mais qui peut faire en sorte que le modèle fonctionne de manière stable et à faible coût sur des tâches plus longues.
Si l'époque de l'entraînement reposait sur la puissance GPU, l'époque de l'Agent repose sur la mémoire.
C'est aussi pour cela que j'ai discuté avec des amis dans un groupe pour expliquer pourquoi il vaut la peine de jouer avec la langouste, je disais que le code Claude est conçu pour la langouste. Mais ils ont dit que le contexte complet, c'est quelque chose que je ne peux pas répondre, alors je suis simplement resté humble et j'ai continué à élever des crevettes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler