Google Réduit la Mémoire de l'IA Sans Perte de Précision—Mais Il y a un Hic
En bref
Google a déclaré que son algorithme TurboQuant peut réduire d'au moins six fois un goulot d'étranglement majeur de la mémoire de l'IA sans perte de précision lors de l'inférence.
Les actions du secteur de la mémoire, dont Micron, Western Digital et Seagate, ont chuté après la circulation de l'article.
La méthode compresse la mémoire d'inférence, pas le modèle
Decrypt·03-25 23:30
