Волна ИИ подталкивает спрос на память и поднимает цены, однако со стороны по‑прежнему звучат опасения: не повторит ли HBM «циклический» сценарий, как это бывало с DRAM — быстро развернётся после пиков спроса? Аналитик полупроводников fin указывает: логика спроса на HBM уже оторвалась от закономерностей традиционной индустрии памяти и сейчас идёт через переоценку на основе token.
(Замедляется рост памяти? По оценкам институционалов, рост во 2 квартале сузился до 30%, а во второй половине года — ещё больше остынет)
Память эпохи CPU: что‑то вроде необязательного аксессуара
fin отмечает: в эпоху, когда вычисления доминировали на CPU, роль DDR памяти оставалась исключительно вспомогательной. Инженеры CPU разработали целый набор архитектурных приёмов, которые маскируют задержки памяти: суперскалярные конструкции, многоуровневые кэши, переименование регистров и т. п. Всё это позволяет процессору поддерживать высокую производительность без необходимости опираться на условия с высокоскоростной памятью:
Промышленное эмпирическое правило: даже если пропускная способность DDR напрямую удваивается, прирост общей производительности CPU обычно не превышает 20%.
Такая архитектура напрямую сформировала темп роста всей DRAM‑индустрии за последние десятилетия. DDR3 → DDR5 растянулись ровно на 15 лет; за последние 10 лет ёмкость DDR в обычных ПК увеличилась с 7–8 ГБ до примерно 23 ГБ — за 10 лет выросла всего в 3 раза. Главный источник прибыли для производителей DRAM — величина ёмкости, а апгрейд по пропускной способности — лишь способ поднять удельную цену.
В эпоху CPU память — самый низкомаржинальный элемент в цепочке чип‑индустрии: циклические колебания — норма, и в каком‑то смысле судьба.
Приходит эпоха AI‑инференса: заново переписываются стандарты ценности памяти
Однако когда вычислительным «героем» становится движок AI‑инференса, меняются и критерии оценки. Теперь чипмейкеры соревнуются в том, сколько операций с плавающей точкой можно выполнить в секунду; но в эпоху ИИ ключевой KPI всего один: сколько Token может произвести система при минимальной стоимости и энергопотреблении на единицу.
Концепция «AI‑фабрики», предложенная CEO Nvidia Хуаном Жэньсюнем, точно описывает эту новую логику: смысл AI‑фабрики — производить максимум Token при минимальных затратах и одновременно выжимать скорость вывода Token до предела. Целевая оптимизация выходит за рамки одного измерения: нужно одновременно максимизировать совокупную пропускную способность Token и стремиться к максимальной скорости вывода Token для каждого запроса.
Смена этого KPI и становится точкой перелома судьбы HBM.
Формула throughput Token раскрывает первую физическую причину спроса на HBM
fin разбивает throughput Token в AI‑инференсе на произведение двух параметров: «количество батчей запросов, обрабатываемых одновременно × средняя скорость генерации Token на каждый запрос». Разбирая, где именно у каждого параметра узкое место, ответ приводит к одному и тому же компоненту.
Узкое место по числу батчей — в ёмкости HBM. Каждый inference‑запрос несёт собственный KV‑кэш — механизм хранения промежуточных состояний в процессе вывода модели. Этот кэш должен находиться в HBM в режиме реального времени, чтобы при генерации каждого Token модель могла многократно выполнять сверхбыстрые чтения. Чем больше размер батча, тем больше требуемая память HBM — и это линейная пропорция.
Узкое место по скорости Token — в пропускной способности HBM. На этапе декодирования при появлении каждого Token модель снова и снова читает массивные стартовые веса и KV‑кэш. Скорость чтения напрямую определяет эффективность генерации Token, а верхний предел скорости чтения задаётся пропускной способностью HBM.
Он говорит, что эту связь можно объяснить с помощью авиагрузовых шаттлов: ёмкость HBM — это размер грузового отсека автобуса, который определяет, сколько пассажиров можно перевезти за раз; пропускная способность HBM — ширина дверей, определяющая, как быстро пассажиры входят и выходят. А общий throughput перевозки пассажиров — это произведение размера отсека на скорость входа/выхода. Отсюда выводится первый принцип требований к AI‑инференс‑железу:
Throughput Token = ёмкость HBM × пропускная способность HBM
Чтобы throughput Token для каждого поколения GPU сохранял двухкратный темп роста из поколения в поколение, произведение ёмкости HBM на пропускную способность HBM должно удваиваться каждый раз.
Программной оптимизацией задачу не решить: спрос на HBM уходит на экспоненциальную траекторию
На фоне этой логики самый распространённый контраргумент рынка: может ли оптимизация ПО снизить зависимость от HBM? Его ответ: эффективность ПО и прогресс аппаратных спецификаций — это два полностью независимых измерения, они не заменяют друг друга. Это как будто даже если довести оптимизацию CPU‑софта до предела, всё равно нельзя помешать Intel или AMD на каждом новом поколении сдавать более высокие результаты в стандартных тестах — иначе продукт просто не будет продаваться.
Логика GPU полностью аналогична: пока в мире продолжает расти спрос на Token, погоня за более высоким throughput Token не прекратится, а требования к прогрессу HBM в обеих составляющих — тем более не остановятся.
И самое главное: этот прессинг не является следствием внешней конъюнктуры, а носит эндогенный характер со стороны предложения. Пока Nvidia продаёт следующее поколение GPU, она будет вынуждена давить на SK hynix, Samsung и Micron — требуя одновременного скачка HBM в ёмкости и пропускной способности на каждом поколении. Потому что потолок у HBM — это потолок эффективности GPU.
Если нанести на одну систему координат Token throughput у разных поколений GPU Nvidia от A100 до Rubin Ultra и соответствующие значения «ёмкость HBM × пропускная способность HBM», степень совпадения двух кривых будет удивительной. Это не историческое совпадение, а неизбежный результат системной оптимизации.
HBM прощается с циклической судьбой, но логику рыночного ценообразования ещё предстоит переоценить
По итогам вышеописанных архитектурных выводов разница между HBM и традиционной DRAM по сути становится очевидной. Традиционная память — это «побочный продукт» чип‑индустрии: слабая мотивация со стороны спроса, и как только темпы наращивания мощностей начинают опережать восстановление спроса, циклическое обрушение цен приходит вовремя.
Но спрос на HBM уже закреплён физической логикой архитектуры AI‑инференса на траектории экспоненциального роста. Это не связано напрямую ни с «горячим/холодным» состоянием рынка AI в целом, ни с циклом общей экономической конъюнктуры.
Конечно, реальная проблема не на стороне спроса, а на стороне предложения: смогут ли SK hynix, Samsung и Micron — трое ключевых игроков — сдержать импульс к слепому расширению мощностей, который десятилетиями повторялся снова и снова при сильном спросе, и тем самым не закопать снова сценарий с предложением, которое окажется чрезмерным? Ответ на этот вопрос — ключевая переменная того, сможет ли данный цикл памяти продлиться долгосрочно.
(Можно ли покупать после обвала акций памяти? Аналитик Samsung Securities: коррекция внутри цикла, а не признак пика конъюнктуры)
Эта статья разбивает миф о цикличности! Одна формула, которая объясняет структуру спроса на HBM: почему память будет продолжать расти? Впервые опубликовано на 链新闻 ABMedia.
Related News
Аналитики Morgan Stanley прогнозируют, что вся линейка iPhone 18 подорожает на 100 долларов; основной причиной стали резкий рост затрат на память
Го Мин-цэн рассказал о разнице между TSMC CoWoS и Intel EMIB, раскрыл, что Google спрашивал о возможности пропустить MediaTek и подать заявку напрямую
CryptoQuant: Рост BTC в апреле поддержали бессрочные фьючерсы, предупреждение о рисках коррекции
Крупнейшие бенефициары «перелива» CoWoS от TSMC? Для Intel EMIB сообщают, что показатель выхода годных составляет 90%; передовое корпусирование — ключ к развороту
После HBM узкое место в памяти для ИИ — это HBF? Лауреат премии Тьюринга Дэвид Паттерсон: вывод (инференс) снова переопределит архитектуру хранения