Ифань Чжан раскрывает полные технические спецификации DeepSeek V4: 1,6T параметров, 384 эксперта с 6 активациями

Сообщение Gate News, 22 апреля — студент Принстонского PhD Ифань Чжан раскрыл полные технические спецификации DeepSeek V4 в X, после превью от 19 апреля. V4 имеет 1,6 трлн общих параметров и облегчённую версию V4-Lite с 285 млрд параметров.

Модель использует механизм внимания DSA2, который сочетает прежний DSA (DeepSeek Sparse Attention) из V3.2 и NSA (Native Sparse Attention) с векторами представления голов 512 измерений, в паре с Sparse Multi-Query Attention (MQA) и Sliding Window Attention (SWA). Слой MoE (Mixture of Experts) содержит 384 эксперта, из которых активируются 6 за один прямой проход, с использованием Fused MoE Mega-Kernel. Остаточные соединения используют архитектуру Hyper-Connections.

Детали обучения, раскрытые впервые, включают использование оптимизатора Muon (applying Newton-Schulz orthogonalization to momentum updates) для обновлений по импульсу, контекстное окно предобучения на 32K токенов и GRPO (Group Relative Policy Optimization) с коррекцией по расхождению KL во время обучения с подкреплением. Итоговое контекстное окно расширено до 1 млн токенов. Модель — только текстовая.

Чжан не работает в DeepSeek, и компания официально не прокомментировала раскрытую информацию.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Haun Ventures закрывает фонд на 1 миллиард долларов 5 мая, нацеливаясь на стартапы в сфере крипто и ИИ

По данным Cointelegraph, Haun Ventures завершила привлечение $1 млрд для нового фонда 5 мая; капитал планируется распределять поровну между инвестициями на ранней и поздней стадиях. Фонд будет сосредоточен на стартапах в сфере криптовалют, искусственного интеллекта и альтернативных

GateNews46м назад

Anthropic и OpenAI инвестировали более 1,1 млрд долларов в розничную торговлю криптовалютами с начала 2026 года

По данным Bloomberg, розничные инвесторы вложили приблизительно 1,13 миллиарда долларов в маржинальную торговлю на деривативах частной AI-компании с начала 2026 года. Криптоплатформы Ventuals и PreStocks обеспечивают круглосуточную торговлю бумагами компаний, включая Anthropic, OpenAI и SpaceX, не предоставляя прямой доступ к инвестициям

GateNews51м назад

Ветеран Qualcomm Алекс Катуциан присоединяется к Intel в качестве исполнительного вице-президента по клиентским вычислениям и физическому ИИ

По данным Intel, 5 мая Алекс Катузиан присоединился к компании в качестве исполнительного вице-президента и генерального менеджера подразделения Client Computing и Physical AI. Ранее Катузиан занимал должность исполнительного вице-президента и генерального менеджера мобильного, вычислительного и XR-бизнеса Qualcomm. Intel также

GateNews51м назад

AI-обзор Google выдает десятки миллионов неверных ответов каждый час; точность Gemini 3 — 91%

По данным The New York Times, функция Google AI Overview с использованием Gemini 3 имеет 91% точности, то есть она выдает десятки миллионов неверных ответов каждый час. Учитывая то, как Google обрабатывает более 5 триллионов поисковых запросов ежегодно, это соответствует сотням тысяч неточных

GateNews59м назад

Anthropic готовит проактивного помощника Orbit, связывающего шесть инструментов, включая GitHub и Figma

По результатам найденного в коде, за которым следит Beating, Anthropic готовит новую проактивную функцию помощника под названием Orbit, которая подключается к Gmail, Slack, GitHub, Calendar, Drive и Figma. Функция использует механизм добровольного участия и формирует персонализированные краткие сводки из подключенных рабочих инструментов, пока

GateNews1ч назад

Vertex Ventures поддерживает сингапурский стартап в области ИИ ReN3 с $5M 5 мая

Сингапурская компания в сфере корпоративного ИИ ReN3, по данным Vertex Ventures Southeast Asia and India, привлекла 5 миллионов долларов США в рамках посевного финансирования 5 мая, чтобы расширить деятельность в Юго-Восточной Азии и инвестировать в разработку продукта. Компания планирует углубить работу с партнёрами по каналам

GateNews2ч назад
комментарий
0/400
Нет комментариев