DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.

Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.

Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Anthropic ведёт переговоры о покупке чипов для вычислений у британского стартапа Fractile при оценке в $1 млрд+

По данным Beating, Anthropic ведёт переговоры о покупке чипов для инференса у лондонского стартапа Fractile, который пытается привлечь более $100 миллионов финансирования при оценке, превышающей $1 миллиард. Fractile, основанный в конце 2022 года, использует архитектуру на базе SRAM, чтобы снизить энергопотребление при инференсе и

GateNews14м назад

OpenClaw выпускает v2026.5.2 с миграцией плагинов с npm на ClawHub, более 200 исправлений ошибок

По данным Beating, open-source персональный ИИ-ассистент OpenClaw выпустил v2026.5.2 3 мая — крупное обновление технического обслуживания. Основное изменение заключается в миграции системы плагинов с npm на самописную дистрибуционную платформу ClawHub. Обновление включает более 200 исправлений ошибок и добавляет t

GateNews34м назад

Член совета Федеральной резервной системы Боуман: регуляторам необходимо продумать, как реагировать на новые технологии вроде Anthropic Mythos

PANews, 2 мая: член Совета управляющих ФРС Боуман заявил, что регулирующим органам необходимо продумать, как наилучшим образом регулировать такие новые технологии, как Mythos от Anthropic. «С одной стороны, эти возможности позволяют компаниям устранять уязвимости, которые они выявляют сами, тем самым повышая кибербезопасность», — сказал Боуман. «Но с другой стороны, если технология будет использована злоумышленниками, ее можно будет применять для выявления и эксплуатации слабых мест». Anthropic, оценивая меры защиты от этой мощной новой технологии, уже ограничила выпуск своего последнего ИИ-модели. Этот же фактор побудил официальных лиц администрации Трампа начать рассматривать вероятность кибератак, которые могут создать угрозу финансовой стабильности.

GateNews1ч назад

Ханчжоуский суд запретил увольнения только за счёт ИИ и поддержал работника после 40% снижения зарплаты 28 апреля

По данным Bloomberg, 28 апреля Ханчжоуский промежуточный народный суд вынес решение о том, что работодатели не могут увольнять работников или сокращать им зарплату только потому, что ИИ автоматизировал их должности. Суд поддержал выплату компенсации работнику, чья зарплата была сокращена на 40%, а также его уволили после отказа от перевода на другую должность, когда ИИ

GateNews1ч назад

Последний судебный прецедент китайского суда: законные основания для сокращений персонала из‑за ИИ-автоматизации отсутствуют

Согласно последнему решению суда Ханчжоу, компании увольняют, понижают в должности или существенно уменьшают зарплату под предлогом внедрения таких технологий, как ИИ, и это является незаконным; простого технологического прогресса недостаточно, чтобы приравнять это к предусмотренному законом сокращению штата. В этом деле сотрудника понизили в должности из-за автоматизации и его зарплата сократилась до 40%. Суд в итоге поддержал выплату компенсации, что показывает: при продвижении автоматизации нужно действовать в рамках закона и обеспечивать профессиональную трансформацию и переподготовку.

ChainNewsAbmedia1ч назад

Хоскинсон обсуждает роль Midnight в экосистеме Cardano в выпуске The Breakdown

Чарльз Хоскинсон, основатель Cardano и сооснователь Ethereum, появился в качестве гостя в выпуске 701 подкаста «The Breakdown», который ведёт Дэвид Гокхштейн, чтобы обсудить проект Midnight, проблемы с пользовательским опытом в криптовалюте и его видение будущего блокчейна. Во время интервью Хоскинсон

CryptoFrontier8ч назад
комментарий
0/400
Нет комментариев