Согласно официальному твиту Ollama от 27 апреля, флагманская модель DeepSeek V4 Pro, выпущенная китайской компанией DeepSeek 24 апреля, официально появилась в каталоге Ollama в облачном режиме: пользователям достаточно одной команды, чтобы вызывать эту модель через популярные agent-инструменты, такие как Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode и т. д. Это самое быстрое одновременное обновление интеграции ключевых больших моделей в Ollama: от публикации весов DeepSeek до запуска Ollama Cloud прошло всего три дня.
DeepSeek V4 Pro: 1,6T параметров, 1M контекст
V4 Pro использует архитектуру Mixture-of-Experts; общий масштаб параметров составляет 1,6 трлн (49 миллиардов активных параметров), а окно контекста — 1M token. В сторонних бенчмарках Artificial Analysis указано, что V4 Pro в программных тестах наподобие SWE-bench (80,6%), LiveCodeBench (93,5%), Terminal-Bench (67,9%) и т.д. идет вровень с Kimi K2.6 в числе лучших открытых моделей, а общий Intelligence Index уступает Kimi K2.6 на один шаг.
В то же время DeepSeek также выпустила более легкую модель V4 Flash; обе модели используют лицензию MIT с открытым исходным кодом и их можно скачать вместе с весами с Hugging Face.
Ollama Cloud: облачный вывод, веса не скачиваются локально
deepseek-v4-pro:cloud — это модель Ollama Cloud: вывод выполняется на облаке Ollama, а веса не загружаются на устройство пользователя. Это стандартный подход Ollama для работы с сверхкрупными моделями; ранее Kimi K2.6 тоже был добавлен таким же образом. Для пользователей главное преимущество — не нужно иметь десятки GPU, чтобы вызывать модель уровня флагмана; недостаток — все равно требуется интернет-соединение, и ресурсы вычислений распределяются в зависимости от нагрузки на облако Ollama.
Для полностью локального запуска нужно получить веса deepseek-ai/DeepSeek-V4-Pro на Hugging Face, а также использовать версии с INT4 квантизацией (например, GGUF от Unsloth) и конфигурацию с несколькими GPU, чтобы это было осуществимо. Обычно потребительское оборудование не хватает для размещения полной модели.
Одна команда для соединения Claude Code, Hermes Agent, OpenClaw
Ollama синхронно выпускает команды launcher для интеграции с популярными agent-инструментами:
Смысл в том, что: раньше, если разработчики в Claude Code хотели переключиться на DeepSeek, им приходилось вручную собирать интеграцию через OpenAI-совместимый API, самостоятельно обрабатывать endpoint и аутентификацию; теперь же через Ollama это можно сделать одной командой. Для пользователей, которые активно используют Claude Code, это дает быстрый путь заменить модель Anthropic на DeepSeek (или аналогично заменить Kimi), чтобы снизить стоимость.
Реакции ранних тестировщиков: скорость от 30 tok/s до пиков 1,1 tok/s
Обсуждение в сообществе под твитом показывает, что скорость облачного вывода зависит от загрузки облака Ollama. Несколько ранних тестировщиков сообщали, что в пиковые часы скорость оказывается ниже нормы: с обычных 30 tokens/s до уровня около 1,1 tokens/s; пользователь @benvargas прямо приложил скриншот с жалобой «Need More Compute». В другом ответе Ollama признал, что официальная команда «тоже играет с этой моделью», что означает, что трафик все еще находится на этапе исследования и еще не было выполнено полное планирование емкости.
Для разработчиков, которые стремятся к стабильной скорости на производственной линии, текущая рекомендация такова: использовать облачный режим для прототипирования и оценки стоимости, а для полноценного продукта все равно нужно либо построить собственную инфраструктуру GPU для вывода, либо выбрать коммерческий API. Полное руководство Ollama также уже дополнено пунктами про V4 Pro и пояснениями о компромиссах между облаком и локальным запуском.
Эта статья DeepSeek V4 Pro на Ollama Cloud: One-key connect для Claude Code впервые появилась на 链新闻 ABMedia.
Related News
Го Минь-цин: OpenAI собирается сделать AI-агент для смартфонов, MediaTek, Qualcomm и Luxshare Precision становятся ключевыми элементами цепочки поставок
Облачная платформа Tencent Cloud QClaw подключается к фреймворку Hermes, поддерживает переключение между несколькими моделями, включая DeepSeek-V4 Pro
Голосовой сервис xAI Grok перехватил линию поддержки клиентов Starlink: 70% звонков автоматически завершаются
DeepRoute.ai Усовершенствованная система помощи вождения прорывает отметку в 300 000 развернутых автомобилей: цель на 2026 год — городской парк NOA в 1 000 000 автомобилей
DeepSeek V4-Flash появился в Ollama Cloud, американский сервер: Claude Code, OpenClaw — в один клик подключить