- Дата публикации
DeepSeek V4: открытые Pro и Flash с 1M контекстом и режимом «мышления»
Что нового
DeepSeek представила линейку DeepSeek V4 — это два Mixture-of-Experts LLM с открытыми весами и миллионом токенов контекста по умолчанию:
- DeepSeek-V4-Pro
- 1,6 триллиона общих параметров, из них 49B активных на токен
- Контекст до 1 000 000 токенов
- Режим максимального рассуждения DeepSeek-V4-Pro-Max
- По бенчмаркам в отчёте догоняет закрытые модели уровня Gemini 3.1 Pro High, GPT-5.4-xHigh, Claude-Opus-4.6-Max
- DeepSeek-V4-Flash
- 284B общих параметров, 13B активных
- Тот же 1M контекст
- Упор на скорость и цену — позиционируется как дешевле GPT-5.4 Nano
Ключевые изменения по сравнению с DeepSeek V3.2:
- 1M контекст стал стандартом для всех официальных сервисов DeepSeek
- В режиме 1M контекста DeepSeek-V4-Pro:
- Требует только 27% FLOPs на один токен от DeepSeek-V3.2
- Использует 10% KV-кэша от V3.2
- DeepSeek заявляет лидерство среди open-weights в:
- Агентном программировании (Agentic Coding benchmarks)
- Знаниях о мире (уступает только Gemini 3.1 Pro среди всех моделей)
- Математике, STEM и коде — выше всех открытых моделей, близко к топовым закрытым
Функции на уровне продукта:
- Открытые веса на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
- Веб-интерфейс: chat.deepseek.com
- Expert Mode — Pro
- Instant Mode — Flash
- API с поддержкой:
- Формата OpenAI ChatCompletions
- Формата Anthropic
- Два режима работы:
- Thinking (с цепочкой рассуждений)
- Non-Thinking (обычный ответ без CoT)
- DeepSeek официально интегрировала V4 с агентами Claude Code, OpenClaw, OpenCode
- Старые эндпоинты deepseek-chat и deepseek-reasoner:
- Уже проксируются на deepseek-v4-flash (thinking / non-thinking)
- Полностью отключатся 24 июля 2026 года в 15:59 UTC
Как это работает
Mixture-of-Experts и активные параметры
Обе модели — MoE (Mixture-of-Experts). Это значит:
- Большое общее число параметров (1,6T и 284B)
- На каждый токен реально активируется только часть экспертов:
- 49B активных для V4-Pro
- 13B активных для V4-Flash
- Выигрыш: производительность близкая к «монолитной» модели на десятки миллиардов параметров, но с меньшими затратами на инференс
Гибридное внимание: CSA + HCA
DeepSeek переписала подсистему внимания под длинный контекст. В архитектуре V4 используется гибридный механизм:
- Compressed Sparse Attention (CSA)
- Модель хранит и обрабатывает не все токены одинаково
- Часть контекста сжимается и представляется в более компактном виде
- Внимание вычисляется по разреженной схеме: модель концентрируется на «важных» фрагментах
- Heavily Compressed Attention (HCA)
- Ещё более агрессивное сжатие для очень далёких токенов
- Позволяет держать до 1M токенов, не взрывая память и FLOPs
В отчёте показаны графики:
- Single-Token FLOPs для последовательностей до 1 024k токенов
- DeepSeek-V4-Pro и V4-Flash потребляют в 3,7–9,8 раза меньше FLOPs, чем V3.2
- KV Cache
- V4-Pro и V4-Flash используют в 9,5–13,7 раза меньше KV-кэша, чем V3.2
На практике это даёт возможность держать миллион токенов без кластеров на десятки GPU.
Manifold-Constrained Hyper-Connections (mHC)
DeepSeek изменила стандартные residual connections:
- mHC накладывают геометрические ограничения на связи между слоями
- Цель — более стабильное обучение при огромном числе параметров и длинном контексте
- В отчёте описана оптимизированная реализация mHC, которая экономит память и не рушит скорость
Muon Optimizer
Для обучения V4 DeepSeek использует Muon — собственный оптимизатор:
- Заявленная цель — быстрее сходимость и устойчивее обучение на масштабах:
-
32T токенов в датасете
- 1,6T параметров в модели
-
- В инфраструктуре описаны трюки для эффективной реализации Muon без больших накладных расходов
Инфраструктура и инференс
Ключевые детали из отчёта:
- Fine-grained overlap коммуникаций и вычислений в expert parallelism — меньше простоя GPU
- TileLang для разработки кастомных ядер под MoE и длинный контекст
- FP4 Quantization-Aware Training — подготовка к агрессивной квантизации без сильной потери качества
- Специальные решения для инференса:
- Структура и менеджмент KV-кэша под 1M контекст
- On-disk KV cache storage — часть кэша можно уводить на диск
Thinking Mode: как работает режим «мышления»
DeepSeek добавила thinking mode — модель сначала генерирует цепочку рассуждений (CoT), а потом финальный ответ.
- В ответе теперь два поля:
reasoning_content— рассужденияcontent— итоговый ответ пользователю
- В режиме thinking модель может делать многошаговые рассуждения и tool calls до выдачи ответа
- Управление через параметры:
- OpenAI-формат:
- Переключатель thinking:
{"thinking": {"type": "enabled" | "disabled"}}вextra_body - Усилие рассуждения:
reasoning_effort: "high" | "max"
- Переключатель thinking:
- Anthropic-формат:
- Усилие:
{"output_config": {"effort": "high" | "max"}}
- Усилие:
- OpenAI-формат:
Поведение по умолчанию:
- Thinking включён по умолчанию
- По умолчанию
reasoning_effort = "high" - Для сложных агентных задач (например, через Claude Code, OpenCode) DeepSeek автоматически поднимает усилие до
max - Значения
lowиmediumвнутри thinking режима мапятся наhigh,xhigh— наmax
Ограничения:
- В thinking mode игнорируются параметры:
temperaturetop_ppresence_penaltyfrequency_penalty
- Если их задать — ошибок не будет, но на ответ они не повлияют
Работа с контекстом в thinking mode:
- На каждом шаге модель выдаёт и
reasoning_content, иcontent - Если не было tool call:
reasoning_contentиз прошлых шагов можно не добавлять в контекст- Если всё-таки передать — API его проигнорирует
- Если был tool call:
reasoning_contentиз этого шага обязательно нужно включать в контекст всех следующих запросов
Что это значит для вас
Когда выбирать V4-Pro
DeepSeek-V4-Pro — выбор, если вы:
- Разрабатываете сложных агентов: код-ассистенты, автономные разработчики, системы с tool calls
- Работаете с математикой, STEM, научными текстами
- Нуждаетесь в качестве близком к топовым закрытым моделям уровня GPT-5.4-xHigh / Claude-Opus-4.6-Max / Gemini 3.1 Pro High
- Хотите использовать 1M контекст для:
- Анализа больших кодовых баз
- Разбора длинных документов и наборов контрактов
- Долгих сессий чата без потери памяти о начале разговора
Минусы:
- Выше требования к ресурсам, чем у Flash
- В режиме Pro-Max (максимальное рассуждение) задержка будет заметно больше
Когда достаточно V4-Flash
DeepSeek-V4-Flash — быстрый и более дешёвый вариант:
- 13B активных параметров
- 1M контекст
- Заявлена низкая стоимость API, ниже, чем у GPT-5.4 Nano
Подходит для:
- Продакшн-сценариев с большим трафиком, где важны цена и скорость
- Чатов поддержки, ассистентов для внутренних документов, генерации текстов
- Простых агентных задач, где Flash показывает сопоставимый с Pro уровень
Минусы:
- В сложной математике, программировании и глубоких рассуждениях Pro будет сильнее
Стоит ли использовать Thinking Mode
Thinking mode даёт выигрыш в точности на задачах, где важны рассуждения:
- Математика, логические задачи, сложные запросы к коду
- Многошаговые цепочки действий с tool calls
Когда включать:
- Если ответ критичен по качеству и у вас нет жёстких ограничений по задержке
- Для бэкендовых агентов, где пользователь не видит «мысленный поток» модели
Когда лучше выключить:
- Быстрые чат-боты для пользователей, где важна реакция < 1–2 секунд
- Простые Q&A, генерация текстов, саммари коротких документов
Важно: в thinking mode вы не можете управлять температурой и top_p, они игнорируются. Если вам нужно контролировать креативность — используйте non-thinking режим.
Доступность из России
DeepSeek даёт доступ через:
- Веб: https://chat.deepseek.com
- API: https://api.deepseek.com
Ограничения доступа для России в источниках не описаны. На практике возможны блокировки со стороны провайдеров или браузеров. В этом случае понадобится VPN или прокси.
Если вы уже используете deepseek-chat / deepseek-reasoner
- Сейчас запросы на deepseek-chat и deepseek-reasoner уже перенаправляются на deepseek-v4-flash
- До 24 июля 2026 года у вас есть время перейти на:
deepseek-v4-prodeepseek-v4-flash
- Логика thinking / non-thinking сохраняется, но нужно обновить имя модели в коде
Место на рынке
DeepSeek прямо сравнивает V4-Pro-Max с:
- Claude-Opus-4.6-Max
- GPT-5.4-xHigh
- Gemini-3.1-Pro-High
По графикам в отчёте:
- На задачах Knowledge & Reasoning (SimpleQA, HLE и др.) V4-Pro-Max:
- Лидирует среди открытых моделей
- Проигрывает только Gemini-3.1-Pro-High по общим знаниям о мире
- На Agentic Capabilities (SWE Verified, Toolathlon, TerminalBench, Codeforces и др.):
- V4-Pro-Max показывает уровень, сопоставимый с закрытыми моделями
По эффективности длинного контекста:
- V4-Pro и V4-Flash требуют в 3,7–9,8 раза меньше FLOPs и в 9,5–13,7 раза меньше KV-кэша, чем DeepSeek-V3.2 на 1M контексте
- Это ставит V4 в отдельную категорию среди моделей, которые реально поддерживают миллион токенов не только на бумаге, но и по ресурсам
По цене:
- DeepSeek прямо заявляет: V4-Flash дешевле GPT-5.4 Nano по API
- Точные тарифы в источнике не приведены, но позиционирование — «быстрый и экономичный слой» для массовых задач
Важный момент: DeepSeek распространяет открытые веса V4-Pro и V4-Flash. Это даёт возможность:
- Запускать модели на собственных серверах
- Строить кастомные пайплайны, не завязанные на один облачный API
Как запустить
Через API в формате OpenAI (без стриминга)
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
)
reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content
messages.append(response.choices[0].message)
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=messages,
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
)
Здесь:
modelможно заменить наdeepseek-v4-flash, если вам важнее скорость и ценаreasoning_effort="high"включает усиленный режим рассужденийextra_body={"thinking": {"type": "enabled"}}включает thinking mode
Если вы не хотите CoT и хотите управлять температурой — уберите extra_body и reasoning_effort.
Через API с потоковой выдачей (streaming)
from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=messages,
stream=True,
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
)
reasoning_content = ""
content = ""
for chunk in response:
if chunk.choices[0].delta.reasoning_content:
reasoning_content += chunk.choices[0].delta.reasoning_content
else:
content += chunk.choices[0].delta.content
messages.append({"role": "assistant", "reasoning_content": reasoning_content, "content": content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=messages,
stream=True,
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}},
)
Этот пример использует старый эндпоинт deepseek-reasoner, который сейчас уже проксируется на V4-Flash и будет отключён в 2026 году. При миграции достаточно заменить model на deepseek-v4-pro или deepseek-v4-flash.
Быстрый переход с старых моделей
Если у вас уже есть код под DeepSeek:
- Сохраните
base_url = "https://api.deepseek.com" - Обновите
modelна:deepseek-v4-pro— для максимального качестваdeepseek-v4-flash— для скорости и цены
Thinking mode и формат сообщений совместимы с OpenAI и Anthropic API, так что миграция в большинстве случаев сводится к замене имени модели.
На что обратить внимание
- Надёжные источники: DeepSeek просит ориентироваться только на официальные аккаунты и документацию. Любые заявления «от имени DeepSeek» в сторонних каналах не отражают позицию команды.
- AGI-фокус: в анонсе команда подчёркивает долгосрочную цель — движение к AGI и ставку на устойчивое развитие линейки.
- 1M контекст по умолчанию: это мощный инструмент, но и риск для бюджета, если вы бездумно скармливаете модели гигантские промпты. Имеет смысл контролировать длину запросов и хранить KV-кэш разумно.