DeepSeek V4: открытые Pro и Flash с 1M контекстом и режимом «мышления» — VogueTech

Что нового

DeepSeek представила линейку DeepSeek V4 — это два Mixture-of-Experts LLM с открытыми весами и миллионом токенов контекста по умолчанию:

DeepSeek-V4-Pro
- 1,6 триллиона общих параметров, из них 49B активных на токен
- Контекст до 1 000 000 токенов
- Режим максимального рассуждения DeepSeek-V4-Pro-Max
- По бенчмаркам в отчёте догоняет закрытые модели уровня Gemini 3.1 Pro High, GPT-5.4-xHigh, Claude-Opus-4.6-Max
DeepSeek-V4-Flash
- 284B общих параметров, 13B активных
- Тот же 1M контекст
- Упор на скорость и цену — позиционируется как дешевле GPT-5.4 Nano

Ключевые изменения по сравнению с DeepSeek V3.2:

1M контекст стал стандартом для всех официальных сервисов DeepSeek
В режиме 1M контекста DeepSeek-V4-Pro:
- Требует только 27% FLOPs на один токен от DeepSeek-V3.2
- Использует 10% KV-кэша от V3.2
DeepSeek заявляет лидерство среди open-weights в:
- Агентном программировании (Agentic Coding benchmarks)
- Знаниях о мире (уступает только Gemini 3.1 Pro среди всех моделей)
- Математике, STEM и коде — выше всех открытых моделей, близко к топовым закрытым

Функции на уровне продукта:

Открытые веса на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
Веб-интерфейс: chat.deepseek.com
- Expert Mode — Pro
- Instant Mode — Flash
API с поддержкой:
- Формата OpenAI ChatCompletions
- Формата Anthropic
Два режима работы:
- Thinking (с цепочкой рассуждений)
- Non-Thinking (обычный ответ без CoT)
DeepSeek официально интегрировала V4 с агентами Claude Code, OpenClaw, OpenCode
Старые эндпоинты deepseek-chat и deepseek-reasoner:
- Уже проксируются на deepseek-v4-flash (thinking / non-thinking)
- Полностью отключатся 24 июля 2026 года в 15:59 UTC

Как это работает

Mixture-of-Experts и активные параметры

Обе модели — MoE (Mixture-of-Experts). Это значит:

Большое общее число параметров (1,6T и 284B)
На каждый токен реально активируется только часть экспертов:
- 49B активных для V4-Pro
- 13B активных для V4-Flash
Выигрыш: производительность близкая к «монолитной» модели на десятки миллиардов параметров, но с меньшими затратами на инференс

Гибридное внимание: CSA + HCA

DeepSeek переписала подсистему внимания под длинный контекст. В архитектуре V4 используется гибридный механизм:

Compressed Sparse Attention (CSA)
- Модель хранит и обрабатывает не все токены одинаково
- Часть контекста сжимается и представляется в более компактном виде
- Внимание вычисляется по разреженной схеме: модель концентрируется на «важных» фрагментах
Heavily Compressed Attention (HCA)
- Ещё более агрессивное сжатие для очень далёких токенов
- Позволяет держать до 1M токенов, не взрывая память и FLOPs

В отчёте показаны графики:

Single-Token FLOPs для последовательностей до 1 024k токенов
- DeepSeek-V4-Pro и V4-Flash потребляют в 3,7–9,8 раза меньше FLOPs, чем V3.2
KV Cache
- V4-Pro и V4-Flash используют в 9,5–13,7 раза меньше KV-кэша, чем V3.2

На практике это даёт возможность держать миллион токенов без кластеров на десятки GPU.

Manifold-Constrained Hyper-Connections (mHC)

DeepSeek изменила стандартные residual connections:

mHC накладывают геометрические ограничения на связи между слоями
Цель — более стабильное обучение при огромном числе параметров и длинном контексте
В отчёте описана оптимизированная реализация mHC, которая экономит память и не рушит скорость

Muon Optimizer

Для обучения V4 DeepSeek использует Muon — собственный оптимизатор:

Заявленная цель — быстрее сходимость и устойчивее обучение на масштабах:
- 32T токенов в датасете
- 1,6T параметров в модели
В инфраструктуре описаны трюки для эффективной реализации Muon без больших накладных расходов

Инфраструктура и инференс

Ключевые детали из отчёта:

Fine-grained overlap коммуникаций и вычислений в expert parallelism — меньше простоя GPU
TileLang для разработки кастомных ядер под MoE и длинный контекст
FP4 Quantization-Aware Training — подготовка к агрессивной квантизации без сильной потери качества
Специальные решения для инференса:
- Структура и менеджмент KV-кэша под 1M контекст
- On-disk KV cache storage — часть кэша можно уводить на диск

Thinking Mode: как работает режим «мышления»

DeepSeek добавила thinking mode — модель сначала генерирует цепочку рассуждений (CoT), а потом финальный ответ.

В ответе теперь два поля:
- reasoning_content — рассуждения
- content — итоговый ответ пользователю
В режиме thinking модель может делать многошаговые рассуждения и tool calls до выдачи ответа
Управление через параметры:
- OpenAI-формат:
  - Переключатель thinking: {"thinking": {"type": "enabled" | "disabled"}} в extra_body
  - Усилие рассуждения: reasoning_effort: "high" | "max"
- Anthropic-формат:
  - Усилие: {"output_config": {"effort": "high" | "max"}}

Поведение по умолчанию:

Thinking включён по умолчанию
По умолчанию reasoning_effort = "high"
Для сложных агентных задач (например, через Claude Code, OpenCode) DeepSeek автоматически поднимает усилие до max
Значения low и medium внутри thinking режима мапятся на high, xhigh — на max

Ограничения:

В thinking mode игнорируются параметры:
- temperature
- top_p
- presence_penalty
- frequency_penalty
Если их задать — ошибок не будет, но на ответ они не повлияют

Работа с контекстом в thinking mode:

На каждом шаге модель выдаёт и reasoning_content, и content
Если не было tool call:
- reasoning_content из прошлых шагов можно не добавлять в контекст
- Если всё-таки передать — API его проигнорирует
Если был tool call:
- reasoning_content из этого шага обязательно нужно включать в контекст всех следующих запросов

Что это значит для вас

Когда выбирать V4-Pro

DeepSeek-V4-Pro — выбор, если вы:

Разрабатываете сложных агентов: код-ассистенты, автономные разработчики, системы с tool calls
Работаете с математикой, STEM, научными текстами
Нуждаетесь в качестве близком к топовым закрытым моделям уровня GPT-5.4-xHigh / Claude-Opus-4.6-Max / Gemini 3.1 Pro High
Хотите использовать 1M контекст для:
- Анализа больших кодовых баз
- Разбора длинных документов и наборов контрактов
- Долгих сессий чата без потери памяти о начале разговора

Минусы:

Выше требования к ресурсам, чем у Flash
В режиме Pro-Max (максимальное рассуждение) задержка будет заметно больше

Когда достаточно V4-Flash

DeepSeek-V4-Flash — быстрый и более дешёвый вариант:

13B активных параметров
1M контекст
Заявлена низкая стоимость API, ниже, чем у GPT-5.4 Nano

Подходит для:

Продакшн-сценариев с большим трафиком, где важны цена и скорость
Чатов поддержки, ассистентов для внутренних документов, генерации текстов
Простых агентных задач, где Flash показывает сопоставимый с Pro уровень

Минусы:

В сложной математике, программировании и глубоких рассуждениях Pro будет сильнее

Стоит ли использовать Thinking Mode

Thinking mode даёт выигрыш в точности на задачах, где важны рассуждения:

Математика, логические задачи, сложные запросы к коду
Многошаговые цепочки действий с tool calls

Когда включать:

Если ответ критичен по качеству и у вас нет жёстких ограничений по задержке
Для бэкендовых агентов, где пользователь не видит «мысленный поток» модели

Когда лучше выключить:

Быстрые чат-боты для пользователей, где важна реакция < 1–2 секунд
Простые Q&A, генерация текстов, саммари коротких документов

Важно: в thinking mode вы не можете управлять температурой и top_p, они игнорируются. Если вам нужно контролировать креативность — используйте non-thinking режим.

Доступность из России

DeepSeek даёт доступ через:

Веб: https://chat.deepseek.com
API: https://api.deepseek.com

Ограничения доступа для России в источниках не описаны. На практике возможны блокировки со стороны провайдеров или браузеров. В этом случае понадобится VPN или прокси.

Если вы уже используете deepseek-chat / deepseek-reasoner

Сейчас запросы на deepseek-chat и deepseek-reasoner уже перенаправляются на deepseek-v4-flash
До 24 июля 2026 года у вас есть время перейти на:
- deepseek-v4-pro
- deepseek-v4-flash
Логика thinking / non-thinking сохраняется, но нужно обновить имя модели в коде

Место на рынке

DeepSeek прямо сравнивает V4-Pro-Max с:

Claude-Opus-4.6-Max
GPT-5.4-xHigh
Gemini-3.1-Pro-High

По графикам в отчёте:

На задачах Knowledge & Reasoning (SimpleQA, HLE и др.) V4-Pro-Max:
- Лидирует среди открытых моделей
- Проигрывает только Gemini-3.1-Pro-High по общим знаниям о мире
На Agentic Capabilities (SWE Verified, Toolathlon, TerminalBench, Codeforces и др.):
- V4-Pro-Max показывает уровень, сопоставимый с закрытыми моделями

По эффективности длинного контекста:

V4-Pro и V4-Flash требуют в 3,7–9,8 раза меньше FLOPs и в 9,5–13,7 раза меньше KV-кэша, чем DeepSeek-V3.2 на 1M контексте
Это ставит V4 в отдельную категорию среди моделей, которые реально поддерживают миллион токенов не только на бумаге, но и по ресурсам

По цене:

DeepSeek прямо заявляет: V4-Flash дешевле GPT-5.4 Nano по API
Точные тарифы в источнике не приведены, но позиционирование — «быстрый и экономичный слой» для массовых задач

Важный момент: DeepSeek распространяет открытые веса V4-Pro и V4-Flash. Это даёт возможность:

Запускать модели на собственных серверах
Строить кастомные пайплайны, не завязанные на один облачный API

Как запустить

Через API в формате OpenAI (без стриминга)

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=messages,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

messages.append(response.choices[0].message)
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=messages,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

Здесь:

model можно заменить на deepseek-v4-flash, если вам важнее скорость и цена
reasoning_effort="high" включает усиленный режим рассуждений
extra_body={"thinking": {"type": "enabled"}} включает thinking mode

Если вы не хотите CoT и хотите управлять температурой — уберите extra_body и reasoning_effort.

Через API с потоковой выдачей (streaming)

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = ""
content = ""

for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        reasoning_content += chunk.choices[0].delta.reasoning_content
    else:
        content += chunk.choices[0].delta.content

messages.append({"role": "assistant", "reasoning_content": reasoning_content, "content": content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

Этот пример использует старый эндпоинт deepseek-reasoner, который сейчас уже проксируется на V4-Flash и будет отключён в 2026 году. При миграции достаточно заменить model на deepseek-v4-pro или deepseek-v4-flash.

Быстрый переход с старых моделей

Если у вас уже есть код под DeepSeek:

Сохраните base_url = "https://api.deepseek.com"
Обновите model на:
- deepseek-v4-pro — для максимального качества
- deepseek-v4-flash — для скорости и цены

Thinking mode и формат сообщений совместимы с OpenAI и Anthropic API, так что миграция в большинстве случаев сводится к замене имени модели.

На что обратить внимание

Надёжные источники: DeepSeek просит ориентироваться только на официальные аккаунты и документацию. Любые заявления «от имени DeepSeek» в сторонних каналах не отражают позицию команды.
AGI-фокус: в анонсе команда подчёркивает долгосрочную цель — движение к AGI и ставку на устойчивое развитие линейки.
1M контекст по умолчанию: это мощный инструмент, но и риск для бюджета, если вы бездумно скармливаете модели гигантские промпты. Имеет смысл контролировать длину запросов и хранить KV-кэш разумно.