Дата публикации
ai_products

DeepSeek V4: открытые Pro и Flash с 1M контекстом и режимом «мышления»

Что нового

DeepSeek представила линейку DeepSeek V4 — это два Mixture-of-Experts LLM с открытыми весами и миллионом токенов контекста по умолчанию:

  • DeepSeek-V4-Pro
    • 1,6 триллиона общих параметров, из них 49B активных на токен
    • Контекст до 1 000 000 токенов
    • Режим максимального рассуждения DeepSeek-V4-Pro-Max
    • По бенчмаркам в отчёте догоняет закрытые модели уровня Gemini 3.1 Pro High, GPT-5.4-xHigh, Claude-Opus-4.6-Max
  • DeepSeek-V4-Flash
    • 284B общих параметров, 13B активных
    • Тот же 1M контекст
    • Упор на скорость и цену — позиционируется как дешевле GPT-5.4 Nano

Ключевые изменения по сравнению с DeepSeek V3.2:

  • 1M контекст стал стандартом для всех официальных сервисов DeepSeek
  • В режиме 1M контекста DeepSeek-V4-Pro:
    • Требует только 27% FLOPs на один токен от DeepSeek-V3.2
    • Использует 10% KV-кэша от V3.2
  • DeepSeek заявляет лидерство среди open-weights в:
    • Агентном программировании (Agentic Coding benchmarks)
    • Знаниях о мире (уступает только Gemini 3.1 Pro среди всех моделей)
    • Математике, STEM и коде — выше всех открытых моделей, близко к топовым закрытым

Функции на уровне продукта:

  • Открытые веса на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
  • Веб-интерфейс: chat.deepseek.com
    • Expert Mode — Pro
    • Instant Mode — Flash
  • API с поддержкой:
    • Формата OpenAI ChatCompletions
    • Формата Anthropic
  • Два режима работы:
    • Thinking (с цепочкой рассуждений)
    • Non-Thinking (обычный ответ без CoT)
  • DeepSeek официально интегрировала V4 с агентами Claude Code, OpenClaw, OpenCode
  • Старые эндпоинты deepseek-chat и deepseek-reasoner:
    • Уже проксируются на deepseek-v4-flash (thinking / non-thinking)
    • Полностью отключатся 24 июля 2026 года в 15:59 UTC

Как это работает

Mixture-of-Experts и активные параметры

Обе модели — MoE (Mixture-of-Experts). Это значит:

  • Большое общее число параметров (1,6T и 284B)
  • На каждый токен реально активируется только часть экспертов:
    • 49B активных для V4-Pro
    • 13B активных для V4-Flash
  • Выигрыш: производительность близкая к «монолитной» модели на десятки миллиардов параметров, но с меньшими затратами на инференс

Гибридное внимание: CSA + HCA

DeepSeek переписала подсистему внимания под длинный контекст. В архитектуре V4 используется гибридный механизм:

  1. Compressed Sparse Attention (CSA)
    • Модель хранит и обрабатывает не все токены одинаково
    • Часть контекста сжимается и представляется в более компактном виде
    • Внимание вычисляется по разреженной схеме: модель концентрируется на «важных» фрагментах
  2. Heavily Compressed Attention (HCA)
    • Ещё более агрессивное сжатие для очень далёких токенов
    • Позволяет держать до 1M токенов, не взрывая память и FLOPs

В отчёте показаны графики:

  • Single-Token FLOPs для последовательностей до 1 024k токенов
    • DeepSeek-V4-Pro и V4-Flash потребляют в 3,7–9,8 раза меньше FLOPs, чем V3.2
  • KV Cache
    • V4-Pro и V4-Flash используют в 9,5–13,7 раза меньше KV-кэша, чем V3.2

На практике это даёт возможность держать миллион токенов без кластеров на десятки GPU.

Manifold-Constrained Hyper-Connections (mHC)

DeepSeek изменила стандартные residual connections:

  • mHC накладывают геометрические ограничения на связи между слоями
  • Цель — более стабильное обучение при огромном числе параметров и длинном контексте
  • В отчёте описана оптимизированная реализация mHC, которая экономит память и не рушит скорость

Muon Optimizer

Для обучения V4 DeepSeek использует Muon — собственный оптимизатор:

  • Заявленная цель — быстрее сходимость и устойчивее обучение на масштабах:
    • 32T токенов в датасете

    • 1,6T параметров в модели
  • В инфраструктуре описаны трюки для эффективной реализации Muon без больших накладных расходов

Инфраструктура и инференс

Ключевые детали из отчёта:

  • Fine-grained overlap коммуникаций и вычислений в expert parallelism — меньше простоя GPU
  • TileLang для разработки кастомных ядер под MoE и длинный контекст
  • FP4 Quantization-Aware Training — подготовка к агрессивной квантизации без сильной потери качества
  • Специальные решения для инференса:
    • Структура и менеджмент KV-кэша под 1M контекст
    • On-disk KV cache storage — часть кэша можно уводить на диск

Thinking Mode: как работает режим «мышления»

DeepSeek добавила thinking mode — модель сначала генерирует цепочку рассуждений (CoT), а потом финальный ответ.

  • В ответе теперь два поля:
    • reasoning_content — рассуждения
    • content — итоговый ответ пользователю
  • В режиме thinking модель может делать многошаговые рассуждения и tool calls до выдачи ответа
  • Управление через параметры:
    • OpenAI-формат:
      • Переключатель thinking: {"thinking": {"type": "enabled" | "disabled"}} в extra_body
      • Усилие рассуждения: reasoning_effort: "high" | "max"
    • Anthropic-формат:
      • Усилие: {"output_config": {"effort": "high" | "max"}}

Поведение по умолчанию:

  • Thinking включён по умолчанию
  • По умолчанию reasoning_effort = "high"
  • Для сложных агентных задач (например, через Claude Code, OpenCode) DeepSeek автоматически поднимает усилие до max
  • Значения low и medium внутри thinking режима мапятся на high, xhigh — на max

Ограничения:

  • В thinking mode игнорируются параметры:
    • temperature
    • top_p
    • presence_penalty
    • frequency_penalty
  • Если их задать — ошибок не будет, но на ответ они не повлияют

Работа с контекстом в thinking mode:

  • На каждом шаге модель выдаёт и reasoning_content, и content
  • Если не было tool call:
    • reasoning_content из прошлых шагов можно не добавлять в контекст
    • Если всё-таки передать — API его проигнорирует
  • Если был tool call:
    • reasoning_content из этого шага обязательно нужно включать в контекст всех следующих запросов

Что это значит для вас

Когда выбирать V4-Pro

DeepSeek-V4-Pro — выбор, если вы:

  • Разрабатываете сложных агентов: код-ассистенты, автономные разработчики, системы с tool calls
  • Работаете с математикой, STEM, научными текстами
  • Нуждаетесь в качестве близком к топовым закрытым моделям уровня GPT-5.4-xHigh / Claude-Opus-4.6-Max / Gemini 3.1 Pro High
  • Хотите использовать 1M контекст для:
    • Анализа больших кодовых баз
    • Разбора длинных документов и наборов контрактов
    • Долгих сессий чата без потери памяти о начале разговора

Минусы:

  • Выше требования к ресурсам, чем у Flash
  • В режиме Pro-Max (максимальное рассуждение) задержка будет заметно больше

Когда достаточно V4-Flash

DeepSeek-V4-Flash — быстрый и более дешёвый вариант:

  • 13B активных параметров
  • 1M контекст
  • Заявлена низкая стоимость API, ниже, чем у GPT-5.4 Nano

Подходит для:

  • Продакшн-сценариев с большим трафиком, где важны цена и скорость
  • Чатов поддержки, ассистентов для внутренних документов, генерации текстов
  • Простых агентных задач, где Flash показывает сопоставимый с Pro уровень

Минусы:

  • В сложной математике, программировании и глубоких рассуждениях Pro будет сильнее

Стоит ли использовать Thinking Mode

Thinking mode даёт выигрыш в точности на задачах, где важны рассуждения:

  • Математика, логические задачи, сложные запросы к коду
  • Многошаговые цепочки действий с tool calls

Когда включать:

  • Если ответ критичен по качеству и у вас нет жёстких ограничений по задержке
  • Для бэкендовых агентов, где пользователь не видит «мысленный поток» модели

Когда лучше выключить:

  • Быстрые чат-боты для пользователей, где важна реакция < 1–2 секунд
  • Простые Q&A, генерация текстов, саммари коротких документов

Важно: в thinking mode вы не можете управлять температурой и top_p, они игнорируются. Если вам нужно контролировать креативность — используйте non-thinking режим.

Доступность из России

DeepSeek даёт доступ через:

  • Веб: https://chat.deepseek.com
  • API: https://api.deepseek.com

Ограничения доступа для России в источниках не описаны. На практике возможны блокировки со стороны провайдеров или браузеров. В этом случае понадобится VPN или прокси.

Если вы уже используете deepseek-chat / deepseek-reasoner

  • Сейчас запросы на deepseek-chat и deepseek-reasoner уже перенаправляются на deepseek-v4-flash
  • До 24 июля 2026 года у вас есть время перейти на:
    • deepseek-v4-pro
    • deepseek-v4-flash
  • Логика thinking / non-thinking сохраняется, но нужно обновить имя модели в коде

Место на рынке

DeepSeek прямо сравнивает V4-Pro-Max с:

  • Claude-Opus-4.6-Max
  • GPT-5.4-xHigh
  • Gemini-3.1-Pro-High

По графикам в отчёте:

  • На задачах Knowledge & Reasoning (SimpleQA, HLE и др.) V4-Pro-Max:
    • Лидирует среди открытых моделей
    • Проигрывает только Gemini-3.1-Pro-High по общим знаниям о мире
  • На Agentic Capabilities (SWE Verified, Toolathlon, TerminalBench, Codeforces и др.):
    • V4-Pro-Max показывает уровень, сопоставимый с закрытыми моделями

По эффективности длинного контекста:

  • V4-Pro и V4-Flash требуют в 3,7–9,8 раза меньше FLOPs и в 9,5–13,7 раза меньше KV-кэша, чем DeepSeek-V3.2 на 1M контексте
  • Это ставит V4 в отдельную категорию среди моделей, которые реально поддерживают миллион токенов не только на бумаге, но и по ресурсам

По цене:

  • DeepSeek прямо заявляет: V4-Flash дешевле GPT-5.4 Nano по API
  • Точные тарифы в источнике не приведены, но позиционирование — «быстрый и экономичный слой» для массовых задач

Важный момент: DeepSeek распространяет открытые веса V4-Pro и V4-Flash. Это даёт возможность:

  • Запускать модели на собственных серверах
  • Строить кастомные пайплайны, не завязанные на один облачный API

Как запустить

Через API в формате OpenAI (без стриминга)

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=messages,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

messages.append(response.choices[0].message)
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=messages,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

Здесь:

  • model можно заменить на deepseek-v4-flash, если вам важнее скорость и цена
  • reasoning_effort="high" включает усиленный режим рассуждений
  • extra_body={"thinking": {"type": "enabled"}} включает thinking mode

Если вы не хотите CoT и хотите управлять температурой — уберите extra_body и reasoning_effort.

Через API с потоковой выдачей (streaming)

from openai import OpenAI

client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

reasoning_content = ""
content = ""

for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        reasoning_content += chunk.choices[0].delta.reasoning_content
    else:
        content += chunk.choices[0].delta.content

messages.append({"role": "assistant", "reasoning_content": reasoning_content, "content": content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True,
    reasoning_effort="high",
    extra_body={"thinking": {"type": "enabled"}},
)

Этот пример использует старый эндпоинт deepseek-reasoner, который сейчас уже проксируется на V4-Flash и будет отключён в 2026 году. При миграции достаточно заменить model на deepseek-v4-pro или deepseek-v4-flash.

Быстрый переход с старых моделей

Если у вас уже есть код под DeepSeek:

  • Сохраните base_url = "https://api.deepseek.com"
  • Обновите model на:
    • deepseek-v4-pro — для максимального качества
    • deepseek-v4-flash — для скорости и цены

Thinking mode и формат сообщений совместимы с OpenAI и Anthropic API, так что миграция в большинстве случаев сводится к замене имени модели.

На что обратить внимание

  • Надёжные источники: DeepSeek просит ориентироваться только на официальные аккаунты и документацию. Любые заявления «от имени DeepSeek» в сторонних каналах не отражают позицию команды.
  • AGI-фокус: в анонсе команда подчёркивает долгосрочную цель — движение к AGI и ставку на устойчивое развитие линейки.
  • 1M контекст по умолчанию: это мощный инструмент, но и риск для бюджета, если вы бездумно скармливаете модели гигантские промпты. Имеет смысл контролировать длину запросов и хранить KV-кэш разумно.

Читайте также