- Дата публикации
DeepSeek навсегда снизила цену на V4-Pro: 1 млн токенов контекста и открытые веса
Что нового
DeepSeek запустила превью-линейку DeepSeek-V4 и одновременно навсегда закрепила 75‑процентную скидку на флагманскую модель DeepSeek‑V4‑Pro. Это важно по трём причинам:
- Длинный контекст стал стандартом. Все официальные сервисы DeepSeek теперь по умолчанию работают с контекстом до 1 млн токенов. Это касается и V4‑Pro, и более лёгкой DeepSeek‑V4‑Flash.
- Две модели — два режима работы.
- DeepSeek‑V4‑Pro: 1,6 трлн общих параметров, из них 49 млрд активных. Производительность заявлена на уровне топовых закрытых моделей.
- DeepSeek‑V4‑Flash: 284 млрд общих параметров, 13 млрд активных. Ставка на скорость и цену.
- Два режима вывода для обеих моделей:
- Thinking — с развёрнутой «мысленной» цепочкой рассуждений (см. гайд: https://api-docs.deepseek.com/guides/thinking_mode).
- Non‑Thinking — обычные быстрые ответы.
Модели уже доступны:
- В веб‑интерфейсе chat.deepseek.com (Expert Mode / Instant Mode).
- Через API с обновлёнными эндпоинтами.
DeepSeek также:
- Открыла веса обеих моделей на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
- Опубликовала технический отчёт по V4‑Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
- Объявила, что deepseek-chat и deepseek-reasoner будут окончательно отключены 24 июля 2026 года в 15:59 по UTC. Сейчас запросы к ним уже маршрутизируются на deepseek‑v4‑flash (в режимах thinking / non‑thinking).
Как это работает
DeepSeek делает ставку на две вещи: архитектуру внимания и экономию вычислений при длинном контексте.
Ключевые технические элементы:
-
Token-wise compression — сжатие представления токенов на лету.
- Модель не хранит полную «историю» в максимальном разрешении.
- Часть информации агрегируется в более компактный вид.
- Это снижает требования к памяти при контексте до 1 млн токенов.
-
DSA (DeepSeek Sparse Attention) — разреженное внимание.
- Модель не смотрит на каждый токен в контексте.
- Вместо этого выбирает подмножество «важных» позиций.
- Это уменьшает количество операций и ускоряет расчёт.
В итоге DeepSeek заявляет:
- «Peak Efficiency» для длинного контекста: меньше вычислений и памяти при тех же 1 млн токенов.
- Одинаковый лимит в 1M контекста для V4‑Pro и V4‑Flash.
По задачам:
- Agentic Coding: V4‑Pro показывает результаты уровня SOTA среди открытых моделей в профильных бенчмарках.
- Мироустройство и факты: V4‑Pro лидирует среди открытых моделей по «world knowledge» и уступает только Gemini 3.1 Pro.
- Математика, STEM и код: по заявлению DeepSeek, V4‑Pro обходит все текущие открытые модели и приближается к топовым закрытым.
V4‑Flash использует те же идеи, но с меньшим числом активных параметров. За счёт этого она:
- Быстрее отвечает.
- Дешевле по API.
- При этом по простым агентным задачам и базовому рассуждению «подбирается» к V4‑Pro.
Что это значит для вас
Когда имеет смысл использовать DeepSeek‑V4‑Pro
V4‑Pro стоит рассматривать, если вам нужно:
-
Сложное программирование и агентные сценарии.
- Автогенерация кода с несколькими файлами и шагами.
- Интеграция в свои AI‑агенты для сложных пайплайнов.
- DeepSeek уже использует V4‑Pro для внутренних агентных систем программирования.
-
Сложные задачи по математике и STEM.
- Решение задач с несколькими шагами рассуждений.
- Анализ формул, доказательств, длинных технических текстов.
-
Работа с огромными документами.
- Анализ PDF, технических отчётов, логов, контрактов.
- Сборка отчётов по массиву документов за один запрос.
-
Максимальное качество среди открытых моделей.
- Если вы хотите модель уровня закрытых систем, но с открытыми весами.
Минусы V4‑Pro:
- Более тяжёлая и медленнее, чем V4‑Flash.
- Дороже в эксплуатации, если вы поднимаете её у себя.
Когда лучше взять DeepSeek‑V4‑Flash
V4‑Flash — выбор, если вам нужно:
-
Быстрые ответы при большом потоке запросов.
- Чат‑боты.
- Вспомогательные инструменты для разработчиков.
- Агентные сценарии средней сложности.
-
Низкая стоимость API.
- DeepSeek прямо позиционирует V4‑Flash как экономичный вариант.
-
1 млн токенов, но без максимального качества рассуждений.
- Разбор длинных логов и переписок.
- Поиск информации в массиве текста.
Ограничения V4‑Flash:
- В сложных математических и научных задачах она будет уступать V4‑Pro.
- Для очень сложных агентных сценариев с большим количеством шагов лучше использовать Pro‑версию.
Где не стоит применять
-
Критически важные решения без человеческой проверки.
- Юридические выводы.
- Медицинские рекомендации.
- Финансовые решения с риском для бизнеса.
-
Сценарии, где вам принципиально нужна закрытая модель с поддержкой крупного вендора.
- Если вы уже глубоко интегрированы в экосистему Google или OpenAI и не готовы менять стек.
Доступность из России
- Веб‑доступ: chat.deepseek.com.
- Для российских пользователей возможна блокировка на уровне провайдера или DNS.
- Если сайт или API не открываются напрямую, придётся использовать VPN или прокси.
- DeepSeek не даёт специальных гарантий доступности сервиса в России.
Место на рынке
По заявлениям DeepSeek:
-
По знаниям о мире V4‑Pro:
- Лидирует среди открытых моделей.
- Уступает только Gemini 3.1 Pro.
-
По математике, STEM и программированию:
- Обходит все текущие открытые модели.
- Приближается к топовым закрытым системам (конкретные названия и цифры в анонсе не приводятся).
-
Agentic Coding:
- V4‑Pro показывает SOTA среди открытых моделей в профильных бенчмарках.
- DeepSeek интегрировала V4‑серии с агентами Claude Code, OpenClaw и OpenCode.
-
Стоимость и доступность:
- DeepSeek зафиксировала постоянную 75‑процентную скидку на V4‑Pro по сравнению с исходной ценой.
- V4‑Flash позиционируется как ещё более дешёвый вариант.
DeepSeek подчёркивает, что V4‑Pro и V4‑Flash:
- Поддерживают API‑формат OpenAI ChatCompletions.
- Поддерживают формат API Anthropic (Claude).
- Не требуют смены
base_urlпри переходе с старых моделей DeepSeek — достаточно заменить имя модели наdeepseek-v4-proилиdeepseek-v4-flash.
Как запустить
DeepSeek даёт несколько базовых рекомендаций по миграции и запуску:
-
Если вы уже используете DeepSeek API:
- Сохраните текущий
base_url. - Замените имя модели на
deepseek-v4-proилиdeepseek-v4-flash.
- Сохраните текущий
-
Поддерживаемые протоколы:
- OpenAI ChatCompletions.
- Anthropic‑совместимый API.
-
Режимы работы моделей:
thinking— с развёрнутым внутренним рассуждением.non-thinking— быстрые ответы без «мысленного трека».- Подробности: https://api-docs.deepseek.com/guides/thinking_mode
Пример логики миграции (псевдо‑шаги):
- Найдите все обращения к
deepseek-chatиdeepseek-reasonerв коде. - Замените имя модели на
deepseek-v4-flashилиdeepseek-v4-pro. - При необходимости добавьте параметр режима (thinking / non-thinking) в соответствии с документацией.
- Протестируйте поведение на ключевых сценариях.
Что ещё важно знать
- DeepSeek официально объявила, что deepseek-chat и deepseek-reasoner перестанут работать 24 июля 2026 года в 15:59 (UTC).
- Уже сейчас запросы к этим моделям перенаправляются на deepseek‑v4‑flash в соответствующем режиме.
- Компания просит ориентироваться только на свои официальные каналы для новостей о DeepSeek. Любые заявления из сторонних источников не отражают её позицию.
- DeepSeek публично декларирует курс на долгосрочное развитие и цель выйти к AGI (общему искусственному интеллекту).
Если вы строите продукты на LLM и вам нужны открытые веса, длинный контекст и совместимость с привычными API, V4‑линейка DeepSeek выглядит как один из немногих вариантов с 1 млн токенов и агрессивным постоянным дисконтом на флагманскую модель.