DeepSeek навсегда снизила цену на V4-Pro: 1 млн токенов контекста и открытые веса — VogueTech

Что нового

DeepSeek запустила превью-линейку DeepSeek-V4 и одновременно навсегда закрепила 75‑процентную скидку на флагманскую модель DeepSeek‑V4‑Pro. Это важно по трём причинам:

Длинный контекст стал стандартом. Все официальные сервисы DeepSeek теперь по умолчанию работают с контекстом до 1 млн токенов. Это касается и V4‑Pro, и более лёгкой DeepSeek‑V4‑Flash.
Две модели — два режима работы.
- DeepSeek‑V4‑Pro: 1,6 трлн общих параметров, из них 49 млрд активных. Производительность заявлена на уровне топовых закрытых моделей.
- DeepSeek‑V4‑Flash: 284 млрд общих параметров, 13 млрд активных. Ставка на скорость и цену.
Два режима вывода для обеих моделей:
- Thinking — с развёрнутой «мысленной» цепочкой рассуждений (см. гайд: https://api-docs.deepseek.com/guides/thinking_mode).
- Non‑Thinking — обычные быстрые ответы.

Модели уже доступны:

В веб‑интерфейсе chat.deepseek.com (Expert Mode / Instant Mode).
Через API с обновлёнными эндпоинтами.

DeepSeek также:

Открыла веса обеих моделей на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
Опубликовала технический отчёт по V4‑Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Объявила, что deepseek-chat и deepseek-reasoner будут окончательно отключены 24 июля 2026 года в 15:59 по UTC. Сейчас запросы к ним уже маршрутизируются на deepseek‑v4‑flash (в режимах thinking / non‑thinking).

Как это работает

DeepSeek делает ставку на две вещи: архитектуру внимания и экономию вычислений при длинном контексте.

Ключевые технические элементы:

Token-wise compression — сжатие представления токенов на лету.
- Модель не хранит полную «историю» в максимальном разрешении.
- Часть информации агрегируется в более компактный вид.
- Это снижает требования к памяти при контексте до 1 млн токенов.
DSA (DeepSeek Sparse Attention) — разреженное внимание.
- Модель не смотрит на каждый токен в контексте.
- Вместо этого выбирает подмножество «важных» позиций.
- Это уменьшает количество операций и ускоряет расчёт.

В итоге DeepSeek заявляет:

«Peak Efficiency» для длинного контекста: меньше вычислений и памяти при тех же 1 млн токенов.
Одинаковый лимит в 1M контекста для V4‑Pro и V4‑Flash.

По задачам:

Agentic Coding: V4‑Pro показывает результаты уровня SOTA среди открытых моделей в профильных бенчмарках.
Мироустройство и факты: V4‑Pro лидирует среди открытых моделей по «world knowledge» и уступает только Gemini 3.1 Pro.
Математика, STEM и код: по заявлению DeepSeek, V4‑Pro обходит все текущие открытые модели и приближается к топовым закрытым.

V4‑Flash использует те же идеи, но с меньшим числом активных параметров. За счёт этого она:

Быстрее отвечает.
Дешевле по API.
При этом по простым агентным задачам и базовому рассуждению «подбирается» к V4‑Pro.

Что это значит для вас

Когда имеет смысл использовать DeepSeek‑V4‑Pro

V4‑Pro стоит рассматривать, если вам нужно:

Сложное программирование и агентные сценарии.
- Автогенерация кода с несколькими файлами и шагами.
- Интеграция в свои AI‑агенты для сложных пайплайнов.
- DeepSeek уже использует V4‑Pro для внутренних агентных систем программирования.
Сложные задачи по математике и STEM.
- Решение задач с несколькими шагами рассуждений.
- Анализ формул, доказательств, длинных технических текстов.
Работа с огромными документами.
- Анализ PDF, технических отчётов, логов, контрактов.
- Сборка отчётов по массиву документов за один запрос.
Максимальное качество среди открытых моделей.
- Если вы хотите модель уровня закрытых систем, но с открытыми весами.

Минусы V4‑Pro:

Более тяжёлая и медленнее, чем V4‑Flash.
Дороже в эксплуатации, если вы поднимаете её у себя.

Когда лучше взять DeepSeek‑V4‑Flash

V4‑Flash — выбор, если вам нужно:

Быстрые ответы при большом потоке запросов.
- Чат‑боты.
- Вспомогательные инструменты для разработчиков.
- Агентные сценарии средней сложности.
Низкая стоимость API.
- DeepSeek прямо позиционирует V4‑Flash как экономичный вариант.
1 млн токенов, но без максимального качества рассуждений.
- Разбор длинных логов и переписок.
- Поиск информации в массиве текста.

Ограничения V4‑Flash:

В сложных математических и научных задачах она будет уступать V4‑Pro.
Для очень сложных агентных сценариев с большим количеством шагов лучше использовать Pro‑версию.

Где не стоит применять

Критически важные решения без человеческой проверки.
- Юридические выводы.
- Медицинские рекомендации.
- Финансовые решения с риском для бизнеса.
Сценарии, где вам принципиально нужна закрытая модель с поддержкой крупного вендора.
- Если вы уже глубоко интегрированы в экосистему Google или OpenAI и не готовы менять стек.

Доступность из России

Веб‑доступ: chat.deepseek.com.
Для российских пользователей возможна блокировка на уровне провайдера или DNS.
Если сайт или API не открываются напрямую, придётся использовать VPN или прокси.
DeepSeek не даёт специальных гарантий доступности сервиса в России.

Место на рынке

По заявлениям DeepSeek:

По знаниям о мире V4‑Pro:
- Лидирует среди открытых моделей.
- Уступает только Gemini 3.1 Pro.
По математике, STEM и программированию:
- Обходит все текущие открытые модели.
- Приближается к топовым закрытым системам (конкретные названия и цифры в анонсе не приводятся).
Agentic Coding:
- V4‑Pro показывает SOTA среди открытых моделей в профильных бенчмарках.
- DeepSeek интегрировала V4‑серии с агентами Claude Code, OpenClaw и OpenCode.
Стоимость и доступность:
- DeepSeek зафиксировала постоянную 75‑процентную скидку на V4‑Pro по сравнению с исходной ценой.
- V4‑Flash позиционируется как ещё более дешёвый вариант.

DeepSeek подчёркивает, что V4‑Pro и V4‑Flash:

Поддерживают API‑формат OpenAI ChatCompletions.
Поддерживают формат API Anthropic (Claude).
Не требуют смены base_url при переходе с старых моделей DeepSeek — достаточно заменить имя модели на deepseek-v4-pro или deepseek-v4-flash.

Как запустить

DeepSeek даёт несколько базовых рекомендаций по миграции и запуску:

Если вы уже используете DeepSeek API:
- Сохраните текущий base_url.
- Замените имя модели на deepseek-v4-pro или deepseek-v4-flash.
Поддерживаемые протоколы:
- OpenAI ChatCompletions.
- Anthropic‑совместимый API.
Режимы работы моделей:
- thinking — с развёрнутым внутренним рассуждением.
- non-thinking — быстрые ответы без «мысленного трека».
- Подробности: https://api-docs.deepseek.com/guides/thinking_mode

Пример логики миграции (псевдо‑шаги):

Найдите все обращения к deepseek-chat и deepseek-reasoner в коде.
Замените имя модели на deepseek-v4-flash или deepseek-v4-pro.
При необходимости добавьте параметр режима (thinking / non-thinking) в соответствии с документацией.
Протестируйте поведение на ключевых сценариях.

Что ещё важно знать

DeepSeek официально объявила, что deepseek-chat и deepseek-reasoner перестанут работать 24 июля 2026 года в 15:59 (UTC).
Уже сейчас запросы к этим моделям перенаправляются на deepseek‑v4‑flash в соответствующем режиме.
Компания просит ориентироваться только на свои официальные каналы для новостей о DeepSeek. Любые заявления из сторонних источников не отражают её позицию.
DeepSeek публично декларирует курс на долгосрочное развитие и цель выйти к AGI (общему искусственному интеллекту).

Если вы строите продукты на LLM и вам нужны открытые веса, длинный контекст и совместимость с привычными API, V4‑линейка DeepSeek выглядит как один из немногих вариантов с 1 млн токенов и агрессивным постоянным дисконтом на флагманскую модель.