Дата публикации
ai_products

DeepSeek навсегда снизила цену на V4-Pro: 1 млн токенов контекста и открытые веса

Что нового

DeepSeek запустила превью-линейку DeepSeek-V4 и одновременно навсегда закрепила 75‑процентную скидку на флагманскую модель DeepSeek‑V4‑Pro. Это важно по трём причинам:

  1. Длинный контекст стал стандартом. Все официальные сервисы DeepSeek теперь по умолчанию работают с контекстом до 1 млн токенов. Это касается и V4‑Pro, и более лёгкой DeepSeek‑V4‑Flash.
  2. Две модели — два режима работы.
    • DeepSeek‑V4‑Pro: 1,6 трлн общих параметров, из них 49 млрд активных. Производительность заявлена на уровне топовых закрытых моделей.
    • DeepSeek‑V4‑Flash: 284 млрд общих параметров, 13 млрд активных. Ставка на скорость и цену.
  3. Два режима вывода для обеих моделей:
    • Thinking — с развёрнутой «мысленной» цепочкой рассуждений (см. гайд: https://api-docs.deepseek.com/guides/thinking_mode).
    • Non‑Thinking — обычные быстрые ответы.

Модели уже доступны:

  • В веб‑интерфейсе chat.deepseek.com (Expert Mode / Instant Mode).
  • Через API с обновлёнными эндпоинтами.

DeepSeek также:

  • Открыла веса обеих моделей на Hugging Face: https://huggingface.co/collections/deepseek-ai/deepseek-v4
  • Опубликовала технический отчёт по V4‑Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
  • Объявила, что deepseek-chat и deepseek-reasoner будут окончательно отключены 24 июля 2026 года в 15:59 по UTC. Сейчас запросы к ним уже маршрутизируются на deepseek‑v4‑flash (в режимах thinking / non‑thinking).

Как это работает

DeepSeek делает ставку на две вещи: архитектуру внимания и экономию вычислений при длинном контексте.

Ключевые технические элементы:

  • Token-wise compression — сжатие представления токенов на лету.

    • Модель не хранит полную «историю» в максимальном разрешении.
    • Часть информации агрегируется в более компактный вид.
    • Это снижает требования к памяти при контексте до 1 млн токенов.
  • DSA (DeepSeek Sparse Attention) — разреженное внимание.

    • Модель не смотрит на каждый токен в контексте.
    • Вместо этого выбирает подмножество «важных» позиций.
    • Это уменьшает количество операций и ускоряет расчёт.

В итоге DeepSeek заявляет:

  • «Peak Efficiency» для длинного контекста: меньше вычислений и памяти при тех же 1 млн токенов.
  • Одинаковый лимит в 1M контекста для V4‑Pro и V4‑Flash.

По задачам:

  • Agentic Coding: V4‑Pro показывает результаты уровня SOTA среди открытых моделей в профильных бенчмарках.
  • Мироустройство и факты: V4‑Pro лидирует среди открытых моделей по «world knowledge» и уступает только Gemini 3.1 Pro.
  • Математика, STEM и код: по заявлению DeepSeek, V4‑Pro обходит все текущие открытые модели и приближается к топовым закрытым.

V4‑Flash использует те же идеи, но с меньшим числом активных параметров. За счёт этого она:

  • Быстрее отвечает.
  • Дешевле по API.
  • При этом по простым агентным задачам и базовому рассуждению «подбирается» к V4‑Pro.

Что это значит для вас

Когда имеет смысл использовать DeepSeek‑V4‑Pro

V4‑Pro стоит рассматривать, если вам нужно:

  • Сложное программирование и агентные сценарии.

    • Автогенерация кода с несколькими файлами и шагами.
    • Интеграция в свои AI‑агенты для сложных пайплайнов.
    • DeepSeek уже использует V4‑Pro для внутренних агентных систем программирования.
  • Сложные задачи по математике и STEM.

    • Решение задач с несколькими шагами рассуждений.
    • Анализ формул, доказательств, длинных технических текстов.
  • Работа с огромными документами.

    • Анализ PDF, технических отчётов, логов, контрактов.
    • Сборка отчётов по массиву документов за один запрос.
  • Максимальное качество среди открытых моделей.

    • Если вы хотите модель уровня закрытых систем, но с открытыми весами.

Минусы V4‑Pro:

  • Более тяжёлая и медленнее, чем V4‑Flash.
  • Дороже в эксплуатации, если вы поднимаете её у себя.

Когда лучше взять DeepSeek‑V4‑Flash

V4‑Flash — выбор, если вам нужно:

  • Быстрые ответы при большом потоке запросов.

    • Чат‑боты.
    • Вспомогательные инструменты для разработчиков.
    • Агентные сценарии средней сложности.
  • Низкая стоимость API.

    • DeepSeek прямо позиционирует V4‑Flash как экономичный вариант.
  • 1 млн токенов, но без максимального качества рассуждений.

    • Разбор длинных логов и переписок.
    • Поиск информации в массиве текста.

Ограничения V4‑Flash:

  • В сложных математических и научных задачах она будет уступать V4‑Pro.
  • Для очень сложных агентных сценариев с большим количеством шагов лучше использовать Pro‑версию.

Где не стоит применять

  • Критически важные решения без человеческой проверки.

    • Юридические выводы.
    • Медицинские рекомендации.
    • Финансовые решения с риском для бизнеса.
  • Сценарии, где вам принципиально нужна закрытая модель с поддержкой крупного вендора.

    • Если вы уже глубоко интегрированы в экосистему Google или OpenAI и не готовы менять стек.

Доступность из России

  • Веб‑доступ: chat.deepseek.com.
  • Для российских пользователей возможна блокировка на уровне провайдера или DNS.
  • Если сайт или API не открываются напрямую, придётся использовать VPN или прокси.
  • DeepSeek не даёт специальных гарантий доступности сервиса в России.

Место на рынке

По заявлениям DeepSeek:

  • По знаниям о мире V4‑Pro:

    • Лидирует среди открытых моделей.
    • Уступает только Gemini 3.1 Pro.
  • По математике, STEM и программированию:

    • Обходит все текущие открытые модели.
    • Приближается к топовым закрытым системам (конкретные названия и цифры в анонсе не приводятся).
  • Agentic Coding:

    • V4‑Pro показывает SOTA среди открытых моделей в профильных бенчмарках.
    • DeepSeek интегрировала V4‑серии с агентами Claude Code, OpenClaw и OpenCode.
  • Стоимость и доступность:

    • DeepSeek зафиксировала постоянную 75‑процентную скидку на V4‑Pro по сравнению с исходной ценой.
    • V4‑Flash позиционируется как ещё более дешёвый вариант.

DeepSeek подчёркивает, что V4‑Pro и V4‑Flash:

  • Поддерживают API‑формат OpenAI ChatCompletions.
  • Поддерживают формат API Anthropic (Claude).
  • Не требуют смены base_url при переходе с старых моделей DeepSeek — достаточно заменить имя модели на deepseek-v4-pro или deepseek-v4-flash.

Как запустить

DeepSeek даёт несколько базовых рекомендаций по миграции и запуску:

  • Если вы уже используете DeepSeek API:

    • Сохраните текущий base_url.
    • Замените имя модели на deepseek-v4-pro или deepseek-v4-flash.
  • Поддерживаемые протоколы:

    • OpenAI ChatCompletions.
    • Anthropic‑совместимый API.
  • Режимы работы моделей:

    • thinking — с развёрнутым внутренним рассуждением.
    • non-thinking — быстрые ответы без «мысленного трека».
    • Подробности: https://api-docs.deepseek.com/guides/thinking_mode

Пример логики миграции (псевдо‑шаги):

  1. Найдите все обращения к deepseek-chat и deepseek-reasoner в коде.
  2. Замените имя модели на deepseek-v4-flash или deepseek-v4-pro.
  3. При необходимости добавьте параметр режима (thinking / non-thinking) в соответствии с документацией.
  4. Протестируйте поведение на ключевых сценариях.

Что ещё важно знать

  • DeepSeek официально объявила, что deepseek-chat и deepseek-reasoner перестанут работать 24 июля 2026 года в 15:59 (UTC).
  • Уже сейчас запросы к этим моделям перенаправляются на deepseek‑v4‑flash в соответствующем режиме.
  • Компания просит ориентироваться только на свои официальные каналы для новостей о DeepSeek. Любые заявления из сторонних источников не отражают её позицию.
  • DeepSeek публично декларирует курс на долгосрочное развитие и цель выйти к AGI (общему искусственному интеллекту).

Если вы строите продукты на LLM и вам нужны открытые веса, длинный контекст и совместимость с привычными API, V4‑линейка DeepSeek выглядит как один из немногих вариантов с 1 млн токенов и агрессивным постоянным дисконтом на флагманскую модель.


Читайте также