Дата публикации
ai_products

Anthropic починила Claude Code: что сломалось, как исправили и чего ждать дальше

Что нового

Anthropic разобрала жалобы разработчиков на ухудшение качества ответов Claude Code за март–апрель и официально подтвердила: проблемы были, но только в продуктах вокруг API.

Ключевые факты:

  • Проблемы затронули три продукта: Claude Code, Claude Agent SDK и Claude Cowork.
  • API Anthropic не трогали — качество ответов через прямые API‑запросы оставалось прежним.
  • Все правки вошли в релиз v2.1.116 от 20 апреля.
  • Дополнительно баг с "забывчивостью" и ростом расхода токенов в Claude Code исправили в v2.1.101 от 10 апреля.
  • Anthropic сбросила лимиты использования для всех подписчиков Claude Code по состоянию на 23 апреля.

Что именно изменили и откатили:

  1. 4 марта Anthropic уменьшила дефолтный уровень "усилий размышления" (reasoning effort) в Claude Code с high до medium.

    • Это ударило по качеству кода и решению сложных задач.
    • Изменение затронуло Claude Sonnet 4.6 и Claude Opus 4.6.
    • 7 апреля настройку вернули обратно: теперь по умолчанию стоит xhigh для Opus 4.7 и high для остальных моделей.
  2. 26 марта Anthropic добавила оптимизацию кэширования для долгих сессий.

    • В коде оказался баг: Claude начинал терять свои же предыдущие рассуждения в диалоге.
    • Это приводило к "потере памяти", повторениям и странному использованию инструментов.
    • Проблема снова касалась Sonnet 4.6 и Opus 4.6.
    • Баг исправили 10 апреля.
  3. 16 апреля в системный промпт добавили жёсткое ограничение длины ответов.

    • Формулировка была конкретной:

      «Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.»

    • В сочетании с другими правками это заметно ухудшило качество кода.
    • Пострадали Sonnet 4.6, Opus 4.6 и Opus 4.7.
    • Ограничение удалили 20 апреля.

Как это работает

Effort: сколько Claude "думает" над задачей

В Claude Code есть параметр effort — по сути, это управление временем и глубиной размышлений модели.

  • Чем выше effort, тем дольше Claude "думает" и тем детальнее планирует шаги.
  • Цена за это — больше задержка ответа и выше расход токенов.

Anthropic использует это так:

  • В продукте (Claude Code) вы выбираете уровень effort.
  • Клиент отправляет этот уровень в Messages API как параметр effort.
  • Для продвинутых пользователей есть отдельная команда /effort для переключения.

Во внутреннем тестировании medium давал:

  • немного более слабый интеллект по сравнению с high,
  • заметно меньшую задержку,
  • отсутствие редких, но очень долгих подвисаний при размышлениях.

Из-за этого 4 марта Anthropic сделала medium дефолтом. Но пользователи быстро заметили, что Claude Code стал "глупее". Даже после подсказок в интерфейсе и возвращения режима ultrathink большинство так и оставалось на medium, поэтому 7 апреля дефолт вернули на высокий effort.

Сейчас:

  • Opus 4.7 по умолчанию работает в xhigh.
  • Остальные модели — в high.

Кэширование промптов и потеря рассуждений

Claude Code хранит свои внутренние рассуждения ("thinking") в истории диалога. Это нужно, чтобы на каждом шаге модель понимала, почему она сделала те или иные правки и вызовы инструментов.

Anthropic использует prompt caching:

  • Входные токены запроса кладут в кэш.
  • Через время неактивности кэш очищают, чтобы освободить место под другие промпты.

26 марта команда решила оптимизировать работу сессий, которые простаивают больше часа:

  • Идея: если кэш всё равно уже "протух", можно обрезать старые блоки thinking в запросе.
  • Это уменьшает количество токенов, которые нужно заново отправлять в API.
  • Для этого в запрос добавили заголовок clear_thinking_20251015 с параметром keep:1 — оставить только самый свежий блок рассуждений.

Проблема была в реализации:

  • Вместо однократного очищения при возобновлении сессии механизм запускался на каждом следующем ходе.
  • Как только сессия один раз "пересекала" порог простоя, все дальнейшие запросы приходили с флагом "оставить только последний блок".
  • Если вы писали сообщение, пока Claude был в середине использования инструмента, начинался новый ход — и даже текущие рассуждения терялись.

Эффект:

  • Claude продолжал что-то делать, но терял контекст собственных решений.
  • Появлялись:
    • повторяющиеся ответы,
    • странные вызовы инструментов,
    • ощущение, что модель "забыла", что делала до этого.
  • Поскольку каждый раз история thinking обрезалась, кэш почти не срабатывал, и пользователи видели более быстрый расход лимитов.

Дополнительная сложность:

  • Параллельно шли два других эксперимента:
    • серверный эксперимент с очередями сообщений;
    • изменение отображения thinking в CLI.
  • В CLI эти изменения частично маскировали баг, поэтому даже внутреннее тестирование внешних сборок долго не ловило проблему.

Anthropic нашла и исправила баг 10 апреля в версии v2.1.101.

Интересная деталь: при обратной проверке Anthropic прогнала Code Review по тем же pull request’ам с Opus 4.7 и Opus 4.6:

  • Opus 4.7 нашёл баг в коде.
  • Opus 4.6 — нет.

После этого в Anthropic расширили поддержку дополнительных репозиториев как контекста для внутренних code review.

Системный промпт и жёсткий лимит на длину

Opus 4.7 по сравнению с Opus 4.6:

  • стал заметно более многословным;
  • лучше решает сложные задачи, но генерирует больше выходных токенов.

Anthropic готовила Claude Code к релизу Opus 4.7 заранее и пробовала разные способы укоротить ответы:

  • обучение;
  • настройки промпта;
  • изменения UX вокруг отображения thinking.

Одна строка в системном промпте оказалась критичной:

"Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail."

Эта фраза:

  • сильно ужимала текст между вызовами инструментов;
  • ограничивала финальный ответ 100 словами почти всегда.

Несколько недель внутренних тестов не показали ухудшения на выбранном наборе метрик. Поэтому 16 апреля Anthropic включила эту правку для:

  • Opus 4.6,
  • Opus 4.7,
  • Sonnet 4.6.

Когда начали разбирать внешние жалобы, команда провела дополнительные абляции промпта:

  • по строке убирали части системного промпта;
  • прогоняли более широкий набор задач.

Результат:

  • одна из оценок показала падение качества на 3% для Opus 4.6 и Opus 4.7.
  • Ограничение длины сразу убрали в релизе 20 апреля.

Что это значит для вас

Если вы пользуетесь Claude Code в IDE или через интерфейс

На практике для разработчика сейчас важно следующее:

  • Качество кода вернулось к ожидаемому уровню после 20 апреля.
  • Если вы работали в марте–апреле и чувствовали:
    • что Claude стал меньше понимать контекст,
    • чаще повторяется,
    • пишет более поверхностный код,
    • быстрее съедает лимиты — это не показалось.
  • На 23 апреля Anthropic обнулила лимиты использования для всех подписчиков, чтобы компенсировать период деградации.

Как использовать сейчас:

  • Для сложных задач (архитектура, большой рефакторинг, генерация нетривиальных алгоритмов) имеет смысл работать на Opus 4.7 с дефолтным xhigh.
  • Для ежедневных мелких правок и автодополнений можно оставить дефолт, но если IDE позволяет — вручную понижать effort для простых задач, чтобы экономить время и токены.

Если вы работаете через Anthropic API

Важно: все описанные проблемы касались только продуктов вокруг API:

  • Claude Code,
  • Claude Agent SDK,
  • Claude Cowork.

Сами API‑эндпоинты и слой инференса Anthropic работали стабильно:

  • если вы напрямую вызывали Sonnet 4.6, Opus 4.6 или Opus 4.7 через API с собственным промптом и контекстом, качество не менялось из-за этих багов.

Практический вывод:

  • Если вы строите критичные пайплайны вокруг LLM, имеет смысл контролировать промпты и контекст на своей стороне, а не полагаться на то, как это делает конкретный продукт.

Для каких задач Claude Code сейчас подходит

Хорошие сценарии:

  • ревью кода с контекстом из нескольких репозиториев (Anthropic сама так делает и улучшает этот путь);
  • сложные правки в больших проектах, где важна цепочка рассуждений Claude;
  • работа с инструментами (команды, линтеры, тесты), где модель должна помнить, что и зачем она запустила.

Менее подходящие сценарии:

  • задачи, где критичны строгие лимиты на токены и предсказуемая длина ответа — Opus 4.7 по природе многословен, и жёстко душить его промптом, как показала практика, опасно для качества;
  • долгие сессии, которые висят часами без активности, — сейчас баг исправлен, но если вы строите сложные IDE‑плагины, лучше явно управлять контекстом и не полагаться только на магию сессий.

Доступность из России

Anthropic официально ориентируется на западный рынок. Доступ к Claude и Claude Code из России может требовать VPN, зарубежного аккаунта и оплаты зарубежной картой. Это нужно учитывать, если вы планируете использовать Claude Code как основной рабочий инструмент.

Место на рынке

Anthropic в этом апдейте не приводит прямых сравнений с другими моделями по скорости или цене. Внутри экосистемы Anthropic картина такая:

  • Opus 4.7 заметно умнее Opus 4.6 на сложных задачах, но и заметно более многословен.
  • Sonnet 4.6 и Opus 4.6 сильнее всего пострадали от двух из трёх изменений (effort и баг с кэшированием).
  • Opus 4.7 задело в основном ограничение длины ответа.

Anthropic активно использует Opus 4.7 и Claude Code в собственных процессах code review и уже видит, что новая версия лучше находит ошибки в реальных pull request’ах по сравнению с Opus 4.6.

На фоне этого:

  • Для задач, где важны глубокие рассуждения и сложный код, Anthropic явно делает ставку на Opus 4.7 с высоким effort.
  • Для более лёгких задач разработчики могут продолжать использовать Sonnet 4.6 или более дешёвые модели, если важнее скорость и цена, а не максимум интеллекта.

Что Anthropic меняет в процессе разработки

Anthropic довольно подробно расписала, как будет перестраивать внутренние процессы, чтобы подобные истории не повторялись.

  1. Больше сотрудников будут работать на публичной сборке Claude Code, а не на внутренней версии с экспериментальными фичами. Это увеличивает шанс поймать проблемы до релиза.

  2. Усиление Code Review с помощью Opus 4.7:

    • Anthropic уже использует Claude для ревью собственного кода.
    • Теперь они добавляют поддержку нескольких репозиториев в качестве контекста для ревью.
    • Улучшенную версию этого инструмента планируют отдать и пользователям.
  3. Жёсткий контроль системных промптов:

    • для каждой правки промпта в Claude Code будут запускать широкий набор оценок по каждой модели;
    • сохранят практику абляций — поочередно выключать строки промпта и смотреть влияние на качество;
    • добавили инструменты для удобного ревью и аудита изменений промпта;
    • в файле CLAUDE.md появилась дополнительная инструкция: изменения, специфичные для одной модели, должны применяться только к ней, а не глобально.
  4. Плавные выкаты изменений, если они могут повлиять на интеллект:

    • soak‑периоды (длительное тестирование на ограниченной аудитории);
    • расширенный набор метрик;
    • постепенные rollout’ы вместо одномоментного переключения.
  5. Коммуникация:

    • Anthropic запустила аккаунт @ClaudeDevs в X (Twitter), где команда будет подробно объяснять продуктовые решения;
    • те же апдейты будут собирать в централизованных тредах на GitHub.

Что делать разработчику прямо сейчас

  • Если вы забросили Claude Code в марте–апреле из‑за странного поведения — есть смысл вернуться и перепроверить на актуальной версии (v2.1.116 и выше).
  • В сложных задачах по коду используйте Opus 4.7 и не режьте ему длину ответа слишком агрессивно.
  • Если вы интегрируете Claude через API и строите свои продукты:
    • храните критичный контекст у себя;
    • явно управляйте промптами и историей, а не полагайтесь только на поведение готовых SDK.
  • Если вы подписчик Claude Code — проверьте свои обновлённые лимиты, Anthropic их сбросила всем пользователям.

Anthropic прямо признаёт ошибки и показывает, где именно сломала качество. Для профессиональных разработчиков это полезный ориентир: часть проблем с ИИ‑ассистентами — не "магия деградации модели", а очень конкретные баги и неудачные настройки вокруг неё.


Читайте также