Anthropic починила Claude Code: что сломалось, как исправили и чего ждать дальше — VogueTech

Что нового

Anthropic разобрала жалобы разработчиков на ухудшение качества ответов Claude Code за март–апрель и официально подтвердила: проблемы были, но только в продуктах вокруг API.

Ключевые факты:

Проблемы затронули три продукта: Claude Code, Claude Agent SDK и Claude Cowork.
API Anthropic не трогали — качество ответов через прямые API‑запросы оставалось прежним.
Все правки вошли в релиз v2.1.116 от 20 апреля.
Дополнительно баг с "забывчивостью" и ростом расхода токенов в Claude Code исправили в v2.1.101 от 10 апреля.
Anthropic сбросила лимиты использования для всех подписчиков Claude Code по состоянию на 23 апреля.

Что именно изменили и откатили:

4 марта Anthropic уменьшила дефолтный уровень "усилий размышления" (reasoning effort) в Claude Code с high до medium.
- Это ударило по качеству кода и решению сложных задач.
- Изменение затронуло Claude Sonnet 4.6 и Claude Opus 4.6.
- 7 апреля настройку вернули обратно: теперь по умолчанию стоит xhigh для Opus 4.7 и high для остальных моделей.
26 марта Anthropic добавила оптимизацию кэширования для долгих сессий.
- В коде оказался баг: Claude начинал терять свои же предыдущие рассуждения в диалоге.
- Это приводило к "потере памяти", повторениям и странному использованию инструментов.
- Проблема снова касалась Sonnet 4.6 и Opus 4.6.
- Баг исправили 10 апреля.
16 апреля в системный промпт добавили жёсткое ограничение длины ответов.
- Формулировка была конкретной:
  
  «Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.»
- В сочетании с другими правками это заметно ухудшило качество кода.
- Пострадали Sonnet 4.6, Opus 4.6 и Opus 4.7.
- Ограничение удалили 20 апреля.

Как это работает

Effort: сколько Claude "думает" над задачей

В Claude Code есть параметр effort — по сути, это управление временем и глубиной размышлений модели.

Чем выше effort, тем дольше Claude "думает" и тем детальнее планирует шаги.
Цена за это — больше задержка ответа и выше расход токенов.

Anthropic использует это так:

В продукте (Claude Code) вы выбираете уровень effort.
Клиент отправляет этот уровень в Messages API как параметр effort.
Для продвинутых пользователей есть отдельная команда /effort для переключения.

Во внутреннем тестировании medium давал:

немного более слабый интеллект по сравнению с high,
заметно меньшую задержку,
отсутствие редких, но очень долгих подвисаний при размышлениях.

Из-за этого 4 марта Anthropic сделала medium дефолтом. Но пользователи быстро заметили, что Claude Code стал "глупее". Даже после подсказок в интерфейсе и возвращения режима ultrathink большинство так и оставалось на medium, поэтому 7 апреля дефолт вернули на высокий effort.

Сейчас:

Opus 4.7 по умолчанию работает в xhigh.
Остальные модели — в high.

Кэширование промптов и потеря рассуждений

Claude Code хранит свои внутренние рассуждения ("thinking") в истории диалога. Это нужно, чтобы на каждом шаге модель понимала, почему она сделала те или иные правки и вызовы инструментов.

Anthropic использует prompt caching:

Входные токены запроса кладут в кэш.
Через время неактивности кэш очищают, чтобы освободить место под другие промпты.

26 марта команда решила оптимизировать работу сессий, которые простаивают больше часа:

Идея: если кэш всё равно уже "протух", можно обрезать старые блоки thinking в запросе.
Это уменьшает количество токенов, которые нужно заново отправлять в API.
Для этого в запрос добавили заголовок clear_thinking_20251015 с параметром keep:1 — оставить только самый свежий блок рассуждений.

Проблема была в реализации:

Вместо однократного очищения при возобновлении сессии механизм запускался на каждом следующем ходе.
Как только сессия один раз "пересекала" порог простоя, все дальнейшие запросы приходили с флагом "оставить только последний блок".
Если вы писали сообщение, пока Claude был в середине использования инструмента, начинался новый ход — и даже текущие рассуждения терялись.

Эффект:

Claude продолжал что-то делать, но терял контекст собственных решений.
Появлялись:
- повторяющиеся ответы,
- странные вызовы инструментов,
- ощущение, что модель "забыла", что делала до этого.
Поскольку каждый раз история thinking обрезалась, кэш почти не срабатывал, и пользователи видели более быстрый расход лимитов.

Дополнительная сложность:

Параллельно шли два других эксперимента:
- серверный эксперимент с очередями сообщений;
- изменение отображения thinking в CLI.
В CLI эти изменения частично маскировали баг, поэтому даже внутреннее тестирование внешних сборок долго не ловило проблему.

Anthropic нашла и исправила баг 10 апреля в версии v2.1.101.

Интересная деталь: при обратной проверке Anthropic прогнала Code Review по тем же pull request’ам с Opus 4.7 и Opus 4.6:

Opus 4.7 нашёл баг в коде.
Opus 4.6 — нет.

После этого в Anthropic расширили поддержку дополнительных репозиториев как контекста для внутренних code review.

Системный промпт и жёсткий лимит на длину

Opus 4.7 по сравнению с Opus 4.6:

стал заметно более многословным;
лучше решает сложные задачи, но генерирует больше выходных токенов.

Anthropic готовила Claude Code к релизу Opus 4.7 заранее и пробовала разные способы укоротить ответы:

обучение;
настройки промпта;
изменения UX вокруг отображения thinking.

Одна строка в системном промпте оказалась критичной:

"Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail."

Эта фраза:

сильно ужимала текст между вызовами инструментов;
ограничивала финальный ответ 100 словами почти всегда.

Несколько недель внутренних тестов не показали ухудшения на выбранном наборе метрик. Поэтому 16 апреля Anthropic включила эту правку для:

Opus 4.6,
Opus 4.7,
Sonnet 4.6.

Когда начали разбирать внешние жалобы, команда провела дополнительные абляции промпта:

по строке убирали части системного промпта;
прогоняли более широкий набор задач.

Результат:

одна из оценок показала падение качества на 3% для Opus 4.6 и Opus 4.7.
Ограничение длины сразу убрали в релизе 20 апреля.

Что это значит для вас

Если вы пользуетесь Claude Code в IDE или через интерфейс

На практике для разработчика сейчас важно следующее:

Качество кода вернулось к ожидаемому уровню после 20 апреля.
Если вы работали в марте–апреле и чувствовали:
- что Claude стал меньше понимать контекст,
- чаще повторяется,
- пишет более поверхностный код,
- быстрее съедает лимиты — это не показалось.
На 23 апреля Anthropic обнулила лимиты использования для всех подписчиков, чтобы компенсировать период деградации.

Как использовать сейчас:

Для сложных задач (архитектура, большой рефакторинг, генерация нетривиальных алгоритмов) имеет смысл работать на Opus 4.7 с дефолтным xhigh.
Для ежедневных мелких правок и автодополнений можно оставить дефолт, но если IDE позволяет — вручную понижать effort для простых задач, чтобы экономить время и токены.

Если вы работаете через Anthropic API

Важно: все описанные проблемы касались только продуктов вокруг API:

Claude Code,
Claude Agent SDK,
Claude Cowork.

Сами API‑эндпоинты и слой инференса Anthropic работали стабильно:

если вы напрямую вызывали Sonnet 4.6, Opus 4.6 или Opus 4.7 через API с собственным промптом и контекстом, качество не менялось из-за этих багов.

Практический вывод:

Если вы строите критичные пайплайны вокруг LLM, имеет смысл контролировать промпты и контекст на своей стороне, а не полагаться на то, как это делает конкретный продукт.

Для каких задач Claude Code сейчас подходит

Хорошие сценарии:

ревью кода с контекстом из нескольких репозиториев (Anthropic сама так делает и улучшает этот путь);
сложные правки в больших проектах, где важна цепочка рассуждений Claude;
работа с инструментами (команды, линтеры, тесты), где модель должна помнить, что и зачем она запустила.

Менее подходящие сценарии:

задачи, где критичны строгие лимиты на токены и предсказуемая длина ответа — Opus 4.7 по природе многословен, и жёстко душить его промптом, как показала практика, опасно для качества;
долгие сессии, которые висят часами без активности, — сейчас баг исправлен, но если вы строите сложные IDE‑плагины, лучше явно управлять контекстом и не полагаться только на магию сессий.

Доступность из России

Anthropic официально ориентируется на западный рынок. Доступ к Claude и Claude Code из России может требовать VPN, зарубежного аккаунта и оплаты зарубежной картой. Это нужно учитывать, если вы планируете использовать Claude Code как основной рабочий инструмент.

Место на рынке

Anthropic в этом апдейте не приводит прямых сравнений с другими моделями по скорости или цене. Внутри экосистемы Anthropic картина такая:

Opus 4.7 заметно умнее Opus 4.6 на сложных задачах, но и заметно более многословен.
Sonnet 4.6 и Opus 4.6 сильнее всего пострадали от двух из трёх изменений (effort и баг с кэшированием).
Opus 4.7 задело в основном ограничение длины ответа.

Anthropic активно использует Opus 4.7 и Claude Code в собственных процессах code review и уже видит, что новая версия лучше находит ошибки в реальных pull request’ах по сравнению с Opus 4.6.

На фоне этого:

Для задач, где важны глубокие рассуждения и сложный код, Anthropic явно делает ставку на Opus 4.7 с высоким effort.
Для более лёгких задач разработчики могут продолжать использовать Sonnet 4.6 или более дешёвые модели, если важнее скорость и цена, а не максимум интеллекта.

Что Anthropic меняет в процессе разработки

Anthropic довольно подробно расписала, как будет перестраивать внутренние процессы, чтобы подобные истории не повторялись.

Больше сотрудников будут работать на публичной сборке Claude Code, а не на внутренней версии с экспериментальными фичами. Это увеличивает шанс поймать проблемы до релиза.
Усиление Code Review с помощью Opus 4.7:
- Anthropic уже использует Claude для ревью собственного кода.
- Теперь они добавляют поддержку нескольких репозиториев в качестве контекста для ревью.
- Улучшенную версию этого инструмента планируют отдать и пользователям.
Жёсткий контроль системных промптов:
- для каждой правки промпта в Claude Code будут запускать широкий набор оценок по каждой модели;
- сохранят практику абляций — поочередно выключать строки промпта и смотреть влияние на качество;
- добавили инструменты для удобного ревью и аудита изменений промпта;
- в файле CLAUDE.md появилась дополнительная инструкция: изменения, специфичные для одной модели, должны применяться только к ней, а не глобально.
Плавные выкаты изменений, если они могут повлиять на интеллект:
- soak‑периоды (длительное тестирование на ограниченной аудитории);
- расширенный набор метрик;
- постепенные rollout’ы вместо одномоментного переключения.
Коммуникация:
- Anthropic запустила аккаунт @ClaudeDevs в X (Twitter), где команда будет подробно объяснять продуктовые решения;
- те же апдейты будут собирать в централизованных тредах на GitHub.

Что делать разработчику прямо сейчас

Если вы забросили Claude Code в марте–апреле из‑за странного поведения — есть смысл вернуться и перепроверить на актуальной версии (v2.1.116 и выше).
В сложных задачах по коду используйте Opus 4.7 и не режьте ему длину ответа слишком агрессивно.
Если вы интегрируете Claude через API и строите свои продукты:
- храните критичный контекст у себя;
- явно управляйте промптами и историей, а не полагайтесь только на поведение готовых SDK.
Если вы подписчик Claude Code — проверьте свои обновлённые лимиты, Anthropic их сбросила всем пользователям.

Anthropic прямо признаёт ошибки и показывает, где именно сломала качество. Для профессиональных разработчиков это полезный ориентир: часть проблем с ИИ‑ассистентами — не "магия деградации модели", а очень конкретные баги и неудачные настройки вокруг неё.