- Дата публикации
Anthropic починила Claude Code: что сломалось, как исправили и чего ждать дальше
Что нового
Anthropic разобрала жалобы разработчиков на ухудшение качества ответов Claude Code за март–апрель и официально подтвердила: проблемы были, но только в продуктах вокруг API.
Ключевые факты:
- Проблемы затронули три продукта: Claude Code, Claude Agent SDK и Claude Cowork.
- API Anthropic не трогали — качество ответов через прямые API‑запросы оставалось прежним.
- Все правки вошли в релиз v2.1.116 от 20 апреля.
- Дополнительно баг с "забывчивостью" и ростом расхода токенов в Claude Code исправили в v2.1.101 от 10 апреля.
- Anthropic сбросила лимиты использования для всех подписчиков Claude Code по состоянию на 23 апреля.
Что именно изменили и откатили:
-
4 марта Anthropic уменьшила дефолтный уровень "усилий размышления" (reasoning effort) в Claude Code с high до medium.
- Это ударило по качеству кода и решению сложных задач.
- Изменение затронуло Claude Sonnet 4.6 и Claude Opus 4.6.
- 7 апреля настройку вернули обратно: теперь по умолчанию стоит xhigh для Opus 4.7 и high для остальных моделей.
-
26 марта Anthropic добавила оптимизацию кэширования для долгих сессий.
- В коде оказался баг: Claude начинал терять свои же предыдущие рассуждения в диалоге.
- Это приводило к "потере памяти", повторениям и странному использованию инструментов.
- Проблема снова касалась Sonnet 4.6 и Opus 4.6.
- Баг исправили 10 апреля.
-
16 апреля в системный промпт добавили жёсткое ограничение длины ответов.
- Формулировка была конкретной:
«Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.»
- В сочетании с другими правками это заметно ухудшило качество кода.
- Пострадали Sonnet 4.6, Opus 4.6 и Opus 4.7.
- Ограничение удалили 20 апреля.
- Формулировка была конкретной:
Как это работает
Effort: сколько Claude "думает" над задачей
В Claude Code есть параметр effort — по сути, это управление временем и глубиной размышлений модели.
- Чем выше effort, тем дольше Claude "думает" и тем детальнее планирует шаги.
- Цена за это — больше задержка ответа и выше расход токенов.
Anthropic использует это так:
- В продукте (Claude Code) вы выбираете уровень effort.
- Клиент отправляет этот уровень в Messages API как параметр
effort. - Для продвинутых пользователей есть отдельная команда
/effortдля переключения.
Во внутреннем тестировании medium давал:
- немного более слабый интеллект по сравнению с high,
- заметно меньшую задержку,
- отсутствие редких, но очень долгих подвисаний при размышлениях.
Из-за этого 4 марта Anthropic сделала medium дефолтом. Но пользователи быстро заметили, что Claude Code стал "глупее". Даже после подсказок в интерфейсе и возвращения режима ultrathink большинство так и оставалось на medium, поэтому 7 апреля дефолт вернули на высокий effort.
Сейчас:
- Opus 4.7 по умолчанию работает в xhigh.
- Остальные модели — в high.
Кэширование промптов и потеря рассуждений
Claude Code хранит свои внутренние рассуждения ("thinking") в истории диалога. Это нужно, чтобы на каждом шаге модель понимала, почему она сделала те или иные правки и вызовы инструментов.
Anthropic использует prompt caching:
- Входные токены запроса кладут в кэш.
- Через время неактивности кэш очищают, чтобы освободить место под другие промпты.
26 марта команда решила оптимизировать работу сессий, которые простаивают больше часа:
- Идея: если кэш всё равно уже "протух", можно обрезать старые блоки thinking в запросе.
- Это уменьшает количество токенов, которые нужно заново отправлять в API.
- Для этого в запрос добавили заголовок
clear_thinking_20251015с параметромkeep:1— оставить только самый свежий блок рассуждений.
Проблема была в реализации:
- Вместо однократного очищения при возобновлении сессии механизм запускался на каждом следующем ходе.
- Как только сессия один раз "пересекала" порог простоя, все дальнейшие запросы приходили с флагом "оставить только последний блок".
- Если вы писали сообщение, пока Claude был в середине использования инструмента, начинался новый ход — и даже текущие рассуждения терялись.
Эффект:
- Claude продолжал что-то делать, но терял контекст собственных решений.
- Появлялись:
- повторяющиеся ответы,
- странные вызовы инструментов,
- ощущение, что модель "забыла", что делала до этого.
- Поскольку каждый раз история thinking обрезалась, кэш почти не срабатывал, и пользователи видели более быстрый расход лимитов.
Дополнительная сложность:
- Параллельно шли два других эксперимента:
- серверный эксперимент с очередями сообщений;
- изменение отображения thinking в CLI.
- В CLI эти изменения частично маскировали баг, поэтому даже внутреннее тестирование внешних сборок долго не ловило проблему.
Anthropic нашла и исправила баг 10 апреля в версии v2.1.101.
Интересная деталь: при обратной проверке Anthropic прогнала Code Review по тем же pull request’ам с Opus 4.7 и Opus 4.6:
- Opus 4.7 нашёл баг в коде.
- Opus 4.6 — нет.
После этого в Anthropic расширили поддержку дополнительных репозиториев как контекста для внутренних code review.
Системный промпт и жёсткий лимит на длину
Opus 4.7 по сравнению с Opus 4.6:
- стал заметно более многословным;
- лучше решает сложные задачи, но генерирует больше выходных токенов.
Anthropic готовила Claude Code к релизу Opus 4.7 заранее и пробовала разные способы укоротить ответы:
- обучение;
- настройки промпта;
- изменения UX вокруг отображения thinking.
Одна строка в системном промпте оказалась критичной:
"Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail."
Эта фраза:
- сильно ужимала текст между вызовами инструментов;
- ограничивала финальный ответ 100 словами почти всегда.
Несколько недель внутренних тестов не показали ухудшения на выбранном наборе метрик. Поэтому 16 апреля Anthropic включила эту правку для:
- Opus 4.6,
- Opus 4.7,
- Sonnet 4.6.
Когда начали разбирать внешние жалобы, команда провела дополнительные абляции промпта:
- по строке убирали части системного промпта;
- прогоняли более широкий набор задач.
Результат:
- одна из оценок показала падение качества на 3% для Opus 4.6 и Opus 4.7.
- Ограничение длины сразу убрали в релизе 20 апреля.
Что это значит для вас
Если вы пользуетесь Claude Code в IDE или через интерфейс
На практике для разработчика сейчас важно следующее:
- Качество кода вернулось к ожидаемому уровню после 20 апреля.
- Если вы работали в марте–апреле и чувствовали:
- что Claude стал меньше понимать контекст,
- чаще повторяется,
- пишет более поверхностный код,
- быстрее съедает лимиты — это не показалось.
- На 23 апреля Anthropic обнулила лимиты использования для всех подписчиков, чтобы компенсировать период деградации.
Как использовать сейчас:
- Для сложных задач (архитектура, большой рефакторинг, генерация нетривиальных алгоритмов) имеет смысл работать на Opus 4.7 с дефолтным xhigh.
- Для ежедневных мелких правок и автодополнений можно оставить дефолт, но если IDE позволяет — вручную понижать effort для простых задач, чтобы экономить время и токены.
Если вы работаете через Anthropic API
Важно: все описанные проблемы касались только продуктов вокруг API:
- Claude Code,
- Claude Agent SDK,
- Claude Cowork.
Сами API‑эндпоинты и слой инференса Anthropic работали стабильно:
- если вы напрямую вызывали Sonnet 4.6, Opus 4.6 или Opus 4.7 через API с собственным промптом и контекстом, качество не менялось из-за этих багов.
Практический вывод:
- Если вы строите критичные пайплайны вокруг LLM, имеет смысл контролировать промпты и контекст на своей стороне, а не полагаться на то, как это делает конкретный продукт.
Для каких задач Claude Code сейчас подходит
Хорошие сценарии:
- ревью кода с контекстом из нескольких репозиториев (Anthropic сама так делает и улучшает этот путь);
- сложные правки в больших проектах, где важна цепочка рассуждений Claude;
- работа с инструментами (команды, линтеры, тесты), где модель должна помнить, что и зачем она запустила.
Менее подходящие сценарии:
- задачи, где критичны строгие лимиты на токены и предсказуемая длина ответа — Opus 4.7 по природе многословен, и жёстко душить его промптом, как показала практика, опасно для качества;
- долгие сессии, которые висят часами без активности, — сейчас баг исправлен, но если вы строите сложные IDE‑плагины, лучше явно управлять контекстом и не полагаться только на магию сессий.
Доступность из России
Anthropic официально ориентируется на западный рынок. Доступ к Claude и Claude Code из России может требовать VPN, зарубежного аккаунта и оплаты зарубежной картой. Это нужно учитывать, если вы планируете использовать Claude Code как основной рабочий инструмент.
Место на рынке
Anthropic в этом апдейте не приводит прямых сравнений с другими моделями по скорости или цене. Внутри экосистемы Anthropic картина такая:
- Opus 4.7 заметно умнее Opus 4.6 на сложных задачах, но и заметно более многословен.
- Sonnet 4.6 и Opus 4.6 сильнее всего пострадали от двух из трёх изменений (effort и баг с кэшированием).
- Opus 4.7 задело в основном ограничение длины ответа.
Anthropic активно использует Opus 4.7 и Claude Code в собственных процессах code review и уже видит, что новая версия лучше находит ошибки в реальных pull request’ах по сравнению с Opus 4.6.
На фоне этого:
- Для задач, где важны глубокие рассуждения и сложный код, Anthropic явно делает ставку на Opus 4.7 с высоким effort.
- Для более лёгких задач разработчики могут продолжать использовать Sonnet 4.6 или более дешёвые модели, если важнее скорость и цена, а не максимум интеллекта.
Что Anthropic меняет в процессе разработки
Anthropic довольно подробно расписала, как будет перестраивать внутренние процессы, чтобы подобные истории не повторялись.
-
Больше сотрудников будут работать на публичной сборке Claude Code, а не на внутренней версии с экспериментальными фичами. Это увеличивает шанс поймать проблемы до релиза.
-
Усиление Code Review с помощью Opus 4.7:
- Anthropic уже использует Claude для ревью собственного кода.
- Теперь они добавляют поддержку нескольких репозиториев в качестве контекста для ревью.
- Улучшенную версию этого инструмента планируют отдать и пользователям.
-
Жёсткий контроль системных промптов:
- для каждой правки промпта в Claude Code будут запускать широкий набор оценок по каждой модели;
- сохранят практику абляций — поочередно выключать строки промпта и смотреть влияние на качество;
- добавили инструменты для удобного ревью и аудита изменений промпта;
- в файле CLAUDE.md появилась дополнительная инструкция: изменения, специфичные для одной модели, должны применяться только к ней, а не глобально.
-
Плавные выкаты изменений, если они могут повлиять на интеллект:
- soak‑периоды (длительное тестирование на ограниченной аудитории);
- расширенный набор метрик;
- постепенные rollout’ы вместо одномоментного переключения.
-
Коммуникация:
- Anthropic запустила аккаунт @ClaudeDevs в X (Twitter), где команда будет подробно объяснять продуктовые решения;
- те же апдейты будут собирать в централизованных тредах на GitHub.
Что делать разработчику прямо сейчас
- Если вы забросили Claude Code в марте–апреле из‑за странного поведения — есть смысл вернуться и перепроверить на актуальной версии (v2.1.116 и выше).
- В сложных задачах по коду используйте Opus 4.7 и не режьте ему длину ответа слишком агрессивно.
- Если вы интегрируете Claude через API и строите свои продукты:
- храните критичный контекст у себя;
- явно управляйте промптами и историей, а не полагайтесь только на поведение готовых SDK.
- Если вы подписчик Claude Code — проверьте свои обновлённые лимиты, Anthropic их сбросила всем пользователям.
Anthropic прямо признаёт ошибки и показывает, где именно сломала качество. Для профессиональных разработчиков это полезный ориентир: часть проблем с ИИ‑ассистентами — не "магия деградации модели", а очень конкретные баги и неудачные настройки вокруг неё.