Дата публикации
ai_products

Anthropic выпустила Claude Sonnet 5: почти Opus по возможностям агентов, но заметно дешевле

Что нового

Anthropic представила Claude Sonnet 5 — новую версию семейства Sonnet, заточенную под агентов и автономные сценарии.

Ключевые изменения по сравнению с Claude Sonnet 4.6:

  • Агентность: Sonnet 5 лучше строит планы, дольше держит контекст задачи и сам завершает многошаговые процессы.
  • Инструменты: умеет работать с браузером, терминалом и другими инструментами, запускать цепочки действий без ручного микроменеджмента.
  • Кодинг и отладка: уверенно ведёт длительные сессии программирования, использует инструменты, пишет и правит тесты, отлавливает сложные баги.
  • Качество рассуждений: ближе к Claude Opus 4.8 по сложным задачам, чем к старому Sonnet 4.6.
  • Безопасность: реже галлюцинирует, меньше поддаётся на prompt injection, лучше отказывается от вредоносных запросов.

По оценкам Anthropic, Sonnet 5 по агентным задачам (поиск в интернете, управление компьютером) заметно обгоняет Sonnet 4.6 и приближается к Opus 4.8, но при этом стоит дешевле.

Цены и доступность:

  • В чатах Claude:
    • Sonnet 5 — модель по умолчанию для тарифов Free и Pro.
    • Доступен также на Max, Team и Enterprise.
  • В продуктах для разработчиков:
    • Доступен в Claude Code и на Claude Platform.
    • В API — под именем claude-sonnet-5.
  • Интро-цена до 31 августа 2026 года:
    • $2 за 1 млн входных токенов.
    • $10 за 1 млн выходных токенов.
  • После 31 августа 2026 года:
    • $3 за 1 млн входных токенов.
    • $15 за 1 млн выходных токенов.

Anthropic также подняла rate limits в Chat, Cowork, Claude Code и на Claude Platform, чтобы пользователи могли использовать более высокие уровни «усилий» (больше шагов размышлений и действий) без упора в лимиты.

Как это работает

Anthropic не раскрывает архитектуру по слоям, но по описанию видно, как Sonnet 5 собирают в полноценный агентный стек.

Планирование и многошаговые задачи

Sonnet 5 обучали и тестировали на задачах, где важна не одна точная реплика, а цепочка действий:

  • разбиение большой задачи на шаги,
  • выполнение каждого шага с использованием инструментов,
  • самопроверка результата,
  • возврат к предыдущим шагам, если что-то не сошлось.

Ранние партнёры описывают типичные сценарии: Sonnet 5 не бросает задачу на полпути, сам проверяет свой код и текст, и только потом отдаёт итоговый результат.

Инструменты: браузер и «компьютер»

Модель тестировали на двух публичных бенчмарках:

  • BrowseComp — агентный веб-поиск с использованием браузера.
  • OSWorld-Verified — управление компьютером: клики, ввод текста, работа с интерфейсом.

На обоих тестах Sonnet 5 (оранжевая линия на графиках Anthropic) строго лучше Sonnet 4.6 (серая линия) при разных уровнях «усилий» (количестве шагов и глубине рассуждений). Opus 4.8 (жёлтая линия) всё ещё лидирует по точности, но Sonnet 5 заметно сократил отрыв.

Код и инженерные задачи

Внутренние тесты партнёров показывают, как Sonnet 5 ведёт себя в реальных инженерных сценариях:

  • пишет и запускает тесты без прямой команды;
  • сам воспроизводит баг, пишет фикс, откатывает изменения, чтобы убедиться, что ошибка возвращается без патча;
  • доводит сложные pull request’ы до протестированного и проверенного состояния без участия разработчика в каждом шаге;
  • лучше работает с «грязным» кодом: race conditions, скрытые тесты, старые части системы.

Отдельно подчёркивают, что Sonnet 5 хорошо держит конвенции проекта: стили, паттерны, подходы к оформлению изменений.

Безопасность и ограничения по кибербезу

Anthropic прогнала Sonnet 5 через несколько уровней safety-оценок:

  • Агентная безопасность:
    • лучше отказывается от вредоносных запросов;
    • устойчивее к попыткам hijack’а через prompt injection;
    • ниже частота галлюцинаций и «поддакивания» пользователю, чем у Sonnet 4.6.
  • Автоматизированный поведенческий аудит:
    • тестирует склонность к сотрудничеству в злоупотреблениях, обману и другим нежелательным действиям;
    • Sonnet 5 показал меньше нежелательного поведения, чем Sonnet 4.6, но больше, чем Opus 4.8 и Claude Mythos Preview.

Отдельная линия — кибербезопасность:

  • Anthropic не обучала Sonnet 5 специально на киберзадачах.
  • Модель умеет выполнять базовые безопасные киберрутинные задачи.
  • На тестах по разработке эксплойтов (например, уязвимости в Firefox) Sonnet 5 значительно слабее Opus 4.8 и Mythos 5.
  • В этих тестах Sonnet 5 ни разу не собрал полноценный рабочий эксплойт, но чаще, чем Sonnet 4.6, доходил до частичных решений — это связывают с ростом общей «умности», а не с отдельным кибертюнингом.

Из-за этого Anthropic включила для Sonnet 5 кибер-фильтры по умолчанию — те же, что для Opus 4.7 и 4.8. Они блокируют опасные сценарии в реальном времени. Для Fable 5 фильтры жёстче; для Sonnet 5 Anthropic посчитала общий риск ниже и оставила более мягкий режим.

Подробный разбор есть в Claude Sonnet 5 System Card.

Что это значит для вас

Если вы разработчик или делаете агентов

Sonnet 5 — кандидат «по умолчанию», если вы строите:

  • агентов для работы с кодом: автогенерация функций, рефакторинг, отладка, написание и запуск тестов;
  • рабочие ассистенты: CRM-операции, обновление статусов, рассылки, подготовка отчётов;
  • агентов для работы с интерфейсами: обработка заявок, заполнение форм, работа в старых системах.

Из отзывов ранних пользователей:

  • Sonnet 5 уверенно тянет многошаговые софтверные задачи: пишет код, вызывает инструменты, дебажит и доводит до результата.
  • В Salesforce-сценарии «обновить уровни аккаунтов и отправить анонс по enterprise-контактам» Sonnet 5 прошёл задачу от начала до конца. Раньше Sonnet-класс останавливался на середине.
  • В Lovable Sonnet 5 обработал десятки сложных pull request’ов и довёл каждый до протестированного, проверенного состояния. Разработчики переключились с рутины на принятие решений и финальный ревью.
  • В одном из тестов Sonnet 5 сам:
    • нашёл баг,
    • написал воспроизводящий тест,
    • реализовал фикс,
    • временно откатил изменения, чтобы убедиться, что баг возвращается без патча — всё за один проход.

Если вы строите дневную автоматизацию бизнеса (регулярные задачи в корпоративных системах), ранние партнёры описывают Sonnet 5 как «больше делает за меньшее количество шагов» при той же итоговой качестве.

Если вы юрист или работаете с документами

По отзывам компании Eve, которая делает инструменты для юристов:

  • Sonnet 5 для задач истцов попадает на Pareto-фронтир — сочетание качества и цены, при котором переход на него оказался очевидным.
  • Наибольшие улучшения — в правовых исследованиях и аналитике.

Переводя на практику: если вы строите юр-ассистента, который ищет и анализирует кейсы, Sonnet 5 — один из наиболее выгодных вариантов по соотношению цена/результат внутри линейки Anthropic.

Если вы работаете с данными и BI

ClickHouse тестировала Sonnet 5 для агентов, которые:

  • исследуют живые данные;
  • строят инсайты на лету;
  • важен time-to-insight — скорость, с которой пользователь получает ответ.

Sonnet 5 в этих сценариях:

  • рассуждает короче и точнее;
  • быстрее приводит пользователя к ответу;
  • разница в скорости ощутима для конечных клиентов.

Если вы строите чат-аналитику поверх DWH или ClickHouse, Sonnet 5 может сократить время ответа без скачка в стоимости, как у старших моделей.

Если вы в страховании, финансах и «серых» интерфейсах

Pace использует «компьютерных» агентов для страховых процессов:

  • приём заявок;
  • FNOL (First Notice of Loss);
  • формирование loss runs.

Эти агенты работают поверх уже существующих систем. По их опыту Sonnet 5:

  • чаще выбирает правильное действие;
  • делает это быстро, что критично для реальных страховых операций.

Если у вас много легаси-систем и ручных процедур в интерфейсах, Sonnet 5 — хороший кандидат для пилота по автоматизации.

Где Sonnet 5 не подойдёт

  • Максимальная точность любой ценой. Если бюджет позволяет и важен пик качества на сложных задачах (R&D, сложная аналитика, продвинутый код), Anthropic всё ещё рекомендует Claude Opus 4.8.
  • Опасные киберзадачи. Sonnet 5 намеренно слабее Opus 4.8 и Mythos 5 по разработке эксплойтов и другим рискованным сценариям. Плюс включены фильтры, которые блокируют подобные запросы.
  • Сценарии без доступа к зарубежным сервисам. Anthropic официально не работает в России. Для доступа к Claude Sonnet 5 потребуется VPN и зарубежный аккаунт/платёжная инфраструктура.

Если вы в России и не готовы к VPN и зарубежным платежам, использовать Sonnet 5 в продакшене будет сложно.

Место на рынке

Внутри линейки Anthropic Sonnet 5 занимает позицию «рабочей лошадки» для агентов:

  • по качеству агентных задач он ближе к Opus 4.8, чем к старому Sonnet 4.6;
  • по цене — существенно дешевле Opus.

Конкретные цифры:

  • Sonnet 5:
    • интро: $2 / $10 за 1 млн входных / выходных токенов;
    • после 31 августа 2026: $3 / $15.
  • Opus 4.8 в исходном материале не имеет прямой ценовой привязки, но Anthropic позиционирует его как более дорогой и более мощный вариант.

По бенчмаркам BrowseComp и OSWorld-Verified Anthropic показывает три кривые:

  • Sonnet 4.6 — база.
  • Sonnet 5 — строгий апгрейд над 4.6 на всех уровнях усилий.
  • Opus 4.8 — ещё выше по точности, но без ценового преимущества.

Ключевой вывод: если вам нужен баланс цены и качества для агентов, которые много ходят в сеть, работают с интерфейсами, кодом и документами, Sonnet 5 закрывает большую часть сценариев дешевле, чем Opus 4.8. Opus логичнее использовать точечно — там, где важна максимальная точность и вы готовы платить за каждый токен.

С внешними конкурентами (GPT-линейка и другие) Anthropic в этом анонсе себя напрямую не сравнивает. Фокус — на внутреннем сравнении с Opus 4.8 и предыдущим Sonnet 4.6.

Как запустить

Anthropic даёт один основной способ доступа для разработчиков:

  • через Claude API под именем claude-sonnet-5.

Пошагово это выглядит так:

  1. Регистрируетесь на Claude Platform.
  2. Получаете API-ключ.
  3. В своём коде выбираете модель claude-sonnet-5.
  4. Настраиваете уровни «усилий» и работу с инструментами (браузер, терминал и т.д.) под ваш сценарий.

Anthropic подчёркивает, что в Chat, Cowork, Claude Code и на Platform подняла лимиты по токенам, чтобы пользователи могли без проблем запускать задачи с высоким уровнем усилий.

Если вы в России, придётся дополнительно решить вопрос с VPN и зарубежной платёжкой — официальной локальной поддержки нет.


Читайте также