- Дата публикации
Anthropic выпустила Claude Sonnet 5: почти Opus по возможностям агентов, но заметно дешевле
Что нового
Anthropic представила Claude Sonnet 5 — новую версию семейства Sonnet, заточенную под агентов и автономные сценарии.
Ключевые изменения по сравнению с Claude Sonnet 4.6:
- Агентность: Sonnet 5 лучше строит планы, дольше держит контекст задачи и сам завершает многошаговые процессы.
- Инструменты: умеет работать с браузером, терминалом и другими инструментами, запускать цепочки действий без ручного микроменеджмента.
- Кодинг и отладка: уверенно ведёт длительные сессии программирования, использует инструменты, пишет и правит тесты, отлавливает сложные баги.
- Качество рассуждений: ближе к Claude Opus 4.8 по сложным задачам, чем к старому Sonnet 4.6.
- Безопасность: реже галлюцинирует, меньше поддаётся на prompt injection, лучше отказывается от вредоносных запросов.
По оценкам Anthropic, Sonnet 5 по агентным задачам (поиск в интернете, управление компьютером) заметно обгоняет Sonnet 4.6 и приближается к Opus 4.8, но при этом стоит дешевле.
Цены и доступность:
- В чатах Claude:
- Sonnet 5 — модель по умолчанию для тарифов Free и Pro.
- Доступен также на Max, Team и Enterprise.
- В продуктах для разработчиков:
- Доступен в Claude Code и на Claude Platform.
- В API — под именем
claude-sonnet-5.
- Интро-цена до 31 августа 2026 года:
- $2 за 1 млн входных токенов.
- $10 за 1 млн выходных токенов.
- После 31 августа 2026 года:
- $3 за 1 млн входных токенов.
- $15 за 1 млн выходных токенов.
Anthropic также подняла rate limits в Chat, Cowork, Claude Code и на Claude Platform, чтобы пользователи могли использовать более высокие уровни «усилий» (больше шагов размышлений и действий) без упора в лимиты.
Как это работает
Anthropic не раскрывает архитектуру по слоям, но по описанию видно, как Sonnet 5 собирают в полноценный агентный стек.
Планирование и многошаговые задачи
Sonnet 5 обучали и тестировали на задачах, где важна не одна точная реплика, а цепочка действий:
- разбиение большой задачи на шаги,
- выполнение каждого шага с использованием инструментов,
- самопроверка результата,
- возврат к предыдущим шагам, если что-то не сошлось.
Ранние партнёры описывают типичные сценарии: Sonnet 5 не бросает задачу на полпути, сам проверяет свой код и текст, и только потом отдаёт итоговый результат.
Инструменты: браузер и «компьютер»
Модель тестировали на двух публичных бенчмарках:
- BrowseComp — агентный веб-поиск с использованием браузера.
- OSWorld-Verified — управление компьютером: клики, ввод текста, работа с интерфейсом.
На обоих тестах Sonnet 5 (оранжевая линия на графиках Anthropic) строго лучше Sonnet 4.6 (серая линия) при разных уровнях «усилий» (количестве шагов и глубине рассуждений). Opus 4.8 (жёлтая линия) всё ещё лидирует по точности, но Sonnet 5 заметно сократил отрыв.
Код и инженерные задачи
Внутренние тесты партнёров показывают, как Sonnet 5 ведёт себя в реальных инженерных сценариях:
- пишет и запускает тесты без прямой команды;
- сам воспроизводит баг, пишет фикс, откатывает изменения, чтобы убедиться, что ошибка возвращается без патча;
- доводит сложные pull request’ы до протестированного и проверенного состояния без участия разработчика в каждом шаге;
- лучше работает с «грязным» кодом: race conditions, скрытые тесты, старые части системы.
Отдельно подчёркивают, что Sonnet 5 хорошо держит конвенции проекта: стили, паттерны, подходы к оформлению изменений.
Безопасность и ограничения по кибербезу
Anthropic прогнала Sonnet 5 через несколько уровней safety-оценок:
- Агентная безопасность:
- лучше отказывается от вредоносных запросов;
- устойчивее к попыткам hijack’а через prompt injection;
- ниже частота галлюцинаций и «поддакивания» пользователю, чем у Sonnet 4.6.
- Автоматизированный поведенческий аудит:
- тестирует склонность к сотрудничеству в злоупотреблениях, обману и другим нежелательным действиям;
- Sonnet 5 показал меньше нежелательного поведения, чем Sonnet 4.6, но больше, чем Opus 4.8 и Claude Mythos Preview.
Отдельная линия — кибербезопасность:
- Anthropic не обучала Sonnet 5 специально на киберзадачах.
- Модель умеет выполнять базовые безопасные киберрутинные задачи.
- На тестах по разработке эксплойтов (например, уязвимости в Firefox) Sonnet 5 значительно слабее Opus 4.8 и Mythos 5.
- В этих тестах Sonnet 5 ни разу не собрал полноценный рабочий эксплойт, но чаще, чем Sonnet 4.6, доходил до частичных решений — это связывают с ростом общей «умности», а не с отдельным кибертюнингом.
Из-за этого Anthropic включила для Sonnet 5 кибер-фильтры по умолчанию — те же, что для Opus 4.7 и 4.8. Они блокируют опасные сценарии в реальном времени. Для Fable 5 фильтры жёстче; для Sonnet 5 Anthropic посчитала общий риск ниже и оставила более мягкий режим.
Подробный разбор есть в Claude Sonnet 5 System Card.
Что это значит для вас
Если вы разработчик или делаете агентов
Sonnet 5 — кандидат «по умолчанию», если вы строите:
- агентов для работы с кодом: автогенерация функций, рефакторинг, отладка, написание и запуск тестов;
- рабочие ассистенты: CRM-операции, обновление статусов, рассылки, подготовка отчётов;
- агентов для работы с интерфейсами: обработка заявок, заполнение форм, работа в старых системах.
Из отзывов ранних пользователей:
- Sonnet 5 уверенно тянет многошаговые софтверные задачи: пишет код, вызывает инструменты, дебажит и доводит до результата.
- В Salesforce-сценарии «обновить уровни аккаунтов и отправить анонс по enterprise-контактам» Sonnet 5 прошёл задачу от начала до конца. Раньше Sonnet-класс останавливался на середине.
- В Lovable Sonnet 5 обработал десятки сложных pull request’ов и довёл каждый до протестированного, проверенного состояния. Разработчики переключились с рутины на принятие решений и финальный ревью.
- В одном из тестов Sonnet 5 сам:
- нашёл баг,
- написал воспроизводящий тест,
- реализовал фикс,
- временно откатил изменения, чтобы убедиться, что баг возвращается без патча — всё за один проход.
Если вы строите дневную автоматизацию бизнеса (регулярные задачи в корпоративных системах), ранние партнёры описывают Sonnet 5 как «больше делает за меньшее количество шагов» при той же итоговой качестве.
Если вы юрист или работаете с документами
По отзывам компании Eve, которая делает инструменты для юристов:
- Sonnet 5 для задач истцов попадает на Pareto-фронтир — сочетание качества и цены, при котором переход на него оказался очевидным.
- Наибольшие улучшения — в правовых исследованиях и аналитике.
Переводя на практику: если вы строите юр-ассистента, который ищет и анализирует кейсы, Sonnet 5 — один из наиболее выгодных вариантов по соотношению цена/результат внутри линейки Anthropic.
Если вы работаете с данными и BI
ClickHouse тестировала Sonnet 5 для агентов, которые:
- исследуют живые данные;
- строят инсайты на лету;
- важен time-to-insight — скорость, с которой пользователь получает ответ.
Sonnet 5 в этих сценариях:
- рассуждает короче и точнее;
- быстрее приводит пользователя к ответу;
- разница в скорости ощутима для конечных клиентов.
Если вы строите чат-аналитику поверх DWH или ClickHouse, Sonnet 5 может сократить время ответа без скачка в стоимости, как у старших моделей.
Если вы в страховании, финансах и «серых» интерфейсах
Pace использует «компьютерных» агентов для страховых процессов:
- приём заявок;
- FNOL (First Notice of Loss);
- формирование loss runs.
Эти агенты работают поверх уже существующих систем. По их опыту Sonnet 5:
- чаще выбирает правильное действие;
- делает это быстро, что критично для реальных страховых операций.
Если у вас много легаси-систем и ручных процедур в интерфейсах, Sonnet 5 — хороший кандидат для пилота по автоматизации.
Где Sonnet 5 не подойдёт
- Максимальная точность любой ценой. Если бюджет позволяет и важен пик качества на сложных задачах (R&D, сложная аналитика, продвинутый код), Anthropic всё ещё рекомендует Claude Opus 4.8.
- Опасные киберзадачи. Sonnet 5 намеренно слабее Opus 4.8 и Mythos 5 по разработке эксплойтов и другим рискованным сценариям. Плюс включены фильтры, которые блокируют подобные запросы.
- Сценарии без доступа к зарубежным сервисам. Anthropic официально не работает в России. Для доступа к Claude Sonnet 5 потребуется VPN и зарубежный аккаунт/платёжная инфраструктура.
Если вы в России и не готовы к VPN и зарубежным платежам, использовать Sonnet 5 в продакшене будет сложно.
Место на рынке
Внутри линейки Anthropic Sonnet 5 занимает позицию «рабочей лошадки» для агентов:
- по качеству агентных задач он ближе к Opus 4.8, чем к старому Sonnet 4.6;
- по цене — существенно дешевле Opus.
Конкретные цифры:
- Sonnet 5:
- интро: $2 / $10 за 1 млн входных / выходных токенов;
- после 31 августа 2026: $3 / $15.
- Opus 4.8 в исходном материале не имеет прямой ценовой привязки, но Anthropic позиционирует его как более дорогой и более мощный вариант.
По бенчмаркам BrowseComp и OSWorld-Verified Anthropic показывает три кривые:
- Sonnet 4.6 — база.
- Sonnet 5 — строгий апгрейд над 4.6 на всех уровнях усилий.
- Opus 4.8 — ещё выше по точности, но без ценового преимущества.
Ключевой вывод: если вам нужен баланс цены и качества для агентов, которые много ходят в сеть, работают с интерфейсами, кодом и документами, Sonnet 5 закрывает большую часть сценариев дешевле, чем Opus 4.8. Opus логичнее использовать точечно — там, где важна максимальная точность и вы готовы платить за каждый токен.
С внешними конкурентами (GPT-линейка и другие) Anthropic в этом анонсе себя напрямую не сравнивает. Фокус — на внутреннем сравнении с Opus 4.8 и предыдущим Sonnet 4.6.
Как запустить
Anthropic даёт один основной способ доступа для разработчиков:
- через Claude API под именем
claude-sonnet-5.
Пошагово это выглядит так:
- Регистрируетесь на Claude Platform.
- Получаете API-ключ.
- В своём коде выбираете модель
claude-sonnet-5. - Настраиваете уровни «усилий» и работу с инструментами (браузер, терминал и т.д.) под ваш сценарий.
Anthropic подчёркивает, что в Chat, Cowork, Claude Code и на Platform подняла лимиты по токенам, чтобы пользователи могли без проблем запускать задачи с высоким уровнем усилий.
Если вы в России, придётся дополнительно решить вопрос с VPN и зарубежной платёжкой — официальной локальной поддержки нет.