Anthropic выпустила Claude Sonnet 5: почти Opus по возможностям агентов, но заметно дешевле — VogueTech

Что нового

Anthropic представила Claude Sonnet 5 — новую версию семейства Sonnet, заточенную под агентов и автономные сценарии.

Ключевые изменения по сравнению с Claude Sonnet 4.6:

Агентность: Sonnet 5 лучше строит планы, дольше держит контекст задачи и сам завершает многошаговые процессы.
Инструменты: умеет работать с браузером, терминалом и другими инструментами, запускать цепочки действий без ручного микроменеджмента.
Кодинг и отладка: уверенно ведёт длительные сессии программирования, использует инструменты, пишет и правит тесты, отлавливает сложные баги.
Качество рассуждений: ближе к Claude Opus 4.8 по сложным задачам, чем к старому Sonnet 4.6.
Безопасность: реже галлюцинирует, меньше поддаётся на prompt injection, лучше отказывается от вредоносных запросов.

По оценкам Anthropic, Sonnet 5 по агентным задачам (поиск в интернете, управление компьютером) заметно обгоняет Sonnet 4.6 и приближается к Opus 4.8, но при этом стоит дешевле.

Цены и доступность:

В чатах Claude:
- Sonnet 5 — модель по умолчанию для тарифов Free и Pro.
- Доступен также на Max, Team и Enterprise.
В продуктах для разработчиков:
- Доступен в Claude Code и на Claude Platform.
- В API — под именем claude-sonnet-5.
Интро-цена до 31 августа 2026 года:
- $2 за 1 млн входных токенов.
- $10 за 1 млн выходных токенов.
После 31 августа 2026 года:
- $3 за 1 млн входных токенов.
- $15 за 1 млн выходных токенов.

Anthropic также подняла rate limits в Chat, Cowork, Claude Code и на Claude Platform, чтобы пользователи могли использовать более высокие уровни «усилий» (больше шагов размышлений и действий) без упора в лимиты.

Как это работает

Anthropic не раскрывает архитектуру по слоям, но по описанию видно, как Sonnet 5 собирают в полноценный агентный стек.

Планирование и многошаговые задачи

Sonnet 5 обучали и тестировали на задачах, где важна не одна точная реплика, а цепочка действий:

разбиение большой задачи на шаги,
выполнение каждого шага с использованием инструментов,
самопроверка результата,
возврат к предыдущим шагам, если что-то не сошлось.

Ранние партнёры описывают типичные сценарии: Sonnet 5 не бросает задачу на полпути, сам проверяет свой код и текст, и только потом отдаёт итоговый результат.

Инструменты: браузер и «компьютер»

Модель тестировали на двух публичных бенчмарках:

BrowseComp — агентный веб-поиск с использованием браузера.
OSWorld-Verified — управление компьютером: клики, ввод текста, работа с интерфейсом.

На обоих тестах Sonnet 5 (оранжевая линия на графиках Anthropic) строго лучше Sonnet 4.6 (серая линия) при разных уровнях «усилий» (количестве шагов и глубине рассуждений). Opus 4.8 (жёлтая линия) всё ещё лидирует по точности, но Sonnet 5 заметно сократил отрыв.

Код и инженерные задачи

Внутренние тесты партнёров показывают, как Sonnet 5 ведёт себя в реальных инженерных сценариях:

пишет и запускает тесты без прямой команды;
сам воспроизводит баг, пишет фикс, откатывает изменения, чтобы убедиться, что ошибка возвращается без патча;
доводит сложные pull request’ы до протестированного и проверенного состояния без участия разработчика в каждом шаге;
лучше работает с «грязным» кодом: race conditions, скрытые тесты, старые части системы.

Отдельно подчёркивают, что Sonnet 5 хорошо держит конвенции проекта: стили, паттерны, подходы к оформлению изменений.

Безопасность и ограничения по кибербезу

Anthropic прогнала Sonnet 5 через несколько уровней safety-оценок:

Агентная безопасность:
- лучше отказывается от вредоносных запросов;
- устойчивее к попыткам hijack’а через prompt injection;
- ниже частота галлюцинаций и «поддакивания» пользователю, чем у Sonnet 4.6.
Автоматизированный поведенческий аудит:
- тестирует склонность к сотрудничеству в злоупотреблениях, обману и другим нежелательным действиям;
- Sonnet 5 показал меньше нежелательного поведения, чем Sonnet 4.6, но больше, чем Opus 4.8 и Claude Mythos Preview.

Отдельная линия — кибербезопасность:

Anthropic не обучала Sonnet 5 специально на киберзадачах.
Модель умеет выполнять базовые безопасные киберрутинные задачи.
На тестах по разработке эксплойтов (например, уязвимости в Firefox) Sonnet 5 значительно слабее Opus 4.8 и Mythos 5.
В этих тестах Sonnet 5 ни разу не собрал полноценный рабочий эксплойт, но чаще, чем Sonnet 4.6, доходил до частичных решений — это связывают с ростом общей «умности», а не с отдельным кибертюнингом.

Из-за этого Anthropic включила для Sonnet 5 кибер-фильтры по умолчанию — те же, что для Opus 4.7 и 4.8. Они блокируют опасные сценарии в реальном времени. Для Fable 5 фильтры жёстче; для Sonnet 5 Anthropic посчитала общий риск ниже и оставила более мягкий режим.

Подробный разбор есть в Claude Sonnet 5 System Card.

Что это значит для вас

Если вы разработчик или делаете агентов

Sonnet 5 — кандидат «по умолчанию», если вы строите:

агентов для работы с кодом: автогенерация функций, рефакторинг, отладка, написание и запуск тестов;
рабочие ассистенты: CRM-операции, обновление статусов, рассылки, подготовка отчётов;
агентов для работы с интерфейсами: обработка заявок, заполнение форм, работа в старых системах.

Из отзывов ранних пользователей:

Sonnet 5 уверенно тянет многошаговые софтверные задачи: пишет код, вызывает инструменты, дебажит и доводит до результата.
В Salesforce-сценарии «обновить уровни аккаунтов и отправить анонс по enterprise-контактам» Sonnet 5 прошёл задачу от начала до конца. Раньше Sonnet-класс останавливался на середине.
В Lovable Sonnet 5 обработал десятки сложных pull request’ов и довёл каждый до протестированного, проверенного состояния. Разработчики переключились с рутины на принятие решений и финальный ревью.
В одном из тестов Sonnet 5 сам:
- нашёл баг,
- написал воспроизводящий тест,
- реализовал фикс,
- временно откатил изменения, чтобы убедиться, что баг возвращается без патча — всё за один проход.

Если вы строите дневную автоматизацию бизнеса (регулярные задачи в корпоративных системах), ранние партнёры описывают Sonnet 5 как «больше делает за меньшее количество шагов» при той же итоговой качестве.

Если вы юрист или работаете с документами

По отзывам компании Eve, которая делает инструменты для юристов:

Sonnet 5 для задач истцов попадает на Pareto-фронтир — сочетание качества и цены, при котором переход на него оказался очевидным.
Наибольшие улучшения — в правовых исследованиях и аналитике.

Переводя на практику: если вы строите юр-ассистента, который ищет и анализирует кейсы, Sonnet 5 — один из наиболее выгодных вариантов по соотношению цена/результат внутри линейки Anthropic.

Если вы работаете с данными и BI

ClickHouse тестировала Sonnet 5 для агентов, которые:

исследуют живые данные;
строят инсайты на лету;
важен time-to-insight — скорость, с которой пользователь получает ответ.

Sonnet 5 в этих сценариях:

рассуждает короче и точнее;
быстрее приводит пользователя к ответу;
разница в скорости ощутима для конечных клиентов.

Если вы строите чат-аналитику поверх DWH или ClickHouse, Sonnet 5 может сократить время ответа без скачка в стоимости, как у старших моделей.

Если вы в страховании, финансах и «серых» интерфейсах

Pace использует «компьютерных» агентов для страховых процессов:

приём заявок;
FNOL (First Notice of Loss);
формирование loss runs.

Эти агенты работают поверх уже существующих систем. По их опыту Sonnet 5:

чаще выбирает правильное действие;
делает это быстро, что критично для реальных страховых операций.

Если у вас много легаси-систем и ручных процедур в интерфейсах, Sonnet 5 — хороший кандидат для пилота по автоматизации.

Где Sonnet 5 не подойдёт

Максимальная точность любой ценой. Если бюджет позволяет и важен пик качества на сложных задачах (R&D, сложная аналитика, продвинутый код), Anthropic всё ещё рекомендует Claude Opus 4.8.
Опасные киберзадачи. Sonnet 5 намеренно слабее Opus 4.8 и Mythos 5 по разработке эксплойтов и другим рискованным сценариям. Плюс включены фильтры, которые блокируют подобные запросы.
Сценарии без доступа к зарубежным сервисам. Anthropic официально не работает в России. Для доступа к Claude Sonnet 5 потребуется VPN и зарубежный аккаунт/платёжная инфраструктура.

Если вы в России и не готовы к VPN и зарубежным платежам, использовать Sonnet 5 в продакшене будет сложно.

Место на рынке

Внутри линейки Anthropic Sonnet 5 занимает позицию «рабочей лошадки» для агентов:

по качеству агентных задач он ближе к Opus 4.8, чем к старому Sonnet 4.6;
по цене — существенно дешевле Opus.

Конкретные цифры:

Sonnet 5:
- интро: $2 / $10 за 1 млн входных / выходных токенов;
- после 31 августа 2026: $3 / $15.
Opus 4.8 в исходном материале не имеет прямой ценовой привязки, но Anthropic позиционирует его как более дорогой и более мощный вариант.

По бенчмаркам BrowseComp и OSWorld-Verified Anthropic показывает три кривые:

Sonnet 4.6 — база.
Sonnet 5 — строгий апгрейд над 4.6 на всех уровнях усилий.
Opus 4.8 — ещё выше по точности, но без ценового преимущества.

Ключевой вывод: если вам нужен баланс цены и качества для агентов, которые много ходят в сеть, работают с интерфейсами, кодом и документами, Sonnet 5 закрывает большую часть сценариев дешевле, чем Opus 4.8. Opus логичнее использовать точечно — там, где важна максимальная точность и вы готовы платить за каждый токен.

С внешними конкурентами (GPT-линейка и другие) Anthropic в этом анонсе себя напрямую не сравнивает. Фокус — на внутреннем сравнении с Opus 4.8 и предыдущим Sonnet 4.6.

Как запустить

Anthropic даёт один основной способ доступа для разработчиков:

через Claude API под именем claude-sonnet-5.

Пошагово это выглядит так:

Регистрируетесь на Claude Platform.
Получаете API-ключ.
В своём коде выбираете модель claude-sonnet-5.
Настраиваете уровни «усилий» и работу с инструментами (браузер, терминал и т.д.) под ваш сценарий.

Anthropic подчёркивает, что в Chat, Cowork, Claude Code и на Platform подняла лимиты по токенам, чтобы пользователи могли без проблем запускать задачи с высоким уровнем усилий.

Если вы в России, придётся дополнительно решить вопрос с VPN и зарубежной платёжкой — официальной локальной поддержки нет.