- Дата публикации
Клод в Amazon Bedrock научился вытаскивать данные из документов без обучения модели
Что появилось / что изменилось
AWS добавила в свой сервис Amazon Bedrock поддержку Claude Tool use — функции вызова инструментов в модели Anthropic Claude. Это позволяет модели самостоятельно вызывать заранее описанные функции для обработки данных. Ключевое изменение: теперь можно настроить распознавание именованных сущностей (NER) в документах без долгого обучения отдельной модели. Решение работает в реальном времени на бессерверной архитектуре (AWS Lambda, S3). В примере AWS система извлекает поля из водительских прав: имя, даты, адрес.
Как это работает
Вы описываете набор инструментов — их названия, схемы входных данных и описания на естественном языке. Например, инструмент extract_license_fields для прав. Пользователь загружает документ (картинку или PDF) в S3-бакет. Событие загрузки запускает Lambda-функцию. Она кодирует документ в base64, формирует промпт и отправляет запрос в Claude через API Bedrock. Модель анализирует промпт и решает, нужно ли вызывать описанный инструмент. Если да — она его вызывает с нужными параметрами и возвращает структурированные данные. Результаты можно логировать в CloudWatch.
Что это значит для вас
Если вам нужно автоматически вытягивать данные из сканов документов — договоров, удостоверений, анкет — это решение сократит ручную работу. Вам не придётся обучать и развертывать кастомную NER-модель. Достаточно описать JSON-схему полей, которые нужно извлечь, и настроить пайплайн в AWS. Решение масштабируется автоматически. Оно подойдёт для обработки потоков документов в финтехе, страховании или HR. Но учтите: Amazon Bedrock, как и другие сервисы AWS, недоступен для новых клиентов из России. Существующие аккаунты могут работать с ограничениями. Также вы платите за вызовы модели Bedrock и работу Lambda.
Место на рынке
Функция вызова инструментов (function calling) есть и у других моделей, например у GPT-4o от OpenAI. Однако реализация в Claude через Bedrock интегрирована в экосистему AWS. Это даёт преимущество тем, кто уже использует Amazon S3, Lambda и CloudWatch для бессерверных пайплайнов. Вам не нужно самостоятельно управлять инфраструктурой для модели. По сравнению с развертыванием отдельной кастомной NER-модели (например, на spaCy) подход через Claude Tool use быстрее в настройке, но может быть дороже на больших объемах, так как вы платите за каждый вызов LLM. Для простых и стабильных типов документов традиционные модели всё ещё могут быть экономичнее.