- Дата публикации
Mistral OCR 3: дешёвый парсер PDF с акцентом на таблицы и рукописный текст
Что появилось / что изменилось
Mistral представила новое поколение своего движка распознавания документов — Mistral OCR 3.
Главные цифры:
- 74% общий win rate против Mistral OCR 2 на реальных задачах: формы, сканы, сложные таблицы, рукописный текст.
- Цена: $2 за 1000 страниц через обычный API.
- При использовании Batch API — $1 за 1000 страниц (скидка 50%).
- Модель заметно меньше по размеру, чем большинство корпоративных OCR‑решений, за счёт этого дешевле в использовании.
Что изменилось по качеству:
- Формы и анкеты: лучше понимает поля, подписи, значения.
- Рукописный текст: меньше ошибок на заметках, бланках, медицинских и юридических документах.
- Плохие сканы: устойчивее к шуму, низкому разрешению, кривому скану.
- Таблицы: аккуратнее собирает сложные таблицы с кучей колонок и сносок.
Mistral встроила Mistral OCR 3 в интерфейс Document AI Playground в Mistral AI Studio. Там можно просто перетащить PDF или картинку и на выходе получить чистый текст или структурированный JSON.
Как это работает
Mistral OCR 3 — это компактная мультимодальная модель (ID: mistral-ocr-2512), заточенная под документы. Она не просто «видит» текст на картинке, а пытается восстановить логику документа.
Ключевые технические моменты:
- На вход можно подавать PDF и изображения; модель извлекает текст и встроенные изображения.
- На выходе — markdown, дополненный HTML‑разметкой для таблиц. Это помогает парсерам и бэкендам понимать структуру: заголовки, ячейки, колонки.
- Для сложных таблиц Mistral OCR 3 восстанавливает сетку и иерархию: объединённые ячейки, многоуровневые заголовки, примечания.
- Интерфейс Document AI сразу умеет отдавать структуру в JSON, без ручного пост‑процессинга.
По сути, это не классический «чистый OCR», который выдаёт просто текст. Mistral учила модель на реальных бизнес‑документах — отчётах, формах, научных таблицах — и оптимизировала её именно под такие сценарии.
Что это значит для вас
Если вы:
- гоняете через OCR тысячи страниц в месяц,
- работаете с отчётами, формами, таблицами,
- строите поверх этого свои пайплайны и LLM‑сценарии,
то Mistral OCR 3 — интересный вариант.
Где он полезен:
- Финтех и юристы: договора, формы, заявки, KYC‑анкеты. Важен контекст полей, а не только «голый текст».
- Аналитика и BI: годовые отчёты, статистические бюллетени, научные таблицы вроде примера с докторскими степенями по годам и дисциплинам.
- Медицина: бланки с рукописными пометками, истории болезни, направления.
- Архивы и дигитализация: старые сканы с шумом и низким DPI.
Где лучше поискать другое решение:
- Если вам нужен перевод, суммаризация, чат по документу — Mistral OCR 3 сам по себе этого не делает, он только извлекает структуру и текст. Нужен отдельный LLM поверх.
- Если объём — десятки страниц в месяц, экономия в $1–2 вряд ли критична, можно остаться на готовых SaaS‑сервисах.
- Если вы работаете из России: доступ к Mistral AI официально ограничен. Скорее всего, понадобится VPN и зарубежный платёжный метод.
Как использовать на практике:
- Разработчики подключают
mistral-ocr-2512по API и получают структурированный markdown/JSON, который легко разбирать кодом. - Нетеxничные команды могут зайти в Mistral AI Studio, открыть Document AI Playground и прогонять пачки PDF через drag‑and‑drop.
Место на рынке
Mistral напрямую сравнивает OCR 3 с двумя классами конкурентов:
- классические корпоративные системы обработки документов;
- «AI‑нативные» OCR‑движки на базе больших моделей.
По заявлению Mistral, OCR 3 обгоняет и тех и других по точности на реальных кейсах. Конкретных цифр по сравнению с Google Document AI, Azure Form Recognizer, Amazon Textract, GPT‑4o или Claude 3 в посте нет, поэтому честно: мы не знаем, насколько он быстрее или медленнее.
Зато понятна экономика:
- $1–2 за 1000 страниц — это агрессивная цена даже по меркам облачных OCR‑сервисов.
- Плюс ставка на «маленькую» модель: ниже латентность и стоимость инференса, проще масштабировать потоки.
Минусы на сегодня:
- Привязка к экосистеме Mistral: если у вас уже всё построено вокруг Google или AWS, миграция потребует работы.
- Нет публичных бенчмарков против GPT‑4o Vision или Claude 3 Opus на одних и тех же документах.
Если вы строите свой стек вокруг Mistral, OCR 3 логично брать как базовый парсер документов. Если нет — имеет смысл хотя бы прогнать свои типовые PDF через Playground и сравнить с текущим решением по качеству и цене.