Mistral OCR 3: дешёвый парсер PDF с акцентом на таблицы и рукописный текст — VogueTech

Что появилось / что изменилось

Mistral представила новое поколение своего движка распознавания документов — Mistral OCR 3.

Главные цифры:

74% общий win rate против Mistral OCR 2 на реальных задачах: формы, сканы, сложные таблицы, рукописный текст.
Цена: $2 за 1000 страниц через обычный API.
При использовании Batch API — $1 за 1000 страниц (скидка 50%).
Модель заметно меньше по размеру, чем большинство корпоративных OCR‑решений, за счёт этого дешевле в использовании.

Что изменилось по качеству:

Формы и анкеты: лучше понимает поля, подписи, значения.
Рукописный текст: меньше ошибок на заметках, бланках, медицинских и юридических документах.
Плохие сканы: устойчивее к шуму, низкому разрешению, кривому скану.
Таблицы: аккуратнее собирает сложные таблицы с кучей колонок и сносок.

Mistral встроила Mistral OCR 3 в интерфейс Document AI Playground в Mistral AI Studio. Там можно просто перетащить PDF или картинку и на выходе получить чистый текст или структурированный JSON.

Как это работает

Mistral OCR 3 — это компактная мультимодальная модель (ID: mistral-ocr-2512), заточенная под документы. Она не просто «видит» текст на картинке, а пытается восстановить логику документа.

Ключевые технические моменты:

На вход можно подавать PDF и изображения; модель извлекает текст и встроенные изображения.
На выходе — markdown, дополненный HTML‑разметкой для таблиц. Это помогает парсерам и бэкендам понимать структуру: заголовки, ячейки, колонки.
Для сложных таблиц Mistral OCR 3 восстанавливает сетку и иерархию: объединённые ячейки, многоуровневые заголовки, примечания.
Интерфейс Document AI сразу умеет отдавать структуру в JSON, без ручного пост‑процессинга.

По сути, это не классический «чистый OCR», который выдаёт просто текст. Mistral учила модель на реальных бизнес‑документах — отчётах, формах, научных таблицах — и оптимизировала её именно под такие сценарии.

Что это значит для вас

Если вы:

гоняете через OCR тысячи страниц в месяц,
работаете с отчётами, формами, таблицами,
строите поверх этого свои пайплайны и LLM‑сценарии,

то Mistral OCR 3 — интересный вариант.

Где он полезен:

Финтех и юристы: договора, формы, заявки, KYC‑анкеты. Важен контекст полей, а не только «голый текст».
Аналитика и BI: годовые отчёты, статистические бюллетени, научные таблицы вроде примера с докторскими степенями по годам и дисциплинам.
Медицина: бланки с рукописными пометками, истории болезни, направления.
Архивы и дигитализация: старые сканы с шумом и низким DPI.

Где лучше поискать другое решение:

Если вам нужен перевод, суммаризация, чат по документу — Mistral OCR 3 сам по себе этого не делает, он только извлекает структуру и текст. Нужен отдельный LLM поверх.
Если объём — десятки страниц в месяц, экономия в $1–2 вряд ли критична, можно остаться на готовых SaaS‑сервисах.
Если вы работаете из России: доступ к Mistral AI официально ограничен. Скорее всего, понадобится VPN и зарубежный платёжный метод.

Как использовать на практике:

Разработчики подключают mistral-ocr-2512 по API и получают структурированный markdown/JSON, который легко разбирать кодом.
Нетеxничные команды могут зайти в Mistral AI Studio, открыть Document AI Playground и прогонять пачки PDF через drag‑and‑drop.

Место на рынке

Mistral напрямую сравнивает OCR 3 с двумя классами конкурентов:

классические корпоративные системы обработки документов;
«AI‑нативные» OCR‑движки на базе больших моделей.

По заявлению Mistral, OCR 3 обгоняет и тех и других по точности на реальных кейсах. Конкретных цифр по сравнению с Google Document AI, Azure Form Recognizer, Amazon Textract, GPT‑4o или Claude 3 в посте нет, поэтому честно: мы не знаем, насколько он быстрее или медленнее.

Зато понятна экономика:

$1–2 за 1000 страниц — это агрессивная цена даже по меркам облачных OCR‑сервисов.
Плюс ставка на «маленькую» модель: ниже латентность и стоимость инференса, проще масштабировать потоки.

Минусы на сегодня:

Привязка к экосистеме Mistral: если у вас уже всё построено вокруг Google или AWS, миграция потребует работы.
Нет публичных бенчмарков против GPT‑4o Vision или Claude 3 Opus на одних и тех же документах.

Если вы строите свой стек вокруг Mistral, OCR 3 логично брать как базовый парсер документов. Если нет — имеет смысл хотя бы прогнать свои типовые PDF через Playground и сравнить с текущим решением по качеству и цене.