Mistral OCR 4: как французский стартап учит ИИ «понимать» документы, а не просто выдёргивать текст — VogueTech

Что нового

Mistral AI обновила свою систему анализа документов до версии OCR 4. Это уже четвёртое поколение их OCR‑модели, заточенной под корпоративные сценарии и RAG‑системы.

Ключевые изменения и цифры:

Поддержка форматов: работает с изображениями и PDF.
Структурированный вывод: отдаёт контент как упорядоченный, чередующийся поток текста и изображений, а не просто «кучу текста».
Полный охват документа: обрабатывает текст, таблицы, формулы и медиа в одном проходе.
170 языков в 10 языковых группах — это глобальный продукт, а не только для англоязычных документов.
Производительность: до 2000 страниц в минуту на одном GPU.
Режимы использования:
- как часть RAG‑пайплайна;
- как отдельный инструмент для извлечения контекста.
Bounding boxes (рамки): для каждого фрагмента текста можно получить координаты на странице и подсветить его в исходном документе.
Интеграция с Mistral Search: сразу работает с открытым фреймворком поиска от Mistral (публичный превью).
Цены:
- через API: $4 за 1000 страниц;
- в Document AI внутри Mistral Studio: $5 за 1000 страниц.

OCR 4 вышла через 15 месяцев после первой OCR‑версии Mistral и спустя примерно полгода после OCR 3 (декабрь).

Как это работает

Mistral OCR 4 решает не только задачу распознавания текста, но и задачу структурного понимания документа.

Под капотом происходит несколько шагов:

Визуальный разбор страницы
Модель анализирует PDF или изображение как картинку: находит текстовые блоки, таблицы, подписи к изображениям, формулы. Для каждого объекта она вычисляет координаты на странице — те самые bounding boxes.
Оптическое распознавание текста (OCR)
Внутренний OCR‑модуль превращает визуальные фрагменты в текст. За счёт поддержки 170 языков можно обрабатывать смешанные документы: например, отчёт с английским, французским и русским текстом.
Сборка «читаемого» документа
Вместо простого списка строк OCR 4:
- сохраняет порядок чтения (колонки, заголовки, сноски);
- вставляет изображения в нужных местах потока;
- помечает таблицы и формулы как отдельные объекты.
Результат — машинно‑читаемый документ, который можно сразу отдавать в RAG‑систему или использовать для поиска и аналитики.
Привязка к источнику через bounding boxes
Для каждого фрагмента текста модель возвращает координаты. На их основе интерфейсы и ассистенты:
- подсвечивают исходное место в документе;
- строят кликабельные цитаты в RAG‑чатах, которые ведут к нужному фрагменту PDF.
Интеграция с Mistral Search
OCR 4 уже «умеет» работать внутри Mistral Search — открытого фреймворка поиска. Это позволяет построить цепочку: загрузка документов → OCR 4 → индексация в Mistral Search → RAG‑ассистент.

Что это значит для вас

Где OCR 4 действительно полезна

Корпоративные архивы и RAG‑ассистенты
Если у вас много PDF‑отчётов, презентаций, сканов договоров или регламентов, OCR 4 помогает:
- превратить их в структурированные данные;
- построить ассистента, который отвечает с точными ссылками на исходные документы;
- не ломать пайплайн из‑за неиндексируемых сканов.
Финтех, логистика, юрфирмы, консалтинг
Там, где документы — основной продукт:
- договора, счета, акты;
- отчёты с таблицами и графиками;
- многостраничные презентации.
OCR 4 помогает быстро прогонять массивы документов: до 2000 страниц в минуту на одном GPU — это уже промышленный масштаб.
Аналитика и поиск по неструктурированным данным
Gartner оценивает, что 80% данных — неструктурированные. Старые OCR‑системы просто вытаскивали текст, но:
- ломали структуру;
- не сохраняли контекст;
- не давали понять, откуда взята та или иная цифра.
OCR 4 решает именно эту проблему: создаёт машинно‑читаемое, пригодное для запросов представление документа.
Сценарии с проверяемостью ответов ИИ
В связке с RAG bounding boxes позволяют:
- показывать пользователю кликабельные ссылки на источник;
- подсвечивать точное место в PDF, откуда ассистент взял ответ.
Это важно для compliance, аудита, юридических и медицинских сценариев.

Где OCR 4 может не подойти

Простые задачи OCR «для дома»
Если вам нужно раз в месяц распознать одну страницу с чека или визитки, дешевле и проще использовать локальные приложения или встроенный OCR в офисных пакетах.
Сценарии, где достаточно plain‑текста без структуры
Если ваш пайплайн не использует таблицы, картинки и не требует точной привязки к странице, продвинутые функции OCR 4 могут оказаться избыточными.
Проекты с жёсткими ограничениями на зарубежные облака
OCR 4 доступна через API Mistral и через Mistral Studio. Для части российских компаний это может потребовать:
- использование VPN или прокси для доступа к сервису;
- отдельной юридической оценки работы с данными за пределами юрисдикции.
Для строго изолированных контуров (банки, госсектор) придётся смотреть, предлагает ли Mistral on‑prem или частные развёртывания.

Кому это особенно интересно

CIO и ИТ‑директорам: если вы строите корпоративный RAG‑ассистент и хотите, чтобы он «читал» не только базы данных, но и PDF‑архив за 10 лет.
Data‑ и ML‑командам: если у вас ломаются пайплайны на этапе загрузки сканов, OCR 4 может стать нормализующим слоем.
Продуктовым менеджерам AI‑сервисов: bounding boxes и кликабельные цитаты — хороший UX‑дифференциатор для ассистентов.

Место на рынке

Mistral OCR 4 выходит на поле, где уже играют крупные игроки:

Google — с Google Document AI;
Microsoft — с Azure AI Document Intelligence.

Все три решения решают похожие задачи: распознать текст в документах и дать разработчикам API для дальнейшей обработки.

Отличия OCR 4 по тем данным, которые раскрывает Mistral и эксперты:

Фокус на понимании, а не только извлечении
Аналитик Omdia Марк Бекью прямо говорит: классический OCR «просто вытаскивает» текст и не понимает его. OCR 4 делает ставку на понимание структуры и контекста документа.
Bounding boxes как ключевая фича
Google и Microsoft тоже умеют работать с координатами текста, но в описании OCR 4 bounding boxes выведены как центральная функция:
- локализация текста в документе;
- визуальная подсветка;
- связка с RAG и кликабельными цитатами.
Производительность и масштаб
Mistral называет конкретную цифру — до 2000 страниц в минуту на одном GPU. Для крупных архивов это важный аргумент, особенно если вы строите свой пайплайн, а не пользуетесь полностью управляемым облачным сервисом.
Ценовая модель
Mistral открыто озвучивает стоимость:
- $4 за 1000 страниц по API;
- $5 за 1000 страниц в Document AI (Mistral Studio).
Это упрощает сравнение стоимости владения с другими сервисами, хотя прямых цифр по Google и Microsoft в этом материале нет.
Интеграция с open source‑экосистемой
OCR 4 сразу «вшита» в Mistral Search — открытый, компонуемый фреймворк поиска. Для тех, кто строит свои пайплайны на open source‑стеке, это плюс: меньше «чёрных ящиков» и больше контроля.

В целом, OCR 4 закрывает боль, о которой говорит Бекью: старые OCR‑решения умеют вытащить текст, но бизнесу всё равно приходится тратить много ручного труда, чтобы превратить его в данные, с которыми можно работать. Mistral предлагает сразу машинно‑читаемое, пригодное для запросов представление документа с точной привязкой к источнику.

Если вы строите серьёзный документ‑интеллект или RAG‑ассистента, который должен отвечать не только красиво, но и проверяемо, OCR 4 — инструмент, на который стоит посмотреть и заложить время на пилот.