- Дата публикации
Mistral OCR 4: как французский стартап учит ИИ «понимать» документы, а не просто выдёргивать текст
Что нового
Mistral AI обновила свою систему анализа документов до версии OCR 4. Это уже четвёртое поколение их OCR‑модели, заточенной под корпоративные сценарии и RAG‑системы.
Ключевые изменения и цифры:
- Поддержка форматов: работает с изображениями и PDF.
- Структурированный вывод: отдаёт контент как упорядоченный, чередующийся поток текста и изображений, а не просто «кучу текста».
- Полный охват документа: обрабатывает текст, таблицы, формулы и медиа в одном проходе.
- 170 языков в 10 языковых группах — это глобальный продукт, а не только для англоязычных документов.
- Производительность: до 2000 страниц в минуту на одном GPU.
- Режимы использования:
- как часть RAG‑пайплайна;
- как отдельный инструмент для извлечения контекста.
- Bounding boxes (рамки): для каждого фрагмента текста можно получить координаты на странице и подсветить его в исходном документе.
- Интеграция с Mistral Search: сразу работает с открытым фреймворком поиска от Mistral (публичный превью).
- Цены:
- через API: $4 за 1000 страниц;
- в Document AI внутри Mistral Studio: $5 за 1000 страниц.
OCR 4 вышла через 15 месяцев после первой OCR‑версии Mistral и спустя примерно полгода после OCR 3 (декабрь).
Как это работает
Mistral OCR 4 решает не только задачу распознавания текста, но и задачу структурного понимания документа.
Под капотом происходит несколько шагов:
-
Визуальный разбор страницы
Модель анализирует PDF или изображение как картинку: находит текстовые блоки, таблицы, подписи к изображениям, формулы. Для каждого объекта она вычисляет координаты на странице — те самые bounding boxes. -
Оптическое распознавание текста (OCR)
Внутренний OCR‑модуль превращает визуальные фрагменты в текст. За счёт поддержки 170 языков можно обрабатывать смешанные документы: например, отчёт с английским, французским и русским текстом. -
Сборка «читаемого» документа
Вместо простого списка строк OCR 4:- сохраняет порядок чтения (колонки, заголовки, сноски);
- вставляет изображения в нужных местах потока;
- помечает таблицы и формулы как отдельные объекты.
Результат — машинно‑читаемый документ, который можно сразу отдавать в RAG‑систему или использовать для поиска и аналитики.
-
Привязка к источнику через bounding boxes
Для каждого фрагмента текста модель возвращает координаты. На их основе интерфейсы и ассистенты:- подсвечивают исходное место в документе;
- строят кликабельные цитаты в RAG‑чатах, которые ведут к нужному фрагменту PDF.
-
Интеграция с Mistral Search
OCR 4 уже «умеет» работать внутри Mistral Search — открытого фреймворка поиска. Это позволяет построить цепочку: загрузка документов → OCR 4 → индексация в Mistral Search → RAG‑ассистент.
Что это значит для вас
Где OCR 4 действительно полезна
-
Корпоративные архивы и RAG‑ассистенты
Если у вас много PDF‑отчётов, презентаций, сканов договоров или регламентов, OCR 4 помогает:- превратить их в структурированные данные;
- построить ассистента, который отвечает с точными ссылками на исходные документы;
- не ломать пайплайн из‑за неиндексируемых сканов.
-
Финтех, логистика, юрфирмы, консалтинг
Там, где документы — основной продукт:- договора, счета, акты;
- отчёты с таблицами и графиками;
- многостраничные презентации.
OCR 4 помогает быстро прогонять массивы документов: до 2000 страниц в минуту на одном GPU — это уже промышленный масштаб.
-
Аналитика и поиск по неструктурированным данным
Gartner оценивает, что 80% данных — неструктурированные. Старые OCR‑системы просто вытаскивали текст, но:- ломали структуру;
- не сохраняли контекст;
- не давали понять, откуда взята та или иная цифра.
OCR 4 решает именно эту проблему: создаёт машинно‑читаемое, пригодное для запросов представление документа.
-
Сценарии с проверяемостью ответов ИИ
В связке с RAG bounding boxes позволяют:- показывать пользователю кликабельные ссылки на источник;
- подсвечивать точное место в PDF, откуда ассистент взял ответ.
Это важно для compliance, аудита, юридических и медицинских сценариев.
Где OCR 4 может не подойти
-
Простые задачи OCR «для дома»
Если вам нужно раз в месяц распознать одну страницу с чека или визитки, дешевле и проще использовать локальные приложения или встроенный OCR в офисных пакетах. -
Сценарии, где достаточно plain‑текста без структуры
Если ваш пайплайн не использует таблицы, картинки и не требует точной привязки к странице, продвинутые функции OCR 4 могут оказаться избыточными. -
Проекты с жёсткими ограничениями на зарубежные облака
OCR 4 доступна через API Mistral и через Mistral Studio. Для части российских компаний это может потребовать:- использование VPN или прокси для доступа к сервису;
- отдельной юридической оценки работы с данными за пределами юрисдикции.
Для строго изолированных контуров (банки, госсектор) придётся смотреть, предлагает ли Mistral on‑prem или частные развёртывания.
Кому это особенно интересно
- CIO и ИТ‑директорам: если вы строите корпоративный RAG‑ассистент и хотите, чтобы он «читал» не только базы данных, но и PDF‑архив за 10 лет.
- Data‑ и ML‑командам: если у вас ломаются пайплайны на этапе загрузки сканов, OCR 4 может стать нормализующим слоем.
- Продуктовым менеджерам AI‑сервисов: bounding boxes и кликабельные цитаты — хороший UX‑дифференциатор для ассистентов.
Место на рынке
Mistral OCR 4 выходит на поле, где уже играют крупные игроки:
- Google — с Google Document AI;
- Microsoft — с Azure AI Document Intelligence.
Все три решения решают похожие задачи: распознать текст в документах и дать разработчикам API для дальнейшей обработки.
Отличия OCR 4 по тем данным, которые раскрывает Mistral и эксперты:
-
Фокус на понимании, а не только извлечении
Аналитик Omdia Марк Бекью прямо говорит: классический OCR «просто вытаскивает» текст и не понимает его. OCR 4 делает ставку на понимание структуры и контекста документа. -
Bounding boxes как ключевая фича
Google и Microsoft тоже умеют работать с координатами текста, но в описании OCR 4 bounding boxes выведены как центральная функция:- локализация текста в документе;
- визуальная подсветка;
- связка с RAG и кликабельными цитатами.
-
Производительность и масштаб
Mistral называет конкретную цифру — до 2000 страниц в минуту на одном GPU. Для крупных архивов это важный аргумент, особенно если вы строите свой пайплайн, а не пользуетесь полностью управляемым облачным сервисом. -
Ценовая модель
Mistral открыто озвучивает стоимость:- $4 за 1000 страниц по API;
- $5 за 1000 страниц в Document AI (Mistral Studio).
Это упрощает сравнение стоимости владения с другими сервисами, хотя прямых цифр по Google и Microsoft в этом материале нет.
-
Интеграция с open source‑экосистемой
OCR 4 сразу «вшита» в Mistral Search — открытый, компонуемый фреймворк поиска. Для тех, кто строит свои пайплайны на open source‑стеке, это плюс: меньше «чёрных ящиков» и больше контроля.
В целом, OCR 4 закрывает боль, о которой говорит Бекью: старые OCR‑решения умеют вытащить текст, но бизнесу всё равно приходится тратить много ручного труда, чтобы превратить его в данные, с которыми можно работать. Mistral предлагает сразу машинно‑читаемое, пригодное для запросов представление документа с точной привязкой к источнику.
Если вы строите серьёзный документ‑интеллект или RAG‑ассистента, который должен отвечать не только красиво, но и проверяемо, OCR 4 — инструмент, на который стоит посмотреть и заложить время на пилот.