Дата публикации
ai_products

Mistral OCR 4: как французский стартап учит ИИ «понимать» документы, а не просто выдёргивать текст

Что нового

Mistral AI обновила свою систему анализа документов до версии OCR 4. Это уже четвёртое поколение их OCR‑модели, заточенной под корпоративные сценарии и RAG‑системы.

Ключевые изменения и цифры:

  • Поддержка форматов: работает с изображениями и PDF.
  • Структурированный вывод: отдаёт контент как упорядоченный, чередующийся поток текста и изображений, а не просто «кучу текста».
  • Полный охват документа: обрабатывает текст, таблицы, формулы и медиа в одном проходе.
  • 170 языков в 10 языковых группах — это глобальный продукт, а не только для англоязычных документов.
  • Производительность: до 2000 страниц в минуту на одном GPU.
  • Режимы использования:
    • как часть RAG‑пайплайна;
    • как отдельный инструмент для извлечения контекста.
  • Bounding boxes (рамки): для каждого фрагмента текста можно получить координаты на странице и подсветить его в исходном документе.
  • Интеграция с Mistral Search: сразу работает с открытым фреймворком поиска от Mistral (публичный превью).
  • Цены:
    • через API: $4 за 1000 страниц;
    • в Document AI внутри Mistral Studio: $5 за 1000 страниц.

OCR 4 вышла через 15 месяцев после первой OCR‑версии Mistral и спустя примерно полгода после OCR 3 (декабрь).

Как это работает

Mistral OCR 4 решает не только задачу распознавания текста, но и задачу структурного понимания документа.

Под капотом происходит несколько шагов:

  1. Визуальный разбор страницы
    Модель анализирует PDF или изображение как картинку: находит текстовые блоки, таблицы, подписи к изображениям, формулы. Для каждого объекта она вычисляет координаты на странице — те самые bounding boxes.

  2. Оптическое распознавание текста (OCR)
    Внутренний OCR‑модуль превращает визуальные фрагменты в текст. За счёт поддержки 170 языков можно обрабатывать смешанные документы: например, отчёт с английским, французским и русским текстом.

  3. Сборка «читаемого» документа
    Вместо простого списка строк OCR 4:

    • сохраняет порядок чтения (колонки, заголовки, сноски);
    • вставляет изображения в нужных местах потока;
    • помечает таблицы и формулы как отдельные объекты.

    Результат — машинно‑читаемый документ, который можно сразу отдавать в RAG‑систему или использовать для поиска и аналитики.

  4. Привязка к источнику через bounding boxes
    Для каждого фрагмента текста модель возвращает координаты. На их основе интерфейсы и ассистенты:

    • подсвечивают исходное место в документе;
    • строят кликабельные цитаты в RAG‑чатах, которые ведут к нужному фрагменту PDF.
  5. Интеграция с Mistral Search
    OCR 4 уже «умеет» работать внутри Mistral Search — открытого фреймворка поиска. Это позволяет построить цепочку: загрузка документов → OCR 4 → индексация в Mistral Search → RAG‑ассистент.

Что это значит для вас

Где OCR 4 действительно полезна

  1. Корпоративные архивы и RAG‑ассистенты
    Если у вас много PDF‑отчётов, презентаций, сканов договоров или регламентов, OCR 4 помогает:

    • превратить их в структурированные данные;
    • построить ассистента, который отвечает с точными ссылками на исходные документы;
    • не ломать пайплайн из‑за неиндексируемых сканов.
  2. Финтех, логистика, юрфирмы, консалтинг
    Там, где документы — основной продукт:

    • договора, счета, акты;
    • отчёты с таблицами и графиками;
    • многостраничные презентации.

    OCR 4 помогает быстро прогонять массивы документов: до 2000 страниц в минуту на одном GPU — это уже промышленный масштаб.

  3. Аналитика и поиск по неструктурированным данным
    Gartner оценивает, что 80% данных — неструктурированные. Старые OCR‑системы просто вытаскивали текст, но:

    • ломали структуру;
    • не сохраняли контекст;
    • не давали понять, откуда взята та или иная цифра.

    OCR 4 решает именно эту проблему: создаёт машинно‑читаемое, пригодное для запросов представление документа.

  4. Сценарии с проверяемостью ответов ИИ
    В связке с RAG bounding boxes позволяют:

    • показывать пользователю кликабельные ссылки на источник;
    • подсвечивать точное место в PDF, откуда ассистент взял ответ.

    Это важно для compliance, аудита, юридических и медицинских сценариев.

Где OCR 4 может не подойти

  1. Простые задачи OCR «для дома»
    Если вам нужно раз в месяц распознать одну страницу с чека или визитки, дешевле и проще использовать локальные приложения или встроенный OCR в офисных пакетах.

  2. Сценарии, где достаточно plain‑текста без структуры
    Если ваш пайплайн не использует таблицы, картинки и не требует точной привязки к странице, продвинутые функции OCR 4 могут оказаться избыточными.

  3. Проекты с жёсткими ограничениями на зарубежные облака
    OCR 4 доступна через API Mistral и через Mistral Studio. Для части российских компаний это может потребовать:

    • использование VPN или прокси для доступа к сервису;
    • отдельной юридической оценки работы с данными за пределами юрисдикции.

    Для строго изолированных контуров (банки, госсектор) придётся смотреть, предлагает ли Mistral on‑prem или частные развёртывания.

Кому это особенно интересно

  • CIO и ИТ‑директорам: если вы строите корпоративный RAG‑ассистент и хотите, чтобы он «читал» не только базы данных, но и PDF‑архив за 10 лет.
  • Data‑ и ML‑командам: если у вас ломаются пайплайны на этапе загрузки сканов, OCR 4 может стать нормализующим слоем.
  • Продуктовым менеджерам AI‑сервисов: bounding boxes и кликабельные цитаты — хороший UX‑дифференциатор для ассистентов.

Место на рынке

Mistral OCR 4 выходит на поле, где уже играют крупные игроки:

  • Google — с Google Document AI;
  • Microsoft — с Azure AI Document Intelligence.

Все три решения решают похожие задачи: распознать текст в документах и дать разработчикам API для дальнейшей обработки.

Отличия OCR 4 по тем данным, которые раскрывает Mistral и эксперты:

  • Фокус на понимании, а не только извлечении
    Аналитик Omdia Марк Бекью прямо говорит: классический OCR «просто вытаскивает» текст и не понимает его. OCR 4 делает ставку на понимание структуры и контекста документа.

  • Bounding boxes как ключевая фича
    Google и Microsoft тоже умеют работать с координатами текста, но в описании OCR 4 bounding boxes выведены как центральная функция:

    • локализация текста в документе;
    • визуальная подсветка;
    • связка с RAG и кликабельными цитатами.
  • Производительность и масштаб
    Mistral называет конкретную цифру — до 2000 страниц в минуту на одном GPU. Для крупных архивов это важный аргумент, особенно если вы строите свой пайплайн, а не пользуетесь полностью управляемым облачным сервисом.

  • Ценовая модель
    Mistral открыто озвучивает стоимость:

    • $4 за 1000 страниц по API;
    • $5 за 1000 страниц в Document AI (Mistral Studio).

    Это упрощает сравнение стоимости владения с другими сервисами, хотя прямых цифр по Google и Microsoft в этом материале нет.

  • Интеграция с open source‑экосистемой
    OCR 4 сразу «вшита» в Mistral Search — открытый, компонуемый фреймворк поиска. Для тех, кто строит свои пайплайны на open source‑стеке, это плюс: меньше «чёрных ящиков» и больше контроля.

В целом, OCR 4 закрывает боль, о которой говорит Бекью: старые OCR‑решения умеют вытащить текст, но бизнесу всё равно приходится тратить много ручного труда, чтобы превратить его в данные, с которыми можно работать. Mistral предлагает сразу машинно‑читаемое, пригодное для запросов представление документа с точной привязкой к источнику.

Если вы строите серьёзный документ‑интеллект или RAG‑ассистента, который должен отвечать не только красиво, но и проверяемо, OCR 4 — инструмент, на который стоит посмотреть и заложить время на пилот.


Читайте также

🔗 Источник: https://mistral.ai/news/ocr-4/