Datalab Marker и OCR: быстрый парсинг документов, который обгоняет GPT-4o и Tesseract — VogueTech

Что появилось / что изменилось

Datalab выкатил на Replicate два инструмента для работы с документами: Marker и OCR.

Marker умеет превращать PDF, DOCX, PPTX и картинки в markdown или JSON. Он:

сохраняет таблицы, формулы и код;
вытаскивает встроенные изображения;
может доставать только нужные поля по заданной JSON Schema.

Скорость:

одна страница — около 0,18 секунды;
при пакетной обработке — до 120 страниц в секунду.

По бенчмарку olmOCR-Bench (1 403 PDF и 7 010 тестов) Marker показывает лучшие результаты среди популярных решений для преобразования PDF в markdown с сохранением структуры.

Balanced-режим Marker набирает 82,7 ± 0,9 балла по общей метрике. Для сравнения:

GPT-4o (Anchored) — 69,9 ± 1,1;
Mistral OCR API — 72,0 ± 1,1;
Deepseek OCR — 74,2 ± 1,0;
Gemini Flash 2 (Anchored) — 63,8 ± 1,2;
Qwen 2.5 VL (без якорей) — 65,5 ± 1,2;
olmOCR v0.3.0 — 78,5 ± 1,1.

По отдельным категориям Marker тоже впереди: математика — 89,4, таблицы — 50,0, старые сканы — до 80,3 балла.

Цены на Marker:

$4 за 1000 страниц в режимах fast и balanced без page_schema;
$6 за 1000 страниц, если нужен структурированный вывод по page_schema;
$6 за 1000 страниц в режиме accurate.

OCR от Datalab распознаёт текст на 90 языках на картинках и в документах. Он возвращает:

текст с правильным порядком чтения;
сетку таблиц;
при желании — картинку с красными полигонами вокруг текста.

Цена OCR: $2 за 1000 страниц.

Оба инструмента уже доступны на Replicate. Есть кодовые примеры на Python и других языках.

Как это работает

Marker построен на базе популярного open source-проекта Marker (около 29 тысяч звёзд на GitHub). Поверх него Datalab сделал готовый API через Replicate.

Под капотом — связка OCR и моделей, которые восстанавливают структуру документа: заголовки, списки, таблицы, формулы, фрагменты кода. Результат — markdown или JSON, где таблицы остаются таблицами, а не кашей из текста.

Ключевая фишка — structured extraction. Вы описываете JSON Schema с нужными полями, например:

vendor;
invoice_number;
date;
total.

Marker прогоняет документ и возвращает JSON, уже приведённый к этой схеме. То есть не просто «весь текст считай сам», а сразу готовые поля для базы или CRM.

OCR построен на базе проекта Surya (около 19 тысяч звёзд на GitHub). Он ищет текстовые блоки на изображении, определяет язык, порядок чтения и границы таблиц. Опционально возвращает разметку страниц и визуализацию с полигонами.

Оба инструмента работают через Replicate API. Пример на Python для Marker:

import replicate

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": open("report.pdf", "rb"),
        "mode": "balanced",  # fast / balanced / accurate
        "include_metadata": True,
    },
)

print(output["markdown"][:400])

И аналогично для OCR:

import replicate

output = replicate.run(
    "datalab-to/ocr",
    input={
        "file": open("receipt.jpg", "rb"),
        "visualize": True,
        "return_pages": True,
    },
)

print(output["text"][:200])

Что это значит для вас

Если вы регулярно имеете дело с документами, Marker и OCR закрывают сразу несколько задач.

Где полезен Marker:

разбор отчётов, презентаций и доков в понятный markdown для вики или GitHub;
подготовка корпусов данных для обучения LLM: PDF → структурированный текст;
массовый парсинг счетов и актов с вытаскиванием конкретных полей через JSON Schema;
миграция старых архивов PDF в нормальную базу.

Где полезен OCR:

распознавание чеков, сканов паспортов, анкет и других фото-документов;
оцифровка архивных сканов на разных языках;
выделение таблиц с сохранением сетки.

Где эти инструменты не подойдут:

если вам нужно не просто распознать, а понять текст, сделать выводы, написать резюме — тут лучше подключать GPT-4o или другие LLM поверх результата Marker;
если документы содержат чувствительные данные и политика компании запрещает отправлять их в облако — придётся искать self-hosted-решения или поднимать open source Marker и Surya у себя.

Datalab Marker и OCR работают через Replicate, который в России может открываться нестабильно. Для гарантированного доступа может понадобиться VPN и корпоративная карта для оплаты.

Финансовая сторона: для больших объёмов цена заметно ниже, чем у многих LLM-API. $4–6 за 1000 страниц Marker и $2 за 1000 страниц OCR — это уже похоже на промышленный прайс для бэкенда, а не на игрушку для экспериментов.

Если вы строите пайплайн: «загрузили PDF → распарсили → отправили в GPT-4o для анализа», Marker хорошо ложится в первый шаг.

Место на рынке

По результатам olmOCR-Bench Marker в balanced-режиме показывает 82,7 ± 0,9 балла. Это выше, чем у:

GPT-4o (Anchored) — 69,9 ± 1,1;
Deepseek OCR — 74,2 ± 1,0;
Mistral OCR API — 72,0 ± 1,1;
Gemini Flash 2 (Anchored) — 63,8 ± 1,2;
Qwen 2.5 VL — 65,5 ± 1,2;
olmOCR v0.3.0 — 78,5 ± 1,1.

По скорости Marker тоже агрессивный: 0,18 секунды на страницу и до 120 страниц в секунду при батче. Классические решения вроде Tesseract заметно медленнее и хуже держат структуру, но в бенчмарке их нет, поэтому точных цифр сравнения авторы не приводят.

По цене Marker и OCR выглядят дешевле, чем прогон тех же PDF через GPT-4o ради распознавания. Но прямых данных по стоимости у GPT-4o в этом сценарии авторы не дают, поэтому считать приходится самим.

Кому особенно интересно:

разработчикам, которые строят сервисы поверх документов и не хотят самим собирать связку OCR + layout + парсинг;
продуктовым командам, которые автоматизируют работу с договорами и счетами;
дата-сайентистам, которым нужен большой и аккуратный корпус текстов из PDF.

Кому можно пройти мимо:

если у вас уже есть отлаженный пайплайн на своем OCR и он устраивает по качеству и цене;
если объёмы небольшие и вы спокойно решаете задачи через пару запросов к GPT-4o без отдельного парсера.