- Дата публикации
Datalab Marker и OCR: быстрый парсинг документов, который обгоняет GPT-4o и Tesseract
Что появилось / что изменилось
Datalab выкатил на Replicate два инструмента для работы с документами: Marker и OCR.
Marker умеет превращать PDF, DOCX, PPTX и картинки в markdown или JSON. Он:
- сохраняет таблицы, формулы и код;
- вытаскивает встроенные изображения;
- может доставать только нужные поля по заданной JSON Schema.
Скорость:
- одна страница — около 0,18 секунды;
- при пакетной обработке — до 120 страниц в секунду.
По бенчмарку olmOCR-Bench (1 403 PDF и 7 010 тестов) Marker показывает лучшие результаты среди популярных решений для преобразования PDF в markdown с сохранением структуры.
Balanced-режим Marker набирает 82,7 ± 0,9 балла по общей метрике. Для сравнения:
- GPT-4o (Anchored) — 69,9 ± 1,1;
- Mistral OCR API — 72,0 ± 1,1;
- Deepseek OCR — 74,2 ± 1,0;
- Gemini Flash 2 (Anchored) — 63,8 ± 1,2;
- Qwen 2.5 VL (без якорей) — 65,5 ± 1,2;
- olmOCR v0.3.0 — 78,5 ± 1,1.
По отдельным категориям Marker тоже впереди: математика — 89,4, таблицы — 50,0, старые сканы — до 80,3 балла.
Цены на Marker:
- $4 за 1000 страниц в режимах fast и balanced без
page_schema; - $6 за 1000 страниц, если нужен структурированный вывод по
page_schema; - $6 за 1000 страниц в режиме accurate.
OCR от Datalab распознаёт текст на 90 языках на картинках и в документах. Он возвращает:
- текст с правильным порядком чтения;
- сетку таблиц;
- при желании — картинку с красными полигонами вокруг текста.
Цена OCR: $2 за 1000 страниц.
Оба инструмента уже доступны на Replicate. Есть кодовые примеры на Python и других языках.
Как это работает
Marker построен на базе популярного open source-проекта Marker (около 29 тысяч звёзд на GitHub). Поверх него Datalab сделал готовый API через Replicate.
Под капотом — связка OCR и моделей, которые восстанавливают структуру документа: заголовки, списки, таблицы, формулы, фрагменты кода. Результат — markdown или JSON, где таблицы остаются таблицами, а не кашей из текста.
Ключевая фишка — structured extraction. Вы описываете JSON Schema с нужными полями, например:
vendor;invoice_number;date;total.
Marker прогоняет документ и возвращает JSON, уже приведённый к этой схеме. То есть не просто «весь текст считай сам», а сразу готовые поля для базы или CRM.
OCR построен на базе проекта Surya (около 19 тысяч звёзд на GitHub). Он ищет текстовые блоки на изображении, определяет язык, порядок чтения и границы таблиц. Опционально возвращает разметку страниц и визуализацию с полигонами.
Оба инструмента работают через Replicate API. Пример на Python для Marker:
import replicate
output = replicate.run(
"datalab-to/marker",
input={
"file": open("report.pdf", "rb"),
"mode": "balanced", # fast / balanced / accurate
"include_metadata": True,
},
)
print(output["markdown"][:400])
И аналогично для OCR:
import replicate
output = replicate.run(
"datalab-to/ocr",
input={
"file": open("receipt.jpg", "rb"),
"visualize": True,
"return_pages": True,
},
)
print(output["text"][:200])
Что это значит для вас
Если вы регулярно имеете дело с документами, Marker и OCR закрывают сразу несколько задач.
Где полезен Marker:
- разбор отчётов, презентаций и доков в понятный markdown для вики или GitHub;
- подготовка корпусов данных для обучения LLM: PDF → структурированный текст;
- массовый парсинг счетов и актов с вытаскиванием конкретных полей через JSON Schema;
- миграция старых архивов PDF в нормальную базу.
Где полезен OCR:
- распознавание чеков, сканов паспортов, анкет и других фото-документов;
- оцифровка архивных сканов на разных языках;
- выделение таблиц с сохранением сетки.
Где эти инструменты не подойдут:
- если вам нужно не просто распознать, а понять текст, сделать выводы, написать резюме — тут лучше подключать GPT-4o или другие LLM поверх результата Marker;
- если документы содержат чувствительные данные и политика компании запрещает отправлять их в облако — придётся искать self-hosted-решения или поднимать open source Marker и Surya у себя.
Datalab Marker и OCR работают через Replicate, который в России может открываться нестабильно. Для гарантированного доступа может понадобиться VPN и корпоративная карта для оплаты.
Финансовая сторона: для больших объёмов цена заметно ниже, чем у многих LLM-API. $4–6 за 1000 страниц Marker и $2 за 1000 страниц OCR — это уже похоже на промышленный прайс для бэкенда, а не на игрушку для экспериментов.
Если вы строите пайплайн: «загрузили PDF → распарсили → отправили в GPT-4o для анализа», Marker хорошо ложится в первый шаг.
Место на рынке
По результатам olmOCR-Bench Marker в balanced-режиме показывает 82,7 ± 0,9 балла. Это выше, чем у:
- GPT-4o (Anchored) — 69,9 ± 1,1;
- Deepseek OCR — 74,2 ± 1,0;
- Mistral OCR API — 72,0 ± 1,1;
- Gemini Flash 2 (Anchored) — 63,8 ± 1,2;
- Qwen 2.5 VL — 65,5 ± 1,2;
- olmOCR v0.3.0 — 78,5 ± 1,1.
По скорости Marker тоже агрессивный: 0,18 секунды на страницу и до 120 страниц в секунду при батче. Классические решения вроде Tesseract заметно медленнее и хуже держат структуру, но в бенчмарке их нет, поэтому точных цифр сравнения авторы не приводят.
По цене Marker и OCR выглядят дешевле, чем прогон тех же PDF через GPT-4o ради распознавания. Но прямых данных по стоимости у GPT-4o в этом сценарии авторы не дают, поэтому считать приходится самим.
Кому особенно интересно:
- разработчикам, которые строят сервисы поверх документов и не хотят самим собирать связку OCR + layout + парсинг;
- продуктовым командам, которые автоматизируют работу с договорами и счетами;
- дата-сайентистам, которым нужен большой и аккуратный корпус текстов из PDF.
Кому можно пройти мимо:
- если у вас уже есть отлаженный пайплайн на своем OCR и он устраивает по качеству и цене;
- если объёмы небольшие и вы спокойно решаете задачи через пару запросов к GPT-4o без отдельного парсера.