Mistral представила Leanstral: агент для формальных доказательств в Lean 4 с ценой ниже Claude — VogueTech

Что появилось / что изменилось

Mistral выпустила Leanstral — открытый код-агент для доказательства теорем и формальной верификации кода в Lean 4. Это не просто LLM, а специализированный помощник для proof engineering.

Ключевые факты:

Архитектура: примерно 120B параметров с 6B активными на шаг (сильно разреженная схема).
Среда: заточен под Lean 4 и работу с реальными репозиториями, а не отдельными олимпиадными задачами.
Лицензия: Apache 2.0, веса доступны публично.
Доступ: через Mistral Vibe в режиме агента и через бесплатный API-эндпоинт.
Интеграции: поддержка MCP, в том числе популярного lean-lsp-mcp.

Отдельно Mistral готовит техотчёт по обучению и новый бенчмарк FLTEval. Он оценивает не одну задачу, а целиком pull request’ы в проект FLT: нужно завершить все формальные доказательства и корректно ввести новые математические определения.

По результатам FLTEval:

Leanstral pass@2 набирает 26,3 балла.
Leanstral pass@16 — 31,9 балла.
Для сравнения: Claude Haiku — 23,0; Claude Sonnet — 23,7; Claude Opus 4.6 — 39,6.

По стоимости прогона:

Haiku: $184 при 23,0 балла.
Sonnet: $549 при 23,7 балла.
Opus 4.6: $1 650 при 39,6 балла.
Leanstral pass@1: $18 при 21,9 балла.
Leanstral pass@2: $36 при 26,3 балла.
Leanstral pass@4: $72 при 29,3 балла.
Leanstral pass@8: $145 при 31,0 балла.
Leanstral pass@16: $290 при 31,9 балла.

Как это работает

Leanstral — это специализированный агент поверх Lean 4, который пишет и дорабатывает доказательства с опорой на сам Lean как строгий проверяющий.

Под капотом:

Разреженная архитектура: из 120B параметров активно только около 6B на один проход. Это снижает стоимость инференса при сохранении качества.
Параллельный инференс: агент делает несколько попыток доказательства (pass@k), а Lean выступает в роли идеального верификатора. Неверные ветки сразу отбрасываются.
Обучение на «живых» репозиториях: фокус не на одиночных задачах, а на реальных проектах уровня FLT, где нужно поддерживать стиль кода, структуру библиотеки и существующие определения.
MCP через Vibe: Leanstral общается с инструментами по протоколу MCP. Отдельно его обучили на сценариях с lean-lsp-mcp, который уже используют многие разработчики на Lean.

Архитектура и режим работы заточены именно под proof engineering: генерация тактик, поиск нужных лемм, аккуратное введение новых определений и проверка всего этим же стеком.

Что это значит для вас

Если вы работаете с Lean 4 — математикой или формальной верификацией кода — Leanstral закрывает сразу несколько задач:

Автоматизация рутинных доказательств. Агент может дописывать пропущенные леммы и тактики в уже существующем файле.
Миграция на новые версии Lean. В кейсе с Lean 4.29.0-rc6 Leanstral сам воспроизвёл баг, нашёл причину в дефиниционной равенстве и предложил заменить def на abbrev, чтобы rw снова видел нужный тип.
Введение новых понятий в больших библиотеках. FLTEval проверяет именно это: агент должен не только доказать теоремы, но и корректно встраивать новые определения в проект.
Эксперименты с формальными спецификациями кода. Lean умеет описывать свойства фрагментов на Rust, и Leanstral может помогать формализовать и проверять такие спецификации.

Когда Leanstral уместен:

Исследовательская математика, где вы уже используете Lean 4.
Команды, которые строят формальные спецификации для критичного кода.
Обучение формальной верификации: можно разбирать сгенерированные доказательства как примеры.

Когда лучше поискать другое решение:

Если вы не используете Lean и не готовы в него заходить. Для обычной генерации кода на Python или TypeScript удобнее классические код-ассистенты.
Если нужен максимальный абсолютный quality-score любой ценой — Claude Opus 4.6 по цифрам всё ещё впереди, но сильно дороже.

Доступность: Mistral традиционно работает через собственный облачный API и Vibe. Для пользователей из России может понадобиться VPN и зарубежный платёжный метод.

Место на рынке

По FLTEval Leanstral выглядит как агрессивно оптимизированный инструмент по соотношению цена/качество в нише формальных доказательств.

Сравнение с крупными open-source LLM:

Leanstral-120B-A6B опережает открытые модели сильно большего размера.
GLM5-744B-A40B и Kimi-K2.5-1T-A32B останавливаются примерно на 16,6 и 20,1 балла соответственно.
Qwen3.5-397B-A17B достигает 25,4 балла только при четырёх проходах (pass@4).
Leanstral набирает 26,3 балла уже при pass@2 и растёт линейно до 29,3 при том же бюджете, что у Qwen3.5 pass@4.

Сравнение с линейкой Claude:

Leanstral pass@2 (26,3 балла, $36) обгоняет Claude Sonnet на 2,6 пункта при заметно меньшей стоимости (Sonnet — $549).
При pass@16 Leanstral выходит на 31,9 балла и опережает Sonnet уже на 8 пунктов за $290.
Claude Opus 4.6 остаётся лидером по качеству с 39,6 балла, но его запуск стоит $1 650 — это в 92 раза дороже, чем Leanstral pass@1, и в несколько раз дороже, чем Leanstral pass@16.

Если коротко: Leanstral закрывает нишу «специализированный и относительно недорогой агент для Lean 4». Для тех, кто уже живёт в экосистеме формальных доказательств, это ещё один серьёзный инструмент рядом с Qwen3.5 и Claude, но с более понятной экономикой именно под Lean.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также