- Дата публикации
Mistral представила Leanstral: агент для формальных доказательств в Lean 4 с ценой ниже Claude
Что появилось / что изменилось
Mistral выпустила Leanstral — открытый код-агент для доказательства теорем и формальной верификации кода в Lean 4. Это не просто LLM, а специализированный помощник для proof engineering.
Ключевые факты:
- Архитектура: примерно 120B параметров с 6B активными на шаг (сильно разреженная схема).
- Среда: заточен под Lean 4 и работу с реальными репозиториями, а не отдельными олимпиадными задачами.
- Лицензия: Apache 2.0, веса доступны публично.
- Доступ: через Mistral Vibe в режиме агента и через бесплатный API-эндпоинт.
- Интеграции: поддержка MCP, в том числе популярного
lean-lsp-mcp.
Отдельно Mistral готовит техотчёт по обучению и новый бенчмарк FLTEval. Он оценивает не одну задачу, а целиком pull request’ы в проект FLT: нужно завершить все формальные доказательства и корректно ввести новые математические определения.
По результатам FLTEval:
- Leanstral pass@2 набирает 26,3 балла.
- Leanstral pass@16 — 31,9 балла.
- Для сравнения: Claude Haiku — 23,0; Claude Sonnet — 23,7; Claude Opus 4.6 — 39,6.
По стоимости прогона:
- Haiku: $184 при 23,0 балла.
- Sonnet: $549 при 23,7 балла.
- Opus 4.6: $1 650 при 39,6 балла.
- Leanstral pass@1: $18 при 21,9 балла.
- Leanstral pass@2: $36 при 26,3 балла.
- Leanstral pass@4: $72 при 29,3 балла.
- Leanstral pass@8: $145 при 31,0 балла.
- Leanstral pass@16: $290 при 31,9 балла.
Как это работает
Leanstral — это специализированный агент поверх Lean 4, который пишет и дорабатывает доказательства с опорой на сам Lean как строгий проверяющий.
Под капотом:
- Разреженная архитектура: из 120B параметров активно только около 6B на один проход. Это снижает стоимость инференса при сохранении качества.
- Параллельный инференс: агент делает несколько попыток доказательства (pass@k), а Lean выступает в роли идеального верификатора. Неверные ветки сразу отбрасываются.
- Обучение на «живых» репозиториях: фокус не на одиночных задачах, а на реальных проектах уровня FLT, где нужно поддерживать стиль кода, структуру библиотеки и существующие определения.
- MCP через Vibe: Leanstral общается с инструментами по протоколу MCP. Отдельно его обучили на сценариях с
lean-lsp-mcp, который уже используют многие разработчики на Lean.
Архитектура и режим работы заточены именно под proof engineering: генерация тактик, поиск нужных лемм, аккуратное введение новых определений и проверка всего этим же стеком.
Что это значит для вас
Если вы работаете с Lean 4 — математикой или формальной верификацией кода — Leanstral закрывает сразу несколько задач:
- Автоматизация рутинных доказательств. Агент может дописывать пропущенные леммы и тактики в уже существующем файле.
- Миграция на новые версии Lean. В кейсе с Lean 4.29.0-rc6 Leanstral сам воспроизвёл баг, нашёл причину в дефиниционной равенстве и предложил заменить
defнаabbrev, чтобыrwснова видел нужный тип. - Введение новых понятий в больших библиотеках. FLTEval проверяет именно это: агент должен не только доказать теоремы, но и корректно встраивать новые определения в проект.
- Эксперименты с формальными спецификациями кода. Lean умеет описывать свойства фрагментов на Rust, и Leanstral может помогать формализовать и проверять такие спецификации.
Когда Leanstral уместен:
- Исследовательская математика, где вы уже используете Lean 4.
- Команды, которые строят формальные спецификации для критичного кода.
- Обучение формальной верификации: можно разбирать сгенерированные доказательства как примеры.
Когда лучше поискать другое решение:
- Если вы не используете Lean и не готовы в него заходить. Для обычной генерации кода на Python или TypeScript удобнее классические код-ассистенты.
- Если нужен максимальный абсолютный quality-score любой ценой — Claude Opus 4.6 по цифрам всё ещё впереди, но сильно дороже.
Доступность: Mistral традиционно работает через собственный облачный API и Vibe. Для пользователей из России может понадобиться VPN и зарубежный платёжный метод.
Место на рынке
По FLTEval Leanstral выглядит как агрессивно оптимизированный инструмент по соотношению цена/качество в нише формальных доказательств.
Сравнение с крупными open-source LLM:
- Leanstral-120B-A6B опережает открытые модели сильно большего размера.
- GLM5-744B-A40B и Kimi-K2.5-1T-A32B останавливаются примерно на 16,6 и 20,1 балла соответственно.
- Qwen3.5-397B-A17B достигает 25,4 балла только при четырёх проходах (pass@4).
- Leanstral набирает 26,3 балла уже при pass@2 и растёт линейно до 29,3 при том же бюджете, что у Qwen3.5 pass@4.
Сравнение с линейкой Claude:
- Leanstral pass@2 (26,3 балла, $36) обгоняет Claude Sonnet на 2,6 пункта при заметно меньшей стоимости (Sonnet — $549).
- При pass@16 Leanstral выходит на 31,9 балла и опережает Sonnet уже на 8 пунктов за $290.
- Claude Opus 4.6 остаётся лидером по качеству с 39,6 балла, но его запуск стоит $1 650 — это в 92 раза дороже, чем Leanstral pass@1, и в несколько раз дороже, чем Leanstral pass@16.
Если коротко: Leanstral закрывает нишу «специализированный и относительно недорогой агент для Lean 4». Для тех, кто уже живёт в экосистеме формальных доказательств, это ещё один серьёзный инструмент рядом с Qwen3.5 и Claude, но с более понятной экономикой именно под Lean.