- Дата публикации
Leanstral 1.5: бесплатный ИИ-доказатель, который решает Putnam и находит баги в продакшене
Что нового
Leanstral 1.5 — это бесплатная модель для автоматического доказательства теорем и верификации кода в Lean 4 с лицензией Apache 2.0. Архитектура: 119 млрд общих параметров, из них активно задействовано только 6 млрд, что снижает стоимость запуска.
Ключевые цифры по математическим задачам:
- miniF2F — 100% на валидации и тесте, полный «сатурационный» результат.
- PutnamBench — 587 решённых задач из 672.
- FATE-H — 87% решённых задач.
- FATE-X — 34% решённых задач.
Сравнение по стоимости на PutnamBench:
- Leanstral 1.5: около $4 за одну задачу.
- Seed-Prover 1.5 (high): оценка $300+ за задачу, бюджет 10 H20-days на задачу.
- Aleph Prover: $54–68 за задачу.
Поведение при увеличении токен-бюджета на PutnamBench (Pass@8):
- 50k токенов: 44 задачи.
- 200k токенов: 244 задачи.
- 1M токенов: 493 задачи.
- 4M токенов: 587 задач.
Результаты на FLTEval (пулл-реквесты к репозиторию доказательства Великой теоремы Ферма):
- Pass@1: рост с 21,9 до 28,9.
- Pass@8: рост с 31,9 до 43,2.
- Leanstral 1.5 обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше в стоимости.
- Модель опережает открытые аналоги, которые в 3–10 раз больше по размеру.
Практические результаты по коду:
- Проверка 57 репозиториев Rust-кода (через перевод в Lean):
- 47 нарушенных свойств.
- 11 реальных багов.
- 5 из них ранее не были задокументированы на GitHub.
- Полное формальное доказательство временной сложности AVL-деревьев с выводом оценки O(log n) для вставки и удаления.
Leanstral 1.5 полностью открыта: веса доступны на Hugging Face, также есть бесплатный API-эндпоинт leanstral-1-5 с рекомендуемым запуском через Mistral Vibe.
Как это работает
Leanstral 1.5 обучали в три этапа:
- Mid-training — промежуточное дообучение на математике и доказательствах, чтобы модель лучше «чувствовала» структуру теорем и формальных систем.
- Supervised fine-tuning — обучение по размеченным корректным доказательствам и примерам работы с Lean 4.
- Reinforcement learning с CISPO — дообучение с подкреплением в двух специализированных средах.
Среда 1: многотуровое доказательство теорем
- Модели дают формулировку теоремы.
- Задача — либо доказать её, либо построить опровержение.
- Leanstral отправляет доказательство в компилятор Lean.
- Получает точный фидбек: где ошибка, какие цели и типы не совпали.
- На основе фидбека модель корректирует стратегию и пробует снова.
- Цикл продолжается, пока доказательство не скомпилируется или не исчерпан бюджет попыток.
Это учит модель не просто «генерировать текст», а работать с формальной системой, где каждая ошибка сразу видна.
Среда 2: агент-разработчик в файловой системе
Во второй среде Leanstral ведёт себя как разработчик в реальном репозитории:
- редактирует файлы в «сырой» файловой системе;
- запускает bash-команды;
- общается с Lean Language Server (LSP) и в реальном времени видит цели, ошибки и типы;
- дописывает незавершённые доказательства;
- строит вспомогательные леммы;
- переживает несколько раундов «сжатия контекста» (compaction), когда длинные сессии нужно ужать, не потеряв смысл.
Финальная проверка проходит через форк SafeVerify: он получает список целевых теорем и проверяет корректность найденных доказательств.
Почему модель тянет длинные задачи
Leanstral 1.5 показывает стабильный рост качества при увеличении токен-бюджета до 4 млн токенов на задачу. Модель не «выгорает» на длинных сессиях, а продолжает:
- переписывать файлы;
- рефакторить доказательства;
- перестраивать цепочки рассуждений.
Пример с AVL-деревьями:
- более 2,7 млн токенов;
- 22 раунда компакции контекста;
- полное формальное доказательство временной сложности операций.
Это важный сигнал: модель может вести себя как упорный ассистент-доказатель, а не как генератор одного короткого ответа.
Что это значит для вас
Для кого Leanstral 1.5 действительно полезна
- Исследователи и практики формальной верификации
- Автоматизация доказательств в Lean 4.
- Ускорение работы с формальной математикой: от школьного уровня до задач Putnam и аспирантских курсов абстрактной алгебры.
- Проверка сложных свойств кода, особенно алгоритмов с нетривиальной асимптотикой.
- Разработчики на Rust и инженеры по надёжности
- Через связку Aeneas (Rust → Lean) и Leanstral можно строить формальные спецификации «по коду».
- Модель сама пытается вывести предполагаемое намерение автора и генерирует свойства для проверки.
- Если доказать свойство не удаётся, Leanstral пытается доказать его отрицание и тем самым находит возможные баги.
Пример с библиотекой datrs/varinteger:
- Функция
signдля zigzag-декодирования. - На входе
Std.U64.MAXвыражение(value + 1)переполняется. - В debug-сборке это приводит к крэшу, в release — к тихой порче данных.
- Leanstral отловила это автоматически, без ручного тест-кейса.
- Команды, которые строят CI/CD с формальными проверками
- Leanstral подходит как «агент-доказатель» в пайплайне: получил патч, попытался вывести свойства, доказал или показал контрпример.
- FLTEval как бенчмарк на реальных pull request’ах показывает, что такой подход работает не только на игрушечных задачах.
Где Leanstral 1.5 сейчас не ваш инструмент
- Если вам нужен универсальный чат-ассистент вроде GPT-4o или Claude 3.5 для текста, кода и картинок — Leanstral не про это.
- Модель специализируется на Lean 4 и формальных доказательствах. Как обычный LLM она будет слабее крупных универсальных моделей.
- Для быстрой проверки «на глаз» бизнес-логики без формальной спецификации проще использовать статический анализ и тесты.
Ограничения доступа
- Leanstral 1.5 доступна через Hugging Face и бесплатный API.
- Для работы через Mistral Vibe может потребоваться VPN, если у вас ограничен доступ к их сервисам.
- Сам Lean и инструменты вокруг него в России формально доступны, но инфраструктура вокруг API может упираться в сетевые ограничения.
Если вы готовы настроить окружение с Lean 4 и не боитесь командной строки, Leanstral 1.5 может стать рабочим инструментом для повседневной верификации.
Место на рынке
Leanstral 1.5 играет в нише формального доказательства и верификации кода, а не в общем ИИ.
По математическим бенчмаркам:
- miniF2F — полная сатурация (100% на валидации и тесте).
- PutnamBench — 587/672 задач, при этом Leanstral обгоняет Seed-Prover 1.5 (high) на 7 задач при значительно меньшей стоимости.
- FATE-H / FATE-X — новый state-of-the-art: 87 и 34 задачи соответственно.
По стоимости на PutnamBench:
- Leanstral 1.5 — около $4 за задачу.
- Seed-Prover 1.5 (high) — оценка $300+ за задачу (10 H20-days на задачу).
- Aleph Prover — $54–68 за задачу.
Часть конкурентов работает в других условиях:
- некоторые получают текстовые подсказки на естественном языке, чего у Leanstral в этих тестах нет;
- некоторые сильно дороже по запуску.
На FLTEval Leanstral:
- поднимает Pass@1 с 21,9 до 28,9;
- поднимает Pass@8 с 31,9 до 43,2;
- обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше по стоимости;
- показывает лучшую эффективность, чем открытые модели, которые в 3–10 раз больше по количеству параметров.
Если вам важно соотношение «качество доказательств / цена запуска» в Lean 4, Leanstral 1.5 сейчас один из самых агрессивных вариантов.
Установка
Leanstral 1.5 распространяется под лицензией Apache-2.0. Веса лежат на Hugging Face, а также есть бесплатный API-эндпоинт leanstral-1-5. Рекомендуемый способ работы — через Mistral Vibe.
1. Настройка Mistral Vibe
uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup
2. Установка Leanstral 1.5
/leanstall
exit
3. Запуск агента
vibe --agent lean
4. Установка Lean LSP MCP (опционально, но очень полезно)
Добавьте в ~/.vibe/config.toml:
[[mcp_servers]]
name = "lean-lsp"
transport = "stdio"
command = "uvx"
args = [ "lean-lsp-mcp" ]
tool_timeout_sec = 600
Если у вас уже есть строка mcp_servers = [], её нужно удалить, иначе конфигурация с сервером Lean LSP не подхватится.
5. Начало работы
После настройки можно сразу просить Leanstral:
- доказать конкретную теорему в Lean 4;
- помочь с отладкой уже написанного доказательства;
- дописать пропущенные части в репозитории с формальными доказательствами;
- проверить свойства кода, который вы перевели в Lean через Aeneas.
Дальше всё зависит от вашей дисциплины: модель умеет работать долго и упорно, но качество результата по-прежнему зависит от того, насколько аккуратно вы формулируете теоремы и свойства, которые хотите проверить.