Leanstral 1.5: бесплатный ИИ-доказатель, который решает Putnam и находит баги в продакшене — VogueTech

Что нового

Leanstral 1.5 — это бесплатная модель для автоматического доказательства теорем и верификации кода в Lean 4 с лицензией Apache 2.0. Архитектура: 119 млрд общих параметров, из них активно задействовано только 6 млрд, что снижает стоимость запуска.

Ключевые цифры по математическим задачам:

miniF2F — 100% на валидации и тесте, полный «сатурационный» результат.
PutnamBench — 587 решённых задач из 672.
FATE-H — 87% решённых задач.
FATE-X — 34% решённых задач.

Сравнение по стоимости на PutnamBench:

Leanstral 1.5: около $4 за одну задачу.
Seed-Prover 1.5 (high): оценка $300+ за задачу, бюджет 10 H20-days на задачу.
Aleph Prover: $54–68 за задачу.

Поведение при увеличении токен-бюджета на PutnamBench (Pass@8):

50k токенов: 44 задачи.
200k токенов: 244 задачи.
1M токенов: 493 задачи.
4M токенов: 587 задач.

Результаты на FLTEval (пулл-реквесты к репозиторию доказательства Великой теоремы Ферма):

Pass@1: рост с 21,9 до 28,9.
Pass@8: рост с 31,9 до 43,2.
Leanstral 1.5 обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше в стоимости.
Модель опережает открытые аналоги, которые в 3–10 раз больше по размеру.

Практические результаты по коду:

Проверка 57 репозиториев Rust-кода (через перевод в Lean):
- 47 нарушенных свойств.
- 11 реальных багов.
- 5 из них ранее не были задокументированы на GitHub.
Полное формальное доказательство временной сложности AVL-деревьев с выводом оценки O(log n) для вставки и удаления.

Leanstral 1.5 полностью открыта: веса доступны на Hugging Face, также есть бесплатный API-эндпоинт leanstral-1-5 с рекомендуемым запуском через Mistral Vibe.

Как это работает

Leanstral 1.5 обучали в три этапа:

Mid-training — промежуточное дообучение на математике и доказательствах, чтобы модель лучше «чувствовала» структуру теорем и формальных систем.
Supervised fine-tuning — обучение по размеченным корректным доказательствам и примерам работы с Lean 4.
Reinforcement learning с CISPO — дообучение с подкреплением в двух специализированных средах.

Среда 1: многотуровое доказательство теорем

Модели дают формулировку теоремы.
Задача — либо доказать её, либо построить опровержение.
Leanstral отправляет доказательство в компилятор Lean.
Получает точный фидбек: где ошибка, какие цели и типы не совпали.
На основе фидбека модель корректирует стратегию и пробует снова.
Цикл продолжается, пока доказательство не скомпилируется или не исчерпан бюджет попыток.

Это учит модель не просто «генерировать текст», а работать с формальной системой, где каждая ошибка сразу видна.

Среда 2: агент-разработчик в файловой системе

Во второй среде Leanstral ведёт себя как разработчик в реальном репозитории:

редактирует файлы в «сырой» файловой системе;
запускает bash-команды;
общается с Lean Language Server (LSP) и в реальном времени видит цели, ошибки и типы;
дописывает незавершённые доказательства;
строит вспомогательные леммы;
переживает несколько раундов «сжатия контекста» (compaction), когда длинные сессии нужно ужать, не потеряв смысл.

Финальная проверка проходит через форк SafeVerify: он получает список целевых теорем и проверяет корректность найденных доказательств.

Почему модель тянет длинные задачи

Leanstral 1.5 показывает стабильный рост качества при увеличении токен-бюджета до 4 млн токенов на задачу. Модель не «выгорает» на длинных сессиях, а продолжает:

переписывать файлы;
рефакторить доказательства;
перестраивать цепочки рассуждений.

Пример с AVL-деревьями:

более 2,7 млн токенов;
22 раунда компакции контекста;
полное формальное доказательство временной сложности операций.

Это важный сигнал: модель может вести себя как упорный ассистент-доказатель, а не как генератор одного короткого ответа.

Что это значит для вас

Для кого Leanstral 1.5 действительно полезна

Исследователи и практики формальной верификации

Автоматизация доказательств в Lean 4.
Ускорение работы с формальной математикой: от школьного уровня до задач Putnam и аспирантских курсов абстрактной алгебры.
Проверка сложных свойств кода, особенно алгоритмов с нетривиальной асимптотикой.

Разработчики на Rust и инженеры по надёжности

Через связку Aeneas (Rust → Lean) и Leanstral можно строить формальные спецификации «по коду».
Модель сама пытается вывести предполагаемое намерение автора и генерирует свойства для проверки.
Если доказать свойство не удаётся, Leanstral пытается доказать его отрицание и тем самым находит возможные баги.

Пример с библиотекой datrs/varinteger:

Функция sign для zigzag-декодирования.
На входе Std.U64.MAX выражение (value + 1) переполняется.
В debug-сборке это приводит к крэшу, в release — к тихой порче данных.
Leanstral отловила это автоматически, без ручного тест-кейса.

Команды, которые строят CI/CD с формальными проверками

Leanstral подходит как «агент-доказатель» в пайплайне: получил патч, попытался вывести свойства, доказал или показал контрпример.
FLTEval как бенчмарк на реальных pull request’ах показывает, что такой подход работает не только на игрушечных задачах.

Где Leanstral 1.5 сейчас не ваш инструмент

Если вам нужен универсальный чат-ассистент вроде GPT-4o или Claude 3.5 для текста, кода и картинок — Leanstral не про это.
Модель специализируется на Lean 4 и формальных доказательствах. Как обычный LLM она будет слабее крупных универсальных моделей.
Для быстрой проверки «на глаз» бизнес-логики без формальной спецификации проще использовать статический анализ и тесты.

Ограничения доступа

Leanstral 1.5 доступна через Hugging Face и бесплатный API.
Для работы через Mistral Vibe может потребоваться VPN, если у вас ограничен доступ к их сервисам.
Сам Lean и инструменты вокруг него в России формально доступны, но инфраструктура вокруг API может упираться в сетевые ограничения.

Если вы готовы настроить окружение с Lean 4 и не боитесь командной строки, Leanstral 1.5 может стать рабочим инструментом для повседневной верификации.

Место на рынке

Leanstral 1.5 играет в нише формального доказательства и верификации кода, а не в общем ИИ.

По математическим бенчмаркам:

miniF2F — полная сатурация (100% на валидации и тесте).
PutnamBench — 587/672 задач, при этом Leanstral обгоняет Seed-Prover 1.5 (high) на 7 задач при значительно меньшей стоимости.
FATE-H / FATE-X — новый state-of-the-art: 87 и 34 задачи соответственно.

По стоимости на PutnamBench:

Leanstral 1.5 — около $4 за задачу.
Seed-Prover 1.5 (high) — оценка $300+ за задачу (10 H20-days на задачу).
Aleph Prover — $54–68 за задачу.

Часть конкурентов работает в других условиях:

некоторые получают текстовые подсказки на естественном языке, чего у Leanstral в этих тестах нет;
некоторые сильно дороже по запуску.

На FLTEval Leanstral:

поднимает Pass@1 с 21,9 до 28,9;
поднимает Pass@8 с 31,9 до 43,2;
обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше по стоимости;
показывает лучшую эффективность, чем открытые модели, которые в 3–10 раз больше по количеству параметров.

Если вам важно соотношение «качество доказательств / цена запуска» в Lean 4, Leanstral 1.5 сейчас один из самых агрессивных вариантов.

Установка

Leanstral 1.5 распространяется под лицензией Apache-2.0. Веса лежат на Hugging Face, а также есть бесплатный API-эндпоинт leanstral-1-5. Рекомендуемый способ работы — через Mistral Vibe.

1. Настройка Mistral Vibe

uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup

2. Установка Leanstral 1.5

/leanstall
exit

3. Запуск агента

vibe --agent lean

4. Установка Lean LSP MCP (опционально, но очень полезно)

Добавьте в ~/.vibe/config.toml:

[[mcp_servers]]
name = "lean-lsp"
transport = "stdio"
command = "uvx"
args = [ "lean-lsp-mcp" ]
tool_timeout_sec = 600

Если у вас уже есть строка mcp_servers = [], её нужно удалить, иначе конфигурация с сервером Lean LSP не подхватится.

5. Начало работы

После настройки можно сразу просить Leanstral:

доказать конкретную теорему в Lean 4;
помочь с отладкой уже написанного доказательства;
дописать пропущенные части в репозитории с формальными доказательствами;
проверить свойства кода, который вы перевели в Lean через Aeneas.

Дальше всё зависит от вашей дисциплины: модель умеет работать долго и упорно, но качество результата по-прежнему зависит от того, насколько аккуратно вы формулируете теоремы и свойства, которые хотите проверить.