Дата публикации
ai_products

Leanstral 1.5: бесплатный ИИ-доказатель, который решает Putnam и находит баги в продакшене

Что нового

Leanstral 1.5 — это бесплатная модель для автоматического доказательства теорем и верификации кода в Lean 4 с лицензией Apache 2.0. Архитектура: 119 млрд общих параметров, из них активно задействовано только 6 млрд, что снижает стоимость запуска.

Ключевые цифры по математическим задачам:

  • miniF2F — 100% на валидации и тесте, полный «сатурационный» результат.
  • PutnamBench — 587 решённых задач из 672.
  • FATE-H — 87% решённых задач.
  • FATE-X — 34% решённых задач.

Сравнение по стоимости на PutnamBench:

  • Leanstral 1.5: около $4 за одну задачу.
  • Seed-Prover 1.5 (high): оценка $300+ за задачу, бюджет 10 H20-days на задачу.
  • Aleph Prover: $54–68 за задачу.

Поведение при увеличении токен-бюджета на PutnamBench (Pass@8):

  • 50k токенов: 44 задачи.
  • 200k токенов: 244 задачи.
  • 1M токенов: 493 задачи.
  • 4M токенов: 587 задач.

Результаты на FLTEval (пулл-реквесты к репозиторию доказательства Великой теоремы Ферма):

  • Pass@1: рост с 21,9 до 28,9.
  • Pass@8: рост с 31,9 до 43,2.
  • Leanstral 1.5 обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше в стоимости.
  • Модель опережает открытые аналоги, которые в 3–10 раз больше по размеру.

Практические результаты по коду:

  • Проверка 57 репозиториев Rust-кода (через перевод в Lean):
    • 47 нарушенных свойств.
    • 11 реальных багов.
    • 5 из них ранее не были задокументированы на GitHub.
  • Полное формальное доказательство временной сложности AVL-деревьев с выводом оценки O(log n) для вставки и удаления.

Leanstral 1.5 полностью открыта: веса доступны на Hugging Face, также есть бесплатный API-эндпоинт leanstral-1-5 с рекомендуемым запуском через Mistral Vibe.

Как это работает

Leanstral 1.5 обучали в три этапа:

  1. Mid-training — промежуточное дообучение на математике и доказательствах, чтобы модель лучше «чувствовала» структуру теорем и формальных систем.
  2. Supervised fine-tuning — обучение по размеченным корректным доказательствам и примерам работы с Lean 4.
  3. Reinforcement learning с CISPO — дообучение с подкреплением в двух специализированных средах.

Среда 1: многотуровое доказательство теорем

  • Модели дают формулировку теоремы.
  • Задача — либо доказать её, либо построить опровержение.
  • Leanstral отправляет доказательство в компилятор Lean.
  • Получает точный фидбек: где ошибка, какие цели и типы не совпали.
  • На основе фидбека модель корректирует стратегию и пробует снова.
  • Цикл продолжается, пока доказательство не скомпилируется или не исчерпан бюджет попыток.

Это учит модель не просто «генерировать текст», а работать с формальной системой, где каждая ошибка сразу видна.

Среда 2: агент-разработчик в файловой системе

Во второй среде Leanstral ведёт себя как разработчик в реальном репозитории:

  • редактирует файлы в «сырой» файловой системе;
  • запускает bash-команды;
  • общается с Lean Language Server (LSP) и в реальном времени видит цели, ошибки и типы;
  • дописывает незавершённые доказательства;
  • строит вспомогательные леммы;
  • переживает несколько раундов «сжатия контекста» (compaction), когда длинные сессии нужно ужать, не потеряв смысл.

Финальная проверка проходит через форк SafeVerify: он получает список целевых теорем и проверяет корректность найденных доказательств.

Почему модель тянет длинные задачи

Leanstral 1.5 показывает стабильный рост качества при увеличении токен-бюджета до 4 млн токенов на задачу. Модель не «выгорает» на длинных сессиях, а продолжает:

  • переписывать файлы;
  • рефакторить доказательства;
  • перестраивать цепочки рассуждений.

Пример с AVL-деревьями:

  • более 2,7 млн токенов;
  • 22 раунда компакции контекста;
  • полное формальное доказательство временной сложности операций.

Это важный сигнал: модель может вести себя как упорный ассистент-доказатель, а не как генератор одного короткого ответа.

Что это значит для вас

Для кого Leanstral 1.5 действительно полезна

  1. Исследователи и практики формальной верификации
  • Автоматизация доказательств в Lean 4.
  • Ускорение работы с формальной математикой: от школьного уровня до задач Putnam и аспирантских курсов абстрактной алгебры.
  • Проверка сложных свойств кода, особенно алгоритмов с нетривиальной асимптотикой.
  1. Разработчики на Rust и инженеры по надёжности
  • Через связку Aeneas (Rust → Lean) и Leanstral можно строить формальные спецификации «по коду».
  • Модель сама пытается вывести предполагаемое намерение автора и генерирует свойства для проверки.
  • Если доказать свойство не удаётся, Leanstral пытается доказать его отрицание и тем самым находит возможные баги.

Пример с библиотекой datrs/varinteger:

  • Функция sign для zigzag-декодирования.
  • На входе Std.U64.MAX выражение (value + 1) переполняется.
  • В debug-сборке это приводит к крэшу, в release — к тихой порче данных.
  • Leanstral отловила это автоматически, без ручного тест-кейса.
  1. Команды, которые строят CI/CD с формальными проверками
  • Leanstral подходит как «агент-доказатель» в пайплайне: получил патч, попытался вывести свойства, доказал или показал контрпример.
  • FLTEval как бенчмарк на реальных pull request’ах показывает, что такой подход работает не только на игрушечных задачах.

Где Leanstral 1.5 сейчас не ваш инструмент

  • Если вам нужен универсальный чат-ассистент вроде GPT-4o или Claude 3.5 для текста, кода и картинок — Leanstral не про это.
  • Модель специализируется на Lean 4 и формальных доказательствах. Как обычный LLM она будет слабее крупных универсальных моделей.
  • Для быстрой проверки «на глаз» бизнес-логики без формальной спецификации проще использовать статический анализ и тесты.

Ограничения доступа

  • Leanstral 1.5 доступна через Hugging Face и бесплатный API.
  • Для работы через Mistral Vibe может потребоваться VPN, если у вас ограничен доступ к их сервисам.
  • Сам Lean и инструменты вокруг него в России формально доступны, но инфраструктура вокруг API может упираться в сетевые ограничения.

Если вы готовы настроить окружение с Lean 4 и не боитесь командной строки, Leanstral 1.5 может стать рабочим инструментом для повседневной верификации.

Место на рынке

Leanstral 1.5 играет в нише формального доказательства и верификации кода, а не в общем ИИ.

По математическим бенчмаркам:

  • miniF2F — полная сатурация (100% на валидации и тесте).
  • PutnamBench — 587/672 задач, при этом Leanstral обгоняет Seed-Prover 1.5 (high) на 7 задач при значительно меньшей стоимости.
  • FATE-H / FATE-X — новый state-of-the-art: 87 и 34 задачи соответственно.

По стоимости на PutnamBench:

  • Leanstral 1.5 — около $4 за задачу.
  • Seed-Prover 1.5 (high) — оценка $300+ за задачу (10 H20-days на задачу).
  • Aleph Prover — $54–68 за задачу.

Часть конкурентов работает в других условиях:

  • некоторые получают текстовые подсказки на естественном языке, чего у Leanstral в этих тестах нет;
  • некоторые сильно дороже по запуску.

На FLTEval Leanstral:

  • поднимает Pass@1 с 21,9 до 28,9;
  • поднимает Pass@8 с 31,9 до 43,2;
  • обгоняет Opus 4.6 (39,6 Pass@8) примерно при семикратном выигрыше по стоимости;
  • показывает лучшую эффективность, чем открытые модели, которые в 3–10 раз больше по количеству параметров.

Если вам важно соотношение «качество доказательств / цена запуска» в Lean 4, Leanstral 1.5 сейчас один из самых агрессивных вариантов.

Установка

Leanstral 1.5 распространяется под лицензией Apache-2.0. Веса лежат на Hugging Face, а также есть бесплатный API-эндпоинт leanstral-1-5. Рекомендуемый способ работы — через Mistral Vibe.

1. Настройка Mistral Vibe

uv tool install mistral-vibe
uv tool update mistral-vibe
vibe --setup

2. Установка Leanstral 1.5

/leanstall
exit

3. Запуск агента

vibe --agent lean

4. Установка Lean LSP MCP (опционально, но очень полезно)

Добавьте в ~/.vibe/config.toml:

[[mcp_servers]]
name = "lean-lsp"
transport = "stdio"
command = "uvx"
args = [ "lean-lsp-mcp" ]
tool_timeout_sec = 600

Если у вас уже есть строка mcp_servers = [], её нужно удалить, иначе конфигурация с сервером Lean LSP не подхватится.

5. Начало работы

После настройки можно сразу просить Leanstral:

  • доказать конкретную теорему в Lean 4;
  • помочь с отладкой уже написанного доказательства;
  • дописать пропущенные части в репозитории с формальными доказательствами;
  • проверить свойства кода, который вы перевели в Lean через Aeneas.

Дальше всё зависит от вашей дисциплины: модель умеет работать долго и упорно, но качество результата по-прежнему зависит от того, насколько аккуратно вы формулируете теоремы и свойства, которые хотите проверить.


Читайте также