Дата публикации
ai_products

Seed Prover 1.5: как ИИ от ByteDance решает задачи уровня IMO и Putnam в Lean

Что появилось / что изменилось

ByteDance обновила свой формальный математический движок до версии Seed Prover 1.5. Это специализированная модель, которая пишет доказательства на Lean и сразу проходит проверку в системе.

Главные факты:

  • На Международной математической олимпиаде IMO‑2025 Seed Prover за три дня полностью решил 4 из 6 задач и частично ещё одну. Это уровень официального «серебра».
  • Новая версия 1.5 сгенерировала полные, компилируемые и проверяемые Lean‑доказательства для первых пяти задач IMO‑2025 за 16,5 часа. Это 35 из 42 баллов — порог «золота» по прежней системе.
  • На североамериканском конкурсе Putnam‑2025 Seed Prover 1.5 написал корректный Lean‑код для 11 из 12 задач за 9 часов.
  • На бенчмарках для формальной математики модель показывает:
    • 88% решённых задач на PutnamBench (уровень бакалавриата),
    • 80% на Fate‑H (уровень магистратуры),
    • 33% на Fate‑X (уровень PhD).

Это новый state‑of‑the‑art для формальных математических моделей на этих наборах задач.

ByteDance опубликовала технический отчёт на arXiv и архив с Lean‑доказательствами Putnam‑2025 на GitHub. API обещают открыть позже.

Как это работает

Seed Prover 1.5 строится вокруг так называемой Agentic Prover‑архитектуры. Идея проста: модель не пытается одним махом выдать готовое доказательство, а ведёт себя как «агент», который управляет набором инструментов.

Под капотом три ключевых механизма:

  1. Поиск по Mathlib
    Модель не полагается на запомненные теоремы. Она сама ходит в библиотеку Mathlib, ищет нужные определения и леммы и подставляет их в доказательство. Это ближе к тому, как работает разработчик, который постоянно лезет в документацию.

  2. Запуск Python‑кода
    Если нужно что‑то посчитать или проверить гипотезу, Seed Prover пишет небольшой Python‑скрипт, запускает его и использует результат в дальнейшем рассуждении. Это помогает не ошибаться в вычислениях и быстро проверять идеи.

  3. Пошаговое доказательство через леммы
    Вместо «монолитного» доказательства модель разбивает задачу на независимые леммы. Каждую лемму она доказывает, проверяет в Lean и складывает в свой «инвентарь». Потом использует эти кирпичики в следующих шагах.

Параллельно Seed Prover ведёт «черновик» на естественном языке, где рассуждает как человек. Когда очередной фрагмент логики стабилизируется, модель переводит его в строгий Lean‑код и проверяет. Если компиляция падает, агент корректирует ход доказательства.

Все эти навыки Seed Prover 1.5 получил через масштабное обучение с подкреплением: модель многократно пыталась решать задачи, проверяла себя Lean‑компилятором и постепенно училась строить более надёжные цепочки рассуждений.

Что это значит для вас

Seed Prover 1.5 — инструмент для тех, кто работает с формальной математикой и Lean:

Подойдёт, если вы:

  • исследователь или преподаватель, кто уже использует Lean или хочет перевести курс/статьи в формальные доказательства;
  • олимпиадник, который решает задачи уровня IMO и Putnam и хочет видеть, как такие задачи формализуются в Lean;
  • инженер по ИИ, который строит системы математического рассуждения и ищет референс по архитектуре «агент + инструменты».

Чем он полезен на практике:

  • Генерация черновиков формальных доказательств сложных задач, которые потом можно доработать вручную.
  • Проверка корректности идей: если Lean‑код скомпилировался, значит, логика выдержала формальный контроль.
  • Обучение: можно разбирать сгенерированные доказательства Putnam‑2025 и задач из Fate‑H/Fate‑X как примеры стиля формализации.

Где пока рано рассчитывать на чудеса:

  • Исследования на самом переднем крае, где даже формулировка теорем ещё плавает. Здесь Seed Prover поможет точечно, но не заменит математика.
  • Прикладные задачи без готовой формализации в Lean: сначала всё равно придётся аккуратно описать предметную область в терминах системы.

API пока нет. Чтобы поиграть с Seed Prover 1.5 уже сейчас, придётся:

  • читать техотчёт на arXiv;
  • разбирать Lean‑доказательства из репозитория ByteDance Seed на GitHub;
  • ждать публичного доступа к модели. С большой вероятностью для работы с API понадобится зарубежная инфраструктура и, возможно, VPN.

Место на рынке

Seed Prover 1.5 занимает нишу формальных математических доказательств в Lean. Это не конкурент GPT‑5 или Claude 4 как «универсальный ассистент», а специализированный инструмент для строгой математики.

На своём поле он задаёт планку:

  • показывает лучшие на сегодня результаты на PutnamBench, Fate‑H и Fate‑X среди формальных проверов;
  • демонстрирует, что агентный подход с Mathlib‑поиском, Python‑запусками и поэтапными леммами работает для задач уровня PhD.

Ограничения тоже заметны:

  • Модель заточена под Lean. Если вы живёте в Coq, Isabelle или Agda, прямого переноса нет.
  • Время решения измеряется часами, а не секундами. Для интерактивного «чат‑режима» с пользователем это пока тяжеловато.

Если вам нужен ассистент, который «на пальцах» объяснит задачу из учебника, подойдёт тот же GPT‑5. Если вы хотите формальный, проверяемый код доказательства в Lean для сложной задачи, Seed Prover 1.5 — один из самых сильных вариантов на сегодня.


Читайте также

Seed Prover 1.5: как ИИ от ByteDance решает задачи уровня IMO и Putnam в Lean — VogueTech | VogueTech