- Дата публикации
Seed Prover 1.5: как ИИ от ByteDance решает задачи уровня IMO и Putnam в Lean
Что появилось / что изменилось
ByteDance обновила свой формальный математический движок до версии Seed Prover 1.5. Это специализированная модель, которая пишет доказательства на Lean и сразу проходит проверку в системе.
Главные факты:
- На Международной математической олимпиаде IMO‑2025 Seed Prover за три дня полностью решил 4 из 6 задач и частично ещё одну. Это уровень официального «серебра».
- Новая версия 1.5 сгенерировала полные, компилируемые и проверяемые Lean‑доказательства для первых пяти задач IMO‑2025 за 16,5 часа. Это 35 из 42 баллов — порог «золота» по прежней системе.
- На североамериканском конкурсе Putnam‑2025 Seed Prover 1.5 написал корректный Lean‑код для 11 из 12 задач за 9 часов.
- На бенчмарках для формальной математики модель показывает:
- 88% решённых задач на PutnamBench (уровень бакалавриата),
- 80% на Fate‑H (уровень магистратуры),
- 33% на Fate‑X (уровень PhD).
Это новый state‑of‑the‑art для формальных математических моделей на этих наборах задач.
ByteDance опубликовала технический отчёт на arXiv и архив с Lean‑доказательствами Putnam‑2025 на GitHub. API обещают открыть позже.
Как это работает
Seed Prover 1.5 строится вокруг так называемой Agentic Prover‑архитектуры. Идея проста: модель не пытается одним махом выдать готовое доказательство, а ведёт себя как «агент», который управляет набором инструментов.
Под капотом три ключевых механизма:
-
Поиск по Mathlib
Модель не полагается на запомненные теоремы. Она сама ходит в библиотеку Mathlib, ищет нужные определения и леммы и подставляет их в доказательство. Это ближе к тому, как работает разработчик, который постоянно лезет в документацию. -
Запуск Python‑кода
Если нужно что‑то посчитать или проверить гипотезу, Seed Prover пишет небольшой Python‑скрипт, запускает его и использует результат в дальнейшем рассуждении. Это помогает не ошибаться в вычислениях и быстро проверять идеи. -
Пошаговое доказательство через леммы
Вместо «монолитного» доказательства модель разбивает задачу на независимые леммы. Каждую лемму она доказывает, проверяет в Lean и складывает в свой «инвентарь». Потом использует эти кирпичики в следующих шагах.
Параллельно Seed Prover ведёт «черновик» на естественном языке, где рассуждает как человек. Когда очередной фрагмент логики стабилизируется, модель переводит его в строгий Lean‑код и проверяет. Если компиляция падает, агент корректирует ход доказательства.
Все эти навыки Seed Prover 1.5 получил через масштабное обучение с подкреплением: модель многократно пыталась решать задачи, проверяла себя Lean‑компилятором и постепенно училась строить более надёжные цепочки рассуждений.
Что это значит для вас
Seed Prover 1.5 — инструмент для тех, кто работает с формальной математикой и Lean:
Подойдёт, если вы:
- исследователь или преподаватель, кто уже использует Lean или хочет перевести курс/статьи в формальные доказательства;
- олимпиадник, который решает задачи уровня IMO и Putnam и хочет видеть, как такие задачи формализуются в Lean;
- инженер по ИИ, который строит системы математического рассуждения и ищет референс по архитектуре «агент + инструменты».
Чем он полезен на практике:
- Генерация черновиков формальных доказательств сложных задач, которые потом можно доработать вручную.
- Проверка корректности идей: если Lean‑код скомпилировался, значит, логика выдержала формальный контроль.
- Обучение: можно разбирать сгенерированные доказательства Putnam‑2025 и задач из Fate‑H/Fate‑X как примеры стиля формализации.
Где пока рано рассчитывать на чудеса:
- Исследования на самом переднем крае, где даже формулировка теорем ещё плавает. Здесь Seed Prover поможет точечно, но не заменит математика.
- Прикладные задачи без готовой формализации в Lean: сначала всё равно придётся аккуратно описать предметную область в терминах системы.
API пока нет. Чтобы поиграть с Seed Prover 1.5 уже сейчас, придётся:
- читать техотчёт на arXiv;
- разбирать Lean‑доказательства из репозитория ByteDance Seed на GitHub;
- ждать публичного доступа к модели. С большой вероятностью для работы с API понадобится зарубежная инфраструктура и, возможно, VPN.
Место на рынке
Seed Prover 1.5 занимает нишу формальных математических доказательств в Lean. Это не конкурент GPT‑5 или Claude 4 как «универсальный ассистент», а специализированный инструмент для строгой математики.
На своём поле он задаёт планку:
- показывает лучшие на сегодня результаты на PutnamBench, Fate‑H и Fate‑X среди формальных проверов;
- демонстрирует, что агентный подход с Mathlib‑поиском, Python‑запусками и поэтапными леммами работает для задач уровня PhD.
Ограничения тоже заметны:
- Модель заточена под Lean. Если вы живёте в Coq, Isabelle или Agda, прямого переноса нет.
- Время решения измеряется часами, а не секундами. Для интерактивного «чат‑режима» с пользователем это пока тяжеловато.
Если вам нужен ассистент, который «на пальцах» объяснит задачу из учебника, подойдёт тот же GPT‑5. Если вы хотите формальный, проверяемый код доказательства в Lean для сложной задачи, Seed Prover 1.5 — один из самых сильных вариантов на сегодня.