- Дата публикации
Sup AI: ансамбль ИИ, который обошёл одиночные модели на экзамене человечества
Что появилось / что изменилось
Sup AI показал результат на тесте Humanity's Last Exam (HLE) и делает ставку не на ещё один «самый умный» ИИ, а на ансамбль из нескольких моделей.
Ключевые факты:
- HLE — это 2 500 вопросов по 100+ предметам.
- Над экзаменом работали более 1 000 профильных экспертов.
- Тест специально проектировали так, чтобы он оставался сложным даже для будущих моделей.
- Sup AI набрал 52,15% точности на этом экзамене.
- Лучшая одиночная модель внутри ансамбля показывает примерно 45%.
- Ансамбль даёт выигрыш больше 7 процентных пунктов относительно любого отдельного участника.
- Авторы заявляют статистическую значимость результата: p < 0,001.
- Все прогонки воспроизводимы: есть полные трассировки и подробный white paper.
Для HLE все модели запускались в одинаковых условиях:
- индивидуальные кастомные промпты;
- доступ к веб‑поиску;
- без исполнения кода;
- без калькулятора;
- без дополнительных инструментов.
Sup AI в реальных сценариях умеет подключать больше инструментов, но результат 52,15% получен только с веб‑поиском и оркестрацией моделей.
Как это работает
Sup AI — это не одна большая модель, а ансамбль из нескольких. Команда делает две вещи:
-
Логарифмические вероятности (logprob) как «уверенность»
Каждая модель, помимо текста, выдаёт свои оценки вероятности для токенов. Sup AI использует эти logprob, чтобы понять, насколько ответ надёжен, и превращает их в метрику уверенности. -
Ансамблирование и «сшивка» ответов
Система берёт несколько разных моделей, даёт им один и тот же вопрос, а затем:- сравнивает ответы и их уверенности;
- ищет пересечения и расхождения;
- выделяет фрагменты, где модели уверены или, наоборот, сомневаются;
- комбинирует части ответов в единый вариант.
За счёт этого Sup AI иногда находит корректный ответ даже в случаях, когда ни одна модель по отдельности задачу не решила. Он собирает из «частично правильных» фрагментов целое решение и использует низкие оценки уверенности как сигнал, чему не доверять.
На уровне инфраструктуры Sup AI оркестрирует запросы к моделям и веб‑поиску, но в рамках HLE ограничивается только поиском, без кода и калькулятора. Это демонстрирует именно качество ансамблирования, а не помощь дополнительных инструментов.
Что это значит для вас
Sup AI делают ставку на сценарии, где важна не креативность, а точность и минимум галлюцинаций.
Когда это полезно:
- Исследования и аналитика. Когда вы готовите отчёт, обзор рынка, научную справку и не можете позволить себе придуманные факты.
- Проверка критичных ответов. Если вы уже используете одну крупную модель, Sup AI можно держать как «второе мнение» для важных вопросов.
- Сложные мультидисциплинарные темы. HLE покрывает больше 100 предметов, и именно на таком разбросе Sup AI показал свой выигрыш над одиночными моделями.
Когда осторожность обязательна:
- Юридические, медицинские и финансовые решения. 52,15% — это лучше, чем 45%, но всё ещё далеко от уровня, которому можно доверить ответственность перед регулятором. Sup AI подходит как вспомогательный инструмент для поиска и структурирования информации, но не как единственный источник истины.
- Задачи, где важен код и вычисления. В тесте не было ни исполнения кода, ни калькулятора. В реальной работе Sup AI может подключать такие инструменты, но показанный результат относится только к связке «модели + веб‑поиск».
Доступность и использование из России зависят от того, как Sup AI ограничивает трафик и платёжные методы. Перед интеграцией в рабочие процессы придётся проверить, открывается ли сайт напрямую или требуется VPN, а также поддерживаются ли ваши платёжные системы.
Место на рынке
Sup AI не конкурирует с условным «ещё одним GPT», а пытается стать надстройкой над несколькими моделями сразу. Ключевой тезис проекта — одиночные модели, даже сильные, «упираются» примерно в 45% на Humanity's Last Exam, а ансамбль поднимает планку до 52,15% при тех же условиях запуска.
Здесь важно не само число 52,15%, а разница больше 7 процентных пунктов по сравнению с каждым участником ансамбля по отдельности, плюс статистическая значимость (p < 0,001). Это аргумент в пользу того, что оркестрация даёт больше, чем просто выбор «лучшей» модели на рынке.
Минусы очевидны:
- ансамбль из нескольких моделей почти всегда дороже и тяжелее по инфраструктуре, чем одна крупная система;
- 52,15% — это всё ещё далеко не «машина, которая всегда права»;
- реальная ценность сильно зависит от того, какие именно модели входят в ансамбль и как они будут обновляться по мере выхода новых версий.
Для тех, кто строит сервисы поверх ИИ, Sup AI показывает тренд: не обязательно ждать следующего гигантского релиза вроде GPT-5. Можно выжать дополнительные проценты точности за счёт грамотной оркестрации уже существующих моделей и аккуратной работы с их уверенностью.