Sup AI: ансамбль ИИ, который обошёл одиночные модели на экзамене человечества — VogueTech

Что появилось / что изменилось

Sup AI показал результат на тесте Humanity's Last Exam (HLE) и делает ставку не на ещё один «самый умный» ИИ, а на ансамбль из нескольких моделей.

Ключевые факты:

HLE — это 2 500 вопросов по 100+ предметам.
Над экзаменом работали более 1 000 профильных экспертов.
Тест специально проектировали так, чтобы он оставался сложным даже для будущих моделей.
Sup AI набрал 52,15% точности на этом экзамене.
Лучшая одиночная модель внутри ансамбля показывает примерно 45%.
Ансамбль даёт выигрыш больше 7 процентных пунктов относительно любого отдельного участника.
Авторы заявляют статистическую значимость результата: p < 0,001.
Все прогонки воспроизводимы: есть полные трассировки и подробный white paper.

Для HLE все модели запускались в одинаковых условиях:

индивидуальные кастомные промпты;
доступ к веб‑поиску;
без исполнения кода;
без калькулятора;
без дополнительных инструментов.

Sup AI в реальных сценариях умеет подключать больше инструментов, но результат 52,15% получен только с веб‑поиском и оркестрацией моделей.

Как это работает

Sup AI — это не одна большая модель, а ансамбль из нескольких. Команда делает две вещи:

Логарифмические вероятности (logprob) как «уверенность»
Каждая модель, помимо текста, выдаёт свои оценки вероятности для токенов. Sup AI использует эти logprob, чтобы понять, насколько ответ надёжен, и превращает их в метрику уверенности.
Ансамблирование и «сшивка» ответов
Система берёт несколько разных моделей, даёт им один и тот же вопрос, а затем:
- сравнивает ответы и их уверенности;
- ищет пересечения и расхождения;
- выделяет фрагменты, где модели уверены или, наоборот, сомневаются;
- комбинирует части ответов в единый вариант.

За счёт этого Sup AI иногда находит корректный ответ даже в случаях, когда ни одна модель по отдельности задачу не решила. Он собирает из «частично правильных» фрагментов целое решение и использует низкие оценки уверенности как сигнал, чему не доверять.

На уровне инфраструктуры Sup AI оркестрирует запросы к моделям и веб‑поиску, но в рамках HLE ограничивается только поиском, без кода и калькулятора. Это демонстрирует именно качество ансамблирования, а не помощь дополнительных инструментов.

Что это значит для вас

Sup AI делают ставку на сценарии, где важна не креативность, а точность и минимум галлюцинаций.

Когда это полезно:

Исследования и аналитика. Когда вы готовите отчёт, обзор рынка, научную справку и не можете позволить себе придуманные факты.
Проверка критичных ответов. Если вы уже используете одну крупную модель, Sup AI можно держать как «второе мнение» для важных вопросов.
Сложные мультидисциплинарные темы. HLE покрывает больше 100 предметов, и именно на таком разбросе Sup AI показал свой выигрыш над одиночными моделями.

Когда осторожность обязательна:

Юридические, медицинские и финансовые решения. 52,15% — это лучше, чем 45%, но всё ещё далеко от уровня, которому можно доверить ответственность перед регулятором. Sup AI подходит как вспомогательный инструмент для поиска и структурирования информации, но не как единственный источник истины.
Задачи, где важен код и вычисления. В тесте не было ни исполнения кода, ни калькулятора. В реальной работе Sup AI может подключать такие инструменты, но показанный результат относится только к связке «модели + веб‑поиск».

Доступность и использование из России зависят от того, как Sup AI ограничивает трафик и платёжные методы. Перед интеграцией в рабочие процессы придётся проверить, открывается ли сайт напрямую или требуется VPN, а также поддерживаются ли ваши платёжные системы.

Место на рынке

Sup AI не конкурирует с условным «ещё одним GPT», а пытается стать надстройкой над несколькими моделями сразу. Ключевой тезис проекта — одиночные модели, даже сильные, «упираются» примерно в 45% на Humanity's Last Exam, а ансамбль поднимает планку до 52,15% при тех же условиях запуска.

Здесь важно не само число 52,15%, а разница больше 7 процентных пунктов по сравнению с каждым участником ансамбля по отдельности, плюс статистическая значимость (p < 0,001). Это аргумент в пользу того, что оркестрация даёт больше, чем просто выбор «лучшей» модели на рынке.

Минусы очевидны:

ансамбль из нескольких моделей почти всегда дороже и тяжелее по инфраструктуре, чем одна крупная система;
52,15% — это всё ещё далеко не «машина, которая всегда права»;
реальная ценность сильно зависит от того, какие именно модели входят в ансамбль и как они будут обновляться по мере выхода новых версий.

Для тех, кто строит сервисы поверх ИИ, Sup AI показывает тренд: не обязательно ждать следующего гигантского релиза вроде GPT-5. Можно выжать дополнительные проценты точности за счёт грамотной оркестрации уже существующих моделей и аккуратной работы с их уверенностью.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также