Дата публикации
ai_products

Sup AI: ансамбль ИИ, который обошёл одиночные модели на экзамене человечества

Что появилось / что изменилось

Sup AI показал результат на тесте Humanity's Last Exam (HLE) и делает ставку не на ещё один «самый умный» ИИ, а на ансамбль из нескольких моделей.

Ключевые факты:

  • HLE — это 2 500 вопросов по 100+ предметам.
  • Над экзаменом работали более 1 000 профильных экспертов.
  • Тест специально проектировали так, чтобы он оставался сложным даже для будущих моделей.
  • Sup AI набрал 52,15% точности на этом экзамене.
  • Лучшая одиночная модель внутри ансамбля показывает примерно 45%.
  • Ансамбль даёт выигрыш больше 7 процентных пунктов относительно любого отдельного участника.
  • Авторы заявляют статистическую значимость результата: p < 0,001.
  • Все прогонки воспроизводимы: есть полные трассировки и подробный white paper.

Для HLE все модели запускались в одинаковых условиях:

  • индивидуальные кастомные промпты;
  • доступ к веб‑поиску;
  • без исполнения кода;
  • без калькулятора;
  • без дополнительных инструментов.

Sup AI в реальных сценариях умеет подключать больше инструментов, но результат 52,15% получен только с веб‑поиском и оркестрацией моделей.

Как это работает

Sup AI — это не одна большая модель, а ансамбль из нескольких. Команда делает две вещи:

  1. Логарифмические вероятности (logprob) как «уверенность»
    Каждая модель, помимо текста, выдаёт свои оценки вероятности для токенов. Sup AI использует эти logprob, чтобы понять, насколько ответ надёжен, и превращает их в метрику уверенности.

  2. Ансамблирование и «сшивка» ответов
    Система берёт несколько разных моделей, даёт им один и тот же вопрос, а затем:

    • сравнивает ответы и их уверенности;
    • ищет пересечения и расхождения;
    • выделяет фрагменты, где модели уверены или, наоборот, сомневаются;
    • комбинирует части ответов в единый вариант.

За счёт этого Sup AI иногда находит корректный ответ даже в случаях, когда ни одна модель по отдельности задачу не решила. Он собирает из «частично правильных» фрагментов целое решение и использует низкие оценки уверенности как сигнал, чему не доверять.

На уровне инфраструктуры Sup AI оркестрирует запросы к моделям и веб‑поиску, но в рамках HLE ограничивается только поиском, без кода и калькулятора. Это демонстрирует именно качество ансамблирования, а не помощь дополнительных инструментов.

Что это значит для вас

Sup AI делают ставку на сценарии, где важна не креативность, а точность и минимум галлюцинаций.

Когда это полезно:

  • Исследования и аналитика. Когда вы готовите отчёт, обзор рынка, научную справку и не можете позволить себе придуманные факты.
  • Проверка критичных ответов. Если вы уже используете одну крупную модель, Sup AI можно держать как «второе мнение» для важных вопросов.
  • Сложные мультидисциплинарные темы. HLE покрывает больше 100 предметов, и именно на таком разбросе Sup AI показал свой выигрыш над одиночными моделями.

Когда осторожность обязательна:

  • Юридические, медицинские и финансовые решения. 52,15% — это лучше, чем 45%, но всё ещё далеко от уровня, которому можно доверить ответственность перед регулятором. Sup AI подходит как вспомогательный инструмент для поиска и структурирования информации, но не как единственный источник истины.
  • Задачи, где важен код и вычисления. В тесте не было ни исполнения кода, ни калькулятора. В реальной работе Sup AI может подключать такие инструменты, но показанный результат относится только к связке «модели + веб‑поиск».

Доступность и использование из России зависят от того, как Sup AI ограничивает трафик и платёжные методы. Перед интеграцией в рабочие процессы придётся проверить, открывается ли сайт напрямую или требуется VPN, а также поддерживаются ли ваши платёжные системы.

Место на рынке

Sup AI не конкурирует с условным «ещё одним GPT», а пытается стать надстройкой над несколькими моделями сразу. Ключевой тезис проекта — одиночные модели, даже сильные, «упираются» примерно в 45% на Humanity's Last Exam, а ансамбль поднимает планку до 52,15% при тех же условиях запуска.

Здесь важно не само число 52,15%, а разница больше 7 процентных пунктов по сравнению с каждым участником ансамбля по отдельности, плюс статистическая значимость (p < 0,001). Это аргумент в пользу того, что оркестрация даёт больше, чем просто выбор «лучшей» модели на рынке.

Минусы очевидны:

  • ансамбль из нескольких моделей почти всегда дороже и тяжелее по инфраструктуре, чем одна крупная система;
  • 52,15% — это всё ещё далеко не «машина, которая всегда права»;
  • реальная ценность сильно зависит от того, какие именно модели входят в ансамбль и как они будут обновляться по мере выхода новых версий.

Для тех, кто строит сервисы поверх ИИ, Sup AI показывает тренд: не обязательно ждать следующего гигантского релиза вроде GPT-5. Можно выжать дополнительные проценты точности за счёт грамотной оркестрации уже существующих моделей и аккуратной работы с их уверенностью.


Читайте также

🔗 Источник: https://sup.ai
Sup AI: ансамбль ИИ, который обошёл одиночные модели на экзамене человечества — VogueTech | VogueTech