Кардиологу в помощь: как связка ансамблей ML и LLM точнее предсказывает болезни сердца — VogueTech

Что открыли

Исследователи проверили, насколько хорошо большие языковые модели справляются с задачей, где обычно лидируют классические алгоритмы машинного обучения: предсказание сердечно‑сосудистых заболеваний по табличным данным пациентов.

Они собрали единый датасет из 1190 записей о пациентах и сравнили несколько подходов:

ансамбли машинного обучения (Random Forest, XGBoost, LightGBM, CatBoost);
открытые LLM, подключённые через OpenRouter;
гибрид: ансамбль ML + рассуждения LLM на базе Gemini 2.5 Flash.

Лучший чистый ML‑ансамбль показал 95,78% точности и ROC-AUC 0,96.

Открытые LLM в «чистом виде» серьёзно проиграли:

zero-shot режим — 78,9% точности;
few-shot режим с примерами — 72,6% точности (авторы честно фиксируют, что улучшения почти нет).

Самая интересная часть — гибрид. Комбинация ансамбля ML с рассуждениями Gemini 2.5 Flash дала 96,62% точности и ROC-AUC 0,97. Прирост кажется небольшим, но для медицины разница между 95,78% и 96,62% — это реальные пациенты, которых не пропустили.

Вывод авторов прямой: LLM для табличных медицинских данных в одиночку работают средне, но в паре с классическими моделями дают небольшой, но измеримый выигрыш.

Как исследовали

Команда объединила несколько открытых наборов данных по сердечно‑сосудистым заболеваниям в одну выборку на 1190 пациентов. Там классический набор признаков: возраст, показатели давления, холестерин, другие клинические параметры.

Дальше исследователи обучили и сравнили популярные ансамблевые модели: Random Forest, XGBoost, LightGBM и CatBoost. Эти алгоритмы давно считаются «золотым стандартом» для табличных данных и обычно обгоняют логистическую регрессию.

Параллельно они подключили открытые большие языковые модели через OpenRouter API и заставили их решать ту же задачу. Сначала без примеров (zero-shot), потом с несколькими размеченными кейсами в промпте (few-shot).

Финальный шаг — гибрид. Ансамбль ML выдаёт прогноз и уровень уверенности. В «сомнительных» случаях решение дополнительно проходит через LLM Gemini 2.5 Flash, которая анализирует данные пациента и помогает скорректировать итоговый вердикт.

Что это меняет на практике

Для кардиологов и разработчиков медтех‑софта это трезвый сигнал: табличные данные по пациентам по‑прежнему лучше всего обрабатывают классические ансамбли ML. LLM пока не заменяют их, а работают как надстройка.

Гибридный подход даёт два практических эффекта:

Чуть более точный скоринг риска: +0,84 процентного пункта к точности и +0,01 к ROC-AUC по сравнению с чистым ансамблем.
Потенциал для систем поддержки принятия решений, где врач видит не только «риск высокий», но и текстовое объяснение от LLM.

До реальных продуктов ещё несколько шагов: нужна валидация на больших и разнородных выборках, проверка на данных из разных стран и клиник, аудит на предмет смещений и ошибок. Но архитектура понятна уже сейчас: ядро на XGBoost/LightGBM/CatBoost, поверх — LLM, которая помогает в спорных случаях и объясняет модель врачу и пациенту.

Минус тоже очевиден: LLM сами по себе дают только 78,9% точности, а это слишком мало для клинического применения. Их нельзя пускать в медицину без «страхующего» ML‑ядра.

Что это значит для вас

Если вы работаете с табличными данными — в медицине, финтехе, страховании — исследование подтверждает: ансамбли вроде XGBoost и CatBoost остаются базовым инструментом. LLM вроде Gemini 2.5 Flash полезнее использовать не как предсказатель, а как надстройку для сложных кейсов и объяснимости.

Если вы врач или продуктолог в медицине, не стоит ждать, что GPT‑подобная модель сама по себе будет надёжно ставить диагноз по цифрам анализов. Надёжнее связка: числовой скоринг на ансамбле ML + текстовые пояснения и разбор сложных случаев через LLM.

Если вы уже пользуетесь LLM в работе с данными пациентов, этот результат — повод пересмотреть архитектуру. Логика простая: сначала решает специализированный ML‑модуль, LLM подключается только там, где модель не уверена или нужно человеческое объяснение.

Для конечного пользователя это означает более аккуратные и прозрачные рекомендации в медприложениях. Но доверять им на 100% всё равно нельзя: и ансамбли, и LLM ошибаются, даже при 96,62% точности. Решение по здоровью по‑прежнему за живым врачом, а не за моделью.