- Дата публикации
Кардиологу в помощь: как связка ансамблей ML и LLM точнее предсказывает болезни сердца
Что открыли
Исследователи проверили, насколько хорошо большие языковые модели справляются с задачей, где обычно лидируют классические алгоритмы машинного обучения: предсказание сердечно‑сосудистых заболеваний по табличным данным пациентов.
Они собрали единый датасет из 1190 записей о пациентах и сравнили несколько подходов:
- ансамбли машинного обучения (Random Forest, XGBoost, LightGBM, CatBoost);
- открытые LLM, подключённые через OpenRouter;
- гибрид: ансамбль ML + рассуждения LLM на базе Gemini 2.5 Flash.
Лучший чистый ML‑ансамбль показал 95,78% точности и ROC-AUC 0,96.
Открытые LLM в «чистом виде» серьёзно проиграли:
- zero-shot режим — 78,9% точности;
- few-shot режим с примерами — 72,6% точности (авторы честно фиксируют, что улучшения почти нет).
Самая интересная часть — гибрид. Комбинация ансамбля ML с рассуждениями Gemini 2.5 Flash дала 96,62% точности и ROC-AUC 0,97. Прирост кажется небольшим, но для медицины разница между 95,78% и 96,62% — это реальные пациенты, которых не пропустили.
Вывод авторов прямой: LLM для табличных медицинских данных в одиночку работают средне, но в паре с классическими моделями дают небольшой, но измеримый выигрыш.
Как исследовали
Команда объединила несколько открытых наборов данных по сердечно‑сосудистым заболеваниям в одну выборку на 1190 пациентов. Там классический набор признаков: возраст, показатели давления, холестерин, другие клинические параметры.
Дальше исследователи обучили и сравнили популярные ансамблевые модели: Random Forest, XGBoost, LightGBM и CatBoost. Эти алгоритмы давно считаются «золотым стандартом» для табличных данных и обычно обгоняют логистическую регрессию.
Параллельно они подключили открытые большие языковые модели через OpenRouter API и заставили их решать ту же задачу. Сначала без примеров (zero-shot), потом с несколькими размеченными кейсами в промпте (few-shot).
Финальный шаг — гибрид. Ансамбль ML выдаёт прогноз и уровень уверенности. В «сомнительных» случаях решение дополнительно проходит через LLM Gemini 2.5 Flash, которая анализирует данные пациента и помогает скорректировать итоговый вердикт.
Что это меняет на практике
Для кардиологов и разработчиков медтех‑софта это трезвый сигнал: табличные данные по пациентам по‑прежнему лучше всего обрабатывают классические ансамбли ML. LLM пока не заменяют их, а работают как надстройка.
Гибридный подход даёт два практических эффекта:
- Чуть более точный скоринг риска: +0,84 процентного пункта к точности и +0,01 к ROC-AUC по сравнению с чистым ансамблем.
- Потенциал для систем поддержки принятия решений, где врач видит не только «риск высокий», но и текстовое объяснение от LLM.
До реальных продуктов ещё несколько шагов: нужна валидация на больших и разнородных выборках, проверка на данных из разных стран и клиник, аудит на предмет смещений и ошибок. Но архитектура понятна уже сейчас: ядро на XGBoost/LightGBM/CatBoost, поверх — LLM, которая помогает в спорных случаях и объясняет модель врачу и пациенту.
Минус тоже очевиден: LLM сами по себе дают только 78,9% точности, а это слишком мало для клинического применения. Их нельзя пускать в медицину без «страхующего» ML‑ядра.
Что это значит для вас
Если вы работаете с табличными данными — в медицине, финтехе, страховании — исследование подтверждает: ансамбли вроде XGBoost и CatBoost остаются базовым инструментом. LLM вроде Gemini 2.5 Flash полезнее использовать не как предсказатель, а как надстройку для сложных кейсов и объяснимости.
Если вы врач или продуктолог в медицине, не стоит ждать, что GPT‑подобная модель сама по себе будет надёжно ставить диагноз по цифрам анализов. Надёжнее связка: числовой скоринг на ансамбле ML + текстовые пояснения и разбор сложных случаев через LLM.
Если вы уже пользуетесь LLM в работе с данными пациентов, этот результат — повод пересмотреть архитектуру. Логика простая: сначала решает специализированный ML‑модуль, LLM подключается только там, где модель не уверена или нужно человеческое объяснение.
Для конечного пользователя это означает более аккуратные и прозрачные рекомендации в медприложениях. Но доверять им на 100% всё равно нельзя: и ансамбли, и LLM ошибаются, даже при 96,62% точности. Решение по здоровью по‑прежнему за живым врачом, а не за моделью.