ИИ-система RARE-PHENIX помогает врачам находить редкие болезни по клиническим записям — VogueTech

Что открыли

Команда исследователей представила RARE-PHENIX — end-to-end фреймворк на базе больших языковых моделей для работы с редкими заболеваниями.

Он делает три вещи подряд, как врач в реальной клинике:

вынимает симптомы и признаки из неструктурированных клинических заметок;
переводит их в стандартизированные термины Human Phenotype Ontology (HPO);
ранжирует эти термины по диагностической значимости.

RARE-PHENIX обучили на данных 2 671 пациента из 11 клинических центров Undiagnosed Diseases Network. Затем проверили систему на 16 357 реальных клинических записей из Vanderbilt University Medical Center.

По качеству работы фреймворк обошёл актуальный deep learning-бейзлайн PhenoBERT. По онтологическому сходству с эталоном от клиницистов RARE-PHENIX набрал 0,70 против 0,58 у PhenoBERT. По метрикам precision, recall и F1 система тоже показывает более точное попадание в нужные фенотипы.

Как исследовали

Исследователи взяли реальный клинический сценарий: пациент с подозрением на редкое заболевание, у врача — длинная история болезни в текстовом виде.

Дальше они разложили задачу фенотипирования на три модуля:

Извлечение фенотипов: большая языковая модель находит в тексте симптомы, признаки, особенности развития.
Стандартизация к HPO: каждый найденный признак сопоставляется с конкретным термином из Human Phenotype Ontology.
Приоритизация: система учится на размеченных врачами данных и ранжирует фенотипы по тому, насколько они полезны для постановки диагноза.

Для обучения использовали 2 671 пациента из 11 центров Undiagnosed Diseases Network — это сложные случаи, которые долго не удавалось диагностировать. Для внешней валидации взяли 16 357 клинических заметок из Vanderbilt University Medical Center.

Команда провела абляционные эксперименты: по очереди отключала каждый модуль — извлечение, стандартизацию, приоритизацию. Каждый дополнительный шаг улучшал итоговое качество. Это показывает, что важен не только сам LLM, но и то, что он встроен в полный клинический workflow.

Что это меняет на практике

Сегодня фенотипирование для редких заболеваний часто делает врач или генетический консультант вручную. Нужно прочитать десятки страниц текста и руками собрать список HPO-терминов. Это долго, дорого и плохо масштабируется.

RARE-PHENIX автоматизирует большую часть рутины. Врач получает уже структурированный и отсортированный список фенотипов, который ближе к тому, что он бы составил сам. Исследование использует клиническую разметку как «золотой стандарт», и по ней новая система стабильно обгоняет PhenoBERT.

На практике это может означать:

быстрее сформированный фенотипический профиль пациента;
меньше пропущенных важных признаков в истории болезни;
более точный вход для систем подбора генетических причин и диагнозов.

Минусы тоже есть. RARE-PHENIX не ставит диагнозы, а только помогает с фенотипами. Качество сильно зависит от исходных записей: если врач плохо документирует симптомы, ИИ не вытащит то, чего нет в тексте. Плюс внедрение в реальные госпитальные ИТ-системы — это годы интеграций, регуляторики и проверок на безопасность.

До полноценного продукта в виде «кнопки в электронной медкарте» ещё далеко. Но сама архитектура уже протестирована на больших наборах реальных данных: 2 671 пациент для обучения и 16 357 клинических заметок для валидации.

Что это значит для вас

Если вы пациент, это не сервис «проверить симптомы онлайн». RARE-PHENIX работает внутри клиники и помогает врачам, а не заменяет их.

Если вы врач или исследователь редких заболеваний, тренд понятен: фенотипирование будет всё больше опираться на LLM, которые интегрированы в клинический процесс, а не на одиночные модели типа PhenoBERT. Это шанс сэкономить часы на разборе историй болезни и сфокусироваться на принятии решений.

Для разработчиков медицинских ИИ-систем это сигнал: просто прикрутить LLM к тексту уже мало. Исследование показывает, что выигрыш даёт именно связка из трёх модулей — извлечение, сопоставление с HPO и приоритизация по диагностической ценности.

Для пользователей массовых ИИ-инструментов вроде GPT-5 или Claude 4 прямого эффекта пока нет. Но подход, который отработали на редких заболеваниях, легко масштабируется на другие медицинские задачи: онтологии лекарств, побочные эффекты, осложнения.

Если вы делаете продукты для клиник, за идеями для roadmap здесь есть на что посмотреть: как проверять LLM на реальных данных, чем измерять качество (similarity 0,70 против 0,58) и как строить human-in-the-loop-сценарии, где ИИ помогает, а не подменяет врача.