- Дата публикации
Физический ИИ для медицины: как роботов учат шить раны и делать УЗИ
Что открыли
Команда из 35 организаций запустила Open-H-Embodiment — общий датасет для обучения физического ИИ в медицине.
В него вошло 778 часов тренировочных данных под лицензией CC-BY-4.0. Большая часть — хирургическая роботика, но есть и данные по автономии для УЗИ и колоноскопии.
Датасет покрывает три типа сценариев: симуляцию, настольные упражнения вроде шитья (suturing) и реальные клинические процедуры.
На базе этих данных NVIDIA и партнёры представили два открытых инструмента:
- GR00T-H — Vision-Language-Action модель для задач хирургической роботики, обученная примерно на 600 часах Open-H-Embodiment.
- Cosmos-H-Surgical-Simulator — World Foundation Model, которая по движениям робота генерирует правдоподобное хирургическое видео.
GR00T-H уже прошла проверку на бенчмарке SutureBot и смогла выполнить полную, сквозную процедуру наложения шва — от начала до конца.
Как исследовали
Инициативу запустил комитет с участием профессора Акселя Кригера из Johns Hopkins, профессора Нассира Наваба из Технического университета Мюнхена и Махди Азизиана из NVIDIA.
К проекту подключились университеты и компании из США, Европы и Азии: Stanford, UC Berkeley, UC San Diego, Johns Hopkins University, Technical University of Munich, University of British Columbia, Qilu Hospital of Shandong University, Balgrist, CMR Surgical, Rob Surgical, Tuodao, Moon Surgical, Virtual Incision, NVIDIA и другие.
Исследователи собрали синхронизированные данные «зрение–силы–кинематика» с коммерческих роботов (CMR Surgical, Rob Surgical, Tuodao) и исследовательских платформ (dVRK, Franka, Kuka).
Дальше команда NVIDIA дообучила две модели:
- GR00T-H — производную от линейки Isaac GR00T N, использующую Cosmos Reason 2 2B как Vision-Language бэкбон.
- Cosmos-H-Surgical-Simulator — дообученную версию NVIDIA Cosmos Predict 2.5 2B для задач хирургической симуляции.
Для проверки Cosmos-H исследователи прогнали 600 «прогонов» (rollouts). На симуляции это заняло 40 минут, тогда как настольный эксперимент в реальном мире потребовал бы около двух дней.
Что это меняет на практике
Медицина давно использует ИИ для распознавания: снимки, сегментация органов, классификация патологий. Но хирургия и УЗИ — это ещё и действие: контакт с тканями, сила, траектория инструмента, обратная связь.
Open-H-Embodiment даёт общий «язык тела» для роботов. За счёт стандартизированных корпусов, единого формата данных и кросс-платформенных бенчмарков можно учить один и тот же навык на разных системах.
GR00T-H решает сложную для хирургии задачу — перенос политик между роботами с разной механикой. Для этого команда использует четыре инженерных приёма:
- отдельные MLP-проектор для каждого робота, который переводит его кинематику в общее нормализованное пространство действий;
- state dropout на 100% во время инференса: модель не видит собственную проприоцепцию и вместо этого опирается на выученный «сдвиг» для каждой системы, что даёт более стабильное поведение в реальных условиях;
- относительные действия в пространстве энд-эффектора (EEF), чтобы сгладить различия в кинематике между роботами;
- внедрение метаданных прямо в текстовый промпт VLM: названия инструментов и индексы каналов управления.
Cosmos-H-Surgical-Simulator закрывает другую боль — разрыв между симуляцией и реальной операционной. Классические симуляторы плохо справляются с мягкими тканями, отражениями, кровью, дымом.
Cosmos-H генерирует видео, которое учитывает действие робота и выглядит физически правдоподобно. Это ускоряет отладку политик: сотни сценариев можно прогнать за часы, а не тратить дни на стендовые эксперименты.
Плюс: данные и модели распространяются по открытым лицензиям, что снижает порог входа для университетских лабораторий и стартапов.
Минус: пока речь идёт о исследовательских прототипах. До сертифицированных медицинских продуктов с такой автономией пройдёт несколько лет — регуляторы не пропустят это быстро.
Что это значит для вас
Если вы работаете с роботизированной хирургией, УЗИ или компьютерным зрением для медицины, Open-H-Embodiment и GR00T-H — это готовая база для своих экспериментов.
- Можно обучать собственные политики на реальных данных с dVRK, Franka, Kuka и коммерческих систем.
- Можно проверять идеи в Cosmos-H-Surgical-Simulator, не занимая операционную и не сжигая бюджет на стендовые эксперименты.
Если вы занимаетесь ИИ вне медицины, эта история показывает, куда движется отрасль: от моделей, которые только «смотрят» и «понимают», к системам, которые ещё и действуют в физическом мире.
Для врачей и пациентов это означает потенциально более точные и предсказуемые робот-ассистированные операции, а также более доступные УЗИ и эндоскопические исследования за счёт частичной автономии.
Но важно трезво оценивать сроки: сейчас это инструменты для исследовательских команд. До момента, когда «ИИ-хирург» станет стандартом, придётся пройти через долгие клинические испытания и сертификацию.