Физический ИИ для медицины: как роботов учат шить раны и делать УЗИ — VogueTech

Что открыли

Команда из 35 организаций запустила Open-H-Embodiment — общий датасет для обучения физического ИИ в медицине.

В него вошло 778 часов тренировочных данных под лицензией CC-BY-4.0. Большая часть — хирургическая роботика, но есть и данные по автономии для УЗИ и колоноскопии.

Датасет покрывает три типа сценариев: симуляцию, настольные упражнения вроде шитья (suturing) и реальные клинические процедуры.

На базе этих данных NVIDIA и партнёры представили два открытых инструмента:

GR00T-H — Vision-Language-Action модель для задач хирургической роботики, обученная примерно на 600 часах Open-H-Embodiment.
Cosmos-H-Surgical-Simulator — World Foundation Model, которая по движениям робота генерирует правдоподобное хирургическое видео.

GR00T-H уже прошла проверку на бенчмарке SutureBot и смогла выполнить полную, сквозную процедуру наложения шва — от начала до конца.

Как исследовали

Инициативу запустил комитет с участием профессора Акселя Кригера из Johns Hopkins, профессора Нассира Наваба из Технического университета Мюнхена и Махди Азизиана из NVIDIA.

К проекту подключились университеты и компании из США, Европы и Азии: Stanford, UC Berkeley, UC San Diego, Johns Hopkins University, Technical University of Munich, University of British Columbia, Qilu Hospital of Shandong University, Balgrist, CMR Surgical, Rob Surgical, Tuodao, Moon Surgical, Virtual Incision, NVIDIA и другие.

Исследователи собрали синхронизированные данные «зрение–силы–кинематика» с коммерческих роботов (CMR Surgical, Rob Surgical, Tuodao) и исследовательских платформ (dVRK, Franka, Kuka).

Дальше команда NVIDIA дообучила две модели:

GR00T-H — производную от линейки Isaac GR00T N, использующую Cosmos Reason 2 2B как Vision-Language бэкбон.
Cosmos-H-Surgical-Simulator — дообученную версию NVIDIA Cosmos Predict 2.5 2B для задач хирургической симуляции.

Для проверки Cosmos-H исследователи прогнали 600 «прогонов» (rollouts). На симуляции это заняло 40 минут, тогда как настольный эксперимент в реальном мире потребовал бы около двух дней.

Что это меняет на практике

Медицина давно использует ИИ для распознавания: снимки, сегментация органов, классификация патологий. Но хирургия и УЗИ — это ещё и действие: контакт с тканями, сила, траектория инструмента, обратная связь.

Open-H-Embodiment даёт общий «язык тела» для роботов. За счёт стандартизированных корпусов, единого формата данных и кросс-платформенных бенчмарков можно учить один и тот же навык на разных системах.

GR00T-H решает сложную для хирургии задачу — перенос политик между роботами с разной механикой. Для этого команда использует четыре инженерных приёма:

отдельные MLP-проектор для каждого робота, который переводит его кинематику в общее нормализованное пространство действий;
state dropout на 100% во время инференса: модель не видит собственную проприоцепцию и вместо этого опирается на выученный «сдвиг» для каждой системы, что даёт более стабильное поведение в реальных условиях;
относительные действия в пространстве энд-эффектора (EEF), чтобы сгладить различия в кинематике между роботами;
внедрение метаданных прямо в текстовый промпт VLM: названия инструментов и индексы каналов управления.

Cosmos-H-Surgical-Simulator закрывает другую боль — разрыв между симуляцией и реальной операционной. Классические симуляторы плохо справляются с мягкими тканями, отражениями, кровью, дымом.

Cosmos-H генерирует видео, которое учитывает действие робота и выглядит физически правдоподобно. Это ускоряет отладку политик: сотни сценариев можно прогнать за часы, а не тратить дни на стендовые эксперименты.

Плюс: данные и модели распространяются по открытым лицензиям, что снижает порог входа для университетских лабораторий и стартапов.

Минус: пока речь идёт о исследовательских прототипах. До сертифицированных медицинских продуктов с такой автономией пройдёт несколько лет — регуляторы не пропустят это быстро.

Что это значит для вас

Если вы работаете с роботизированной хирургией, УЗИ или компьютерным зрением для медицины, Open-H-Embodiment и GR00T-H — это готовая база для своих экспериментов.

Можно обучать собственные политики на реальных данных с dVRK, Franka, Kuka и коммерческих систем.
Можно проверять идеи в Cosmos-H-Surgical-Simulator, не занимая операционную и не сжигая бюджет на стендовые эксперименты.

Если вы занимаетесь ИИ вне медицины, эта история показывает, куда движется отрасль: от моделей, которые только «смотрят» и «понимают», к системам, которые ещё и действуют в физическом мире.

Для врачей и пациентов это означает потенциально более точные и предсказуемые робот-ассистированные операции, а также более доступные УЗИ и эндоскопические исследования за счёт частичной автономии.

Но важно трезво оценивать сроки: сейчас это инструменты для исследовательских команд. До момента, когда «ИИ-хирург» станет стандартом, придётся пройти через долгие клинические испытания и сертификацию.

Что открыли

Как исследовали

Что это меняет на практике

Что это значит для вас

Читайте также