Дата публикации
ai_products

Gemini Robotics‑ER 1.6: как Google учит роботов понимать реальный мир

Что нового

Google DeepMind выпустила Gemini Robotics‑ER 1.6 — обновление «reasoning‑first» модели, которая отвечает за мышление роботов в реальном мире.

Ключевые изменения по сравнению с Gemini Robotics‑ER 1.5 и Gemini 3.0 Flash:

  • Улучшено пространственное и физическое мышление:
    • точнее работает с указаниями типа «возьми вон тот предмет» (pointing);
    • лучше считает объекты в сцене (counting);
    • надёжнее определяет, выполнена ли задача (success detection).
  • Появилась новая функция — чтение приборов (instrument reading):
    • роботы могут распознавать показания сложных аналоговых датчиков;
    • понимают шкалы манометров, уровнемеров, sight glasses и других промышленных индикаторов.
  • Модель стала лучше понимать окружающую среду сразу с нескольких ракурсов (multi‑view understanding), что критично для навигации и работы с объектами.
  • Gemini Robotics‑ER 1.6 можно использовать как «мозг высокого уровня» для робота:
    • модель сама вызывает Google Search для поиска информации;
    • умеет работать поверх vision‑language‑action моделей (VLA);
    • поддерживает подключение любых сторонних функций как инструментов.
  • С сегодняшнего дня Gemini Robotics‑ER 1.6 доступна разработчикам через Gemini API и Google AI Studio.

Числовых бенчмарков Google не приводит, но прямо говорит о заметном росте качества именно в задачах пространственного и физического рассуждения.

Как это работает

Gemini Robotics‑ER 1.6 — это не «мозг робота целиком», а слой высокого уровня, который думает о задаче и мире, а затем делегирует действие другим системам.

Схематично архитектура выглядит так:

  1. Входные данные

    • Видео или изображения с камер робота.
    • Текстовые инструкции от человека или внешней системы.
    • Состояние датчиков и внутренних модулей (например, успешность предыдущих шагов).
  2. Embodied reasoning (воплощённое рассуждение)

    • Пространственное понимание: где что находится, что с чем связано.
    • Многоракурсное восприятие: модель сопоставляет несколько видов одной сцены и строит более точное представление о мире.
    • Планирование задач: разбивает абстрактный запрос на конкретные шаги для робота.
    • Оценка успеха: по картинке и контексту решает, выполнена ли подзадача.
  3. Работа с инструментами

    • Gemini Robotics‑ER 1.6 сама вызывает нужные инструменты:
      • Google Search — когда нужно найти инструкцию, параметр или описание объекта;
      • VLA‑модели — чтобы превратить «подуманный» план в последовательность конкретных действий робота;
      • пользовательские функции — всё, что разработчик подключит как API (например, управление манипулятором или чтение lidar‑данных).
  4. Чтение приборов

    • Модель анализирует изображение аналогового прибора или sight glass.
    • Понимает положение стрелки, шкалу, единицы измерения.
    • Сопоставляет это с задачей робота: например, «давление в норме / выше / ниже нужного диапазона».
    • Этот сценарий Google отрабатывала вместе с Boston Dynamics — как раз для реальных промышленных задач.

Физическое исполнение команд остаётся за нижним уровнем: контроллерами, VLA‑моделями и драйверами робота. Gemini Robotics‑ER 1.6 решает, что делать, а не как крутить мотор.

Что это значит для вас

Если вы разрабатываете роботов или роботизированные системы

Где Gemini Robotics‑ER 1.6 будет полезна:

  • Промышленный осмотр и обходы

    • Робот может не только «пройти по маршруту», но и понять, что показывает стрелка прибора.
    • Подходит для сценариев вроде: «обойди цех, прочитай давление на всех манометрах, сообщи, где оно выходит за диапазон».
  • Сложные многошаговые задачи

    • Планирование действий по текстовому описанию: «возьми инструмент, подойди к панели, проверь показания, задокументируй результат».
    • Оценка успеха: робот сам понимает, достиг ли он нужного состояния (например, закрыл ли клапан до конца).
  • Навигация и манипуляции в нагруженной среде

    • Модель лучше справляется с ситуациями, где много объектов, перекрытий и неоднозначных указаний.
    • Указания вида «возьми верхний левый контейнер» становятся реалистичнее для робота.
  • Интеграция с существующей инфраструктурой

    • Через Google Search робот может подтягивать документацию, схемы, описания ошибок.
    • Через пользовательские функции — вызывать ваши внутренние сервисы (SCADA, CMMS, системы учёта).

Где использовать осторожно или не использовать:

  • Критически безопасные сценарии (атомная энергетика, медицина, авиация)

    • Gemini Robotics‑ER 1.6 — облачная модель общего назначения, а не сертифицированная система безопасности.
    • Её лучше применять как вспомогательный уровень, а не как единственный источник решений.
  • Полностью офлайн‑сценарии

    • Модель доступна через облачный Gemini API, поэтому без стабильного подключения к интернету вы её не задействуете.
  • Проекты с жёсткими требованиями к локальному размещению

    • В исходном анонсе нет упоминаний о локальной (on‑prem) версии, только облачный доступ.

Если вы делаете приложения вокруг роботов

Gemini Robotics‑ER 1.6 можно использовать как «reasoning‑бэкенд» для:

  • систем мониторинга, которые анализируют видео с роботов и оценивают, выполнены ли задачи;
  • ассистентов операторов, которые объясняют, что сейчас делает робот и почему;
  • инструментов обучения роботов, где модель помогает формулировать и проверять сценарии.

Доступность из России

Gemini Robotics‑ER 1.6 работает через Gemini API и Google AI Studio. Для доступа к этим сервисам из России чаще всего нужен VPN и учётная запись, которая официально поддерживает работу с Google AI‑сервисами. Это нужно учитывать при планировании коммерческих и промышленных внедрений.

Место на рынке

Gemini Robotics‑ER 1.6 — это специализированное расширение семейства Gemini для задач embodied reasoning. Прямые конкуренты в анонсе не упоминаются, как и числовые сравнения по скорости или цене с другими крупными моделями вроде GPT‑4o или Claude 3.

Google делает ставку на несколько вещей:

  • Связка с экосистемой Google

    • Нативные вызовы Google Search из reasoning‑модели.
    • Интеграция через единый Gemini API и Google AI Studio.
  • Фокус на робототехнике

    • Специализация именно на визуально‑пространственных задачах и планировании для физических агентов.
    • Совместная работа с Boston Dynamics показывает ориентацию на реальные промышленные кейсы, а не только на симуляции.
  • Инструментальный подход

    • Модель изначально спроектирована как «оркестратор» для других систем: VLA‑моделей, пользовательских функций, поисковых сервисов.

Публичных данных о стоимости вызовов Gemini Robotics‑ER 1.6 и сравнении с другими моделями в анонсе нет. Разработчикам придётся ориентироваться на общую тарифную сетку Gemini API и тестировать экономику под свои сценарии нагрузки.

Как запустить

Google предлагает стартовать через:

  • Gemini API — для интеграции в собственные сервисы и робототехнические стеки.
  • Google AI Studio — для быстрых экспериментов с промптами и конфигурациями модели.
  • Colab‑пример — готовый ноутбук с демонстрацией:
    • как настроить модель под embodied‑задачи;
    • как формулировать промпты для планирования, пространственного понимания и чтения приборов.

Конкретный код и команды в анонсе не приводятся, но логика стандартная для Gemini API: вы создаёте проект в Google Cloud, включаете нужные API, получаете ключ и отправляете запросы к модели с описанием задачи и подключёнными инструментами.

Если вы уже используете Gemini 1.5/3.0 или другие модели Google в робототехнике, переход на Gemini Robotics‑ER 1.6 логично начать с небольших пилотов: перевести на неё только слой планирования и success detection, сохранив существующие низкоуровневые контроллеры и VLA‑модели.


Читайте также