- Дата публикации
Gemini Robotics‑ER 1.6: как Google учит роботов понимать реальный мир
Что нового
Google DeepMind выпустила Gemini Robotics‑ER 1.6 — обновление «reasoning‑first» модели, которая отвечает за мышление роботов в реальном мире.
Ключевые изменения по сравнению с Gemini Robotics‑ER 1.5 и Gemini 3.0 Flash:
- Улучшено пространственное и физическое мышление:
- точнее работает с указаниями типа «возьми вон тот предмет» (pointing);
- лучше считает объекты в сцене (counting);
- надёжнее определяет, выполнена ли задача (success detection).
- Появилась новая функция — чтение приборов (instrument reading):
- роботы могут распознавать показания сложных аналоговых датчиков;
- понимают шкалы манометров, уровнемеров, sight glasses и других промышленных индикаторов.
- Модель стала лучше понимать окружающую среду сразу с нескольких ракурсов (multi‑view understanding), что критично для навигации и работы с объектами.
- Gemini Robotics‑ER 1.6 можно использовать как «мозг высокого уровня» для робота:
- модель сама вызывает Google Search для поиска информации;
- умеет работать поверх vision‑language‑action моделей (VLA);
- поддерживает подключение любых сторонних функций как инструментов.
- С сегодняшнего дня Gemini Robotics‑ER 1.6 доступна разработчикам через Gemini API и Google AI Studio.
Числовых бенчмарков Google не приводит, но прямо говорит о заметном росте качества именно в задачах пространственного и физического рассуждения.
Как это работает
Gemini Robotics‑ER 1.6 — это не «мозг робота целиком», а слой высокого уровня, который думает о задаче и мире, а затем делегирует действие другим системам.
Схематично архитектура выглядит так:
-
Входные данные
- Видео или изображения с камер робота.
- Текстовые инструкции от человека или внешней системы.
- Состояние датчиков и внутренних модулей (например, успешность предыдущих шагов).
-
Embodied reasoning (воплощённое рассуждение)
- Пространственное понимание: где что находится, что с чем связано.
- Многоракурсное восприятие: модель сопоставляет несколько видов одной сцены и строит более точное представление о мире.
- Планирование задач: разбивает абстрактный запрос на конкретные шаги для робота.
- Оценка успеха: по картинке и контексту решает, выполнена ли подзадача.
-
Работа с инструментами
- Gemini Robotics‑ER 1.6 сама вызывает нужные инструменты:
- Google Search — когда нужно найти инструкцию, параметр или описание объекта;
- VLA‑модели — чтобы превратить «подуманный» план в последовательность конкретных действий робота;
- пользовательские функции — всё, что разработчик подключит как API (например, управление манипулятором или чтение lidar‑данных).
- Gemini Robotics‑ER 1.6 сама вызывает нужные инструменты:
-
Чтение приборов
- Модель анализирует изображение аналогового прибора или sight glass.
- Понимает положение стрелки, шкалу, единицы измерения.
- Сопоставляет это с задачей робота: например, «давление в норме / выше / ниже нужного диапазона».
- Этот сценарий Google отрабатывала вместе с Boston Dynamics — как раз для реальных промышленных задач.
Физическое исполнение команд остаётся за нижним уровнем: контроллерами, VLA‑моделями и драйверами робота. Gemini Robotics‑ER 1.6 решает, что делать, а не как крутить мотор.
Что это значит для вас
Если вы разрабатываете роботов или роботизированные системы
Где Gemini Robotics‑ER 1.6 будет полезна:
-
Промышленный осмотр и обходы
- Робот может не только «пройти по маршруту», но и понять, что показывает стрелка прибора.
- Подходит для сценариев вроде: «обойди цех, прочитай давление на всех манометрах, сообщи, где оно выходит за диапазон».
-
Сложные многошаговые задачи
- Планирование действий по текстовому описанию: «возьми инструмент, подойди к панели, проверь показания, задокументируй результат».
- Оценка успеха: робот сам понимает, достиг ли он нужного состояния (например, закрыл ли клапан до конца).
-
Навигация и манипуляции в нагруженной среде
- Модель лучше справляется с ситуациями, где много объектов, перекрытий и неоднозначных указаний.
- Указания вида «возьми верхний левый контейнер» становятся реалистичнее для робота.
-
Интеграция с существующей инфраструктурой
- Через Google Search робот может подтягивать документацию, схемы, описания ошибок.
- Через пользовательские функции — вызывать ваши внутренние сервисы (SCADA, CMMS, системы учёта).
Где использовать осторожно или не использовать:
-
Критически безопасные сценарии (атомная энергетика, медицина, авиация)
- Gemini Robotics‑ER 1.6 — облачная модель общего назначения, а не сертифицированная система безопасности.
- Её лучше применять как вспомогательный уровень, а не как единственный источник решений.
-
Полностью офлайн‑сценарии
- Модель доступна через облачный Gemini API, поэтому без стабильного подключения к интернету вы её не задействуете.
-
Проекты с жёсткими требованиями к локальному размещению
- В исходном анонсе нет упоминаний о локальной (on‑prem) версии, только облачный доступ.
Если вы делаете приложения вокруг роботов
Gemini Robotics‑ER 1.6 можно использовать как «reasoning‑бэкенд» для:
- систем мониторинга, которые анализируют видео с роботов и оценивают, выполнены ли задачи;
- ассистентов операторов, которые объясняют, что сейчас делает робот и почему;
- инструментов обучения роботов, где модель помогает формулировать и проверять сценарии.
Доступность из России
Gemini Robotics‑ER 1.6 работает через Gemini API и Google AI Studio. Для доступа к этим сервисам из России чаще всего нужен VPN и учётная запись, которая официально поддерживает работу с Google AI‑сервисами. Это нужно учитывать при планировании коммерческих и промышленных внедрений.
Место на рынке
Gemini Robotics‑ER 1.6 — это специализированное расширение семейства Gemini для задач embodied reasoning. Прямые конкуренты в анонсе не упоминаются, как и числовые сравнения по скорости или цене с другими крупными моделями вроде GPT‑4o или Claude 3.
Google делает ставку на несколько вещей:
-
Связка с экосистемой Google
- Нативные вызовы Google Search из reasoning‑модели.
- Интеграция через единый Gemini API и Google AI Studio.
-
Фокус на робототехнике
- Специализация именно на визуально‑пространственных задачах и планировании для физических агентов.
- Совместная работа с Boston Dynamics показывает ориентацию на реальные промышленные кейсы, а не только на симуляции.
-
Инструментальный подход
- Модель изначально спроектирована как «оркестратор» для других систем: VLA‑моделей, пользовательских функций, поисковых сервисов.
Публичных данных о стоимости вызовов Gemini Robotics‑ER 1.6 и сравнении с другими моделями в анонсе нет. Разработчикам придётся ориентироваться на общую тарифную сетку Gemini API и тестировать экономику под свои сценарии нагрузки.
Как запустить
Google предлагает стартовать через:
- Gemini API — для интеграции в собственные сервисы и робототехнические стеки.
- Google AI Studio — для быстрых экспериментов с промптами и конфигурациями модели.
- Colab‑пример — готовый ноутбук с демонстрацией:
- как настроить модель под embodied‑задачи;
- как формулировать промпты для планирования, пространственного понимания и чтения приборов.
Конкретный код и команды в анонсе не приводятся, но логика стандартная для Gemini API: вы создаёте проект в Google Cloud, включаете нужные API, получаете ключ и отправляете запросы к модели с описанием задачи и подключёнными инструментами.
Если вы уже используете Gemini 1.5/3.0 или другие модели Google в робототехнике, переход на Gemini Robotics‑ER 1.6 логично начать с небольших пилотов: перевести на неё только слой планирования и success detection, сохранив существующие низкоуровневые контроллеры и VLA‑модели.