Дата публикации
ai_products

Gemini API File Search научили понимать картинки и давать ссылки на страницы

Что нового

Google расширила возможности Gemini API File Search. Теперь это не просто поиск по текстовым файлам, а базовый строительный блок для RAG‑систем, которые работают и с текстом, и с изображениями.

Конкретно добавили три вещи:

  1. Мультимодальный поиск
    File Search теперь индексирует и понимает изображения вместе с текстом. За это отвечает модель Gemini Embedding 2, которая строит общие векторы для текстов и картинок. Можно:

    • искать нужное изображение по текстовому описанию;
    • комбинировать текстовые и визуальные данные в одном индексе;
    • давать моделям более контекстный доступ к данным (например, скриншоты, фото, презентации).
  2. Пользовательские метаданные (custom metadata)
    К каждому загруженному файлу можно прикрепить свои поля в формате ключ–значение. Например:

    • {"project": "campaign_summer_2026", "client": "BrandX", "region": "EU"}.
      При запросе можно фильтровать по этим метаданным и работать только с нужным срезом данных.
  3. Цитирование на уровне страниц (page-level citations)
    File Search теперь хранит привязку фрагментов текста к конкретным страницам исходного документа (например, PDF). В ответах RAG‑системы можно показывать, с какой страницы взят тот или иной факт.

Google подаёт это как способ строить RAG‑приложения, которые работают быстрее и прозрачнее, потому что меньше ищут «вслепую» и всегда могут сослаться на источник.

Как это работает

Мультимодальный поиск

Под капотом File Search использует Gemini Embedding 2 — модель, которая кодирует текст и изображения в общее векторное пространство. Это даёт несколько эффектов:

  • Текстовый запрос можно сравнивать с изображениями напрямую через косинусное сходство эмбеддингов.
  • Одна и та же коллекция файлов может содержать PDF, txt, изображения, и всё это участвует в одном поисковом ранжировании.
  • RAG‑агент получает не просто «сырые» файлы, а уже отсортированный по релевантности список фрагментов.

Пример из Google: креативное агентство хранит большой архив визуалов. Вместо того чтобы помнить имена файлов, можно написать запрос в духе: «найди постер с мягким тёплым светом и минималистичной типографикой для осенней кампании» — и File Search вернёт подходящие изображения.

Метаданные и фильтрация

Каждый файл в File Search — это не только содержимое, но и набор метаданных. Разработчик сам решает, какие поля добавить: проект, тип документа, отдел, регион, дата, версия и т.д.

При запросе можно:

  • ограничить поиск по конкретному клиенту;
  • исключить черновики ("status": "draft");
  • работать только с документами определённого формата или периода.

Фильтрация идёт до ранжирования по эмбеддингам. Это снижает количество нерелевантных кандидатов и уменьшает нагрузку на модель, которая генерирует ответ.

Цитирование страниц

Когда File Search индексирует, например, PDF, он разбивает документ на фрагменты и хранит для каждого:

  • текст;
  • векторное представление;
  • номер страницы.

Когда RAG‑система формирует ответ, она опирается на эти фрагменты. File Search возвращает не только текст, но и информацию, с какой страницы он пришёл. Приложение может:

  • показать пользователю ссылку вида «см. стр. 17»;
  • подсветить нужный фрагмент в просмотрщике PDF;
  • собирать отчёт с точными ссылками на исходники.

Что это значит для вас

Для кого это полезно

Разработчики и компании, которые уже строят RAG‑сервисы или внутренние ассистенты.

Новые функции особенно полезны, если вы:

  • работаете с большим количеством визуального контента: маркетинг, дизайн, e‑commerce, документация со схемами и скриншотами;
  • храните данные в PDF и презентациях, где важны точные ссылки на страницы (юридические документы, регламенты, отчёты);
  • строите ассистентов для корпоративных знаний, где критично отфильтровать по проекту, отделу, региону или уровню доступа.

Где это реально помогает

  1. Креативные студии и маркетинговые отделы

    • поиск референсов по описанию настроения и стиля, а не по имени файла;
    • быстрый доступ к старым кампаниям через фильтр по клиенту и году.
  2. Юридические и комплаенс‑отделы

    • ассистент может отвечать на вопросы по нормативам и сразу показывать страницу, где написан нужный пункт;
    • меньше споров «откуда это взялось» — ссылка на PDF и страницу всегда под рукой.
  3. Обучающие платформы и университеты

    • поиск по лекциям, конспектам и слайдам с привязкой к страницам и слайдам;
    • преподаватели и студенты могут быстро проверять, как именно сформулировано правило или определение в исходном материале.
  4. Техподдержка и документация

    • RAG‑бот по документации продукта с картинками и скриншотами интерфейса;
    • поиск по релевантным версиям мануалов через метаданные (версия ПО, продуктовая линейка).

Где лучше не рассчитывать на чудо

  • Финансовая и критичная аналитика без человеческой проверки.
    Page‑level citations помогают проверять ответы, но модель всё равно может ошибаться при интерпретации текста. Для решений «под подпись» нужен человек в контуре.

  • Проекты без доступа к Google‑сервисам.
    Если инфраструктура компании запрещает выход во внешние облака, придётся искать он‑прем решения.

  • Сценарии с жёсткими требованиями к локализации данных (строгий регулятор).
    Если политика обязывает хранить данные только в определённой юрисдикции, нужно внимательно изучать условия Google Cloud и региональные настройки.

Доступность из России

Gemini API и связанные с ним инструменты, включая File Search, официально завязаны на инфраструктуру Google. Для российских пользователей и компаний доступ может быть ограничен по юридическим и санкционным причинам. На практике многие такие сервисы требуют VPN и аккаунты, зарегистрированные вне РФ. Перед использованием в продакшене стоит проверить юридические риски и условия доступа.

Место на рынке

Google явно нацеливает File Search на разработчиков, которые строят RAG‑системы поверх собственных данных и уже используют Gemini API.

По ключевым признакам:

  • Мультимодальность.
    File Search сразу даёт связку «текст + изображения» в одном API. Это удобно, если вы уже работаете с Gemini и не хотите собирать свой стек из отдельных эмбеддинговых моделей и векторных баз.

  • Глубокая интеграция с экосистемой Gemini.
    Один и тот же API закрывает загрузку файлов, поиск, RAG и генерацию. Меньше клея между сервисами, но вы сильнее привязаны к экосистеме Google.

  • Прозрачность через page‑level citations.
    Для корпоративных сценариев это серьёзный плюс: легче согласовать запуск ассистента, когда любой ответ можно проверить по ссылке на страницу.

Google в этом анонсе не приводит цифр по скорости, стоимости запросов или сравнению с другими вендорами. Фактические характеристики будут зависеть от тарифа Gemini API и конфигурации проекта.

Если вы уже используете другие решения для RAG (свои эмбеддинги, векторные базы, отдельные LLM), File Search — это скорее готовый «комбайн» внутри экосистемы Google. Если вы только начинаете и готовы строиться вокруг Gemini, обновление с мультимодальностью и цитированием страниц закрывает большую часть базовых потребностей для RAG‑приложений без сложной собственной инфраструктуры.


Читайте также