Gemini API File Search научили понимать картинки и давать ссылки на страницы — VogueTech

Что нового

Google расширила возможности Gemini API File Search. Теперь это не просто поиск по текстовым файлам, а базовый строительный блок для RAG‑систем, которые работают и с текстом, и с изображениями.

Конкретно добавили три вещи:

Мультимодальный поиск
File Search теперь индексирует и понимает изображения вместе с текстом. За это отвечает модель Gemini Embedding 2, которая строит общие векторы для текстов и картинок. Можно:
- искать нужное изображение по текстовому описанию;
- комбинировать текстовые и визуальные данные в одном индексе;
- давать моделям более контекстный доступ к данным (например, скриншоты, фото, презентации).
Пользовательские метаданные (custom metadata)
К каждому загруженному файлу можно прикрепить свои поля в формате ключ–значение. Например:
- {"project": "campaign_summer_2026", "client": "BrandX", "region": "EU"}.
  При запросе можно фильтровать по этим метаданным и работать только с нужным срезом данных.
Цитирование на уровне страниц (page-level citations)
File Search теперь хранит привязку фрагментов текста к конкретным страницам исходного документа (например, PDF). В ответах RAG‑системы можно показывать, с какой страницы взят тот или иной факт.

Google подаёт это как способ строить RAG‑приложения, которые работают быстрее и прозрачнее, потому что меньше ищут «вслепую» и всегда могут сослаться на источник.

Как это работает

Мультимодальный поиск

Под капотом File Search использует Gemini Embedding 2 — модель, которая кодирует текст и изображения в общее векторное пространство. Это даёт несколько эффектов:

Текстовый запрос можно сравнивать с изображениями напрямую через косинусное сходство эмбеддингов.
Одна и та же коллекция файлов может содержать PDF, txt, изображения, и всё это участвует в одном поисковом ранжировании.
RAG‑агент получает не просто «сырые» файлы, а уже отсортированный по релевантности список фрагментов.

Пример из Google: креативное агентство хранит большой архив визуалов. Вместо того чтобы помнить имена файлов, можно написать запрос в духе: «найди постер с мягким тёплым светом и минималистичной типографикой для осенней кампании» — и File Search вернёт подходящие изображения.

Метаданные и фильтрация

Каждый файл в File Search — это не только содержимое, но и набор метаданных. Разработчик сам решает, какие поля добавить: проект, тип документа, отдел, регион, дата, версия и т.д.

При запросе можно:

ограничить поиск по конкретному клиенту;
исключить черновики ("status": "draft");
работать только с документами определённого формата или периода.

Фильтрация идёт до ранжирования по эмбеддингам. Это снижает количество нерелевантных кандидатов и уменьшает нагрузку на модель, которая генерирует ответ.

Цитирование страниц

Когда File Search индексирует, например, PDF, он разбивает документ на фрагменты и хранит для каждого:

текст;
векторное представление;
номер страницы.

Когда RAG‑система формирует ответ, она опирается на эти фрагменты. File Search возвращает не только текст, но и информацию, с какой страницы он пришёл. Приложение может:

показать пользователю ссылку вида «см. стр. 17»;
подсветить нужный фрагмент в просмотрщике PDF;
собирать отчёт с точными ссылками на исходники.

Что это значит для вас

Для кого это полезно

Разработчики и компании, которые уже строят RAG‑сервисы или внутренние ассистенты.

Новые функции особенно полезны, если вы:

работаете с большим количеством визуального контента: маркетинг, дизайн, e‑commerce, документация со схемами и скриншотами;
храните данные в PDF и презентациях, где важны точные ссылки на страницы (юридические документы, регламенты, отчёты);
строите ассистентов для корпоративных знаний, где критично отфильтровать по проекту, отделу, региону или уровню доступа.

Где это реально помогает

Креативные студии и маркетинговые отделы
- поиск референсов по описанию настроения и стиля, а не по имени файла;
- быстрый доступ к старым кампаниям через фильтр по клиенту и году.
Юридические и комплаенс‑отделы
- ассистент может отвечать на вопросы по нормативам и сразу показывать страницу, где написан нужный пункт;
- меньше споров «откуда это взялось» — ссылка на PDF и страницу всегда под рукой.
Обучающие платформы и университеты
- поиск по лекциям, конспектам и слайдам с привязкой к страницам и слайдам;
- преподаватели и студенты могут быстро проверять, как именно сформулировано правило или определение в исходном материале.
Техподдержка и документация
- RAG‑бот по документации продукта с картинками и скриншотами интерфейса;
- поиск по релевантным версиям мануалов через метаданные (версия ПО, продуктовая линейка).

Где лучше не рассчитывать на чудо

Финансовая и критичная аналитика без человеческой проверки.
Page‑level citations помогают проверять ответы, но модель всё равно может ошибаться при интерпретации текста. Для решений «под подпись» нужен человек в контуре.
Проекты без доступа к Google‑сервисам.
Если инфраструктура компании запрещает выход во внешние облака, придётся искать он‑прем решения.
Сценарии с жёсткими требованиями к локализации данных (строгий регулятор).
Если политика обязывает хранить данные только в определённой юрисдикции, нужно внимательно изучать условия Google Cloud и региональные настройки.

Доступность из России

Gemini API и связанные с ним инструменты, включая File Search, официально завязаны на инфраструктуру Google. Для российских пользователей и компаний доступ может быть ограничен по юридическим и санкционным причинам. На практике многие такие сервисы требуют VPN и аккаунты, зарегистрированные вне РФ. Перед использованием в продакшене стоит проверить юридические риски и условия доступа.

Место на рынке

Google явно нацеливает File Search на разработчиков, которые строят RAG‑системы поверх собственных данных и уже используют Gemini API.

По ключевым признакам:

Мультимодальность.
File Search сразу даёт связку «текст + изображения» в одном API. Это удобно, если вы уже работаете с Gemini и не хотите собирать свой стек из отдельных эмбеддинговых моделей и векторных баз.
Глубокая интеграция с экосистемой Gemini.
Один и тот же API закрывает загрузку файлов, поиск, RAG и генерацию. Меньше клея между сервисами, но вы сильнее привязаны к экосистеме Google.
Прозрачность через page‑level citations.
Для корпоративных сценариев это серьёзный плюс: легче согласовать запуск ассистента, когда любой ответ можно проверить по ссылке на страницу.

Google в этом анонсе не приводит цифр по скорости, стоимости запросов или сравнению с другими вендорами. Фактические характеристики будут зависеть от тарифа Gemini API и конфигурации проекта.

Если вы уже используете другие решения для RAG (свои эмбеддинги, векторные базы, отдельные LLM), File Search — это скорее готовый «комбайн» внутри экосистемы Google. Если вы только начинаете и готовы строиться вокруг Gemini, обновление с мультимодальностью и цитированием страниц закрывает большую часть базовых потребностей для RAG‑приложений без сложной собственной инфраструктуры.