- Дата публикации
Gemini API File Search научили понимать картинки и давать ссылки на страницы
Что нового
Google расширила возможности Gemini API File Search. Теперь это не просто поиск по текстовым файлам, а базовый строительный блок для RAG‑систем, которые работают и с текстом, и с изображениями.
Конкретно добавили три вещи:
-
Мультимодальный поиск
File Search теперь индексирует и понимает изображения вместе с текстом. За это отвечает модель Gemini Embedding 2, которая строит общие векторы для текстов и картинок. Можно:- искать нужное изображение по текстовому описанию;
- комбинировать текстовые и визуальные данные в одном индексе;
- давать моделям более контекстный доступ к данным (например, скриншоты, фото, презентации).
-
Пользовательские метаданные (custom metadata)
К каждому загруженному файлу можно прикрепить свои поля в формате ключ–значение. Например:{"project": "campaign_summer_2026", "client": "BrandX", "region": "EU"}.
При запросе можно фильтровать по этим метаданным и работать только с нужным срезом данных.
-
Цитирование на уровне страниц (page-level citations)
File Search теперь хранит привязку фрагментов текста к конкретным страницам исходного документа (например, PDF). В ответах RAG‑системы можно показывать, с какой страницы взят тот или иной факт.
Google подаёт это как способ строить RAG‑приложения, которые работают быстрее и прозрачнее, потому что меньше ищут «вслепую» и всегда могут сослаться на источник.
Как это работает
Мультимодальный поиск
Под капотом File Search использует Gemini Embedding 2 — модель, которая кодирует текст и изображения в общее векторное пространство. Это даёт несколько эффектов:
- Текстовый запрос можно сравнивать с изображениями напрямую через косинусное сходство эмбеддингов.
- Одна и та же коллекция файлов может содержать PDF, txt, изображения, и всё это участвует в одном поисковом ранжировании.
- RAG‑агент получает не просто «сырые» файлы, а уже отсортированный по релевантности список фрагментов.
Пример из Google: креативное агентство хранит большой архив визуалов. Вместо того чтобы помнить имена файлов, можно написать запрос в духе: «найди постер с мягким тёплым светом и минималистичной типографикой для осенней кампании» — и File Search вернёт подходящие изображения.
Метаданные и фильтрация
Каждый файл в File Search — это не только содержимое, но и набор метаданных. Разработчик сам решает, какие поля добавить: проект, тип документа, отдел, регион, дата, версия и т.д.
При запросе можно:
- ограничить поиск по конкретному клиенту;
- исключить черновики (
"status": "draft"); - работать только с документами определённого формата или периода.
Фильтрация идёт до ранжирования по эмбеддингам. Это снижает количество нерелевантных кандидатов и уменьшает нагрузку на модель, которая генерирует ответ.
Цитирование страниц
Когда File Search индексирует, например, PDF, он разбивает документ на фрагменты и хранит для каждого:
- текст;
- векторное представление;
- номер страницы.
Когда RAG‑система формирует ответ, она опирается на эти фрагменты. File Search возвращает не только текст, но и информацию, с какой страницы он пришёл. Приложение может:
- показать пользователю ссылку вида «см. стр. 17»;
- подсветить нужный фрагмент в просмотрщике PDF;
- собирать отчёт с точными ссылками на исходники.
Что это значит для вас
Для кого это полезно
Разработчики и компании, которые уже строят RAG‑сервисы или внутренние ассистенты.
Новые функции особенно полезны, если вы:
- работаете с большим количеством визуального контента: маркетинг, дизайн, e‑commerce, документация со схемами и скриншотами;
- храните данные в PDF и презентациях, где важны точные ссылки на страницы (юридические документы, регламенты, отчёты);
- строите ассистентов для корпоративных знаний, где критично отфильтровать по проекту, отделу, региону или уровню доступа.
Где это реально помогает
-
Креативные студии и маркетинговые отделы
- поиск референсов по описанию настроения и стиля, а не по имени файла;
- быстрый доступ к старым кампаниям через фильтр по клиенту и году.
-
Юридические и комплаенс‑отделы
- ассистент может отвечать на вопросы по нормативам и сразу показывать страницу, где написан нужный пункт;
- меньше споров «откуда это взялось» — ссылка на PDF и страницу всегда под рукой.
-
Обучающие платформы и университеты
- поиск по лекциям, конспектам и слайдам с привязкой к страницам и слайдам;
- преподаватели и студенты могут быстро проверять, как именно сформулировано правило или определение в исходном материале.
-
Техподдержка и документация
- RAG‑бот по документации продукта с картинками и скриншотами интерфейса;
- поиск по релевантным версиям мануалов через метаданные (версия ПО, продуктовая линейка).
Где лучше не рассчитывать на чудо
-
Финансовая и критичная аналитика без человеческой проверки.
Page‑level citations помогают проверять ответы, но модель всё равно может ошибаться при интерпретации текста. Для решений «под подпись» нужен человек в контуре. -
Проекты без доступа к Google‑сервисам.
Если инфраструктура компании запрещает выход во внешние облака, придётся искать он‑прем решения. -
Сценарии с жёсткими требованиями к локализации данных (строгий регулятор).
Если политика обязывает хранить данные только в определённой юрисдикции, нужно внимательно изучать условия Google Cloud и региональные настройки.
Доступность из России
Gemini API и связанные с ним инструменты, включая File Search, официально завязаны на инфраструктуру Google. Для российских пользователей и компаний доступ может быть ограничен по юридическим и санкционным причинам. На практике многие такие сервисы требуют VPN и аккаунты, зарегистрированные вне РФ. Перед использованием в продакшене стоит проверить юридические риски и условия доступа.
Место на рынке
Google явно нацеливает File Search на разработчиков, которые строят RAG‑системы поверх собственных данных и уже используют Gemini API.
По ключевым признакам:
-
Мультимодальность.
File Search сразу даёт связку «текст + изображения» в одном API. Это удобно, если вы уже работаете с Gemini и не хотите собирать свой стек из отдельных эмбеддинговых моделей и векторных баз. -
Глубокая интеграция с экосистемой Gemini.
Один и тот же API закрывает загрузку файлов, поиск, RAG и генерацию. Меньше клея между сервисами, но вы сильнее привязаны к экосистеме Google. -
Прозрачность через page‑level citations.
Для корпоративных сценариев это серьёзный плюс: легче согласовать запуск ассистента, когда любой ответ можно проверить по ссылке на страницу.
Google в этом анонсе не приводит цифр по скорости, стоимости запросов или сравнению с другими вендорами. Фактические характеристики будут зависеть от тарифа Gemini API и конфигурации проекта.
Если вы уже используете другие решения для RAG (свои эмбеддинги, векторные базы, отдельные LLM), File Search — это скорее готовый «комбайн» внутри экосистемы Google. Если вы только начинаете и готовы строиться вокруг Gemini, обновление с мультимодальностью и цитированием страниц закрывает большую часть базовых потребностей для RAG‑приложений без сложной собственной инфраструктуры.