Дата публикации
ai_products

Как проверить ИИ на «русский вайб»: мини-бенчмарк генеративных моделей

Что появилось / что изменилось

Автор собрал мини-бенчмарк для генеративной графики, который проверяет не абстрактные метрики, а «русский культурный код» на картинках. Вместо тысячи промптов и сложных чисел — несколько тщательно собранных сцен, где в одном кадре смешаны:

  • советские мультперсонажи;
  • конкретные городские локации (например, гранитная набережная Невы и разводные мосты);
  • локальные маркеры вроде шавермы именно в петербургском смысле;
  • аксессуары и детали одежды;
  • нужное настроение и свет (белые ночи, сиреневый полусумрак).

Этот набор промптов автор прогнал через четыре популярных модели, доступных через прокси-сервис:

  • sourceful/riverflow-v2-pro;
  • bytedance-seed/seedream-4.5;
  • openai/gpt-5-image;
  • google/gemini-3.1-flash-image-preview.

Отдельно он смотрел на результаты Nano Banana — именно с неё началась идея теста, когда модель неожиданно точно попала в вайб «сюр на фоне советских панелек».

Главное изменение по сравнению с классическими бенчмарками: оценка идёт не по отдельным метрикам вроде prompt adherence или detail fidelity, а по целостному впечатлению. Картинка либо «живая» и узнаваемая, либо мимо.

Как это работает

Бенчмарк строится вокруг сложных культурных промптов. Пример:

«Советский Винни-Пух с шавермой и Пятачок в круглых интеллигентских очках и кепи сидят на гранитной набережной Невы белой ночью и ждут развод мостов»

В один короткий текст зашито сразу несколько проверок:

  1. Стиль персонажей. Модель должна знать советский дизайн Винни-Пуха и Пятачка и не скатиться в диснеевский стиль.
  2. Локальный сленг. «Шаверма» как петербургский маркер, а не абстрактная шаурма где угодно.
  3. Аксессуары. Очки и кепи на Пятачке, но при этом персонаж остаётся узнаваемым.
  4. Архитектура. Гранитная набережная Невы, а не любая «река с парапетом».
  5. Свет и атмосфера. Белая ночь — сиреневый полусвет, а не чёрное небо с луной.
  6. Разводной мост. Конкретный, узнаваемый силуэт, а не случайный мост.
  7. Композиция. Всё должно сложиться в цельную сцену с настроением, а не в коллаж из перечисленных предметов.

Оценка идёт глазами человека: автор ставит результаты разных моделей рядом и смотрит, кто попал в культурный контекст и вайб, а кто нет. Без баллов и таблиц, только визуальное сравнение.

По первому примеру выводы такие:

  • Nano Banana — лучший результат по атмосфере и узнаваемости, «подняла планку» по русскому вайбу.
  • gpt-5-image — мультяшно, но промпт отработан, технически задание выполнено.
  • riverflow-v2-pro — харизматичная сцена, условно засчитано.
  • gemini-3.1-flash-image-preview — ушла в реализм, но Пятачок получился очень «по‑питерски», автор засчитывает.
  • seedream-4.5 — промах по стилю: диснеевский Винни-Пух, Пятачок неузнаваем, атмосфера слабая.

Что это значит для вас

Если вы работаете с визуалом для русскоязычной аудитории — дизайн, медиа, маркетинг, продуктовые интерфейсы — простых метрик генерации уже мало. Важнее, понимает ли модель ваш культурный контекст:

  • отличает ли советский мультстиль от диснеевского;
  • чувствует ли разницу между «шавермой в Питере» и «шаурмой где-то»;
  • умеет ли передать белые ночи, хрущёвки, панельки, типичные дворы и жесты.

Практический вывод: прежде чем тащить модель в рабочий процесс, имеет смысл прогнать её через несколько своих «культурных» промптов. В духе примера с Винни-Пухом, но под ваши задачи: бренды, города, мемы, локальные маркеры.

Где это помогает:

  • подготовка иллюстраций к презентациям и питчам для локального рынка;
  • промо‑креативы, которые должны «своим» казаться сразу;
  • сторителлинг и концепт-арт, завязанные на постсоветский визуальный опыт.

Где такой подход мало полезен:

  • сугубо технические схемы и абстрактные иллюстрации без культурной нагрузки;
  • проекты для глобальной аудитории, где локальные маркеры могут мешать.

Если сервис с нужной моделью официально не работает из России, потребуется VPN или прокси-доступ — автор как раз использовал прокси-сервис к нескольким моделям.

Место на рынке

Автор не строит формальный рейтинг, но по конкретному примеру с Винни-Пухом картина такая:

  • Nano Banana — лучше всех попала в атмосферу русской сцены: панельки, вайб, настроение. Именно с неё началась идея культурного теста.
  • gpt-5-image — уверенно выполняет промпт, пусть и в более универсальной мультяшной стилистике.
  • riverflow-v2-pro — выдаёт харизматичные картинки, которые можно использовать, если важен общий настрой, а не точное следование канону.
  • gemini-3.1-flash-image-preview — стремится к реализму, иногда теряет мультстиль, но может неожиданно точно попасть в локальный характер персонажа.
  • bytedance-seed/seedream-4.5 — по этому тесту слабее остальных: диснеевские персонажи вместо советских и потеря культурной узнаваемости.

Чётких цифр по скорости, стоимости генерации или размеру контекста автор не приводит. Смысл бенчмарка — не в производительности, а в проверке: «можно ли эту картинку сразу показать друзьям или положить в серьёзную презу для русскоязычной аудитории».


Читайте также

Как проверить ИИ на «русский вайб»: мини-бенчмарк генеративных моделей — VogueTech | VogueTech