Как проверить ИИ на «русский вайб»: мини-бенчмарк генеративных моделей — VogueTech

Что появилось / что изменилось

Автор собрал мини-бенчмарк для генеративной графики, который проверяет не абстрактные метрики, а «русский культурный код» на картинках. Вместо тысячи промптов и сложных чисел — несколько тщательно собранных сцен, где в одном кадре смешаны:

советские мультперсонажи;
конкретные городские локации (например, гранитная набережная Невы и разводные мосты);
локальные маркеры вроде шавермы именно в петербургском смысле;
аксессуары и детали одежды;
нужное настроение и свет (белые ночи, сиреневый полусумрак).

Этот набор промптов автор прогнал через четыре популярных модели, доступных через прокси-сервис:

sourceful/riverflow-v2-pro;
bytedance-seed/seedream-4.5;
openai/gpt-5-image;
google/gemini-3.1-flash-image-preview.

Отдельно он смотрел на результаты Nano Banana — именно с неё началась идея теста, когда модель неожиданно точно попала в вайб «сюр на фоне советских панелек».

Главное изменение по сравнению с классическими бенчмарками: оценка идёт не по отдельным метрикам вроде prompt adherence или detail fidelity, а по целостному впечатлению. Картинка либо «живая» и узнаваемая, либо мимо.

Как это работает

Бенчмарк строится вокруг сложных культурных промптов. Пример:

«Советский Винни-Пух с шавермой и Пятачок в круглых интеллигентских очках и кепи сидят на гранитной набережной Невы белой ночью и ждут развод мостов»

В один короткий текст зашито сразу несколько проверок:

Стиль персонажей. Модель должна знать советский дизайн Винни-Пуха и Пятачка и не скатиться в диснеевский стиль.
Локальный сленг. «Шаверма» как петербургский маркер, а не абстрактная шаурма где угодно.
Аксессуары. Очки и кепи на Пятачке, но при этом персонаж остаётся узнаваемым.
Архитектура. Гранитная набережная Невы, а не любая «река с парапетом».
Свет и атмосфера. Белая ночь — сиреневый полусвет, а не чёрное небо с луной.
Разводной мост. Конкретный, узнаваемый силуэт, а не случайный мост.
Композиция. Всё должно сложиться в цельную сцену с настроением, а не в коллаж из перечисленных предметов.

Оценка идёт глазами человека: автор ставит результаты разных моделей рядом и смотрит, кто попал в культурный контекст и вайб, а кто нет. Без баллов и таблиц, только визуальное сравнение.

По первому примеру выводы такие:

Nano Banana — лучший результат по атмосфере и узнаваемости, «подняла планку» по русскому вайбу.
gpt-5-image — мультяшно, но промпт отработан, технически задание выполнено.
riverflow-v2-pro — харизматичная сцена, условно засчитано.
gemini-3.1-flash-image-preview — ушла в реализм, но Пятачок получился очень «по‑питерски», автор засчитывает.
seedream-4.5 — промах по стилю: диснеевский Винни-Пух, Пятачок неузнаваем, атмосфера слабая.

Что это значит для вас

Если вы работаете с визуалом для русскоязычной аудитории — дизайн, медиа, маркетинг, продуктовые интерфейсы — простых метрик генерации уже мало. Важнее, понимает ли модель ваш культурный контекст:

отличает ли советский мультстиль от диснеевского;
чувствует ли разницу между «шавермой в Питере» и «шаурмой где-то»;
умеет ли передать белые ночи, хрущёвки, панельки, типичные дворы и жесты.

Практический вывод: прежде чем тащить модель в рабочий процесс, имеет смысл прогнать её через несколько своих «культурных» промптов. В духе примера с Винни-Пухом, но под ваши задачи: бренды, города, мемы, локальные маркеры.

Где это помогает:

подготовка иллюстраций к презентациям и питчам для локального рынка;
промо‑креативы, которые должны «своим» казаться сразу;
сторителлинг и концепт-арт, завязанные на постсоветский визуальный опыт.

Где такой подход мало полезен:

сугубо технические схемы и абстрактные иллюстрации без культурной нагрузки;
проекты для глобальной аудитории, где локальные маркеры могут мешать.

Если сервис с нужной моделью официально не работает из России, потребуется VPN или прокси-доступ — автор как раз использовал прокси-сервис к нескольким моделям.

Место на рынке

Автор не строит формальный рейтинг, но по конкретному примеру с Винни-Пухом картина такая:

Nano Banana — лучше всех попала в атмосферу русской сцены: панельки, вайб, настроение. Именно с неё началась идея культурного теста.
gpt-5-image — уверенно выполняет промпт, пусть и в более универсальной мультяшной стилистике.
riverflow-v2-pro — выдаёт харизматичные картинки, которые можно использовать, если важен общий настрой, а не точное следование канону.
gemini-3.1-flash-image-preview — стремится к реализму, иногда теряет мультстиль, но может неожиданно точно попасть в локальный характер персонажа.
bytedance-seed/seedream-4.5 — по этому тесту слабее остальных: диснеевские персонажи вместо советских и потеря культурной узнаваемости.

Чётких цифр по скорости, стоимости генерации или размеру контекста автор не приводит. Смысл бенчмарка — не в производительности, а в проверке: «можно ли эту картинку сразу показать друзьям или положить в серьёзную презу для русскоязычной аудитории».

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также