- Дата публикации
Как проверить ИИ на «русский вайб»: мини-бенчмарк генеративных моделей
Что появилось / что изменилось
Автор собрал мини-бенчмарк для генеративной графики, который проверяет не абстрактные метрики, а «русский культурный код» на картинках. Вместо тысячи промптов и сложных чисел — несколько тщательно собранных сцен, где в одном кадре смешаны:
- советские мультперсонажи;
- конкретные городские локации (например, гранитная набережная Невы и разводные мосты);
- локальные маркеры вроде шавермы именно в петербургском смысле;
- аксессуары и детали одежды;
- нужное настроение и свет (белые ночи, сиреневый полусумрак).
Этот набор промптов автор прогнал через четыре популярных модели, доступных через прокси-сервис:
- sourceful/riverflow-v2-pro;
- bytedance-seed/seedream-4.5;
- openai/gpt-5-image;
- google/gemini-3.1-flash-image-preview.
Отдельно он смотрел на результаты Nano Banana — именно с неё началась идея теста, когда модель неожиданно точно попала в вайб «сюр на фоне советских панелек».
Главное изменение по сравнению с классическими бенчмарками: оценка идёт не по отдельным метрикам вроде prompt adherence или detail fidelity, а по целостному впечатлению. Картинка либо «живая» и узнаваемая, либо мимо.
Как это работает
Бенчмарк строится вокруг сложных культурных промптов. Пример:
«Советский Винни-Пух с шавермой и Пятачок в круглых интеллигентских очках и кепи сидят на гранитной набережной Невы белой ночью и ждут развод мостов»
В один короткий текст зашито сразу несколько проверок:
- Стиль персонажей. Модель должна знать советский дизайн Винни-Пуха и Пятачка и не скатиться в диснеевский стиль.
- Локальный сленг. «Шаверма» как петербургский маркер, а не абстрактная шаурма где угодно.
- Аксессуары. Очки и кепи на Пятачке, но при этом персонаж остаётся узнаваемым.
- Архитектура. Гранитная набережная Невы, а не любая «река с парапетом».
- Свет и атмосфера. Белая ночь — сиреневый полусвет, а не чёрное небо с луной.
- Разводной мост. Конкретный, узнаваемый силуэт, а не случайный мост.
- Композиция. Всё должно сложиться в цельную сцену с настроением, а не в коллаж из перечисленных предметов.
Оценка идёт глазами человека: автор ставит результаты разных моделей рядом и смотрит, кто попал в культурный контекст и вайб, а кто нет. Без баллов и таблиц, только визуальное сравнение.
По первому примеру выводы такие:
- Nano Banana — лучший результат по атмосфере и узнаваемости, «подняла планку» по русскому вайбу.
- gpt-5-image — мультяшно, но промпт отработан, технически задание выполнено.
- riverflow-v2-pro — харизматичная сцена, условно засчитано.
- gemini-3.1-flash-image-preview — ушла в реализм, но Пятачок получился очень «по‑питерски», автор засчитывает.
- seedream-4.5 — промах по стилю: диснеевский Винни-Пух, Пятачок неузнаваем, атмосфера слабая.
Что это значит для вас
Если вы работаете с визуалом для русскоязычной аудитории — дизайн, медиа, маркетинг, продуктовые интерфейсы — простых метрик генерации уже мало. Важнее, понимает ли модель ваш культурный контекст:
- отличает ли советский мультстиль от диснеевского;
- чувствует ли разницу между «шавермой в Питере» и «шаурмой где-то»;
- умеет ли передать белые ночи, хрущёвки, панельки, типичные дворы и жесты.
Практический вывод: прежде чем тащить модель в рабочий процесс, имеет смысл прогнать её через несколько своих «культурных» промптов. В духе примера с Винни-Пухом, но под ваши задачи: бренды, города, мемы, локальные маркеры.
Где это помогает:
- подготовка иллюстраций к презентациям и питчам для локального рынка;
- промо‑креативы, которые должны «своим» казаться сразу;
- сторителлинг и концепт-арт, завязанные на постсоветский визуальный опыт.
Где такой подход мало полезен:
- сугубо технические схемы и абстрактные иллюстрации без культурной нагрузки;
- проекты для глобальной аудитории, где локальные маркеры могут мешать.
Если сервис с нужной моделью официально не работает из России, потребуется VPN или прокси-доступ — автор как раз использовал прокси-сервис к нескольким моделям.
Место на рынке
Автор не строит формальный рейтинг, но по конкретному примеру с Винни-Пухом картина такая:
- Nano Banana — лучше всех попала в атмосферу русской сцены: панельки, вайб, настроение. Именно с неё началась идея культурного теста.
- gpt-5-image — уверенно выполняет промпт, пусть и в более универсальной мультяшной стилистике.
- riverflow-v2-pro — выдаёт харизматичные картинки, которые можно использовать, если важен общий настрой, а не точное следование канону.
- gemini-3.1-flash-image-preview — стремится к реализму, иногда теряет мультстиль, но может неожиданно точно попасть в локальный характер персонажа.
- bytedance-seed/seedream-4.5 — по этому тесту слабее остальных: диснеевские персонажи вместо советских и потеря культурной узнаваемости.
Чётких цифр по скорости, стоимости генерации или размеру контекста автор не приводит. Смысл бенчмарка — не в производительности, а в проверке: «можно ли эту картинку сразу показать друзьям или положить в серьёзную презу для русскоязычной аудитории».