Дата публикации
ai_products

OpenAI запустила GPT‑Image‑1.5: быстрее, точнее и дешевле генерация картинок

Что нового

OpenAI представила GPT‑Image‑1.5 — новое поколение ChatGPT Images. Это флагманская модель для генерации и редактирования изображений, которая приходит на смену GPT Image 1.0.

Ключевые изменения:

  • Скорость: генерация изображений стала до 4 раз быстрее. Можно запускать новые запросы, пока предыдущие ещё рендерятся.
  • Точность инструкций: модель лучше понимает сложные запросы и композиции. Она сохраняет свет, композицию и внешность людей между исходником и серией правок.
  • Редактирование фото: аккуратно меняет только то, что вы просите. Лица, фон, освещение и стиль остаются стабильными, если вы не просите их менять.
  • Качество текста на картинках: заметно улучшена отрисовка мелкого и плотного текста. Можно делать постеры, газеты, интерфейсы с большим количеством надписей.
  • Творческие трансформации: модель лучше справляется с превращением одной сцены в другую, сменой стиля, добавлением текста и сложных макетов.
  • Качество лиц и мелких объектов: улучшена отрисовка множества маленьких лиц и общий "натуральный" вид картинок.
  • Новый интерфейс Images в ChatGPT:
    • отдельный раздел в боковой панели в приложении и на chatgpt.com;
    • готовые пресеты стилей и трендовые промпты;
    • одноразовая загрузка вашей внешности, чтобы использовать её во всех будущих генерациях без постоянного поиска фото.
  • API‑доступ: GPT‑Image‑1.5 доступна в API как отдельная модель.
  • Цена в API: входные и выходные изображения стали на 20% дешевле, чем в GPT Image 1.0.
  • Назначение: модель лучше удерживает логотипы и ключевые визуальные элементы. Это важно для маркетинга, брендинга и e‑commerce.

GPT‑Image‑1.5 уже доступна всем пользователям ChatGPT и разработчикам через API. Предыдущая версия ChatGPT Images остаётся в виде отдельного кастомного GPT.

Как это работает

OpenAI не раскрывает архитектуру по слоям, но по описанию можно понять, на чём сфокусировались инженеры.

1. Модальное ядро: текст → изображение и обратно

GPT‑Image‑1.5 — это текст‑к‑изображению и изображение‑к‑изображению модель, встроенная в экосистему GPT‑5.2:

  • вы описываете сцену текстом;
  • по желанию прикрепляете референс‑картинку;
  • модель выдаёт новое изображение или изменённую версию исходника.

Редактирование работает по принципу "маски в голове":

  • GPT‑Image‑1.5 вычисляет, какие области нужно менять;
  • меняет только эти зоны, сохраняя остальное (свет, фон, позы, композицию);
  • применяет серию правок последовательно, чтобы между шагами не "поплыл" стиль.

2. Жёсткая привязка к инструкциям

OpenAI явно дообучала модель на задачах, где важно точное следование структуре запроса:

  • примеры с сеткой 6×6 показывают, что GPT‑Image‑1.5 лучше соблюдает:
    • количество строк и столбцов;
    • конкретное содержимое каждой ячейки;
    • относительное расположение объектов.

Это особенно заметно по сравнению с предыдущей версией, где такие сложные компоновки часто ломались.

3. Улучшенный рендеринг текста

В примере с "газетой на столе" OpenAI даёт жёсткое требование:

  • сохранить весь markdown‑текст про GPT‑5.2;
  • не менять форматирование, заголовки, числа, таблицу;
  • отобразить всё в виде газетной полосы, высокой по вертикали.

GPT‑Image‑1.5 способна разместить плотный текст и таблицы так, чтобы всё было читаемо и не превращалось в визуальный шум. Это критично для плакатов, инфографики и интерфейсов.

4. Сохранение внешности и брендинга

Модель лучше удерживает:

  • черты лица при серии правок;
  • логотипы и фирменные элементы при генерации разных вариаций из одного исходника;
  • общую композицию и свет между версиями.

OpenAI отдельно подчёркивает, что это важно для:

  • каталогов товаров (разные сцены и ракурсы одного объекта);
  • бренд‑графики и логотипов;
  • маркетинговых материалов, где нельзя "сломать" фирменный стиль.

5. Оптимизация инференса

Скорость выросла до 4× за счёт:

  • оптимизации инференса (серверная часть);
  • параллельной генерации: можно запускать новые запросы, пока старые ещё рендерятся.

Точных цифр по времени кадра OpenAI не даёт, но сама формулировка "до 4× быстрее" — это официальный ориентир.

6. Обучение на многошаговых сценариях

По примерам видно, что модель тренировали на длинных цепочках правок:

  1. Скомбинировать двоих людей и собаку в фото в стиле 2000‑х.
  2. Добавить хаотичных детей на заднем плане.
  3. Перевести одного человека в ретро‑аниме, собаку — в плюшевый стиль, фон и второго человека оставить как есть.
  4. Надеть на всех свитеры OpenAI определённого вида.
  5. Удалить людей, оставить только собаку и перенести её в сцену лайвстрима.

GPT‑Image‑1.5 удерживает контекст этих шагов и не "забывает" детали из предыдущих версий.

Что это значит для вас

Для кого это полезно

1. Дизайнеры и креаторы

  • Быстро собирать концепты постеров, обложек, рекламных креативов.
  • Тестировать разные стили (аниме, ретро, голливудский постер золотого века и т.д.).
  • Дорабатывать конкретные детали без полной перерисовки сцены.

2. Маркетинг и бренды

  • Генерировать серии изображений с устойчивым логотипом и фирменной графикой.
  • Делать варианты баннеров, рассылок, лендингов из одной базовой сцены.
  • Создавать каталоги товаров: разные ракурсы, сцены, фоны из одного фото.

3. E‑commerce и продуктовые команды

  • Делать наборы изображений для карточек товара ("зимний фон", "летний фон", "в интерьере", "на человеке").
  • Сохранять единый вид продукта, не переснимая всё в студии.

4. Создатели контента и блогеры

  • Быстро делать обложки для видео и постов.
  • Использовать свою внешность через одноразовую загрузку фото и дальше просто описывать сцены.
  • Генерировать иллюстрации к длинным текстам, сценариям, подкастам.

5. Образование и наука

  • Делать наглядные постеры, схемы, инфографику с текстом.
  • Генерировать визуализации сложных тем (например, срез океана по глубинам с разными существами).

Где GPT‑Image‑1.5 силён

  • Редактирование реальных фото:

    • менять одежду и причёску без "пластилиновых" лиц;
    • добавлять или убирать объекты и людей;
    • переносить людей в новые сцены, сохраняя внешность.
  • Сложные композиции:

    • сетки и таблицы (пример с 6×6);
    • постеры с большим количеством текста и элементов;
    • макеты, где важно расположение объектов.
  • Текст на картинках:

    • газеты, афиши, презентации;
    • UI‑макеты с мелким текстом;
    • плакаты с длинными заголовками и подзаголовками.
  • Творческие стили:

    • аниме, ретро, голливудский постер;
    • "гиперреалистичная любительская фотография";
    • стили с плотной детализацией.

Где есть ограничения

OpenAI честно показывает, что GPT‑Image‑1.5 всё ещё ошибается:

  • В примере с постером глубоководных существ модель даёт около 70% научной точности. Часть биологии и глубин неверна.
  • Качество сильно выросло по сравнению с предыдущей версией, но научные иллюстрации для учебников лучше всё равно проверять вручную.

Также есть общие моменты:

  • Модель не идеальна в каждом кадре. Иногда придётся перегенерировать или переформулировать запрос.
  • Для задач, где критична стопроцентная точность фактов (медицина, сложная инженерия), картинки стоит рассматривать как иллюстрации, а не как источник истины.

Доступность и юридические нюансы

  • GPT‑Image‑1.5 доступна в ChatGPT и через OpenAI API глобально.
  • Для пользователей из России доступ к ChatGPT и API может потребовать:
    • VPN для входа на chatgpt.com;
    • зарубежный платёжный метод для платных тарифов и API.

OpenAI этого напрямую не обсуждает, но на практике многие российские пользователи так и работают с продуктами OpenAI.

Когда использовать, а когда нет

Использовать, если вам нужно:

  • Быстро делать визуальные концепты и проверять гипотезы.
  • Генерировать маркетинговые материалы, не привлекая студию.
  • Редактировать фото без сложного софта типа Photoshop.
  • Делать иллюстрации к статьям, презентациям, обучающим материалам.

Осторожно использовать или не использовать, если:

  • Нужна юридически чувствительная графика (медицинские изображения, сложная техника, схемы, где ошибка недопустима).
  • Важны точные научные данные на картинке (например, для учебников по биологии или геологии).

Место на рынке

OpenAI явно позиционирует GPT‑Image‑1.5 как флагман среди своих визуальных моделей.

Что известно из фактов:

  • GPT‑Image‑1.5 дешевле GPT Image 1.0 в API на 20% по входным и выходным изображениям.
  • По словам OpenAI и партнёров:
    • Wix отмечает высокую детальность, хорошее следование промпту и сохранение композиции, света и мелких деталей;
    • модель подходит для ускорения перехода от концепта к продакшн‑графике на платформах вроде Wix.

OpenAI не приводит прямых сравнений с Midjourney, DALL·E 3, Stable Diffusion или моделями Anthropic. Но по набору акцентов можно сделать несколько выводов о нише GPT‑Image‑1.5 внутри экосистемы OpenAI:

  • Это основной рабочий инструмент для прикладной генерации изображений в ChatGPT и API.
  • Ставка не только на "красивые картинки", но и на:
    • точное следование инструкциям;
    • устойчивость внешности и бренда;
    • пригодность для коммерческих задач.

Для бизнеса это означает, что GPT‑Image‑1.5 уже можно рассматривать как рабочий инструмент для:

  • маркетинговых отделов;
  • дизайнерских команд;
  • e‑commerce и SaaS‑платформ, которым нужны стабильные визуалы под бренд.

Как запустить

В ChatGPT

  1. Зайдите в ChatGPT (в браузере или мобильном приложении).
  2. Откройте боковую панель и выберите раздел Images.
  3. Выберите один из вариантов:
    • описать картинку текстом;
    • выбрать один из готовых пресетов и трендовых промптов;
    • загрузить свою фотографию для редактирования.
  4. При желании один раз загрузите фото с вашей внешностью, чтобы потом использовать её во всех будущих сценах.
  5. Наблюдайте, как изображения появляются. Новые запросы можно отправлять, пока прежние ещё рендерятся.

Через API

OpenAI даёт прямое указание: GPT‑Image‑1.5 доступна в API как GPT Image 1.5. В Playground можно:

  • выбрать модель GPT Image 1.5;
  • загрузить исходные изображения;
  • экспериментировать с промптами и стилями;
  • смотреть галерею примеров и использовать гайд по промптам.

Примеры использования, которые OpenAI отдельно подчёркивает для API:

  • генерация полных каталогов товаров (сцены, ракурсы, вариации) из одного исходного фото;
  • создание логотипов и бренд‑графики с сохранением фирменных элементов между версиями;
  • массовая генерация маркетинговых материалов.

Точный формат API‑запросов OpenAI в этом релизе не расписывает, но общая логика такая же, как у других визуальных моделей OpenAI: вы передаёте текстовый промпт, опционально — входное изображение, на выходе получаете сгенерированную картинку.

Примеры возможностей

Сложные цепочки правок

OpenAI демонстрирует сценарий, где пользователь шаг за шагом меняет одну и ту же сцену:

  1. "Собери двух мужчин и собаку в фото в стиле плёночной камеры 2000‑х, они скучают на детском дне рождения".
  2. "Добавь хаотичных детей на фоне, которые кидаются вещами и кричат".
  3. "Сделай мужчину слева в стиле ретро‑аниме, собаку — плюшевой, мужчину справа и фон оставь как есть".
  4. "Надень на всех свитеры OpenAI определённого вида".
  5. "Убери двух мужчин, оставь только собаку и перенеси её в сцену OpenAI‑лайвстрима".

GPT‑Image‑1.5 удерживает все эти правки и не ломает исходную композицию и свет.

Голливудский постер

Модель умеет:

  • превратить фото двух людей в постер "золотого века Голливуда";
  • сменить костюмы под эпоху;
  • добавить кредиты: имена актёров, режиссёра, продюсера, студии.

Это показывает, что GPT‑Image‑1.5 хорошо работает с текстом в композиции и сложными стилистическими трансформациями.

Плотный текст и таблицы

Пример с газетой про GPT‑5.2 показывает, что модель способна:

  • отрисовать большой объём текста;
  • сохранить структуру markdown, включая таблицу с бенчмарками;
  • сделать всё читаемым и визуально логичным.

Научно‑образовательные постеры

Запрос: "Создай постер глубоководных существ на разных глубинах, вертикальный срез океана, в стиле детализированного японского аниме".

Результат:

  • картинка стала гораздо более выразительной;
  • научная точность оценивается примерно в 70%;
  • модель избегает преждевременного обрезания сюжета.

Вывод для читателя

GPT‑Image‑1.5 — это не просто "ещё одна модель картинок" в линейке OpenAI. Это рабочий инструмент для тех, кто делает визуальный контент регулярно и хочет:

  • меньше времени тратить на рутинные правки;
  • быстрее тестировать идеи;
  • получать изображения, которые ближе к исходному замыслу, а не к фантазии модели.

Если вы уже используете ChatGPT или API OpenAI, переход на GPT‑Image‑1.5 почти ничего не требует: модель уже включена по умолчанию, а старая версия доступна как отдельный кастомный GPT. Для российской аудитории остаются вопросы доступа и платежей, но с технической точки зрения это сейчас один из самых удобных способов связать текстовые и визуальные задачи в одном инструменте.


Читайте также