OpenAI запустила GPT‑Image‑1.5: быстрее, точнее и дешевле генерация картинок — VogueTech

Что нового

OpenAI представила GPT‑Image‑1.5 — новое поколение ChatGPT Images. Это флагманская модель для генерации и редактирования изображений, которая приходит на смену GPT Image 1.0.

Ключевые изменения:

Скорость: генерация изображений стала до 4 раз быстрее. Можно запускать новые запросы, пока предыдущие ещё рендерятся.
Точность инструкций: модель лучше понимает сложные запросы и композиции. Она сохраняет свет, композицию и внешность людей между исходником и серией правок.
Редактирование фото: аккуратно меняет только то, что вы просите. Лица, фон, освещение и стиль остаются стабильными, если вы не просите их менять.
Качество текста на картинках: заметно улучшена отрисовка мелкого и плотного текста. Можно делать постеры, газеты, интерфейсы с большим количеством надписей.
Творческие трансформации: модель лучше справляется с превращением одной сцены в другую, сменой стиля, добавлением текста и сложных макетов.
Качество лиц и мелких объектов: улучшена отрисовка множества маленьких лиц и общий "натуральный" вид картинок.
Новый интерфейс Images в ChatGPT:
- отдельный раздел в боковой панели в приложении и на chatgpt.com;
- готовые пресеты стилей и трендовые промпты;
- одноразовая загрузка вашей внешности, чтобы использовать её во всех будущих генерациях без постоянного поиска фото.
API‑доступ: GPT‑Image‑1.5 доступна в API как отдельная модель.
Цена в API: входные и выходные изображения стали на 20% дешевле, чем в GPT Image 1.0.
Назначение: модель лучше удерживает логотипы и ключевые визуальные элементы. Это важно для маркетинга, брендинга и e‑commerce.

GPT‑Image‑1.5 уже доступна всем пользователям ChatGPT и разработчикам через API. Предыдущая версия ChatGPT Images остаётся в виде отдельного кастомного GPT.

Как это работает

OpenAI не раскрывает архитектуру по слоям, но по описанию можно понять, на чём сфокусировались инженеры.

1. Модальное ядро: текст → изображение и обратно

GPT‑Image‑1.5 — это текст‑к‑изображению и изображение‑к‑изображению модель, встроенная в экосистему GPT‑5.2:

вы описываете сцену текстом;
по желанию прикрепляете референс‑картинку;
модель выдаёт новое изображение или изменённую версию исходника.

Редактирование работает по принципу "маски в голове":

GPT‑Image‑1.5 вычисляет, какие области нужно менять;
меняет только эти зоны, сохраняя остальное (свет, фон, позы, композицию);
применяет серию правок последовательно, чтобы между шагами не "поплыл" стиль.

2. Жёсткая привязка к инструкциям

OpenAI явно дообучала модель на задачах, где важно точное следование структуре запроса:

примеры с сеткой 6×6 показывают, что GPT‑Image‑1.5 лучше соблюдает:
- количество строк и столбцов;
- конкретное содержимое каждой ячейки;
- относительное расположение объектов.

Это особенно заметно по сравнению с предыдущей версией, где такие сложные компоновки часто ломались.

3. Улучшенный рендеринг текста

В примере с "газетой на столе" OpenAI даёт жёсткое требование:

сохранить весь markdown‑текст про GPT‑5.2;
не менять форматирование, заголовки, числа, таблицу;
отобразить всё в виде газетной полосы, высокой по вертикали.

GPT‑Image‑1.5 способна разместить плотный текст и таблицы так, чтобы всё было читаемо и не превращалось в визуальный шум. Это критично для плакатов, инфографики и интерфейсов.

4. Сохранение внешности и брендинга

Модель лучше удерживает:

черты лица при серии правок;
логотипы и фирменные элементы при генерации разных вариаций из одного исходника;
общую композицию и свет между версиями.

OpenAI отдельно подчёркивает, что это важно для:

каталогов товаров (разные сцены и ракурсы одного объекта);
бренд‑графики и логотипов;
маркетинговых материалов, где нельзя "сломать" фирменный стиль.

5. Оптимизация инференса

Скорость выросла до 4× за счёт:

оптимизации инференса (серверная часть);
параллельной генерации: можно запускать новые запросы, пока старые ещё рендерятся.

Точных цифр по времени кадра OpenAI не даёт, но сама формулировка "до 4× быстрее" — это официальный ориентир.

6. Обучение на многошаговых сценариях

По примерам видно, что модель тренировали на длинных цепочках правок:

Скомбинировать двоих людей и собаку в фото в стиле 2000‑х.
Добавить хаотичных детей на заднем плане.
Перевести одного человека в ретро‑аниме, собаку — в плюшевый стиль, фон и второго человека оставить как есть.
Надеть на всех свитеры OpenAI определённого вида.
Удалить людей, оставить только собаку и перенести её в сцену лайвстрима.

GPT‑Image‑1.5 удерживает контекст этих шагов и не "забывает" детали из предыдущих версий.

Что это значит для вас

Для кого это полезно

1. Дизайнеры и креаторы

Быстро собирать концепты постеров, обложек, рекламных креативов.
Тестировать разные стили (аниме, ретро, голливудский постер золотого века и т.д.).
Дорабатывать конкретные детали без полной перерисовки сцены.

2. Маркетинг и бренды

Генерировать серии изображений с устойчивым логотипом и фирменной графикой.
Делать варианты баннеров, рассылок, лендингов из одной базовой сцены.
Создавать каталоги товаров: разные ракурсы, сцены, фоны из одного фото.

3. E‑commerce и продуктовые команды

Делать наборы изображений для карточек товара ("зимний фон", "летний фон", "в интерьере", "на человеке").
Сохранять единый вид продукта, не переснимая всё в студии.

4. Создатели контента и блогеры

Быстро делать обложки для видео и постов.
Использовать свою внешность через одноразовую загрузку фото и дальше просто описывать сцены.
Генерировать иллюстрации к длинным текстам, сценариям, подкастам.

5. Образование и наука

Делать наглядные постеры, схемы, инфографику с текстом.
Генерировать визуализации сложных тем (например, срез океана по глубинам с разными существами).

Где GPT‑Image‑1.5 силён

Редактирование реальных фото:
- менять одежду и причёску без "пластилиновых" лиц;
- добавлять или убирать объекты и людей;
- переносить людей в новые сцены, сохраняя внешность.
Сложные композиции:
- сетки и таблицы (пример с 6×6);
- постеры с большим количеством текста и элементов;
- макеты, где важно расположение объектов.
Текст на картинках:
- газеты, афиши, презентации;
- UI‑макеты с мелким текстом;
- плакаты с длинными заголовками и подзаголовками.
Творческие стили:
- аниме, ретро, голливудский постер;
- "гиперреалистичная любительская фотография";
- стили с плотной детализацией.

Где есть ограничения

OpenAI честно показывает, что GPT‑Image‑1.5 всё ещё ошибается:

В примере с постером глубоководных существ модель даёт около 70% научной точности. Часть биологии и глубин неверна.
Качество сильно выросло по сравнению с предыдущей версией, но научные иллюстрации для учебников лучше всё равно проверять вручную.

Также есть общие моменты:

Модель не идеальна в каждом кадре. Иногда придётся перегенерировать или переформулировать запрос.
Для задач, где критична стопроцентная точность фактов (медицина, сложная инженерия), картинки стоит рассматривать как иллюстрации, а не как источник истины.

Доступность и юридические нюансы

GPT‑Image‑1.5 доступна в ChatGPT и через OpenAI API глобально.
Для пользователей из России доступ к ChatGPT и API может потребовать:
- VPN для входа на chatgpt.com;
- зарубежный платёжный метод для платных тарифов и API.

OpenAI этого напрямую не обсуждает, но на практике многие российские пользователи так и работают с продуктами OpenAI.

Когда использовать, а когда нет

Использовать, если вам нужно:

Быстро делать визуальные концепты и проверять гипотезы.
Генерировать маркетинговые материалы, не привлекая студию.
Редактировать фото без сложного софта типа Photoshop.
Делать иллюстрации к статьям, презентациям, обучающим материалам.

Осторожно использовать или не использовать, если:

Нужна юридически чувствительная графика (медицинские изображения, сложная техника, схемы, где ошибка недопустима).
Важны точные научные данные на картинке (например, для учебников по биологии или геологии).

Место на рынке

OpenAI явно позиционирует GPT‑Image‑1.5 как флагман среди своих визуальных моделей.

Что известно из фактов:

GPT‑Image‑1.5 дешевле GPT Image 1.0 в API на 20% по входным и выходным изображениям.
По словам OpenAI и партнёров:
- Wix отмечает высокую детальность, хорошее следование промпту и сохранение композиции, света и мелких деталей;
- модель подходит для ускорения перехода от концепта к продакшн‑графике на платформах вроде Wix.

OpenAI не приводит прямых сравнений с Midjourney, DALL·E 3, Stable Diffusion или моделями Anthropic. Но по набору акцентов можно сделать несколько выводов о нише GPT‑Image‑1.5 внутри экосистемы OpenAI:

Это основной рабочий инструмент для прикладной генерации изображений в ChatGPT и API.
Ставка не только на "красивые картинки", но и на:
- точное следование инструкциям;
- устойчивость внешности и бренда;
- пригодность для коммерческих задач.

Для бизнеса это означает, что GPT‑Image‑1.5 уже можно рассматривать как рабочий инструмент для:

маркетинговых отделов;
дизайнерских команд;
e‑commerce и SaaS‑платформ, которым нужны стабильные визуалы под бренд.

Как запустить

В ChatGPT

Зайдите в ChatGPT (в браузере или мобильном приложении).
Откройте боковую панель и выберите раздел Images.
Выберите один из вариантов:
- описать картинку текстом;
- выбрать один из готовых пресетов и трендовых промптов;
- загрузить свою фотографию для редактирования.
При желании один раз загрузите фото с вашей внешностью, чтобы потом использовать её во всех будущих сценах.
Наблюдайте, как изображения появляются. Новые запросы можно отправлять, пока прежние ещё рендерятся.

Через API

OpenAI даёт прямое указание: GPT‑Image‑1.5 доступна в API как GPT Image 1.5. В Playground можно:

выбрать модель GPT Image 1.5;
загрузить исходные изображения;
экспериментировать с промптами и стилями;
смотреть галерею примеров и использовать гайд по промптам.

Примеры использования, которые OpenAI отдельно подчёркивает для API:

генерация полных каталогов товаров (сцены, ракурсы, вариации) из одного исходного фото;
создание логотипов и бренд‑графики с сохранением фирменных элементов между версиями;
массовая генерация маркетинговых материалов.

Точный формат API‑запросов OpenAI в этом релизе не расписывает, но общая логика такая же, как у других визуальных моделей OpenAI: вы передаёте текстовый промпт, опционально — входное изображение, на выходе получаете сгенерированную картинку.

Примеры возможностей

Сложные цепочки правок

OpenAI демонстрирует сценарий, где пользователь шаг за шагом меняет одну и ту же сцену:

"Собери двух мужчин и собаку в фото в стиле плёночной камеры 2000‑х, они скучают на детском дне рождения".
"Добавь хаотичных детей на фоне, которые кидаются вещами и кричат".
"Сделай мужчину слева в стиле ретро‑аниме, собаку — плюшевой, мужчину справа и фон оставь как есть".
"Надень на всех свитеры OpenAI определённого вида".
"Убери двух мужчин, оставь только собаку и перенеси её в сцену OpenAI‑лайвстрима".

GPT‑Image‑1.5 удерживает все эти правки и не ломает исходную композицию и свет.

Голливудский постер

Модель умеет:

превратить фото двух людей в постер "золотого века Голливуда";
сменить костюмы под эпоху;
добавить кредиты: имена актёров, режиссёра, продюсера, студии.

Это показывает, что GPT‑Image‑1.5 хорошо работает с текстом в композиции и сложными стилистическими трансформациями.

Плотный текст и таблицы

Пример с газетой про GPT‑5.2 показывает, что модель способна:

отрисовать большой объём текста;
сохранить структуру markdown, включая таблицу с бенчмарками;
сделать всё читаемым и визуально логичным.

Научно‑образовательные постеры

Запрос: "Создай постер глубоководных существ на разных глубинах, вертикальный срез океана, в стиле детализированного японского аниме".

Результат:

картинка стала гораздо более выразительной;
научная точность оценивается примерно в 70%;
модель избегает преждевременного обрезания сюжета.

Вывод для читателя

GPT‑Image‑1.5 — это не просто "ещё одна модель картинок" в линейке OpenAI. Это рабочий инструмент для тех, кто делает визуальный контент регулярно и хочет:

меньше времени тратить на рутинные правки;
быстрее тестировать идеи;
получать изображения, которые ближе к исходному замыслу, а не к фантазии модели.

Если вы уже используете ChatGPT или API OpenAI, переход на GPT‑Image‑1.5 почти ничего не требует: модель уже включена по умолчанию, а старая версия доступна как отдельный кастомный GPT. Для российской аудитории остаются вопросы доступа и платежей, но с технической точки зрения это сейчас один из самых удобных способов связать текстовые и визуальные задачи в одном инструменте.