- Дата публикации
OpenAI запустила GPT‑Image‑1.5: быстрее, точнее и дешевле генерация картинок
Что нового
OpenAI представила GPT‑Image‑1.5 — новое поколение ChatGPT Images. Это флагманская модель для генерации и редактирования изображений, которая приходит на смену GPT Image 1.0.
Ключевые изменения:
- Скорость: генерация изображений стала до 4 раз быстрее. Можно запускать новые запросы, пока предыдущие ещё рендерятся.
- Точность инструкций: модель лучше понимает сложные запросы и композиции. Она сохраняет свет, композицию и внешность людей между исходником и серией правок.
- Редактирование фото: аккуратно меняет только то, что вы просите. Лица, фон, освещение и стиль остаются стабильными, если вы не просите их менять.
- Качество текста на картинках: заметно улучшена отрисовка мелкого и плотного текста. Можно делать постеры, газеты, интерфейсы с большим количеством надписей.
- Творческие трансформации: модель лучше справляется с превращением одной сцены в другую, сменой стиля, добавлением текста и сложных макетов.
- Качество лиц и мелких объектов: улучшена отрисовка множества маленьких лиц и общий "натуральный" вид картинок.
- Новый интерфейс Images в ChatGPT:
- отдельный раздел в боковой панели в приложении и на chatgpt.com;
- готовые пресеты стилей и трендовые промпты;
- одноразовая загрузка вашей внешности, чтобы использовать её во всех будущих генерациях без постоянного поиска фото.
- API‑доступ: GPT‑Image‑1.5 доступна в API как отдельная модель.
- Цена в API: входные и выходные изображения стали на 20% дешевле, чем в GPT Image 1.0.
- Назначение: модель лучше удерживает логотипы и ключевые визуальные элементы. Это важно для маркетинга, брендинга и e‑commerce.
GPT‑Image‑1.5 уже доступна всем пользователям ChatGPT и разработчикам через API. Предыдущая версия ChatGPT Images остаётся в виде отдельного кастомного GPT.
Как это работает
OpenAI не раскрывает архитектуру по слоям, но по описанию можно понять, на чём сфокусировались инженеры.
1. Модальное ядро: текст → изображение и обратно
GPT‑Image‑1.5 — это текст‑к‑изображению и изображение‑к‑изображению модель, встроенная в экосистему GPT‑5.2:
- вы описываете сцену текстом;
- по желанию прикрепляете референс‑картинку;
- модель выдаёт новое изображение или изменённую версию исходника.
Редактирование работает по принципу "маски в голове":
- GPT‑Image‑1.5 вычисляет, какие области нужно менять;
- меняет только эти зоны, сохраняя остальное (свет, фон, позы, композицию);
- применяет серию правок последовательно, чтобы между шагами не "поплыл" стиль.
2. Жёсткая привязка к инструкциям
OpenAI явно дообучала модель на задачах, где важно точное следование структуре запроса:
- примеры с сеткой 6×6 показывают, что GPT‑Image‑1.5 лучше соблюдает:
- количество строк и столбцов;
- конкретное содержимое каждой ячейки;
- относительное расположение объектов.
Это особенно заметно по сравнению с предыдущей версией, где такие сложные компоновки часто ломались.
3. Улучшенный рендеринг текста
В примере с "газетой на столе" OpenAI даёт жёсткое требование:
- сохранить весь markdown‑текст про GPT‑5.2;
- не менять форматирование, заголовки, числа, таблицу;
- отобразить всё в виде газетной полосы, высокой по вертикали.
GPT‑Image‑1.5 способна разместить плотный текст и таблицы так, чтобы всё было читаемо и не превращалось в визуальный шум. Это критично для плакатов, инфографики и интерфейсов.
4. Сохранение внешности и брендинга
Модель лучше удерживает:
- черты лица при серии правок;
- логотипы и фирменные элементы при генерации разных вариаций из одного исходника;
- общую композицию и свет между версиями.
OpenAI отдельно подчёркивает, что это важно для:
- каталогов товаров (разные сцены и ракурсы одного объекта);
- бренд‑графики и логотипов;
- маркетинговых материалов, где нельзя "сломать" фирменный стиль.
5. Оптимизация инференса
Скорость выросла до 4× за счёт:
- оптимизации инференса (серверная часть);
- параллельной генерации: можно запускать новые запросы, пока старые ещё рендерятся.
Точных цифр по времени кадра OpenAI не даёт, но сама формулировка "до 4× быстрее" — это официальный ориентир.
6. Обучение на многошаговых сценариях
По примерам видно, что модель тренировали на длинных цепочках правок:
- Скомбинировать двоих людей и собаку в фото в стиле 2000‑х.
- Добавить хаотичных детей на заднем плане.
- Перевести одного человека в ретро‑аниме, собаку — в плюшевый стиль, фон и второго человека оставить как есть.
- Надеть на всех свитеры OpenAI определённого вида.
- Удалить людей, оставить только собаку и перенести её в сцену лайвстрима.
GPT‑Image‑1.5 удерживает контекст этих шагов и не "забывает" детали из предыдущих версий.
Что это значит для вас
Для кого это полезно
1. Дизайнеры и креаторы
- Быстро собирать концепты постеров, обложек, рекламных креативов.
- Тестировать разные стили (аниме, ретро, голливудский постер золотого века и т.д.).
- Дорабатывать конкретные детали без полной перерисовки сцены.
2. Маркетинг и бренды
- Генерировать серии изображений с устойчивым логотипом и фирменной графикой.
- Делать варианты баннеров, рассылок, лендингов из одной базовой сцены.
- Создавать каталоги товаров: разные ракурсы, сцены, фоны из одного фото.
3. E‑commerce и продуктовые команды
- Делать наборы изображений для карточек товара ("зимний фон", "летний фон", "в интерьере", "на человеке").
- Сохранять единый вид продукта, не переснимая всё в студии.
4. Создатели контента и блогеры
- Быстро делать обложки для видео и постов.
- Использовать свою внешность через одноразовую загрузку фото и дальше просто описывать сцены.
- Генерировать иллюстрации к длинным текстам, сценариям, подкастам.
5. Образование и наука
- Делать наглядные постеры, схемы, инфографику с текстом.
- Генерировать визуализации сложных тем (например, срез океана по глубинам с разными существами).
Где GPT‑Image‑1.5 силён
-
Редактирование реальных фото:
- менять одежду и причёску без "пластилиновых" лиц;
- добавлять или убирать объекты и людей;
- переносить людей в новые сцены, сохраняя внешность.
-
Сложные композиции:
- сетки и таблицы (пример с 6×6);
- постеры с большим количеством текста и элементов;
- макеты, где важно расположение объектов.
-
Текст на картинках:
- газеты, афиши, презентации;
- UI‑макеты с мелким текстом;
- плакаты с длинными заголовками и подзаголовками.
-
Творческие стили:
- аниме, ретро, голливудский постер;
- "гиперреалистичная любительская фотография";
- стили с плотной детализацией.
Где есть ограничения
OpenAI честно показывает, что GPT‑Image‑1.5 всё ещё ошибается:
- В примере с постером глубоководных существ модель даёт около 70% научной точности. Часть биологии и глубин неверна.
- Качество сильно выросло по сравнению с предыдущей версией, но научные иллюстрации для учебников лучше всё равно проверять вручную.
Также есть общие моменты:
- Модель не идеальна в каждом кадре. Иногда придётся перегенерировать или переформулировать запрос.
- Для задач, где критична стопроцентная точность фактов (медицина, сложная инженерия), картинки стоит рассматривать как иллюстрации, а не как источник истины.
Доступность и юридические нюансы
- GPT‑Image‑1.5 доступна в ChatGPT и через OpenAI API глобально.
- Для пользователей из России доступ к ChatGPT и API может потребовать:
- VPN для входа на chatgpt.com;
- зарубежный платёжный метод для платных тарифов и API.
OpenAI этого напрямую не обсуждает, но на практике многие российские пользователи так и работают с продуктами OpenAI.
Когда использовать, а когда нет
Использовать, если вам нужно:
- Быстро делать визуальные концепты и проверять гипотезы.
- Генерировать маркетинговые материалы, не привлекая студию.
- Редактировать фото без сложного софта типа Photoshop.
- Делать иллюстрации к статьям, презентациям, обучающим материалам.
Осторожно использовать или не использовать, если:
- Нужна юридически чувствительная графика (медицинские изображения, сложная техника, схемы, где ошибка недопустима).
- Важны точные научные данные на картинке (например, для учебников по биологии или геологии).
Место на рынке
OpenAI явно позиционирует GPT‑Image‑1.5 как флагман среди своих визуальных моделей.
Что известно из фактов:
- GPT‑Image‑1.5 дешевле GPT Image 1.0 в API на 20% по входным и выходным изображениям.
- По словам OpenAI и партнёров:
- Wix отмечает высокую детальность, хорошее следование промпту и сохранение композиции, света и мелких деталей;
- модель подходит для ускорения перехода от концепта к продакшн‑графике на платформах вроде Wix.
OpenAI не приводит прямых сравнений с Midjourney, DALL·E 3, Stable Diffusion или моделями Anthropic. Но по набору акцентов можно сделать несколько выводов о нише GPT‑Image‑1.5 внутри экосистемы OpenAI:
- Это основной рабочий инструмент для прикладной генерации изображений в ChatGPT и API.
- Ставка не только на "красивые картинки", но и на:
- точное следование инструкциям;
- устойчивость внешности и бренда;
- пригодность для коммерческих задач.
Для бизнеса это означает, что GPT‑Image‑1.5 уже можно рассматривать как рабочий инструмент для:
- маркетинговых отделов;
- дизайнерских команд;
- e‑commerce и SaaS‑платформ, которым нужны стабильные визуалы под бренд.
Как запустить
В ChatGPT
- Зайдите в ChatGPT (в браузере или мобильном приложении).
- Откройте боковую панель и выберите раздел Images.
- Выберите один из вариантов:
- описать картинку текстом;
- выбрать один из готовых пресетов и трендовых промптов;
- загрузить свою фотографию для редактирования.
- При желании один раз загрузите фото с вашей внешностью, чтобы потом использовать её во всех будущих сценах.
- Наблюдайте, как изображения появляются. Новые запросы можно отправлять, пока прежние ещё рендерятся.
Через API
OpenAI даёт прямое указание: GPT‑Image‑1.5 доступна в API как GPT Image 1.5. В Playground можно:
- выбрать модель GPT Image 1.5;
- загрузить исходные изображения;
- экспериментировать с промптами и стилями;
- смотреть галерею примеров и использовать гайд по промптам.
Примеры использования, которые OpenAI отдельно подчёркивает для API:
- генерация полных каталогов товаров (сцены, ракурсы, вариации) из одного исходного фото;
- создание логотипов и бренд‑графики с сохранением фирменных элементов между версиями;
- массовая генерация маркетинговых материалов.
Точный формат API‑запросов OpenAI в этом релизе не расписывает, но общая логика такая же, как у других визуальных моделей OpenAI: вы передаёте текстовый промпт, опционально — входное изображение, на выходе получаете сгенерированную картинку.
Примеры возможностей
Сложные цепочки правок
OpenAI демонстрирует сценарий, где пользователь шаг за шагом меняет одну и ту же сцену:
- "Собери двух мужчин и собаку в фото в стиле плёночной камеры 2000‑х, они скучают на детском дне рождения".
- "Добавь хаотичных детей на фоне, которые кидаются вещами и кричат".
- "Сделай мужчину слева в стиле ретро‑аниме, собаку — плюшевой, мужчину справа и фон оставь как есть".
- "Надень на всех свитеры OpenAI определённого вида".
- "Убери двух мужчин, оставь только собаку и перенеси её в сцену OpenAI‑лайвстрима".
GPT‑Image‑1.5 удерживает все эти правки и не ломает исходную композицию и свет.
Голливудский постер
Модель умеет:
- превратить фото двух людей в постер "золотого века Голливуда";
- сменить костюмы под эпоху;
- добавить кредиты: имена актёров, режиссёра, продюсера, студии.
Это показывает, что GPT‑Image‑1.5 хорошо работает с текстом в композиции и сложными стилистическими трансформациями.
Плотный текст и таблицы
Пример с газетой про GPT‑5.2 показывает, что модель способна:
- отрисовать большой объём текста;
- сохранить структуру markdown, включая таблицу с бенчмарками;
- сделать всё читаемым и визуально логичным.
Научно‑образовательные постеры
Запрос: "Создай постер глубоководных существ на разных глубинах, вертикальный срез океана, в стиле детализированного японского аниме".
Результат:
- картинка стала гораздо более выразительной;
- научная точность оценивается примерно в 70%;
- модель избегает преждевременного обрезания сюжета.
Вывод для читателя
GPT‑Image‑1.5 — это не просто "ещё одна модель картинок" в линейке OpenAI. Это рабочий инструмент для тех, кто делает визуальный контент регулярно и хочет:
- меньше времени тратить на рутинные правки;
- быстрее тестировать идеи;
- получать изображения, которые ближе к исходному замыслу, а не к фантазии модели.
Если вы уже используете ChatGPT или API OpenAI, переход на GPT‑Image‑1.5 почти ничего не требует: модель уже включена по умолчанию, а старая версия доступна как отдельный кастомный GPT. Для российской аудитории остаются вопросы доступа и платежей, но с технической точки зрения это сейчас один из самых удобных способов связать текстовые и визуальные задачи в одном инструменте.