OpenAI запустила ChatGPT Images 2.0: генерация картинок с читаемым текстом и комиксами — VogueTech

Что нового

OpenAI представила ChatGPT Images 2.0 — новую модель генерации изображений, которая уверенно работает с текстом на картинках. Если раньше ИИ путал буквы и придумывал слова вроде «enchuita» и «burrto» вместо нормального меню мексиканского ресторана, теперь модель создаёт надписи, которые можно использовать без ручных правок.

Ключевые изменения:

Текст на изображениях:
- корректные подписи, заголовки, кнопки, элементы интерфейса;
- читаемый мелкий текст, который не разваливается на случайные буквы;
- лучшее качество надписей на нелатинских алфавитах: японский, корейский, хинди, бенгальский.
«Осмысленная» генерация:
- Images 2.0 умеет искать информацию в интернете перед генерацией;
- создаёт сразу несколько вариантов по одному запросу и перепроверяет результат;
- строит сложные композиции: много объектов, несколько стилей, точные ограничения по цветам и форме.
Креативные сценарии:
- маркетинговые материалы в разных размерах из одного запроса;
- многопанельные комиксы за один прогон;
- насыщенные сцены с пиктограммами, иконками, интерфейсами.
Качество и скорость:
- разрешение до 2K;
- генерация идёт дольше, чем обычный текстовый ответ ChatGPT, но даже многостраничный комикс модель собирает за несколько минут.
Доступ и тарификация:
- доступ к Images 2.0 получат все пользователи ChatGPT и Codex;
- платные подписчики смогут генерировать более сложные изображения;
- OpenAI запускает API gpt-image-2, цена зависит от качества и разрешения итоговой картинки.

Ограничение по знаниям: модель ориентируется на данные до декабря 2025 года. Запросы про совсем недавние события могут давать неточные детали.

Как это работает

До 2024 года массовые диффузионные генераторы изображений почти всегда ломали текст. Они восстанавливали картинку из шума и хорошо запоминали крупные визуальные паттерны, но надписи занимали слишком маленькую часть пикселей. На них модель просто «забивала».

Асмелаш Тека Хадгу, основатель и гендиректор Lesan AI, объяснял это так: диффузионные модели учатся на том, что покрывает основную площадь изображения. Текст — микроскопический кусок, поэтому он систематически страдал.

Исследователи начали пробовать другой путь — авторегрессионные модели. Они предсказывают содержимое изображения по шагам, ближе к тому, как работают большие языковые модели. Такой подход лучше подходит для структурированных объектов: букв, символов интерфейса, пиктограмм.

OpenAI не раскрыла, какую именно архитектуру использует ChatGPT Images 2.0. Из публичного описания можно сделать несколько выводов о механике работы:

Модель не просто рисует по одному запросу, а строит несколько вариантов и сравнивает их между собой.
В процессе она может сходить в интернет, уточнить факты и только потом собрать финальную сцену.
Images 2.0 умеет планировать композицию: где будет текст, где элементы интерфейса, где герои, как всё это поместить в один кадр.

Результат — генератор, который не только «понимает» текстовый запрос, но и аккуратно раскладывает его по слоям картинки, включая надписи и мелкие детали.

Что это значит для вас

Кому это полезно

Маркетологам и дизайнерам

Быстрая генерация рекламных баннеров с читаемыми слоганами.
Один промт — несколько форматов: квадрат для соцсетей, вертикальный сторис, горизонтальный баннер.
Подготовка черновиков лендинговых иллюстраций с кнопками, пиктограммами и текстовыми блоками.

Продакт- и UX-менеджерам

Мокапы интерфейсов с реальными подписями, а не «lorem ipsum».
Быстрые варианты иконок, пиктограмм, карточек внутри одного стиля.

Создателям контента и комиксов

Генерация многопанельных комиксов за несколько минут.
Сцены с героями, фонами и репликами в «облачках», которые можно сразу тестировать на аудитории.

Малому бизнесу

Меню, плакаты, вывески, промо-картинки для соцсетей без дизайнера на фултайм.
Локализованные материалы: надписи на английском, русском и азиатских языках в одном проекте.

Где есть ограничения

Актуальность информации. Модель знает мир до декабря 2025 года. Если вы делаете визуал про свежий закон, новый гаджет или вчерашний инфоповод, детали могут не совпасть с реальностью.
Контроль бренда. Для серьёзных брендов Images 2.0 пока лучше использовать как генератор концептов, а не финальных макетов. Шрифты, фирменные цвета и точные гайды всё равно нужно проверять вручную.
Юридические риски. Как и с любыми ИИ-изображениями, важно следить, чтобы итог не повторял существующие логотипы или защищённые стили. Для чувствительных тем лучше подключать юристов.

Доступность из России

OpenAI традиционно ограничивает доступ к своим продуктам в ряде стран. Для работы с ChatGPT и API часто используют VPN и зарубежные платёжные методы. Если у вас уже есть доступ к ChatGPT или Codex, Images 2.0 появится в этом же интерфейсе.

Место на рынке

ChatGPT Images 2.0 выходит на рынок, где уже работают крупные генераторы изображений, но здесь есть несколько чётких отличий.

Текст на картинках. Массовые диффузионные модели долгое время не могли стабильно рисовать читаемые надписи. Images 2.0 делает это системно: от меню до интерфейсов с мелким текстом.
Интеграция с чат-ассистентом. Модель встроена в ChatGPT и Codex. Это один сценарий: вы обсуждаете идею текстом и тут же превращаете её в изображение, не переходя в отдельный продукт.
API для разработчиков. gpt-image-2 открывает доступ к тем же возможностям через программный интерфейс. Цена зависит от качества и разрешения итоговой картинки, что удобно для сервисов с разным бюджетом на генерацию.

По скорости Images 2.0 медленнее обычного текстового ответа ChatGPT, но для задач дизайна и маркетинга несколько минут за многостраничный комикс или серию баннеров — рабочий сценарий.

Сравнивать стоимость и производительность с другими генераторами по конкретным цифрам сейчас нельзя, но по набору функций Images 2.0 явно нацелен на профессиональные и около-профессиональные задачи: маркетинг, дизайн, продуктовые команды и создатели визуального контента.