Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:
-
Продуктовым менеджерам — интегрировать AI без перегрузки команд;
-
Разработчикам — выбирать инструменты под конкретные бизнес-задачи;
-
Специалистам по данным — избегать ошибок в production-развертывании.
У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.
Сегодняшний перевод — No elephants: Breakthroughs in image generation
Статья исследует революционный скачок в технологиях генерации изображений, произошедший с появлением мультимодальных моделей Google и OpenAI. В отличие от предыдущих систем, где языковые модели лишь формулировали запросы для отдельных генераторов изображений, новые AI создают визуальный контент напрямую, “собирая” его по частям подобно словам в предложении.
Ключевые инсайты:
-
мультимодальные модели предоставляют беспрецедентный контроль над результатом через обычные текстовые запросы
-
можно итеративно редактировать изображения на естественном языке
-
границы между профессиональным дизайном и AI-генерацией стремительно размываются, меняя множество творческих профессий.
В статье демонстрируются конкретные примеры создания инфографики, редактирования интерьеров, прототипирования сайтов и рекламных концепций с помощью простых текстовых запросов, что открывает новые возможности для дизайнеров, маркетологов и контент-создателей.
За последние две недели сначала Google, а затем OpenAI представили свои возможности мультимодальной генерации изображений. Это очень важное событие. Раньше, когда большая языковая модель ИИ генерировала изображение, работу выполняла не сама модель. Вместо этого ИИ отправлял текстовый запрос в отдельный инструмент генерации изображений и показывал вам результат. ИИ создавал текстовый запрос, но другая, менее интеллектуальная система создавала изображение. Например, если задать запрос “покажи мне комнату без слонов, обязательно добавь аннотации к изображению, чтобы показать, почему здесь нет слонов“, менее интеллектуальная система генерации изображений увидела бы слово “слон” несколько раз и добавила их на картинку. В результате генерируемые ИИ изображения были довольно посредственными, с искаженным текстом и случайными элементами; иногда забавные, но редко полезные.
Мультимодальная генерация изображений, с другой стороны, позволяет ИИ напрямую управлять созданием изображения. Хотя существует множество вариаций (и компании держат некоторые из своих методов в секрете), при мультимодальной генерации изображения создаются таким же образом, как LLM создают текст — по одному токену за раз. Вместо того чтобы добавлять отдельные слова для составления предложения, ИИ создает изображение из отдельных фрагментов, один за другим, которые собираются в целую картинку. Это позволяет ИИ создавать гораздо более впечатляющие и точные изображения. Вы не только гарантированно получаете отсутствие слонов, но и конечные результаты этого процесса создания изображений отражают интеллект “мышления” LLM, а также четкий текст и точный контроль.

Хотя последствия этих новых моделей изображений огромны (и я затрону некоторые проблемы позже), давайте сначала изучим, на что на самом деле способны эти системы, на нескольких примерах.
Промпты, но для изображений
В своей книге и во многих публикациях я говорю о том, что полезный способ взаимодействия с ИИ — относиться к нему как к человеку, хотя он таковым не является. Четкие указания, обратная связь в процессе итерации и соответствующий контекст для принятия решений помогают людям, и они также помогают ИИ. Раньше это можно было делать только с текстом, но теперь это возможно и с изображениями.
Например, я задал GPT-4o запрос “создай инфографику о том, как создать хорошую настольную игру”. С предыдущими генераторами изображений это привело бы к бессмысленному результату, поскольку для управления генерацией изображений не было интеллекта, поэтому слова и изображения были бы искажены. Теперь я получаю хороший первый вариант с первого раза. Однако я не предоставил контекст о том, что я искал, или какое-либо дополнительное содержание, поэтому ИИ принял все творческие решения самостоятельно. Что, если я хочу это изменить? Давайте попробуем.

Сначала я попросил “сделать графику гиперреалистичной”, и вы можете увидеть, как он взял концепции из первоначального варианта и обновил их внешний вид. У меня было больше изменений, которые я хотел внести: “Я хочу, чтобы цвета были менее землистыми и больше похожими на текстурированный металл, сохраните всё остальное как есть, также убедитесь, что мелкий маркированный текст светлее, чтобы его было легче читать”. Мне понравился новый вид, но я заметил, что была допущена ошибка, слово “Define” превратилось в “Definc” – признак того, что эти системы, какими бы хорошими они ни были, еще далеки от совершенства. Я сделал запрос “Вы написали Define как Definc, пожалуйста, исправьте” и получил нужный результат.

Но самое увлекательное в этих моделях то, что они способны создавать практически любые изображения: “поместите эту инфографику в руки выдры, стоящей перед вулканом, это должно выглядеть как фотография, и как будто выдра держит это, вырезанное на металлической табличке”.

Почему бы на этом не остановиться? “сейчас ночь, табличка освещена фонариком, светящим прямо в центр таблички (не нужно показывать фонарик)” — результаты этого более впечатляющие, чем может показаться, потому что модель переделывала освещение без какой-либо базовой модели освещения. “Создайте экшн-фигурку выдры в упаковке, сделайте настольную игру одним из аксессуаров сбоку. Назовите ее “Выдра-дизайнер игр” и дайте ей пару других аксессуаров.” “Сделайте выдру в самолете, использующую ноутбук, она покупает копию Выдры-дизайнера игр на сайте под названием OtterExpress.” Впечатляюще, но не совсем правильно: “исправьте клавиатуру, чтобы она была реалистичной, и уберите фигурку выдры, которую он держит”.

Как видите, эти системы не безупречны… но также помните, что изображения ниже — это результаты запроса “выдра в самолете, использующая Wi-Fi” два с половиной года назад. Передовые технологии стремительно развиваются.

Для чего это может быть полезно?
Последние пару лет мы пытались выяснить, для чего полезны текстовые модели ИИ, и новые варианты использования разрабатываются постоянно. То же самое будет и с моделями на основе изображений. Генерация изображений, вероятно, будет очень разрушительной в тех аспектах, которые мы пока не понимаем. Это особенно верно, потому что вы можете загружать изображения, которые LLM теперь может непосредственно видеть и манипулировать ими. Вот несколько примеров, все выполнены с использованием GPT-4o (хотя вы также можете загружать и создавать изображения в Gemini Flash от Google):
Я могу взять нарисованное от руки изображение и попросить ИИ “сделать из этого рекламу энергетического напитка Speedster, убедитесь, что упаковка и логотип великолепны, это должно выглядеть как фотография”. (Это потребовало двух запросов, в первый раз он неправильно написал Speedster на этикетке). Результаты не так хороши, как мог бы создать профессиональный дизайнер, но представляют собой впечатляющий первый прототип.

Я могу дать GPT-4o две фотографии и запрос “Можешь заменить журнальный столик на изображении с синим диваном на тот, что на фото с белым диваном?” (Обратите внимание, как новая стеклянная столешница показывает части изображения, которых не было в оригинале. С другой стороны, замененный столик не совсем такой же). Затем я спросил: “Можешь сделать ковер менее выцветшим?” Опять же, есть несколько деталей, которые не идеальны, но такое редактирование изображений на простом английском языке раньше было невозможно.

Или я могу создать мгновенный макет веб-сайта, концепцию рекламы и презентацию для своей отличной стартап-идеи, где дрон доставляет гуакамоле по запросу (уверен, что это будет хит). Вы можете видеть, что это еще не замена для озарений человека-дизайнера, но всё же очень полезный первый прототип.

Кроме этого, есть много других применений, которые я и другие открываем, включая: визуальные рецепты, домашние страницы, текстуры для видеоигр, иллюстрированные стихи, бессвязные монологи, улучшения фотографий и визуальные приключенческие игры, и это лишь некоторые из них.
Сложности
Если вы следили за онлайн-обсуждением этих новых генераторов изображений, вы, вероятно, заметили, что я не продемонстрировал их самое вирусное использование – перенос стиля, когда люди просят ИИ преобразовать фотографии в изображения, похожие на те, что были созданы для “Симпсонов” или студией Ghibli. Такие приложения подчеркивают все сложности использования ИИ для искусства: правильно ли воспроизводить с помощью ИИ с трудом заработанный стиль других художников? Кому принадлежит полученное произведение искусства? Кто получает от него прибыль? Какие художники находятся в обучающих данных для ИИ, и каков юридический и этический статус использования произведений, защищенных авторским правом, для обучения? Это были важные вопросы до появления мультимодального ИИ, но теперь поиск ответов на них становится всё более неотложным. Кроме того, конечно, существует множество других потенциальных рисков, связанных с мультимодальным ИИ. Дипфейки было тривиально создавать по крайней мере год, но мультимодальный ИИ делает это еще проще, включая возможность создавать всевозможные другие визуальные иллюзии, такие как поддельные чеки. И мы пока не понимаем, какие предубеждения или другие проблемы мультимодальные ИИ могут внести в генерацию изображений.
Однако ясно, что то, что произошло с текстом, произойдет с изображениями, а в конечном итоге и с видео, и с трехмерными средами. Эти мультимодальные системы меняют ландшафт визуального творчества, предлагая мощные новые возможности, одновременно поднимая законные вопросы о творческом владении и аутентичности. Граница между человеческим и ИИ-творчеством будет продолжать размываться, заставляя нас пересмотреть, что составляет оригинальность в мире, где каждый может генерировать сложные визуальные образы с помощью нескольких запросов. Некоторые творческие профессии адаптируются; другие могут остаться неизменными, а третьи могут полностью преобразиться. Как и при любом значительном технологическом сдвиге, нам понадобятся хорошо продуманные основы для навигации в сложной местности впереди. Вопрос не в том, изменят ли эти инструменты визуальные медиа, а в том, будем ли мы достаточно вдумчивы, чтобы формировать это изменение намеренно.

Автор: Kual