Мы уже с вами познакомились с возможностью создания первого тестового изображения с помощью запроса (prompt): «Astronaut in a jungle, cold color palette, muted colors, very detailed, sharp focus».
Для этого мы добавили наш запрос в окно ввода запроса (prompt) и нажали кнопку создания изображения «Generate», как это показано на рисунке ниже:

Это было наше первое знакомство с понятием «запрос». Теперь давайте остановимся на этом очень важном этапе создания изображения более подробно.
Итак, сгенерировать изображение мы можем с вами из запросов следующего вида:
1. Запрос, состоящий из текста, описывающего то изображение, которое мы хотим создать.
Например, «улыбающийся кот-киберпанк в фиолетовой шляпе-котелке с синим киберглазом сидит в кафе и пьет кофе».
Обратите еще раз, пожалуйста, свое внимание на то, что все описания изображений (которые вы хотите создать) делаются на английском языке. Я привожу данный запрос на русском для того, чтобы вы быстро смогли понять разницу в подходах к их написанию. Если у вас есть какие-то сложности с переводом, вы можете воспользоваться переводчиком.
Теперь давайте создадим изображение на основе нашего запроса и посмотрим, что из этого получится.
Для этого выберем модель, с которой будем дальше работать. Например, flux1-schnell-bnb-nf4.safetensors:

В окне ввода текстового описания добавим наш новый запрос на английском языке: «smiling cyberpunk cat in purple bowler hat with blue cyber eye sitting in cafe drinking coffee».

Далее в панели инструментов установим размер (разрешение) изображения, которое мы будем создавать на значения: Width (ширина) 512 и Height (высота) 512.

Все остальные параметры оставим без изменений и нажимаем кнопку Generate (Создать).
В результате генерации мы получили с вами следующее новое изображение:

Важно отметить, что итоговое изображение у меня и у вас может немного отличаться, но в целом они будут похожи. Это, прежде всего, зависит от конфигурации вашего оборудования и выбранной вами модели.

Для того чтобы сохранить полученное изображение, вам нужно нажать на пиктограмму дискеты под изображением, как это показано ниже:

2. Запрос, состоящий из набора ключевых слов, описывающих основную идею и передающих системе искусственного интеллекта смысл нашей задумки. Например, «улыбающийся кот-киберпанк, синий киберглаз, фиолетовая шляпа-котелок, чашка кофе, кафе».
Теперь давайте создадим изображение на основе нашего запроса и посмотрим, что из этого получится.
Оставляем наш выбор на модели flux1-schnell-bnb-nf4.safetensors:

В окне ввода текстового описания добавим наш новый запрос на английском языке: «smiling cyberpunk cat, blue cyber eye, purple bowler hat, cup of coffee, cafe».

Далее в панели инструментов установим размер (разрешение) изображения, которое мы будем создавать на значения: Width (ширина) 512 и Height (высота) 512.

Все остальные параметры оставим без изменений и нажимаем кнопку Generate (Создать).
В результате генерации мы получили с вами следующее новое изображение:

3. Один из вышеописанных видов запросов с добавлением стилей или просто ключевых слов, которые придают определенный особенный вид нашему новому изображению.
Например, «улыбающийся кот-киберпанк в фиолетовой шляпе-котелке с синим киберглазом сидит в кафе и пьет кофе, фотореалистично, идеальная композиция, кинематографический кадр, сложные детали, гипердетализация, прохладная цветовая палитра, приглушенные цвета, очень подробный, четкий фокус».
Теперь давайте создадим изображение на основе нашего более сложного запроса и посмотрим, что из этого получится.
Оставляем наш выбор на модели flux1-schnell-bnb-nf4.safetensors:

В окне ввода текстового описания добавим наш новый более сложный запрос, который содержит так называемые стили или ключевые слова, определяющие его особые уникальные свойства: «smiling cyberpunk cat in purple bowler hat with blue cyber eye sitting in cafe drinking coffee, photorealistic, perfect composition, cinematic shot, intricate details, hyper detail, cool color palette, muted colors, very detailed, sharp focus».

Далее в панели инструментов установим размер (разрешение) изображения, которое мы будем создавать на значения: Width (ширина) 512 и Height (высота) 512.

Все остальные параметры оставим без изменений и нажимаем кнопку Generate (Создать).
В результате генерации мы получаем с вами следующее новое изображение:

Как мы с вами видим, дополнительные стили помогли придать нашему изображению настоящую фотореалистичность. Должен вам сказать, что модель FLUX.1 справилась со своей задачей просто блестяще. Еще год назад, когда я работал с другими системами, такой результат был практически не достижим.
Теперь для закрепления нашего навыка по написанию сложного запроса проделаем еще два полезных упражнения.
Давайте теперь основную часть запроса оставим прежней, а поменяем стиль.
Для большей наглядности стилизуем его под комикс: «smiling cyberpunk cat in purple bowler hat with blue cyber eye sitting in cafe drinking coffee, modern art image, comic, manga».
В результате генерации мой лучший вариант выглядит так:

После того как мы с вами разобрались с тем, что наш запрос может состоять из описательной части (в виде сплошного текста или набора ключевых слов) и набора стилей, мы с вами готовы использовать встроенные стили Stable Diffusion WebUI Forge.
Для этого нам нужно от старого запроса оставить содержательную часть и удалить старые стили. Затем выбираем нужный нам стиль из cписка и жмем кнопку сверху «apply all selected styles to prompts»:

В результате у меня получился вот такой запрос: «Dark Fantasy Art, fairy tale comic smiling cyberpunk cat in purple bowler hat with blue cyber eye sitting in cafe drinking coffee, . graphic illustration, comic art, graphic novel art, vibrant, highly detailed . magical, fantastical, enchanting, storybook style, highly detailed, dark, moody, dark fantasy style».
И вышло вот такое вот изображение (раза с десятого):

Для создания этого изображения я подбирал стили со словом «comic». Не расстраивайтесь, если у вас сразу не вышло то, чего вы хотели.
Чаще всего у меня выходили вот такие картинки:

Смело экспериментируйте. Все получится!
4. Запрос, созданный при помощи другой нейросети. Для этого можно использовать, например, ChatGPT.
Приведу вам очень простой, но наглядный пример с использованием, по моему мнению, классной языковой модели Mistral.
Для создания запроса переходим на сайт chat.mistral.ai и пишем на русском языке наше маленькое техническое задание для нейросети: «напиши мне запрос для генерации изображения с красивым улыбающийся кот-киберпанк в фиолетовой шляпе-котелке с синим киберглазом, который сидит в кафе и пьет кофе, изображение должно получиться в стиле Пабло Пикассо».

В результате нейросеть написала следующий запрос: «Создай изображение в стиле Пабло Пикассо, на котором изображен улыбающийся кот-киберпанк в фиолетовой шляпе-котелке с синим киберглазом. Кот сидит в кафе и пьет кофе. Изображение должно быть выполнено в кубистическом стиле, характерном для Пикассо, с яркими и контрастными цветами, а также с использованием геометрических форм и фрагментированных линий».
Переводим его на английский язык: «Create an image in the style of Pablo Picasso, which depicts a smiling cyberpunk cat in a purple bowler hat with a blue cyber eye. The cat is sitting in a cafe and drinking coffee. The image should be done in the cubist style characteristic of Picasso, with bright and contrasting colors, as well as the use of geometric shapes and fragmented lines».
Запускаем генерацию изображения.

Вот мой итоговый вариант:

Должен вам сказать, что год назад еще не было такой специальности, как промпт-инженер. Сейчас она есть и пользуется стабильным спросом.
Я рекомендую вам посвятить некоторое дополнительное время изучению вопроса написания запросов при помощи нейросетей. В этом процессе есть особенности и специфика. Например, вы должны ставить перед нейросетью четко сформулированную и структурированную задачу, чтобы она смогла выполнить свою работу более качественно.
В любом случае, как мы с вами видим, написание запроса уже является проявлением творческих способностей человека, и именно от них зависит то, какой результат вы получите в итоге своей работы по созданию уникальных изображений.
Подведем промежуточный итог.
Как вы теперь знаете, наиболее популярной моделью, при помощи которой создаются уникальные изображения, является модель FLUX.1, а наиболее мощной – модель FLUX1.1 [pro]. В 2024 году именно модель FLUX.1 стала прорывной технологией в генеративном искусственном интеллекте, оставив позади себя все остальные модели от других разработчиков. Десятки интернет-сервисов стали рекомендовать ее как наиболее производительную и эффективную в создании изображений.
С помощью первых пяти занятий вы научились выполнять установку бесплатной системы генеративного искусственного интеллекта Stable Diffusion WebUI Forge, которая успешно работает с моделью FLUX.1. Вы, также, попробовали свои силы в создании собственного уникального изображения. Этих базовых навыков вам теперь достаточно для того, чтобы принять для себя решение о том, готовы ли вы перейти на другой уровень и получить полноценные знания по генерации изображений.
Если вам понравилась наши уроки, и вы готовы идти дальше, рекомендую вам приобрести мою книгу «Генеративный искусственный интеллект #Forge&flux. Учебное пособие для школьников старших классов и студентов первых курсов вузов», которая состоит из десяти следующих практических уроков:
-
Урок 1. Txt2img: пишем правильный запрос.
-
Урок 2. Txt2img: сохраняем и улучшаем.
-
Урок 3. Txt2img: настройка параметров генерации изображения.
-
Урок 4. Txt2img: скрытые возможности Hires.fix.
-
Урок 5. Txt2img: модель LoRA.
-
Урок 6. Txt2img: текстовая инверсия.
-
Урок 7. Img2img: настройка параметров генерации изображения.
-
Урок 8. Img2img: чудеса генерации.
-
Урок 9. Закладка Spaces.
-
Урок 10. Закладка Extras.
С ее помощью вы получите значительные знания и опыт по работе с системой генеративного искусственного интеллекта Stable Diffusion WebUI Forge.
В ближайшие недели у вас будет уникальная возможность познакомиться с материалом книги и новыми уроками на Хабр!
Автор: Alexander_Chesalov