Нейросеть — это специализированная структура, программа, способная на основе каких-либо данных создавать другие. То есть трансформировать их, например, из текста, его смысла и оборотов, используемых в нем, создавать картины или видео.
Можно сказать, что нейросети повторяют функции человеческого мозга, но еще находятся на примитивном уровне по сравнению с ним. Ведь для эффективной мозговой деятельности важным параметром является слаженность работы многих нейронов одновременно, связанных определенными каналами, за счет чего они могут общаться между собой с огромной скоростью.
Для работы миллиона нейронов необходимо задействовать много мощных компьютеров и связать их между собой. Данный процесс стоит дорого и является затратным по ресурсам и времени. Что и определяет примитивное состояние нейросетей в сравнении с мозгом человека.
Но все равно разработка нейросетей и их ответы на различные запросы (задачи) уже является немалым прогрессом. Ведь при дальнейшем развитии механизмы, построенные на нейросетях, будут функционировать так же, как человек, и смогут заменить его в некоторых сферах деятельности.
Что такое запросы?
Запросом является базовая информация, задающая цель функционирования нейросети. То есть тут определяется, что нейросеть должна создать и каков итоговый результат. Вы имеете в голове некую идею и к ней исходящую информацию, но при вводе данного запроса в ИИ получается не то, что вы представляли.Так получается потому, что необходимы определенные знания о правильном составлении данных запросов, чтобы ИИ правильно понял, что пользователь имеет в виду, и смог воспроизвести то, что от него требуется.
В скором будущем ожидается, что появится новая профессия, выраженная в правильном составлении запросов для нейросетей. Так, изначально клиенту нужно будет консультироваться с данным специалистом. А потом он, вооружившись знаниями о построении запросов к нейросети, посредством ее воспроизведет изначальный заказ.
Составить запрос к нейросети по сути легко. Но необходимо руководствоваться некоторыми правилами, чтобы не тратить зря бесплатные попытки.
Так, чтобы ИИ сгенерировал обычную картинку, хватит нескольких слов. Но лучше добавить все требуемые положения и описания к ней. Во избежание генерации ее «по умолчанию». Ведь часто нейросеть «додумывает» ее каким-то непонятным способом, и результат получается плачевным.
Нейросети недалеко ушли от языков программирования. Поэтому команды они четче понимают на английском языке. ИИ способен читать и другие языки, но как он их обработает и что воспроизведет, никто не знает. Поэтому для более точной обработки запросов рекомендуется работать с нейросетевым переводчиком DeepL.
Объекты являются важной частью всех запросов. Потому как они вбирают в себя всю их суть. Поэтому нужно максимально точно и понятно описывать всё при подаче запроса в нейросеть. Центровые объекты — это, например, кот, волшебник, пожарник, актер и так далее. А все остальное уже будет фоном к нему или какими-то дополнениями.
В интернете много различных изображений. И нейросеть без труда найдет все, которые подходят к запросу. Поэтому лучше подавать несколько запросов для наиболее полного подбора картинок и больших вариантов выбора. Допустим, кот — геймер, некромант — капиталист и киберпанк — монах. Так с разных картинок получится изъять некий предмет для создания своего уникального изображения.
Можно посредством предлогов и предложений о замене лиц и их изображений на лица персонажей сделать Шрека, например, с лицом Гарри Поттера или облачить его в рыцарские доспехи. В общем, можно экспериментировать по-разному. Главное — представлять конечный продукт четко. И уметь понятным языком это выражать.
Следует отметить, что при желании воспроизвести три-четыре объекта в итоговом изображении следует точно указать их количество. Потому как без этого нейросеть отобразит произвольное количество.
Также нейросети с трудом работают с большим количеством изображений, например, 5—6. Исходя из этого следует подавать запрос сразу как один объект, но со многими составляющими: 5 монахов, 7 велосипедистов. Интересно и то, что при большом количестве людей, животных они получаются размытыми, ведь ИИ затруднительно их всех точно детализировать. Особенно если они отличаются друг от друга дизайном и видом, функциями.
Абстракция. Нейросеть может воспроизводить время, судьбу или остальные абстрактные понятия, основываясь на изображениях, найденных в сети. Поэтому при использовании разных запросов с одним смыслом можно получить разный результат: судьба, доля, предначертание.
Стоит отметить, что самостоятельное додумывание запроса не рекомендуется, потому как нейросеть запутается и воспроизведет что-то непонятное. А вот если абстрактные мысли заменить точными данными и объектами, тогда результат получится с большей вероятностью правильным.
Следующие запросы лучше сразу обойти, потому как они проблематичны для обработки ИИ. И вряд ли выдадут требуемый результат:
- Следует исключить отрицания «не», «нет», «исключая». Потому как неизвестно, как нейросеть выдаст данный запрос. Например, «мужчина без бороды» может отобразиться «с бородой», а вот если запросить «чисто выбритый мужчина», то ИИ выдаст точный результат. Потому как нет отрицаний, запрос максимально точен.
- Постараться минимизировать количество детализированных, сложных объектов. Ведь если таковые будут, то они окажутся размытыми либо вовсе перепутанными. Рекомендуемое число объектов — 2—3. Так ИИ будет легче их воспроизвести, разделить, обработать и детализировать.
- Точная передача объектов практически невозможна. Всегда следует понимать, что нейросеть ищет фотографии, находящиеся в сети. Поэтому по запросу «Москва» вы получите не точную топографическую карту, а лишь смешанный набор фотографий, находящихся в первых рядах поисковой выдачи. Подобные объекты имеют много элементов, которые могут значительно отвлекать нейросеть.
Действия. Данный параметр особенно интересен, потому как «размышляет» и «стоит, погруженный в мысли» выдадут разные изображения. Первое будет произвольным, а второе — более точным. Также «идти», «стоять», «сидеть» рекомендуются к использованию, потому что они однозначны и помогут точно отобразить положение либо действие.
Описания. Посредством их изображениям можно придать настроение либо фон. Так, «грустный», «веселый» практичнее, чем «лучезарный» или «развлекательный», потому как они помогут точно определить подходящие изображения в сети и предоставить их вам для выбора наиболее подходящего.
Для усиления эффекта лучше использовать синонимы и стараться передавать их одним словом. Без таких словосочетаний, как «очень», «более». Потому как нейросеть не понимает данные словоформы. И для точного воспроизведения описаний лучше использовать английский язык. А выбрать подходящие синонимы можно на ресурсе losethevery.
Цвет. В запросах можно обозначать цветность объектов и их окружения. Для этого необходимо изучить цветовую палитру и названия цветов на английском. Так ИИ будет легче понять, какой цвет требуется отобразить. Можно обозначать переходы с одного цвета на другой для сглаживания границ цветности.
Существуют следующие цветовые параметры запросов:
- Хорошо отображаются все базовые цвета: красный, синий, зеленый и остальные. Тональность цветов и переходы от одного к другому необходимо больше описывать точными фразами.
- Палетки. Часто выражаются в пастельных тонах — радужных и с определенными цветами, которые являются успокаивающими.
- Можно попробовать описания запросов с выражением художественных цветов: неон, сепия, черно-белая гамма, kodachrome.
Настройки кадров. Для более четкого дизайна, качества изображения лучше уточнять расстояние до объекта и характеристики фотографий, используемые фотографами и печатными изданиями. Это поможет отсортировать весь материал плохого качества и предоставить для выбора только подходящий по категориям (типа камеры, объектива, расстояния до объекта, фокусного расстояния, выдержки).
Отсылка к платформе. Энтузиасты и приверженцы ИИ отмечают повсеместно, что последний обучается на изображениях в интернете и использует их для комбинирования результата по запросам. И в то же время есть специальные сервисы, которые могут стилизовать необходимые картинки и придать им соответствующий характер. Для облегчения работы ИИ можно предоставлять ему ссылки на эти ресурсы.
Определение стиля. Существуют определенные библиотеки всех стилей, эпох, художников и направлений. И если указать в запросе конкретный ресурс, то нейросеть с легкостью отыщет подходящий вариант. Так получится полнее отобразить стиль и подчеркнуть дух картинки либо объекта.
Стилисты и их сообщества трудятся в разных направлениях и способны создать конкретный запрос на исходных данных. С примерами работ можно ознакомиться на сайте художника Эллисон Александр.
Люди, которые уже неоднократно создавали композиции посредством нейросетей для разных проектов, могут дать следующие советы, используя которые удастся за короткое время создать качественный продукт:
- Смесь стилей. Этот параметр выглядит экзотически и завораживает. Например, при смеси киберпанка и пиксель-арта получится новый уникальный стиль, который поможет отразить настроение объекта. Но следует понимать, что нельзя смешивать стили со взаимоисключающими параметрами. Потому как в этом случае будет выбран один, преобладающий.
- При обозначении стилей можно воспользоваться именами артистов, художников, создателей кино и музыкальных произведений. В общем, существуют стилевые библиотеки, где под конкретным стилем указаны все данные по их созданию. Можно использовать стили разных актеров и исполнителей эстрады. Для этого стоит прописать только Ф. И. О. актера и запрос на его стиль.
- Преобразование объектов. При подаче запроса следует указать, какие формы искусства требуются: картина, постер, фотография, скульптура, мозаика, татуировка, пазл, вышивка. Ведь на основе этих данных ИИ будет понимать, к какой базе данных ему обращаться. Также определенные библиотеки придают жизни персонажам. Они как бы запечатлены в производстве какого-либо действия. «Шрек бежит с мечом» — тут следует детализировать воздействие окружающей среды и гравитации на его изображение, чтобы воспроизвести данный объект таким образом, чтобы зритель понимал его движения.
Использование картинок
Чтобы не выдумывать, как словами описать ту или иную картинку, можно использовать похожую как шаблон. И прописать в запросе, что нужно взять из исходной картинки, чтобы создать новую.Тут рекомендуется загрузить собственное селфи и попробовать его в разных стилях. Лицо или черты можно накладывать на ту структуру тела, которая вам нравится. Также можно чередовать лица актеров и смотреть, как они выглядят с другим телом.
Смешивание двух изображений
Обеспечивается загрузкой картинок и подачей соответствующего запроса. Так нейросеть выделит равные характеристики картинок и смешает их. В результате чего получится третья картинка с элементами первых двух. К сожалению, нельзя задать, что конкретно следует смешивать. И поэтому тут ИИ действует по умолчанию.Использование сгенерированных изображений. Они практически полностью подвержены дополнениям и разделениям. Их можно соединять с другими изображениями и дорабатывать посредством обработки соответствующих запросов на добавление конкретных объектов и фона, стиля.
Добавление надстроек
Разные нейросети включают в себя соответствующие надстройки по габаритам изображения, фонам и цветовой гамме. Также существуют дополнительные параметры надстроек. В запросе их можно прописать соответствующими командами. На каждой платформе они свои, поэтому перед их использованием следует ознакомиться со списком команд и их соответствием функциями нейросети.Надстройки в Midjourney, например, имеют следующий вид:
- Стилизация. Для обеспечения выбора стиля необходимо добавить к запросу --s(x). Это обеспечит выбор их от 0 до 60 000.
- Хаос. Посредством данного параметра, вызываемого --chaos 100, можно выбрать уровни абстракций и их смешивания в периоде от 0 до 100.
- Качество. Тут есть выбор от 1 до 4. Ранее был и 5, но из-за максимальной нагрузки другие функции нейросети лагали. По умолчанию параметр стоит на 1. При его увеличении растет и детализация, acrylic painting --quality 4.
-
Соотношения сторон. Если параметр вызывать без прописывания, то умолчание составляет 1:1. Либо горизонтальная --are 4:3 или --are 3:2, вертикальная --are 2:3.
- Вес. Тут выражен смысл, вес каждого слова в запросе. Так, допустим, вес слова 2 ниже, чем слова 5, и оно будет более проявлено и больше привлечет внимания нейросети. Для подробного понимания смысла веса можно ознакомиться с соответствующей документацией, имеющейся у каждой платформы.
- Фильтрация слов. В некоторых запросы с отрицанием можно проводить, использовав команду –no, после которой следующее слово будет отрицаться. И нейросеть будет его игнорировать.
- Шаги. Любые изображения, генерируемые нейросетями, проходят шагами. Соответственно, чем больше шагов, тем больше детализированных изображений, но и время на их обработку также повысится. По умолчанию стоит 50 шагов, но данный параметр можно изменять.
- Classifier Free Guidance. Это определяет возможность обработки каждого слова в запросе. Допустим, если стоит 7, то нейросеть половину додумает сама, а если менее 6, то все оказывается в ее руках. И что будет в итоге, трудно сказать. Если же вы хотите полного соответствия вашим запросам, то лучше ставить наивысший коэффициент — 16.
- Seed. Это является отправной точкой для генерации изображения. По умолчанию она является произвольной. Так нужно для каждого начала отдельного от предыдущего создания картинки. Таких точек по изображению имеется до 16 млрд. Можно определить какое-то конкретное. Но потом все создание изображений будет именно с этой точки. Еще можно делиться данной точкой с остальными пользователями для создания общего фундамента, матрицы.
- Resolution. Размер изображений, определяющий их загрузку и обработку. Ведь чем он больше, тем дольше время обработки. В интернете много изображений 512 на 512, с этими обычно нейросети и работают. Но если вам потребуется расширить, то оно станет более детализированным и ИИ будет искать в сети соответствия.
Поиск вдохновения
При просмотре запросов от других людей можно понять направление собственной мысли. Посредством добавления или устранения лишних объектов можно добиться собственной уникальной картинки, которая будет не менее завораживающей и прекрасной.
Промпт-буки. Данные картинки собраны на одной платформе, они являются похожими между собой, но с разными словами в запросах. Это является ярким примером того, как одно слово может изменять стиль и суть картинки.
Галерея. Тут представлены все популярные картинки и библиотеки стилей, фонов и так далее. Тут по имени и соответствующему стилю можно находить конкретные изображения и создавать каталоги для изучения ИИ. Но чаще такие сервисы используются для ознакомления с разными стилями и функциями их изменений.
Промптер. Площадки для лучшего формирования запросов. Основываются они на запросах произвольного пользователя и предлагают ему обозначить дополнительные параметры. От этого первоначальный запрос становится другим. Его можно потом использовать для работы с нейросетью.
Как собрать все в один запрос?
Для более точного совпадения требуемого результата и финишной картинки необходимо все слова правильно распределить в запросе. Так, первые слова имеют больший вес, чем последние. Поэтому в сообществе специалистов был разработан следующий порядок создания запросов:
- Главным параметром изображения является фото, кадр из фильма или иллюстрация. На основе этого делается все остальное.
- Обозначается объект, вид, его стиль и функции, цвет и тональность фона, где он расположен.
- Описание деталей объекта, его дополнительные опции, функции, настроение, которое он передает.
- Стилевые данные. Тут описываются все цвета и переходы, задействованные в изображении, автор и его стиль.
- Дополнительные настройки. Выражаются во времени дня или ночи, сколько на часах, включают и остальные элементы, важные для изображений (погода, месторасположение).
- Прописывание надстроек. Определение размеров картинки, стилизации и параметров хаоса, также приоритетность слов в запросе.
Также интересно, что в некоторых случаях ИИ может не понимать некоторых запросов. Поэтому стоит переформулировать слова запроса на те, которые будут более конкретными.
Источник: journal.tinkoff.ru
Фото: freepik