Читать онлайн "Dezgo – рисующая нейросеть" - Сирфидов Иван - RuLit

Для сети RealDream12 я сделал пример картинок, посмотреть можно тут: dvo.my1.ru/dez/pics_rd12.html. Это не какое-то всестороннее её представление, это просто небольшая демонстрация её возможностей, показывающая, что она способна нарисовать всего лишь по двум словам (если удачно их подобрать).

Controlled Text-to-image

Перерисовка картинки по тексту. Снова повторю, о чём говорил в кратком описании. Фактически это тоже генератор изображений, не редактор, предоставляемая исходная картинка для него как шаблон, с которого он считывает параметры и может воспроизводить их с заданным разбросом. Потому он совершенно не зависит ни от её качества, ни от размеров. По сути это расширенный аналог функции text-to-image, отличающийся от неё лишь тремя дополнительными опциями, создаёт изображения того же размера (384x672, 672x384 или 512x512), предлагает выбор из тех же самых 31-ой нейросети. В кратком описании вы найдёте чуть больше объяснений, что такое Controlled Text-to-image, здесь я их приводить ещё раз не буду, исходя из мысли, что они вам уже известны.

dezgo.com/controlnet

Ключевые опции:

Prompt – текст с описанием, как должна выглядеть конечная картинка. Важно отметить, если мы перерисовываем картинку с целью именно редактирования, т.е. хотим внести в нём некие изменения, но в целом сохранить максимально похожей, нам весьма вероятно понадобится тот текст, по которому была сгенерирована исходная картинка. Таким образом, при генерации картинок (скажем, в функции text-to-image), если в будущем есть вероятность, что мы станем их править перерисовкой, нам обязательно нужно сохранить текст, с помощью которого они были сгенерированы (ну или его можно взять непосредственно из картинки, как мы помним, Dezgo сохраняет его там, открывайте её блокнотом, и он будет вверху). Иногда картинку можно перерисовать похожей без исходного текста, иногда нет. Потому его желательно иметь. Вообще, задать текст так, чтобы нужные нам изменения произошли, а ненужные нет, непростая задача. Порой приходится поломать голову, как это сделать. Бывает, как раз с исходным текстом ничего не получается, а упростишь его прям до отдельных слов, и всё рисуется как надо.

Control scale – задаёт (в процентах от 0 до 100), насколько нужно сохранять контент исходной (перерисовываемой) картинки. По умолчанию установлено на 100%, что означает указание сохранять исходный контент максимально неизменным. При этом даже на 100% похожесть нам вовсе не гарантируется, это зависит от нескольких ключевых моментов – от того, сгенерирована ли исходная картинка в Dezgo или взята со стороны, от того, что за текст мы задали в prompt, в каком режиме перерисовываем, какой сетью, и т.д.

Control model – режим перерисовки. Задаёт, какой тип структуры следует извлечь из исходного изображения. Ну или иначе, какой из типов его структур будет считаться контрольным. Возможные режимы:

Canny Edges – основные края.Depth Map – карта глубины.Line Art – штриховое искусство.Straight Lines – прямые линии.Normal Map – карта нормалей.Scribble – каракули.

У каждого значения есть поясняющая картинка, по которой можно сделать хоть какие-то выводы, что оно подразумевает. Например, рядом с Line Art нарисована чёрно-белыми штрихами морда волка, указывая, что для этого параметра важны только основные штрихи. Цвета, мелкие детали не имеют значения, то есть их легко менять. Таким образом, в Line Art нетрудно перекрашивать одежду, перекрашивать волосы, ну и т.д., а позы (если говорить о рисовании людей) он сохраняет. Для ясности – я в этой функции экспериментировал только с рисунками персонажей. Ландшафты и тому подобные картинки, где персонажи отсутствуют, это по сути фон, я даже не уверен, возможно ли его вообще тут перерисовывать. Конечно скорее да, чем нет. Но это такая морока, такой пласт необходимых действий – попробовать с различными control model (а их 6), в каждом control model попробовать во всём диапазоне шкалы процентов control scale. Надо подобрать какие-то картинки, в которых вообще есть что править. С людьми всё понятно, в них можно править много всего – окружающую обстановку, позу, крупность плана, положение в кадре, физиономию, одежду, причёску, выражение лица (эмоции, улыбку добавить), стиль рисунка. А фон… это фон, его наверное проще сгенерировать новый, чем за него цепляться, если он чем-то недостаточно хорош. Так или иначе, у меня до него не дошли руки. И вообще, мои эксперименты тут носили крайне ограниченный характер. Это многогранная функция, все аспекты которой охватить сложно. По идее, её использование надо разбивать на отдельные операции, и описывать каждую операцию именно по отдельности, например, при восстановлении утраченных областей она ведёт себя так-то и требует таких-то настроек, а при смене поз персонажей так-то. Но пока что планов составлять подобное детальное руководство у меня нет. Вам придётся разбираться с этим самостоятельно. Для примера лишь скажу, Canny Edges 100 (на 100% неизменности) хорошо сохраняет внешность и позы персонажей (но в некоторых случаях поза и на 100% может измениться), то есть если я пытался добиться максимальной похожести на исходный рисунок, я всегда начинал перерисовки с режима Canny Edges 100. Straight Lines легко меняет позы, уже на 100 это делает без труда (причём нередко по своей инициативе), а Canny Edges или Line Art надо опускать процент ниже 50, порой и до 20%, чтобы она существенно изменилась. Генерации картинок по шаблону (когда они сохраняют компоновку исходной, но по деталями на неё совершенно непохожи) у меня хорошо получались на Canny Edges 30 и Line Art 30, правда там и меньше процент нормально заходит, а если вам надо, чтобы пустые области картинки (после исправлений фотошопом) были дорисованы на более высоких значениях параметра «Control scale», возможно не помешает в конце текста в prompt добавить (после запятой или точки) слово «Fix». Ну и про плюсики не забываем – нужные прописанные в prompt изменения можно плюсить.