Серия «Stable Diffusion - Информация»

19

Новый инструмент: instruct pix2pix (Stable Diffusion)

За последние несколько дней кто-то сделал инструмент под названием instruct pix2pix который позволяет переделывать картинки, указывая компьютеру, что с картинкой надо сделать. Словами. На английском.

Для использования нужно уметь ставить свои чекпоинты. Если возиться не хотите, пролистывайте сразу к "что умеет".

----------------

Где брать:

Если у вас NMKD, включается в настройках вверху в выпадающем меню выбираете instruct-pix2pix.

Если у вас automatic1111, идём на вкладку "Extensions", находим там "instruct pix2pix"

Устанавливаем.

Потом идём сюда:

https://huggingface.co/timbrooks/instruct-pix2pix/tree/main

Качаем модель либо *.safetensors, либо *.ckpt и устанавливаем её как обычный чекпоинт, т.е. в папку models\Stable-diffusion ... потом всё перезапускаем. Для работы нужно будет выбрать модель в выпадающем списке.

Иначе работать не будет.

-------------------

Что умеет:

Берём исходное изображение:

Идём на новую вкладку, "instruct pix2pix", вставляем туда картинку, выставляем следующие настройки:

(Задрал TextCFG до 15, и количество шагов до 30), и даём команду:

"Сделать лето" (make summer).

----------

Результат:

--------

"Сделать автомобиль серым" ("Make car gray")

(всё покрасило)

--------

Сделать небо чистым (make sky clear):

(ну, допустим, деревья нам не были сильно нужны были)

----

"Сделать пустыней" (make desert)

----

"Сделать другой планетой" (make alien planet)

-----

"Убрать колёса" (remove wheels)

(Ну... оно попыталось.)

-------

"Заменить машину на дом" (replace car with house)

----

"Сделать стимпанковым" (make car steampunk)

(Выглядит жутковато)

----

"Сделать футуристичным" ( make car scifi futuristic)

(Ну, гм. Похоже на масковский кирпич.)

-------

Теперь с людьми. Допустим, берём фото девушки с pixabay (кто под руку попался).

"Сделать блондинкой" (make blond)

-----

"Сделать моложе" (make younger)

-----

"Надеть пиджак"(wear suit)

(снизил textcfg до оригинального 7.5, иначе получалось 3 руки... и туловище всё равно мужское)

---

Т.е. в теории можно брать любую картинку, описывать словами как её переделать, и будет результат.

Проблемы/ ограничения:

* Документации по этой штуке по факту ноль. Вроде как понимает человеческий язык (английский), но это не точно. Оно с пылу с жару, только-только придумали и прикрутили.

* Нужно возиться с настройками и ползунками, некоторые запросы дают слабый эффект если не выкручивать Text CFG на максимум. Например попытка сделать уаз киберпанковским просто чуть-чуть картинку покрасит синим.

* При некоторых запросах сетка едет кукухой. Например, если попросить модель сделать кудрявой, можно получить вот это:

Но можно получить и вот это:

При некоторых запросах исходная картинка полностью отбрасывается. Например "сделать с короткой стрижкой" (make pixie cut) почти полностью заменяет картинку и получается вот так:

И чтобы это исправить надо возиться и тягать ползунки туда-сюда и не факт, что поможет.

* Визуальное качество, как можно заметить, проседает по сравнению со всякими протогенами и т.д.

* Никаких альтернативынх чекпоинтов на данный момент нет. Есть только instruct-pix2pix-00-2000 и всё. Как он работает, так и работает, без альтернатив. Самплеров тоже нет, работает с каким-то одним, и настроек только CFG и количество шагов.

А, и как сказал, штука очень новое, если что-то не запускается или не работает, ничем не смогу помочь. Кроме того, что если вместо частичной перерисовки вдруг начинает рисовать новые картинки, надо чекпоинт туда-сюда попереключать.

В общем, вот так вот. Развлекайтесь.

------

И небольшой бонус.

Исходник ( https://victorymuseum.ru/encyclopedia/technic/bronetankovaya-tekhnika/legkiy-broneavtomobil-ba-64b-sssr-/):

"Сделать автомобиль круглым" (make car round)

Вот теперь всё.

Показать полностью 23
10

Чекпоинты для Stable Diffusion. Пиксель арт, комиксы, реализм(примеры)

Без лишней воды.

Пару недель назад полистал реддит и интернет на счёт интересных чекпоинтов. Ниже что нашёл и заинтересовало. Примеры сгенерированы, в основном, на Euler A 50, без негативных запросов, просто по шаблону - женщина/машина/кот/город, плюс что требует промпт для активации.

-------

ComplexLA Style

Промпт: требует "ComplexLA Style" в начале.

Где брать: https://huggingface.co/Conflictx/Complex-Lineart

Примеры:

Рисует в стиле фантастических иллюстраций, не совсем понятно, правда, чьих. Не очень хочет рисовать котов и скатывается в рисование всяческих конструкций, хотя котообразное пятно один раз выдал.

Автор рекомендует использовать в разрешении больше 512x512, что чревато появлением мутантов, если без хайрез фикса, а с фиксом будет медленно. Не могу сказать, что дико зацепило, думал, что будет интереснее.

--------------------

"All In One Pixel Model"

Промпт: "16bitscene" или же "pixelsprite" вначале

Где брать: https://huggingface.co/PublicPrompts/All-In-One-Pixel-Model

Примеры:

Здесь у нас "2 в одном". Рисует спрайты и пейзажи. В зависимости от выбранного стиля. При попытке нарисовать кота как пейзаж, сопротивляется и рисует комнату без кота. Вроде бы не очень может изометрию и не всегда.

Спрайты не идеальные, надо доводить руками.

--------

"16 bit landscapes"

Промпт: нужно добавлять "in 16-bit-landscape pixel art style" в конце запроса. Не очень удобно.

Где брать: https://huggingface.co/PublicPrompts/16-bit-landscape_PublicPrompts

Примеры:

Про эту модель нигде ничего нет, но оно рисует довольно неплохой высокодетализированный пиксель арт (или стилизацию под него), который напоминает не то заставку с лодкой, что была на Денди, то ли "Легенды Кирандии", космический квест и им подобные. Можно клепать довольно симпатичных околомультяшных пикселизованных девушек, например, вот таких:

Похоже на 256 цветную графику времён vga 13h, который 320x200. Что-то в этом есть.

----------

Dreamlike Photoreal

Промпт: "Modelshoot style" в начале.

Где брать: https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0

Примеры:

Фотореалистичная модель, которую затачивали на 768x768 и портреты людей. 512x512 оно может, но хуже. Чуть-чуть хуже. Совсем чуть-чуть хуже.

Есть два момента:
Разрабатывающие её товарищи впендюрили кустарную лицензию (и вопрос - "а так можно было?"), которая накладывает ряд ограничений, а конкретно:

  • You are not allowed to host, finetune, or do inference with the model or its derivatives on websites/apps/etc. If you want to, please email us at contact@dreamlike.art

  • You are free to host the model card and files (Without any actual inference or finetuning) on both commercial and non-commercial websites/apps/etc. Please state the full model name (Dreamlike Photoreal 2.0) and include the license as well as a link to the model card (https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0)

  • You are free to use the outputs (images) of the model for commercial purposes in teams of 10 or less

  • If you are using the model or its derivatives through a website/app/etc. in breach of this license, you are not allowed to use the outputs of the model or the outputs of the model's derivatives in any way, both commercial and non-commercial.

Т.е. русским языком: хостить модель нельзя, коммерческое использования в командах больше 10 человек нельзя, если модель использована через сайт картинки использовать нельзя.

Мутят фигню. Хотят сделать свой собственный саас, и сидеть на нём. Понятно, но неприятно. С другой стороны, ну что они нам в текущей ситуации сделают?

Есть ещё подозрение что товарищи придерживались идей "diversity", что влияет на результат. на практике это выражается в том, что может потребоваться в запрос указать требуемую расу или же лепить в негативный запрос запрет на генерацию определённых рас.

А, и обнажёнку оно умеет и старательно производит. В ридми указано "модель озабоченная, осторожно!".

------

Protogen

Промпт: ничего не надо, так работает.

Где брать:
https://huggingface.co/darkstorm2150/Protogen_v2.2_Official_Release для версии 2.3 и https://civitai.com/models/3666/protogen-x34-photorealism-official-release для версии 3.4

Примеры:

Версия 2.2

Версия 3.4:

Модель заточенная на реализм. Что 2.2, что 3.4.

Уж не знаю, почему оно генерит женщин с серьёзным, суровым, полным решимости лицом, которые выглядят, как будто они вот прямо сейчас собрались идти и душить королеву ксеноморфов голыми руками и им это ещё и не впервой.

Решается добавлением модификаторов вроде "young"|"beautiful" и там будет всё нормально:

Ну или вот так:

(О, даже пальцев приемлемое количество).

Насколько понял, 2.2 это у нас термоядерная смесь из кучи моделей вроде hassan's blends, f222 (о которых товарищи, что постят нейросетевую эротику на пикабу, однозначно знают), а 3.4 у нас похожий коктейль, но ещё и с добавлением упора на реализм. Вроде где-то аниме версия пробегала....

Оба варианта могут генерировать качественные рисунки и не стесняются обнажёнки. Можно выбить и порно, но там будет шанс словить лавкрафтовщину с шансом потери очков рассудка.

Есть также тенденция генерить похожее или даже одно и то же лицо, что можно наблюдать на картинке "young beautiful" девушки выше. Той, которая не вампир с бокалом. Так понимаю, этим страдают все производные от Hassan's Blend. Вот кто это - непонятно.

-------

И на этом всё.

Вот как-то так вот. Развлекайтесь.

P.S. ---небольшое дополнение по протогену---

Поковырявшись в сети, выяснилось, что автор Protogen намешал аж 8 вариантов разных чекпоинтов. Все они доступны вот тут:
https://civitai.com/user/darkstorm2150

На данный момент существуют, Protogen 2.2 (аниме) Protogen x3.4(реализм), которые я упомянул. В дополнение к ним были сделаны Protogen x5.8(Scifi+Anime), Protogen x5.3(фотореализм), Protogen Eclipse (продвинутый), Protogen Dragon, Protogen Infinity и Protogen Nova.

Но есть неприятный момент. Автор миксов забил на лицензии не то что болт, а прям сразу железнодорожный рельс, и, в общем, в версии 2.2 лицензия обычная, в 3.4 добавляется лицензия seek art(вроде бы нормальные), а во всех остальных тот самый dreamlike о котором я упоминал, где всё запрещено, и за каждый чих надо у компании спрашивать разрешения.

Как бы, в наших краях популярно йохохо и вряд ли что за это будет, но на зарубежных же сайтах идёт небольшой бухтёж на эту тему, особенно дримлайк. Вроде как эти чекпоинты как бы и использовать нельзя, но вроде как их требования нелегальны, и в суде не прокатят. Что с этим всем будет - непонятно. Сам автор написал что спросит у компаний разрешения, и если что не так - грохнет модели, но это было 10 дней назад и он, возможно забыл или "забыл" об этом.

------

Вот как-то так вот.

Показать полностью 11
18

AnalogDiffusion - новый чекпоинт StableDiffusion

Несколько дней назад на hugging face был выложен ещё один чекпоинт - AnalogDiffusion.

Доступен тут:

https://huggingface.co/wavymulder/Analog-Diffusion


Тренировался на аналоговых фотографиях.


Результат? Очень фотореалистичные изображения людей.


Для использования промпт начинаем с "analog style",

и можно в негативный вписать "blur haze"


Примеры ниже. Сначала промпт, потом картинка.

"Средневековая королева"

"analog style medieval queen"

"Средневековый король"

"analog style medieval king"

"Портрет мужчины"

"analog style portrait of a man"

"Портрет женщины"

"analog style portrait of a woman"

"Женщина рыцарь"

"analog style female knight"

"Ведьмак"

"analog style witcher"

Дальше интереснее. Пробуем "Киберпанковский мужчина киборг".

"analog style full body shot of cyberpunk cyborg man"


Вспоминаются старые фантастические фильмы. Иногда получаются косплееры.

"Женщина в купальнике держит кота"


"analog style woman in one piece swimsuit holding a cat"



А тут уже глюки пошли. Композиции из нескольких фигур ему трудно. Икоты получаются упоротые.

Но только если не по отдельности. Просто кота - может. Имитирует студийное освещение.

"Старик и автомобиль"


"analog old man and a car"

Стараемся не думать о том, что это такое на заднем плане.

При фотографиях на большом расстоянии начинает терять детали на лицах, но это стандарт и лечится через img2img.

Ещё примеры.


"Ковбой"

"analog cowboy" Лошадь я не просил, так понимаю, в подарок.

Женская версия:

"analog style cowgirl"

"Астронавт в интерьере космического корабля"

"Городская улица с людьми".


analog style city street with people

Как обычно, с удалёнными объектами ему плоховато и детали сыпятся.

"Природа"

"analog style nature"

Пришлось поставить самплер в DPM Adaptive, чтобы листья совсемв кашу не превращались.

И на этом всё.


Развлекайтесь/пользуйтесь.

Показать полностью 20
7

Художники для SD 2.0 (маемся дурью)

Вчера засел перебирать, какие из художников в Stable Diffusion 2.0 не вырезаны и работают. Ниже результаты. (Для использования художника, пишем запрос, потом в конце добавляем "by" и имя художника Например, "cat, by john constable")


Как такое самостоятельно поковырять:
В сборке для automatic1111 есть расширение под названием "Artists to Study". Картинки там для версии 1.4 или 1.5, но показывает, что нейронка может про художника знать.

А, и расширения ставятся через вкладку ""extensions".

Вот берём имя и пытаемся использовать. Если художника нейросетка не знает, при генерации получается некое стандартное лицо, каждый раз одно и то же. У меня сетка рисовала негритянку, или, если имя художника было китайское - азиатку.


Я полез ковырять категорию "cartoon" и смотреть, что оттуда ещё работает.


Всего художников набралось 76 штук. Список ниже.


abigail larson
Adam Hughes
alena aenami
alex hirsch
alice pasquini
alphonse mucha
anna dittmann
artstation
barry windsor smith
becky cloonan
Brian K. Vaughan
Bryan Hitch
Butcher Billy
Casey Weldon
Conrad Roset
craig mullins
Cyril Rolando
Dan Mumford
Don Bluth
Dustin Nguyen
E. H. Shepard
Ethan Van Sciver
gaston bussiere
Glen Keane
Guido Crepax
Gustaf Tenggren
h.r. giger
hiromu arakawa
Hiroshi Nagai
Howard Chaykin
ilya kuvshinov
ivan shishkin
Jack Kirby
James Gilleard
james jean
Jeffrey Catherine Jones
Jeremiah Ketner
Jim Mahfood
joao ruas
Josan Gonzalez
Laurie Greasley
Karel Thole
Lisa Frank
makoto shinkai
mark arian
masamune shirow
miho hirano
Mike Deodato
Mike Mignola
Milo Manara
Naoko Takeuchi
Peter De Seve
Peter Wileman
Phil Noto
Philippe Druillet
Posuka Demizu
Rebecca Guay
Roy Lichtenstein
ross tran
rumiko takahashi
Satoshi Kon
shohei otomo
Skottie Young
sophie anderson
studio ghibli
takato yamamoto
Tatsuro Kiuchi
Todd McFarlane
Tomer Hanuka
Tony DiTerlizzi
Victo Ngai
Yoji Shinkawa
W. Heath Robinson
Will Eisner
yoshitaka amano

Итак, примеры.


Примеры генерировались по принципу, "женщина, кот, дом, космический корабль".

Что можно сказать.


Раздражают попытки нейросетки написать текст. В паре случаев ей это даже удалось.

Много проблем с анатомией (из-за вырезанного НСФВ?). Вначале после экспериментов возникло впечатление, что некоторыми стилями всё-таки в 2.0 можно пользоваться... а потом я сравнил результаты с 1.5.


1.5 может вот так:

Разница - земля и небо. Стиль намного сильнее выражен, деталей больше.


Короче, в отношении 2.0 - ждём дальнейшего развития событий.

Показать полностью 24
26

Stable Diffusion 2.0 - локальный тест

Вышла Stable Diffusion 2.0, добавлена базовая её поддержка в Automatic1111.

Модель на 768x768 можно качать тут:
https://huggingface.co/stabilityai/stable-diffusion-2/blob/m...

Инструкции по использованию её в Automatic тут:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki...

На данный момент работает только модель 768.


Потестировал....


Потестировал, генеря табличку художников.


Начинаем с запроса:

woman, art by Adam Hughes

И делаем X/R Plot с художниками. Просим нарисовать женщину, женщину и авто в городе, и кота.  Разными художниками.

Список художников следующий:


Adam Hughes
akihiko yoshida
alphonse mucha
andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon
shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

По результатам тестирования - художников порезали. Вырезали не всех, парочку забыли, но многих.


Ситуация приблизительно следующая:
Жирным шрифтом отмечены вырезанные или сильно изменившиеся.

Adam Hughes
akihiko yoshida
alphonse mucha
??andrei riabovitchev
Apollonia Saintclair
artstation
craig mullins
gaston bussiere
greg rutkowski
h.r. giger
hiromu arakawa
huang guangjian
??ilya kuvshinov
ivan shishkin
jae cheol park
james jean
joao ruas
kentaro miura
Leiji Matsumoto
makoto shinkai
mark arian
masamune shirow
miho hirano
Naoko Takeuchi
Phil Noto
Posuka Demizu
range murata
ross tran
rumiko takahashi
satoshi Kon

shohei otomo
sophie anderson
studio ghibli
takashi takeuchi
takato yamamoto
Tsutomu Nihei
Tony Taka
weta digital
wlop
Yoji Shinkawa
yoshitaka amano
Yoshiyuki Tomino
yusuke murata
zdzislaw beksinski

Табличка получилась огромная, хотел залить её на внешний сайт, но получилось её впихнуть сюда..


Было в 1.5

Стало в 2.0

---------

Было в 1.5 (звиняюсь за цензор, тега НСФВ в сообществе нет...):

Стало в 2.0:

-------

Было в 1.5

Стало в 2.0

----------

Было в 1.5

Стало в 2.0

-------

Было в 1.5

Стало в 2.0

------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

---------

Было в 1.5

Стало в 2.0

-------

Было в 1.5:

Стало в 2.0:

--------

Было в 1.5

Стало в 2.0:

------

Было в 1.5:

Стало в 2.0

-----------


Как можно заметить, большинство художников покорёжило, и данные о них удалены, т.е. либо слабые остатки стиля, либо мутная деформированная хрень.


Что заметил, так это то, что новая сетка при упоминании "art by" старательно пытается написать имя буквами внизу. И даже в некоторые правильно попадает (и на это просрана драгоценная память).


На 768x768 стало намного сильнее заметно, как одна картинка "перетекает" в другую если используется один и тот же seed.


Пример:

Т.е. художников только классических.


Тему со стекляшками помним? (Лаборатория Алхимика (Stable Diffusion))


Вот что получилось вместо неё:

Запрос пришлось сделать сильно сложнее, эффект не тот, и для получения чего-то близкого к старому варианту придётся очень долго страдать фигнёй. А ещё он ватермарки рисует поверх картинок.


Кстати, обнажёнку тоже порезали. Рисует людей с анатомией куклы барби. (лимит на картинки в посте закончился).


------


Какие из этого можно выводы сделать?


HuggingFace попутал бес или же им очень понравилось количество денег, которое бросили в их сторону, поэтому они решили всё по максимуму зацензурить в лучших пуританских традициях. Абы чего не вышло. В результате сетку сложнее использовать, хотя разрешение стало больше.


Ждём, когда кто-нибудь либо скормит в сеть неотцензуренный Laion-5B, либо заточит сеть на более удачном контенте. Со Stable Diffusion 1 такое было, есть смысл ожидать такое же и тут.


В сетке 768 генерация идёт на разрешении 768x768, занимает приблизительно вдвое  больше времени, но не факт, что в более высоком разрешении стала лучше генерация, т.к. стало более заметно, как картинки генерятся. В релизе есть интересные технологии (определение глубины, например), но пока что их не прикрутили. Так что ждём дальнейшего развитие, и, скорее всего, для большинства задач пользуемся SD 1.5 и 1.4.


И на этом всё.


---небольшое дополнение---

В видео одного из ютуберов (aiterpreneur) по теме проскочило предположение, что текущая ситуация (порезанное нсфв и отсутствующие художники) возникла из-за легальных проблем, т.к. HuggingFace - компания и их могут засудить. Идея такая, что часть законов, связанных с нейротворчеством - всё ещё в работе, и компанию заваливали легальными исками, из-за чего так медленно вышла версия 1.5.

Но вроде как есть намёк, что новую модель будет легче тренировать, и что будут выложены - в скором времени - инструмены для этого. И тогда народ начнёт подстраивать текущую не очень удачную базу 2.0 под свои нужды, плодя чекпоинты. Нечто похожее происходило с Modern Disney ( Модуль для Stable Diffusion который имитирует стиль мультфильмов современного Диснея )

Т.е., возможно, лучше подождать улучшений и дальнейшего развития событий....

Но так это или нет, покажет время. И вот на этом всё.

Показать полностью 25
34

Новый чекпоинт для Stable Diffusion: Anything V3

Обнаружил его при прочтении dtf ( https://dtf.ru/howto/1429401-pogruzhaemsya-v-debri-stable-di... ). Работает как NovelAI (и даже лучше), только лучше и без возни со слайдером ClipLayer.


Ссылки есть тут:

https://rentry.co/sdmodels#anything-v30-38c1ebe3-1a7df6b8-65...

По Ctrl+F "Anything V3"


Есть небольшой момент, что *.vae в архиве не совсем корректно названа, нужно переимновать.


Использование:

Используется как NovelAI.

Запрос начинается с

masterpiece,best quality

Или же, по полной:

masterpiece,best quality,CG,wallpaper,HDR,high quality,high-definition,extremely detailed,
Негативный используем как с NAI:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

Можно и без него, но тогда может генерить не анимешный стиль, а нечто среднее между CG и традиционным артом.


Чекпоинт может генерить НСФВ, по тегам данбору, но часто упирается.


Ниже примеры (без НСФВ).

Примеры были сделаны через automatic1111, Euler A, CFG Scale 7, расширение 512x768, с "Highres Fix" включено. Думаю, можно пользоваться DPM adaptive, тогда будет более заморочено.

"Кошкодевушка в полицейской форме"

^^^ Обращаем внимание, что, как и с NovelAI пытается кого-нибудь оголить и нарисовать с застенчивым румянцем. Должно лечиться добавлением nsfw в негативный запрос.

Суккуб в строительной форме:

Вообще, в начале сетка решила, что строительная форма для суккуба - это купальник, а так как башка (наверное?) очень прочная, то можно и без каски. Пришлось уговаривать. Сетка всё равно оголила суккубу пупок. Ну что тут поделаешь...

"Робот Девушка"

Никого не напоминает? Мне Реи Аянами напоминает. Кстати, в качестве бонусов - эта штука ещё намного лучше рисует пушки. Посмотрите обвес на девушке-кошке выше.

"Робот Горничная"

Ну, классика. Кстати, железную робо-горничную в фартуке оно мне так и не нарисовало, ну и фиг с ним. Либо железная башка, либо фартук. Горничным в фартуке железная башка не положена. Или наоборот.

"Робот Кот/Кошка"

Считает что робот кошка - это кошкодевушка, и у неё должны быть сиськи. Хромированные. Если добавить "girl" в негативный запрос, начинает гуманоидов клепать.


Вообще с NovelAI можно было генерить очень прикольных умилительных роботов-котов, с этим чекпоинтом не получается.


Примеры того, что могло по запросу выдать NovelAI:

^^^ Это NovelAI, для сравнения.


--------

Возвращаемся к Anything V3.

"Они в спортивной форме"

(Все же знают, что такое Они, так?)

Как только попросил сделать они мускулистой, она сразу перестала улыбаться и краснеть, и начала смотреть презрительным взглядом. Кстати, обратите внимание на руку. Почти правильно, хотя у меня есть подозрение, что все пальцы - указательные. То, что оно лучше рисует руки - упоминалось в статьях.


Ну и последнее.

"Орк Дворецкий"

Почему орк должен быть красный а не зелёный - вопрос. Второй вариант был с модификатором "мускулистый".
-----

Ну вот, в принципе, и всё.


В целом - результаты лучше чем с утёкшим NovelAI.


В источнике, который на били-били:

https://www.bilibili.com/read/cv19603218


Упоминается (вроде бы), что не совсем понятно, откуда этот чекпоинт взялся. Но автор поста писал (вроде бы. Ибо автоперевод, с китайского), что ему всё нравится и всё красиво.

Показать полностью 19
40

Нейросетевые манулы (stable diffusion + textual inversion)

Возникло на почве вот этого поста:

#comment_253604048


Чем было сделано: Stable Diffusion.

https://github.com/AUTOMATIC1111/stable-diffusion-webui/


Как было сделано: Через "текстовую инверсию"

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki...


Итак, была сделана попытка заставить stable diffusion рисовать нормальных манулов. Предыдущие попытки можно видеть здесь:
Манулы. С лампами и без (Stable Diffusion),

Также были сгенерированы варианты вроде тех что ниже,

В аниме стиле.


Как справедливо заметили - "получается тигрёнок". Потому что сетка манулов "знает" мало и "думает" что это серый кот с полосочками.


Для тренировки были надёрганы фотографии из сообщества "манул", и сделан набор фоток 29 штук. Выглядит это так:

Фотографии обрезаны до квадратного состояния.


Процесс тренировки "текстовой инверсии" (т.е. одного объекта или стиля) занимает несколько часов. Около 3х. В это время компьютер поёт песнь кулеров. Возможно, можно ускорить, пока способ не нашёл. В процессе выплёвываются промежуточные результаты, по которым можно посмотреть, а что, вообще происходит.


С 1й попыткой процесс пошёл так:

Собсно, стандарт. Где-то за пару тысяч итераций (итерация - один просмотр одной из тестовых картинок. Полный цикл тренировки - 20-30 тысяч, хотя можно и меньше), сеть находит приемлемый вариант, а потом бултыхается и не может её улучшить. Из интересного.

(Цифра в имени файла - номер итерации)

Сетка последовательно "догадывается" что:

"Манул  - это серый шарик с ножками" "Манул - это кот". Потом рисует картинку физиономии.


Далее. На 3250-4500 шаге, генерит почти антропоморфную голову и красочную картинку.

В процессе тренировки на 5250м шаге потом всплывает вот это и больше не повторяется.

Красиво, похоже, но не то.

Дальше в процессе тренировки наблюдаем бултыхания и никакого критического улучшения не происходит.

Зато в процессе наблюдаем попытки нарисовать манулу на лбу паучьи глаза. Два пятна - однозначно паук, ну да. Просто очень логично. С другой стороны, я не писал, что там нарисовано, а дал разбираться нейросети полностью самостоятельно. Может можно было иначе.


Через 20000 итераций тренировку "инверсии" считаем оконченной получается файлик, с которым можно создавать запросы. "pallas_cat.pt".


Экспериментируем.


Фото:

Это сгенерированные. "pallas_cat, realistic photograph". Похоже. Лучше чем "кандинский"


"Манул в траве"

Теперь мешаем стили.


"На картине грега рутковски"

"Нарисованный тушью".

Пытаемся сделать красивый витраж. Не получается. Получаются японские картины но не очень.

Какие выводы?


Выводы следующие:

Уши получаются, выражение лица получается, но вот на месте носа оно пытается рисовать что-то странное и часто, плюс результат плохо дружит с другими стилями. Судя по всему, нейросеть "думает" - что манул, это такая пушистая шерстяная колбаса, с недовольной физиономией, а тело и лапы опциональны. Но с другой стороны, в тренировочном датасете было много мосек.

Пришёл к выводу что для обучения "что такое манул" нейросетке дал мало "памяти". Просто когда проводится такая вот тренировка для отрисовки нового объекта или стиля рисования, генерируется крошечный файлик, от нескольких килобайт, который называют "embedding" ("вставка"). Там просто пачка чисел. И вот когда в запросе на генерацию картинки использует название этого файла, числа загружаются, но вот их количество определяет, сколько информации туда можно впихнуть. А задал я по минимуму. Но вот нейросетке и не очень получается привести к общему знаменателю.


Попытка номер 2:


Начало тренировки выглядит так:

Нейросетка берёт за основу кота и пытается из него лепить манула, проходя через несколько фаз создания странных зверушек и енота. Дальше я меняю стиль тренировки и замедляю его, глядя на одну и ту же картинку. И там ничего интересного не происходит.

Один и тот же манул плавно меняется. Со временем у него иногда пропадают уши, меняется окрас, фон, но не более.


Результаты второй попытки:

Теперь получаются картины:

Что можно сказать? Ну, в принципе, получилось.


Есть мелкие проблемы. Например, иногда генерит крипоту. Например: глаз вместо носа, или паучьи глаза на лбу. Вообще, так понимаю, возня с нейросетью всё-таки не для нервных людей, т.к. иногда она абсолютно внезапно может сгенерировать лютейшую жесть или крайне неприятный контент, хотя происходит это нечасто.


Сгенерированные файлы "вставок" можно скачать тут:

https://anonfiles.com/AbafY0D5yc/pallas_cat_pt

https://anonfiles.com/P2a1YaDfy4/pallas_cat2_pt


Если используется сборка от automatic1111, их нужно бросить в папку "embeddings", и затем в запросах можно использовать pallas_cat и pallas_cat2,


И на этом всё.

Поглажено 8209 манулов

Осталось погладить 6791

Показать полностью 22
41

Ответ на пост «Обложка, нейросеть и прочее»2

Теперь как то же самое можно сделать проще.


Здесь рассматривается работа с локально установленной нейросетью. Для неё нужна видеокарта с 6+ (лучше больше, 8+) гигабайтами памяти. Всё то же самое можно сделать через веб-сайт с работающей stable diffusion img2img. Где-то он был.


-------


Берём, например, stable diffuion от automatic1111:

https://github.com/AUTOMATIC1111/stable-diffusion-webui


Устанавливаем. Запускаем, идём вы браузере на localhost:7860


Берём исходную картинку, копируем в буфер обмена.

(Взято с поста: @VictoriaLu, Обложка, нейросеть и прочее )


Идём на вкладку img2img, втыкаем её туда через Ctrl+V или перетаскиванием. Жамкаем "interrogate", чтобы компьютер определил, что там вместо нас. Получается так:

"a drawing of a woman with blue eyes and a black shirt on, with a white background and a blue wing, by Elfriede Lohse-Wächtler"


В принципе, правильно, убираем хлам, и левого художника (by ELfriede...). Интеррогатор имеет привычку добавлять странных художников, и, например, почему-то думает, что пишущего Епифанцева нарисовал Квентин Тарантино. Убираем лишнее, добавляем художника в запрос. Например, так:


"a drawing of a woman with blue eyes and a black shirt on, with a white background and a blue wing, by Greg Rutkowski"


Далее, ставим следующие настройки:

Sampling Steps: 20

Sampling Method: k_euler_a

Batch Size: 1

Cfg Scale: 7

Denoising Strength: 0.5

Это настройки по умолчанию, кроме Denoising Strength. Denoising Strength определяет, как сильно нейросеть будет фантазировать. На практике, 0.3..0.4 - слабая ретушь. 0.5 - сохранит позу и, может быть, мелкую мимику. 0.6 и выше - начинает терять позу и фантазировать. 0.75 - будет фантазия на тему, слабо связанная с оригиналом. При низком значении Denoising Strength, можно задрать CFG Scale до 9 или даже 15, но увеличится шанс артефактов. Важно то, что низкие значения меньше меняют исходную картинку, но при этом артистический стиль будет намного более слабо выражен. Т.е. картинка может получиться хуже или менее интересной, если Denois Strength слабое.


Выглядят настройки так:

Если хотим несколько вариантов, задираем Batch Count, если хотим править лица, жамкаем "Restore Face", если картинка не квадратная, выбираем между Crop and Resize (обрежет длинные стороны и сделает квадрат, емнип) и Resize and Fill (растянет узкие стороны до квадрата, заполнит пикселями с границ).


Жмём "генерить", получается нечто вроде вот этого:

Пользоваться можно, но стиль выражен слабо. Это потому что у нас мало шагов (steps) - 20. Это как если бы мы художнику оригинал отдали на ретушь, дали ему проработать 2 минуты, а потом выперли и отобрали работу. Поднимаем до 50, получится что-то в духе этого:

Появился стиль, но оно всё ещё сильно опирается на оригинал и слабо похоже на рутковского. Поднимаем Denoising Strength до 0.65. Получится похоже на оригинал, но теперь будет больше свободы. И можем получить что-то в таком духе:

Стиль есть, позу потеряли.


Если нравится конкретное лицо, но хочется поиграться с параметрами, под картинкой ищем "Seed" и копируем цифровое значение в настройки слева. Лицо каждый раз будет одно и то же.

Для более цветной картинки делаем более цветное пятно любым способом, либо задираем Denoise Strength до 0.75, но тогда нейросеть начнёт фантазировать/фонтанировать на тему.


Рекомендуется генерировать несколько вариантов за раз, т.к. лица будут разные, и какое-то одно может понравиться больше. Пробуем.

Куда-то движемся, но он очень хочет рисовать рубашку. Убираем "black shirt", заменяем "wing" на "wings". Результат:

Ну и дальше играемся с параметрами до победного конца. Denoise выше/ниже (свободы больше/меньше), докидываем модификаторов или переделываем стартовый набросок.

Показать полностью 9
Отличная работа, все прочитано!