
Stable Diffusion & Flux
Лучшая Ai upscale модель для изображений [Stable Diffusion]
Всем привет, решил провести небольшой эксперимент и выяснить, какая модель апскейлинга лучше всего подходит для реставрации артов/комиксов и т.д. Текста будет много, как и примеров, так что кто пришел за быстрым ответом - сорян.
Также, представленные далее изображения не подходят для детей!
Мой PC:
ОС: Microsoft Windows 10 Pro x64
CPU: OctalCore Intel Core i7-11700KF, 4700 MHz (47 x 100)
Motherboard: Gigabyte Z590 Aorus Pro AX
RAM: 16256 МБ (DDR4 SDRAM)
GPU: NVIDIA GeForce RTX 3060 (12 ГБ)
Stable Diffusion (Automatic1111):
version: v1.3.2
python: 3.10.6
torch: 2.0.1+cu118
xformers: 0.0.17
gradio: 3.32.0
Начальные данные:
Исходное изображение (взято из свободных источников для ознакомления и цитирования):
Технические данные:
Разрешение: 1600x1270 (немного отличается от того, что прикрепил, т.к. обрезал рекламу)
Расширение: jpg
Апскейлинг до 6400x5080 (x4)
Модели апскейлинга:
ScuNET GAN
ScuNET PSNR
SwinIR 4x
4x-UltraSharp
R-ESRGAN 4x+ Anime6B
R-ESRGAN 4x+
Lanczos
Nearest
ЭКСПЕРИМЕНТ:
После прогона через все модели получил такие данные:
Выкладывать готовые полноформатные изображения не буду, чтобы не захламлять пост, вместо этого, в каждом результате я вырезал по 4 одинаковых кусочка 1024x1024, чтобы поближе их рассмотреть и сравнить. Буду выставлять по каждой категории сэмплов галочку той модели, которая на мой взгляд справилась лучше всех.
Оговорюсь, что я буду описывать только 4x UltraSharp, R-ESRGAN 4x+ Anime6B, R-ESRGAN 4x+, SwinIR 4x, так как остальные модели выдают плюс-минус одинаково паршивый результат и ковырять их смысла не вижу, если надо - можете сами посмотреть и оценить.
Поехали:
Сэмпл 1:
В оригинале баки, шерсть и зубы плохо читаются, все изображение пикселизовано, присутствуют артефакты jpg. Далее оригинал не буду описывать, можете посмотреть исходное изображение и понять насколько там все плохо.
Также, стоит делать скидку на то, что пикабу, скорее всего, пожмет качество и то, что видите вы, не совсем то, что вижу я.
Поэтому, можете скачать исходники сэмплов тут: https://disk.yandex.ru/d/55idZOxfaHEAMA
4x-UltraSharp:
Плюсы: все читается, четкие контурные линии, нет артефактов, зубы хорошо различимы, баки и волосы на плече хороши. Самое важное - стиль сохранен.
Минусы: баки частично срезаны слева, на правой части зубов вылез артефакт в виде линии.
R-ESRGAN 4x+ Anime6B:
Плюсы: в целом выглядит очень вкусно, контурные линии - лучшие среди всех результатов, нет артефакта на зубах. Кожаный костюм выглядит лучше, чем в других результатах.
Минусы: баки превратились в пенку, волосы на плече стали рваной кожей, стиль не сохранен, все стало слишком прилизанным, восковым, потерялись мелкие детали. Стиль уходит в аниме.
R-ESRGAN 4x+:
Плюсы: самый сбалансированный результат, нет артефактов, хорошие линии, баки не мыльные, но слишком реалистичные, выбиваются из общего стиля.
Минусы: кожаный костюм местами стал словно шерстяным, не критично, но немного некорректно, все элементы читаются хуже, чем у моделей выше. Стиль уходит в реализм.
SwinIR 4x:
Лучший и самый сбалансированный вариант, баки, волосы, костюм, все выглядит максимально хорошо и сбалансированно.
Вердикт:
Выбираю SwinIR 4x именно из-за баланса и отсутствия вольных изменений и интерпретаций.
Сэмпл 2:
4x-UltraSharp:
Плюсы: голова справа получилась лучше всех.
Минусы: цепь на шее вампира слева превратилась в греческий узор, также у вампира слева выросли "усы", вместо ткани/тела какие-то щепки. Результат очень спорный.
R-ESRGAN 4x+ Anime6B:
Плюсы: ткань/тело получилась хорошей.
Минусы: цепь размазалась, голова справа стала слишком восковой. Результат очень спорный.
R-ESRGAN 4x+:
Плюсы: цепь получилась неплохой.
Минусы: голова справа получилась хуже всех.
SwinIR 4x:
Снова данная модель выдала самый сбалансированный вариант. Цепь лучше всех, ткань/кожа тоже, блики-свет тоже.
Вердикт:
Выбираю SwinIR 4x именно из-за баланса и отсутствия вольных изменений и интерпретаций.
Сэмпл 3:
4x-UltraSharp:
Плюсы: силуэт оторванной руки лучше всех остальных сочетается с фоном и выглядит органично.
Минусы: очень много мелких артефактов фона, растяжки на коричневом фоне справа-снизу, перешарпеное предплечье, кисть самая четкая, но это, внезапно, недостаток, кажется артефактным, мелкие брызги крови поломались и стали не тем, чем планировались в оригинале.
R-ESRGAN 4x+ Anime6B:
Плюсы: перчатка выглядит неплохо, сбалансированно, кровь хоть и мультяшная, но выглядит лучше других, нет артефактов на фоне.
Минусы: лезвия неплохи, четкие, но заартефачили в цвете и потянули ареол из цветовых и графических артефактов (добавили то, чего не планировалось), силуэт оторванной руки выглядит инородным.
R-ESRGAN 4x+:
Плюсы: перчатка смотрится прекрасно.
Минусы: силуэт оторванной руки выглядит очень инородным, лезвия превратились в леденцы (мыльно), на фоне словно "попытка" скрыть артефакты jpg, вместо реального скрытия.
SwinIR 4x:
На этот раз не могу сказать, что данная модель справилась лучше всех. На фоне мелькают артефакты, справа-снизу черная окантовка частично размазалась с белой, силуэт оторванной руки выглядит очень инородным, лезвия получились очень спорными.
Вердикт:
Самое сложное решение, но именно в данном случае мне больше всего нравится R-ESRGAN 4x+ Anime6B.
Сэмпл 4:
4x-UltraSharp:
Текст артефачит, на фоне справа-сверху самая странная зашарпенная мазня из всех вариантов.
R-ESRGAN 4x+ Anime6B:
Текст - лучший из всех, но немного смущает перемультяшенный участок справа-сверху.
R-ESRGAN 4x+:
Все очень сбалансированно.
SwinIR 4x:
Все очень сбалансированно, но участок справа-сверху лучший именно в этом варианте.
Вердикт:
Однозначно SwinIR 4x. Текст ничем не хуже аниме модели, зато участок на фоне - лучший.
Итог:
R-ESRGAN 4x+: такая же как SwinIR 4x, только чуть хуже то в том, то в этом, а значит смысла в ее использовании нет совершенно.
R-ESRGAN 4x+ Anime6B: как мне кажется для манги, аниме и недетализированных комиксов подойдет идеально, т.е. если в изображении нет мелких деталей и текстур - однозначно лучший вариант.
4x-UltraSharp: самое четкое изображение из всех вариантов, не заваливает все в аниме и воск или в супер реализм, но порой артефачит и с текстом не в ладах, а для комиксов это очень важно. Применять можно если нужна самая четкая картинка, но ты не боишься еще и поработать руками.
ФИНАЛ:
Однозначный победитель - SwinIR 4x. В 99% выдает самый лучший результат. Пусть и не всегда самая четкая картинка, зато по всем аспектам самая сбалансированная, ничего не меняет и не добавляет, хорошо работает с текстом, просто все делает хорошо. Добавляем сюда то, что генерация быстрее всех конкурентов, а вес результата не самый большой - даже и сомневаться не приходится.
1 место: SwinIR 4x
2 место: R-ESRGAN 4x+ Anime6B
3 место: 4x-UltraSharp
4 место: R-ESRGAN 4x+
На этом всё.
Танец в стиле киберпанк - зажигательная анимация от нейросети
Больше захватывающих нейросетевых видео в источнике - Арт-нейросети от Nerual Dreming
Летние мечты - Анимация с помощью Deforum
Больше нейросетевых видео в источнике - Text2Video
Краткий гайд по использованию нейросети ClipDrop (на базе Stable Diffusion)
Мало кто сейчас не слышал про нейросети Midjorney и Stable Diffusion.
К сожалению, в Midjorney сейчас убрали пробную версию и генерить разные картинки стало сложнее (процесс оплаты тоже не самый легкий)
Да, кто-то скажет, что есть Stable Diffusion которую можно поставить на комп и делать всё в свое удовольствие. Или посоветует какой нибудь Шедеврум (от наших разработчиков, который мне совсем не зашел).
Но шастая по просторам сети я наткнулся на один очень любопытный сайт:
https://clipdrop.co
Беглый осмотр показал, что это ещё один проект от Stable.ai. И какой проект! В нём очень много вкусных возможностей.
Краткий трейлер и обзор возможностей можно посмотреть здесь.
Но прежде чем удариться во все тяжкие, я советую вам всё-таки зарегистрироваться на сайте. Это даст возможность генерить на порядок больше контента.
Так как тут тоже есть ограничение на количество генераций - то я настоятельно советую вам использовать одноразовую почту чтобы сэкономить на платежах.
Я использую https://temp-mail.org/ru/
Меня более чем устраивает. Почту необходимо подтвердить используя ссылку в письме отправленном при регистрации.
На главной странице вы найдёте список основных функций:
Первое, что нас встретит - это генератор изображений Stable Diffusion. Работает онлайн, работает с телефона.
Не нужен никакой Дискорд и танцы с бубном. Да, знатоки скажут, что это всё фуфло - и в Midjorney настроек, префиксов и прочего добра на порядок больше. Но простому обывателю - Stable Diffusion хватит за глаза.
Проваливаемся внутрь. Интерфейс прост как 2 копейки:
Для начала можно выбрать стиль с помощью кнопки No style. Если её не трогать, то будет генериться мешанина из стилей.
Выбор стилей довольно большой (все показывать не буду, для примера выберу Photographic):
В верхнем поле вбиваем наш запрос на английском.
Например:
A cute blonde young girl in a dress black stands against the background of a bridge at sunset
Нажимаем кнопку “Generate” и сайт поставит вас в очередь на генерацию изображений.
У меня данная процедура занимает секунд 10. После чего мы имеем 4 изображения.
Понравившееся фото можно увеличить или запустить генерацию заново. Тут же можно поменять стиль. Ради эксперимента меняю фильтр на анимэ используя стиль, но не меняя запрос.
Результат ниже:
Понравившееся изображение можно скачать используя кнопку “Download in HD”
Пример ниже:
Сразу оговорюсь, для любителей погенерить порнушку. Сделать это можно, но алгоритм после генерации сразу замыливает и ставит тег запрещенки.
Выглядит это так:
В общем с этой функцией я думаю всё понятно.
Идём дальше.
Вторая полезная штука, которой я активно пользуюсь называется “Uncrop”
В чем её фишка?
Наверняка вы хоть раз обрезали фото под нужные вам размеры. С обрезкой обычно проблем ни у кого нет.
А вот если размер наоборот нужно увеличить?
Ага. Вот для этого и существует “Uncrop”.
По факту, всё тоже довольно просто.
Закидываем нужное нам фото вот сюда:
В моем случае это будет только что сгенерированный котёнок:
Редактор предложит вам размеры картинки, которые вы можете поменять так, как считаете нужным (в высоту, в ширину)
Пример ниже:
Так как мы пользуемся бесплатной версией, то размер в пикселях будет ограничен. Но и тут есть небольшая хитрость.
Выбираем и получаем результат.
По умолчанию генерится 4 варианта картинки, между которыми можно выбирать.
Как только просмотрите все 4, сеть начнёт генерить ещё варианты. Тут тоже есть какой-то счетчик на бесплатной версии - но как его обойти я уже написал.
Идем дальше: следующая клёвая функция - Image Upscaler.
Фактически это повышение разрешения изображения. С сильно мыльными фото конечно не поможет - но если у вас есть фото в низком разрешении - удвоить его сможет.
Алгоритм тот же. Берём фото - заливаем и ставим ползунок на x2
Из-за того, что мы с вами халявим иногда получается идиотская ситуация - если картинка изначально имеет высокое разрешение - то редактор сначала её уменьшает в размерах, а потом апскейлит.
На мой взгляд это немного глупо…
Однако с небольшими картинками работает очень даже неплохо.
Ещё одна клёвая функция - Remove Background (убираем фон)
На фото со сложным фоном работает не всегда адекватно - но для моей работы очень даже подходит.
Пример ниже:
Серым ползунком можно двигать и смотреть - было/стало. Жалко, что редактор сам определяет что нужно оставить на фото. Но повторюсь, как правило работает весьма неплохо.
С фоном разобрались. А можно ли убрать бывшего с вашей совместной фотографии?
Тоже можно!
Это делается с помощью функции - «CleanUp”. Заливаем.
Далее с помощью кнопки ”Clean” закрашиваем предмет/человека/область - которая должна исчезнуть (размер кисти можно менять), с помощью кнопки “Move” перемещаем само изображение или масштабируем его.
Ниже пример того чтобы под рукой (сильно я не старался - поэтому будет немного кривовато).
Был парень:
Нет парня:
Только рука и осталась! Жутковато конечно…
Вы ещё читаете? Осталось немного
Ещё одна фишка - функция “Relight”
Не нравится, как на вас падал свет на фото?
Частично поправить можно. Помните девушку которую мы сгенерировать сначала?
Давайте её осветим по-другому:
Количество источников света, их цвет,радиус и интенсивность можно задавать самому и размещать где хотите.
На итоговом фото их не будет:
Ну и напоследок ещё одна полезная функция (например для дизайнеров интерьеров или тех кто использует стоковые изображения - но не хочет платить за авторские права).
Функция “Reimagine” - берет за основу ваше фото и перерисовывает его как новое.
Например интерьер:
Сначала идет реальное фото, а уже за ним придуманные. Если не знать, то отличия найти сложно.
Пример обновленного фото:
Осталось ещё 2 инструмента - но как по мне они бесполезные.
ReplaceBackground - заменяет фон (на мой взгляд не очень качественно) и TextRemover - убирает текст (делает это совсем криво).
Вместо последнего куда эффективнее использовать CleanUp.
Вот и всё! Как видите ничего сложного… Но мне эта штука открыла большие возможности с учетом того - что по работе часто нужно что-то отрисовывать, а я совсем не художник.
Всем успехов в освоении!
Выпущена новая модель для анимирования ваших генераций, без дополнительного обучения!
Узнать подробнее можно по ссылкам:
Source : https://animatediff.github.io/
Arxiv : https://arxiv.org/abs/2307.04725
Спойлер, понадобится 60gb видео памяти, авторы рекомендуют использовать NVIDIA A100.
Так что ждем оптимизированную версию и продолжаем наблюдать.
Больше новостей из мира нейросетей ты найдешь в источнике - Арт-нейросети от Nerual Dreming
Готические цветы
Рыжая девушка в лесу (реализм+аниме)
Зомби
Еще больше работ можно найти в моем телеграмм канале,там я публикую каждый день свои работы https://t.me/neirosea
Оставляй комментарий как тебе мои работы
промт=
a terrible (zombie:1.5), around the zombie apocalypse, a ruined city, empty without people, the zombie is dressed in torn clothes, pieces of meat and blood are visible on the body, trending on artstation, hard focus, studio photo ,intricate details, highly detailed, by jordan grimmer, masterpiece,8k ,top quality, best quality, official art,(hyper detailed:1.15), (soft light, sharp:1.2), ultra detailed texture, ultra detailed eyes, (illustration, uhd, unreal engine, sharp focus,)
Negative prompt: cartoon,2girls,(2woman:1.5), anime, human, sketches,nude,nsfw, nipple, loli,yong girl,girl, (worst quality:2), duplicate, (low quality:2), (normal quality:2),text,word,username,watermark,logo, lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, bad anatomy, girl, loli, young, large breasts, red eyes, muscular, over saturated,
Steps: 50, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 281285041, Size: 768x1024, Model hash: eb55ac06c2, Model: NewDreamV8-fp16-no-ema



































