
Stable Diffusion & Flux
Мифы про AI
Сегодня будем разбираться с паникой и мифами вокруг нейронок, посмотрим откуда они возникают и как дальше жить со всем этим. Мне, как представителю новой профессии, люди часто задают одни и те же вопросы, поэтому я решила ответить всем и на все сразу.
Нейросети заменят художников и дизайнеров
Нейросети, как технология, не в состоянии заменить живого человека. Нейросети не умеют думать и не имеют разума, им не доступна такая штука как смысл и оно никогда не поймет причинно-следственных связей. Эта технология создавалась для других целей, и она в принципе никак и никогда не сможет синтезировать картинку так, как это делает человек. Задача нейросети - предугадать конечный результат, нарисовать что-то максимально близкое к тому, что вы у нее просите. Но не всегда это получается и просить тоже нужно особенным образом. Проблема заключается в том, что архитектура нейросетей построена не на смыслах, как восприятие человека, а на вероятностях, которые не несут в себе смысла. Именно поэтому нейросети испытывают большие трудности при генерации изображений с четкими закономерностями. Если вы художник и действительно беспокоитесь о том, что останетесь без работы - попробуйте сгенерировать пирата с эполетами, глазной повязкой и деревянной ногой. Если вы сможете сделать это без дополнительных эмбедингов, лора и стилуса, а еще останетесь в здравом рассудке, то мое уважение. Открою секрет, перечисленные мной образы - это лишь малая часть того, на чем нейросети обучены не были. У меня таких примеров еще много, например клавиатура, вывески с текстом, здания адекватной формы и т.д. Все это объекты, наполненные конкретным структурным смыслом, доступным человеку, но не доступным нейросетям. Именно поэтому, нейросети могут рисовать лишь самые простые объекты и если вам казалось, что глазная повязка - это довольно распространенная штука, то вы ошибаетесь. Даже человеческий глаз для нейросетей недостаточно распространенная штука, чтобы с первого раза ее нарисовать правильно. И как бы мы не увеличивали выборку, лучше не станет, потому что проблема даже не в размере выборки, а в неподходящем алгоритме, который не учитывает смысл.
Поэтому, не переживайте, ваш хлеб точно никто не отнимет, даже более того, вам на него положили толстый шмат маслица с сахаром, потому что нет ничего более имбового, чем человек, умеющий и рисовать, и пользоваться нейросетями. Если вы когда-либо хотели рисовать как тот самый китаец, который все делает лучше - вкатывайтесь в нейросети и сами станете им.
AI или “Искусственный интеллект”
Этот термин - хорошее напоминание о том, что все новое - это давно забытое старое. Кто-то просто назвал нейросети искусственным интеллектом, потому что термина лучше не придумал, но не обманывайтесь, нет там никакого интеллекта, тем более искусственного. То, что сегодня называется “искусственным интеллектом” - не имеет ничего общего с тем, о чем нам писали фантасты. Это всего лишь маркетинговая уловка, для того чтобы собрать побольше инвестиций. Хайп вокруг нейронок такой же искусственный, как раньше был вокруг AR и VR, а чуть позднее вокруг криптовалют. Как говорится, где они все сейчас?
С нейронками будет то же самое, люди рано или поздно наиграются в миджорни и останутся только те, кто действительно хочет прикладывать усилия, потому как это обязательное условие для создания качественного нейроарта. Нейросети не живые, они ничего не понимают, именно по этой причине они рисуют всякую кракозябру вместо рук, переплетающиеся конечности и прочие прелести, не соответствующие даже самым смелым фантазиям. Если по-простому, то нейросети - это набор данных, там даже нет фактически никаких изображений, как очень многие думают. Погуглите что такое deep learning и вы поймете, что все это лишь математика.
К сожалению, до тех пор пока ученые не расшифруют то, как работает человеческий мозг, никакая нейросеть вас не поймет. И вы всегда будете получать на выходе косяки большей или меньшей степени, в зависимости от ваших инструментов и навыков.
Специальные знания не нужны
Было бы здорово, если бы все в мире было так просто. Однако единственное что мне не нужно знать для работы с нейросетями - это то, как правильно водить карандашом по бумаге. Для того, чтобы мои работы были качественными, мне так же как и любому другому художнику нужно знать анатомию, перспективу, теорию цвета, светотени, композицию и многое-многое другое. Более того, мне нужно иметь колоссальную насмотренность, чтобы контролировать качество того, что мне генерит нейронка. Она очень часто коверкает анатомию, пропорции, композицию, перемешивает цвета и искажает тени. Если всего этого не видеть, то вероятность сделать качественную работу стремится к нулю.
Помимо этого, мне нужно четко понимать как обозначать образы словами и надеяться на то, что нейросеть этому обучена. Иногда я очень завидую художникам, которые просто могут узнаваемо нарисовать, без предварительного пятичасового ресерча, какую-то штуку, которую видели пару раз в жизни.
Вам так же не стоит обманываться онлайн-курсами, которые вот-вот уже сейчас сделают из вас специалиста, который заменит дизайнера или художника. Это обман, чтобы набрать классы и содрать денег. Кстати, программистом с доходом от 130к вам тоже не стать за полгода.
У тебя нет авторского права
Распространенное ошибочное мнение среди тех, кто не знает что из себя представляют нейросети. Я, как нейрохудожник, обладаю всеми теми же правами, что и любой другой художник, потому что без моего участия подобная работа не могла бы существовать. Даже если изображение создается только с использованием промпта, его написание уже вносит меня в число авторов, не говоря уже о том количестве правок, что я вношу в сгенерированное изображение после. Поэтому, по законам РФ, в рамках которых я существую, за мной сохраняется авторское право на все мои работы.
Ты не можешь создать ничего нового
Для всех, кто прочитал первые пункты, здесь нечего даже объяснять. Мои работы уникальны и никто не может их повторить точь-в-точь до единого пикселя, точно так же как я не нарисую один в один работу любого другого автора. Ну, а что касается художественных стилей, то вам придется погуглить или принять на веру, что стили, методы и инструменты рисования не считаются ничьей собственностью по закону, потому что до них может додуматься кто угодно. Поэтому вне зависимости от того, какой инструмент я использую (карандаш, стилус или нейронку) в попытке закосить под Ван Гога, это не делает плохим инструмент или меня, если я за Ван Гога себя не выдаю. Вам, кстати, тоже советую не идти на поводу у людей, которые хотят заработать все деньги мира. У творчества нет хозяев, вы можете рисовать то, что хотите так, как хотите, если не будете никого обманывать и нарушать закон. То же касается музыки, скульптуры, косплея и любого другого творчества. Вы удивитесь, как много “можете себе позволить”, если погуглите законы и подумаете о том, почему вам кто-то что-то запрещает.
Нет, ну это сейчас так, а вот через полгода…
С релиза технологии уже прошло полгода (август 2022) и скоро будет даже год. Через полгода нам подвезут только маленькие плюшки, которые никоим образом не заставят нейросеть ожить, думать и понимать, что именно вы от нее хотите (читай пункт про искусственный интеллект). В дальнейшем, с точки зрения развития, стоит ожидать только увеличения контроля над разными элементами изображения. Будут появляться инструменты, которые позволят вручную добавлять в картинку физический смысл происходящего. Опять же, не без помощи человека. Чтобы мы могли рисовать качественные здания, устройства и прочие вещи, которые сейчас даже примерно правильно сгенерить невозможно. Однако эти инструменты точно не будут простыми, как и все остальные профессиональные инструменты. Но что точно произойдет с нейросетями в самое ближайшее время - повысится доступность. Появятся новые видеокарты, старые станут дешевле, алгоритмы станут быстрее.
Ну а про фактический интерфейс, уже сейчас Stable Diffusion можно использовать как плагин для Adobe Photoshop, Krita, Blender и т.д.
Короче говоря, не стоит ждать технологической революции раз в месяц, все дальнейшее развитие будет эволюционным. Завтра у нас не появится нейросети, которая генерит кино по описанию, вспоминаем про понимание смыслов. Точно так же не будет полностью сгенерированной нейронной музыки. Не будет книг-бестселлеров, целиком написанных нейросетями, которые можно будет читать без фейспалма. Будет медленное, плавное улучшение архитектур нейронок, которые будут генерить более точный результат, будут добавляться инструменты контроля, помимо промпта. Но все это так или иначе будет требовать вмешательства человека с высокой квалификацией, который будет понимать, что он делает.
Ты не имеешь права называть себя художником
Художник, нейрохудожник, ai-artist, творец, я могу себя как угодно называть и это все еще будет отражать суть того, чем я занимаюсь. Вы, наверное, уже поняли, сколько в моих работах труда нейросетей, а сколько - моего личного. Если все вышеперечисленное все равно вас не убедило, то предлагаю встретиться здесь же через пару лет. Когда нейросети станут так же доступны, как сейчас графические редакторы и когда их будут использовать все digital художники. А на дворе будет происходить уже следующая технологическая революция. Делайте ваши ставки.
Новая модель для ControlNet. Берем эмоции под контроль
TLDR: Че тут происходит вообще? Я тут делюсь своим опытом по работе с нейронками. Если тебе эта тема интересна, но ты только начал вникать загляни ко мне в профиль или в конец статьи, там есть полезные ссылки. Сейчас это может быть слишком сложным для тебя.
Энтузиасты натренировали ControlNet на датасете LAION-Face dataset, чтобы улучшить уровень контроля при создании изображений лиц.
Хотя другие модели ControlNet могут использоваться для позиционирования лиц в сгенерированном изображении, мы обнаружили, что существующие модели страдают от аннотаций, которые либо недостаточно ограничены (OpenPose), либо чрезмерно ограничены (Canny / HED / Depth). Например, мы часто хотим контролировать такие вещи, как ориентация лица, открыты / закрыты глаза / рот и в каком направлении смотрят глаза, что теряется в модели OpenPose, а также не зависит от деталей, таких как волосы, подробная структура лица и не-лицевые черты, которые будут включены в аннотации, такие как canny или карты глубины. Достижение этого промежуточного уровня контроля стало стимулом для обучения этой модели.
Текущая версия модели не идеальна, в частности, в отношении направления взгляда. Авторы надеются улучшить это в следующей версии.
Так же они обнаружили, что многие ограничения модели сами по себе могут быть устранены путем расширения запроса на генерацию. Например, включение таких фраз, как "открытый рот", "закрытые глаза", "улыбающийся", "сердитый", "взгляд вбок", часто помогает, если модель не учитывает эти особенности. (Довольно очевидная вещь о которой я рассказывал тут)
Более подробную информацию о наборе данных и модели можно найти на Hugging Face странице модели. Авторы создали открытый запрос на добавление в sd-webui-controlnet в расширение для automatic1111. В настоящее время они сделали доступной модель, обученную на основе базовой модели Stable Diffusion 2.1, и и находятся в процессе обучения модели на основе SD 1.5, которую надеются выпустить в ближайшее время. У них есть форк Репозитория ControlNet который включает в себя сценарии для извлечения набора данных и обучения модели.
Для заинтересованных в обучении или дальнейшем обсуждении авторы предлагают присоединиться к их Discord.
Источник: Reddit.
А теперь перевожу на совсем русский). К сожалению модель пока работает только с моделью SD 2.1 или основанными на ней. Например Иллюминати. Но хорошая новость в том что над версией 1.5 они работают. А так же отправили запрос создателями ControlNet чтобы их препроцессор был добавлен с одним из обновлений в интерфейс контролнета в автоматике. Но если вы не хотите ждать и понимаете что делаете все необходимые для установки ссылки есть в статье.
Поделиться результатом своей работы или задать вопрос, а так же пообщаться с единомышленниками вы можете в нашем нейробратском комьюнити.
Больше гайдов на моем канале, подписывайтесь чтобы не пропустить.
Так же анонсируем интенсив, который создали в содружестве с другими нейроэнтузиастами. Ознакомиться с его программой и временем проведения можно по ссылке.
Арт генерация (ИИ)
Birds began to sing songs, 8k, ultra detailed, ultra realistic, ((sfw))
Negative prompt: 3d, deformed waist, deformed hands, ugly, deformed, amateur drawing, odd, fat, tall, lowres, bad anatomy, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, out of focus, cartoon
Дни минувшего будущего
Девушки от Stable Diffusion
Изображения из Stable Diffusion
В который раз убеждаюсь, что нейросети никогда не заменят художников с их фантазией.
Поскольку сам художником ни разу не являюсь, потратил несколько дней на генерацию всего лишь 15 изображений, из которых удачной могу назвать лишь картинку с единорогом, как подарок другану в качестве заставки на телефон.
Конечно, отмечу, что поставил самому себе ограничение, что базовое изображение должно быть сфомировано промтом, а не взято откуда-то, или нарисовано с помощью скетча.
Также, нельзя было использовать врисовку и, тем более, фотошоп для исправления оплошностей генерации.
Получившееся изображение "увеличивал" с помощь картинки-в-картинку, благодаря чему изображение получалось более детальным, правда, косяки из-за этого тоже начинали возникать, если зайти слишком далеко с шумоподавлением.
Очень старался не использовать людей, потому что с ними работать проще всего, но всё же фантазия иссякла. Не помог даже чат-бот с его предложениями по генерации изображений.
Жду не дождусь, когда нейросеть научится генерировать нормальные изображения с большим масштабом сразу, а не через вот такие вот ухищрения.
В общем, товарищи пикабушники, закиньте, пожалуйста, интересных идей для генерации.









































