Lora: истории из жизни, советы, новости, юмор и картинки — Горячее

Лучшие способы использования LoRA моделей для Stable Diffusion: подробная инструкция⁠⁠

5 дней назад

LoRA — это особые расширения для нейросети Stable Diffusion, которые открывают доступ к созданию уникальных образов, стилей и объектов, не предусмотренных изначально. LoRA помогает "обучить" модель новым тематикам, не начиная процесс с нуля. Благодаря использованию LoRA моделей для Stable Diffusion, пользователи могут значительно расширить возможности генерации изображений, применяя уникальные стили и тематики.

Лучшие способы использования LoRA моделей для Stable Diffusion: подробная инструкция

С помощью LoRA легко повторить эстетику определенного художника, придумать персонажа в эксклюзивной манере или получить изображения с необычными деталями — например, с эффектом витража или золотым декором. Итог — картинки, которые стандартный Stable Diffusion просто не сможет нарисовать. Если вы задаётесь вопросом, как использовать LoRA в Stable Diffusion для достижения таких результатов, эта статья даст подробную инструкцию.

Добавление LoRA модели через Telegram-бота

Понадобится: рабочая ссылка на LoRA с сайта Civitai и несколько минут для установки LoRA моделей Stable Diffusion.

Шаг 1. Поиск подходящей LoRA на Civitai

Зайдите на сайт civitai, выберите фильтр “LoRA” и нужную версию Stable Diffusion — SD 1.5 или SDXL. Не забудьте: LoRA для разных версий несовместимы. При поиске LoRA моделей для Stable Diffusion обращайте внимание на совместимость с вашей версией.

После выбора понравившейся модели скопируйте ее адрес из браузера. Важно взять всю ссылку полностью — она потребуется для загрузки.

Шаг 2. Загрузка LoRA через бота

Перейдите в бот Stable Diffusion (работает без VPN, поддерживает оплату российскими картами), затем выберите "Stable Diffusion" → "Стили". Внизу найдите "Галерея LoRA".

Вставьте скопированную ссылку в чат с ботом. Модель загрузится автоматически, а спустя 2-3 минуты появится уведомление о готовности. Если LoRA подходит сразу для SD 1.5 и SDXL, бот установит обе версии. Процесс установки LoRA моделей Stable Diffusion через этого бота максимально простой и удобный.

Как использовать LoRA в промтах для генерации

Чтобы применить добавленную LoRA, в конце промта необходимо добавить специальную команду. Идентификатор модели берем с Civitai — это набор чисел в URL. Значение веса задаем от 0.1 до 2.0: 0.1 — минимальное воздействие, 2.0 — максимальное. Обычно хорошо работают настройки от 0.6 до 1.2. Правильное понимание того, как использовать LoRA в Stable Diffusion, позволит добиться желаемого эффекта на изображениях.

Пример промта с LoRA

Основной промт: "девушка-воин в латах, проработанная фэнтези-графика, мягкий свет, топовая детализация, 8k"

С LoRA:

девушка-воин в латах, проработанная фэнтези-графика, мягкий свет, топовая детализация, 8k <lora:номер_лоры:масса_лоры>

Работа с триггерными фразами

Многие LoRA требуют ввода особых триггерных фраз — это специальные ключи, которые включают нужный стиль или объект. Без них модель может не сработать или результат окажется неожиданным.

Где посмотреть триггерные слова:

Такие фразы обычно приводятся в описании модели на Civitai — ищите раздел "Trigger words" или перечень прямо в тексте. Пример триггеров: "DEOSSINEFACIE", "FACELESS GOD".

Как вписать триггеры в промт

Вставляем их в любой части промта: в начале, середине или конце — главное, чтобы они присутствовали.

Пример с триггерами:

DEOSSINEFACIE, FACELESS GOD, дракон в полёте, детализированные чешуйки, фэнтези арт, высокая детализация, 16k, <lora:1951227:0.8>

Без триггеров LoRA может не сработать или изображение получится не таким, как ожидалось.

Корректировка веса LoRA: как подобрать нужное значение

Вес LoRA — это соотношение между исходным стилем и влиянием дополнения. При слишком маленьком весе изменений почти не видно, а при очень большом — могут появиться лишние детали или искажения.

Типовые диапазоны веса:

0.1-0.3 — легкая стилизация, почти незаметные изменения
0.5-0.8 — сбалансированный эффект, универсальный вариант
1.0-1.5 — заметное преобладание LoRA, сильно выраженный стиль
1.5-2.0 — максимум воздействия, часто появляются артефакты

У некоторых LoRA диапазон веса расширен (например, от -2 до 2), или допускаются отрицательные значения. Эта информация всегда есть в описании автора на Civitai.

Совет по выбору веса

Стартуй с 0.8 — для большинства моделей это оптимальный вариант. Если результат слабый — попробуй увеличить до 1.2, если перебор — уменьши до 0.5. В этом боте с нейросетями можно быстро проверить разные веса и подобрать лучший результат, не устанавливая SD на ПК. Такой подход особенно удобен при установке LoRA моделей Stable Diffusion для быстрой проверки их эффективности.

Сравнение SD 1.5 и SDXL: совместимость LoRA

Запомни: LoRA, созданные для SD 1.5, не работают с SDXL, и наоборот. Эти модели базируются на разных технологиях и не поддерживают взаимную интеграцию.

Перед загрузкой LoRA всегда уточняй, для какой версии она предназначена. На Civitai в описании указываются метки "SD 1.5", "SDXL" или, например, "Pony" — это тоже относится к SDXL. При выборе LoRA моделей для Stable Diffusion этот момент крайне важен.

Как сделать правильный выбор

SD 1.5 — огромный выбор LoRA, быстрая генерация, меньше потребляет ресурсов.

SDXL —лучше детализация и четче, но работа замедляется.

Любителям экспериментов со стилями советую SD 1.5 — там LoRA намного больше.

Типичные ошибки и способы их устранения

LoRA не сработала: Проверь синтаксис — лишние пробелы исключи. Уточни номер модели (его можно найти в URL на Civitai). Введи триггерные слова, если они указаны в описании.
Появились странности или артефакты: Попробуй уменьшить силу LoRA до 0.5-0.7. Проверь, не перепутал ли версии — LoRA для SD 1.5 нельзя использовать с SDXL. Если триггеров слишком много, сократи их.
Долго идет обработка: Возможно, модель только устанавливается. Подожди 5-10 минут. Если сбой повторился — поменяй LoRA или обратись за помощью к боту.

Теперь можно экспериментировать с созданием оригинальных изображений и подбирать самые разные стили. LoRA действительно расширяют границы творчества в Stable Diffusion. Тут найдешь больше примеров, как использовать LoRA в Stable Diffusion и применять LoRA модели для Stable Diffusion в своих проектах.

Использование нейросетей ускоряет процесс, помогает получать более интересные результаты и открывает нестандартные подходы. Главное — правильно подобрать инструмент под задачу и грамотно выполнить установку LoRA моделей Stable Diffusion.

Показать полностью 8

StableDif

Искусственный интеллект

ОБУЧЕНИЕ LORA | Flux Kohya-ss⁠⁠

2 месяца назад

🛠 В этом видео я научу вас устанавливать и работать с лучшим веб интерфейсом для обучения моделей - kohya ss. 💥

➖ Мы установим StabilityMatrix и с его помощью установим kohya_ss.

➖ Познакомлю вас со StabilityMatrix.

➖ Расскажу вам как подготовить структуру папок и модели для обучения Lora на лицо.

➖ Покажу как создать описания для изображений.

➖ Покажу Preset для обучения Lora.

➖ Расскажу основные параметры, которые влияют на обучение модели и этих параметров большинству их вас будет достаточно, но так же на boosty будет расширенное видео по настройкам обучения Lora👌

🔐 Расширенное видео по настройкам: ссылка (https://boosty.to/stabledif/posts/314939fa-a5ed-4f49-87cd-63...)

🎦 СМОТРЕТЬ НА YOUTUBE (https://youtu.be/ECI08EaiTvo)

🎦 СМОТРЕТЬ НА RUTUBE (https://rutube.ru/video/b493e3174fbc126dcd1f66dc37fd7e5a/)

Показать полностью 2

[моё] Искусственный интеллект Lora Flux YouTube RUTUBE Digital Видео Длиннопост

YesAi

Искусственный интеллект

Создание аниме-иллюстраций с помощью нейросетей: пошаговое руководство и советы⁠⁠

3 месяца назад

Хотите освоить создание аниме-иллюстраций с помощью нейросетей? Это пошаговое руководство и наши советы помогут вам раскрыть потенциал современных технологий и добиться впечатляющих результатов. Искусственный интеллект сегодня способен распознавать и воспроизводить разнообразные художественные стили, что открывает путь к созданию оригинальных работ при минимальных временных затратах. Даже если отсутствуют навыки рисования в стиле аниме, теперь можно получать красочные, стильные изображения, соответствующие актуальным тенденциям. Использование нейросетей для генерации иллюстраций значительно ускоряет рабочий процесс, а также вдохновляет ИИ-художников на творческие эксперименты, позволяя проявить индивидуальность и расширить границы креатива.

Создание аниме-иллюстраций с помощью нейросетей: пошаговое руководство и советы

Инструкция по созданию аниме-иллюстраций с помощью нейросетей

Для начала выберите подходящую нейросеть, которая поддерживает генерацию аниме-иллюстраций в нужном формате. После этого поэкспериментируйте с разными настройками и художественными направлениями — так проще найти свой уникальный стиль, который будет радовать и мотивировать к новым проектам. Добавляйте в промты собственные детали и креативные идеи: такие авторские элементы сделают каждую работу неповторимой. Еще одна рекомендация — регулярно просматривать примеры работ других художников, чтобы находить вдохновение и совершенствовать навыки создания иллюстраций с помощью нейросетей.

Расширение возможностей рисования аниме с искусственным интеллектом

Современные нейросети, например Qwen, впечатляют мощью генерации аниме-артов и наглядно демонстрируют, как искусственный интеллект влияет на цифровое творчество. Благодаря им стало возможно создавать необычные изображения, экспериментировать со стилями и воплощать дерзкие идеи.

Работа с нейросетью для создания аниме-иллюстраций начинается с поиска вдохновения и продумывания сюжета, а затем переходит к визуализации персонажей и сцен. В этом материале подробно разобраны ключевые этапы взаимодействия с нейросетью — от появления задумки до реализации замысла в виде готовой картинки.

Как шаг за шагом создать аниме с помощью нейросетей

Шаг 1. Придумываем концепцию

Начальный этап — фундамент всей работы: именно здесь рождается персонаж и ставятся главные задачи для нейросети. Важно обдумать каждую деталь: какой будет цвет волос у героя, оттенок глаз, какие черты лица выделить, какую позу выбрать, каким сделать фон и в каком стиле оформить иллюстрацию.

Иногда именно маленькие нюансы меняют восприятие всей работы. Не бойтесь экспериментировать — аксессуары, необычные наряды, даже выражение лица могут придать герою яркости. Здесь фантазия не знает границ: нейросеть Qwen поддержит самые смелые задумки. Когда мысленный образ станет четким и живым, пора двигаться дальше.

Шаг 2. Пишем промт

Когда идея окончательно сформирована, опишите персонажа с максимальной детализацией. Важно не забыть про цвет глаз, длину и оттенок волос, стиль одежды и характерные черты внешности.

Укажите, чем занят герой: например, он может идти, широко улыбаясь, или задумчиво смотреть вдаль — именно такие детали создают нужную атмосферу.

Опишите место вокруг: городской пейзаж или таинственный лес — окружение оживляет картинку и задает настроение.

Чтобы промт получился уникальным, добавьте необычные стили — например, элементы киберпанка, готики или стимпанка. Это сделает героя особенным.

Каждая мелочь в промте влияет на итоговое изображение, поэтому пропишите все детали, которые важны для результата.

Шаг 3. Настраиваем нейросеть

Перейдите по ссылке и задайте параметры для работы с Qwen

В чате появится приветствие. Далее следуйте инструкциям на скриншотах, чтобы правильно выбрать настройки нейросети.

Шаг 4. Генерируем аниме-арт

Когда все параметры выставлены, отправьте свой промт (текстовое описание) в Telegram-бот и дождитесь, пока нейросеть создаст иллюстрацию.

Пример промта (по которому был создан арт для этой статьи):

<lora:1914845:1>, anime, illustration woman in black and blue costume, burlesque psychobilly style, gothic clothing bunny bodysuit, stunning gothic top model, ornate patterns, fine detailed lines, fishnet corset with choker, pale goth beauty, full body art, dynamic illumination and shadow

Рассмотрим подробнее, из чего состоит этот промт:

Красным отмечен LoRA-код — это своего рода компактный набор сведений для нейросети, задающий параметры генерации картинок в определенном стиле, например, в духе аниме.

Синие слова — это триггеры, которые подают сигнал алгоритму искусственного интеллекта: как только они встречаются, автоматически подключается библиотека LoRA для получения нужного результата.

Зеленым обозначаются заметки, которые любой пользователь вправе добавить прямо в промт. При создании картинок весь текст, начинающийся с #, игнорируется — удобно для пометок, сортировки и поиска нужных промтов в боте.

Полный перечень LoRA с пояснениями собран в галерее стилей нейросети Qwen. За примерами использования и дополнительными сведениями о LoRA стоит перейти по ссылке под стрелкой на скриншоте — она ведет на сайт Civitai.com, где подробно разбираются настройки выбранной LoRA.

Слияние аниме и нейросетей: перспективы искусства и искусственного интеллекта

Аниме и нейросети — это стремительно развивающиеся направления, которые все чаще взаимно обогащают друг друга.

Аниме славится своим узнаваемым визуальным языком, широким выбором жанров и продуманными сюжетами. В основе — яркие цвета, запоминающиеся персонажи и сложные истории, часто затрагивающие глубокие философские темы и эмоции.

Нейросети — мощный инструмент искусственного интеллекта, который уже меняет подход к творчеству. AI создает изображения, тексты, музыку, открывая художникам новые горизонты и вдохновляя на уникальные художественные эксперименты.

Сегодня творцы и аниматоры активно берут на вооружение нейросети для создания аниме-работ. Это заметно ускоряет процесс и расширяет палитру стилей, которые раньше казались недоступными. Алгоритмы могут изучить традиционное аниме и, сохраняя его дух, придумывать новых персонажей и фоны.

В итоге, симбиоз аниме и нейросетей открывает авторам свежие пути для самовыражения, а аудитории — новые впечатления. Такое взаимодействие развивается, формируя будущее анимации и искусства с поддержкой искусственного интеллекта.

Промты для создания аниме-картинок доступны без оплаты в галерее на нашем сайте.

Показать полностью 8

[моё] Искусственный интеллект Нейронные сети Компьютерная графика Аниме Qwen Нейросеть Qwen-Image Lora Иллюстрации 2D Длиннопост

YesAi

Новая нейросеть Qwen Images которая генерирует и модифицирует картинки⁠⁠

4 месяца назад

Qwen Images — это нейросеть, которая выходит за рамки простого создания изображений по текстовому описанию. Она справляется не только с генерацией новых, но и с тонкой модификацией уже готовых картинок. Можно менять детали, накладывать фильтры, совмещать разные элементы, экспериментировать с настроением и стилем — интерфейс позволяет работать с изображениями на довольно глубоком уровне.

Давайте разберём, какие рабочие задачи способна закрыть нейросеть Qwen.

Модификация картинок в нейросети Qwen Images

Почти все популярные нейросети для обработки картинок — Midjourney, Sora Images и подобные — часто страдают одной типичной проблемой. Жёсткие NSFW-фильтры режут даже те арты и снимки, где ни малейшего нарушения нет. Казалось бы — обработал семейное фото или сделал безобидную иллюстрацию, а получаешь сообщение о блокировке. Такая избыточная цензура здорово раздражает, особенно если занят творчеством или учёбой.

В чём выигрывает Qwen? Её можно поставить на свой собственный сервер. То есть вы лично регулируете, насколько жёсткие будут фильтры. Хотите — добавляйте ограничения, хотите — убирайте максимум "лишнего". Это решение для тех, кому не хочется зависеть от невнятных алгоритмов модерации, когда каждый третий нормальный результат попадает под раздачу.

Среди базовых настроек Qwen нет поддержки NSFW-генерации. Модель исходно не обучали создавать такие изображения. Но если вдруг система усомнится в корректности картинки, она просто мягко "очистит" сомнительные детали. Ни резких банов, ни тотальных блокировок — продолжаешь работать, творить и экспериментировать.

От этого выигрывают прежде всего дизайнеры и иллюстраторы, которым не хочется спотыкаться о случайные запреты. Владельцы сайтов, маркетологи, художники — все, кто привык сам контролировать рабочий процесс, по достоинству оценят Qwen. Полная свобода творчества, никакого неожиданного стоп-сигнала посреди работы. Проверил лично — работать стало намного комфортнее.

Переходим к самому сочному — что умеет Qwen с изображениями.

Свои фотки можно заливать и тут же экспериментировать: обработка, эффекты, стилизация — всё под рукой. Вот мой личный топ возможностей, которые уже доступны, и тех, что тестируются:

Замены одежды + замена окружения, а лицо остаётся вашим. Midjourney и Sora Images до такого не дотянули — специально тестил и сравнивал.
[скоро] Склейка нескольких фото в один кадр, как у Sora Images. Лично жду эту штуку для коллажей и “до-после”.
[скоро] Примерка одежды прямо по снимку: загружаете свой образ и вещи — сервис сам подберёт, что и как сочетается. Для маркетплейсов и продавцов просто находка.
[скоро] Глубинные карты, как в ControlNet, для полного контроля, чтобы результат был предсказуемым.
[скоро] Настройка позы через OpenPose — изменяете позу, двигаете руки, настраиваете композицию до самых мелочей.
Преобразование стиля: по желанию превращаю обычное фото в аниме-персонажа, пиксель-арт или олдскул-иллюстрацию. Всё работает по запросу.
Оживление старых фото одним кликом. Архивные снимки реально преображаются — пробовал на семейных сохранениях.
[бета] Outpaint — дорисовывает края кадра по вашему описанию. Пока в тестах, но круто расширяет возможности.
Свои чёрно-белые фотографии легко превращаю в цветные. Особенно круто для семейных архивов — сам удивился результату.
Восстановление фотографий без перекраивания лица — характер человека полностью узнаваем.
Генерация трёхмерных моделей прямо c картинки — дизайнеры и моделлеры оценят.
[бета] Вырезка одежды с фотки — функция ещё нестабильна, но если её допилят, маркетплейсам будет за что зацепиться.
Удаление водяных знаков в пару кликов — рабочий инструмент для тех, кто с визуалом работает каждый день.
Быстрая смена фона. Например, делаю белый фон для карточек товаров за пару секунд.
Гибкое редактирование по любым промптам — описываете словами, какими хотите видеть изменения, Qwen воплощает пожелания в жизнь.

...и это далеко не всё. Открываются почти безграничные горизонты: только вы решаете, что именно делать с вашими снимками. Достаточно сформулировать, какой результат нужен — и система быстро выдаёт ответ.

Но и это ещё не предел — впереди ещё несколько крутых функций, о которых стоит рассказать:

Когда меняете референс, лицо человека само по себе не поменяется. Только если вы не укажете это явно в промпте. Оригинальное лицо никуда не денется, оно останется.
Умеет не только по-английски, но и по-китайски. При этом фразы разбивает чётко — на блоки, как нужно. Хотите стильную обложку журнала? Легко. Можно задать отдельный заголовок, название журнала, добавить любые информационные вставки — как вам удобно.
Qwen поддерживает работу с LoRA (Low-Rank Adaptation). Это даёт возможность пополнять знания модели с помощью специальных LoRA-модулей. Скачали интересную LoRA на civitai.com — и просто подгрузили её в Yes Ai Bot через Telegram. Всё, ваш искусственный интеллект стал ещё умнее.

Недостатки нейросети Qwen Images

Qwen — не волшебство, а ИИ с понятными границами возможностей. Все мифы мгновенно развеиваются, когда начинаешь работать с этим инструментом на практике.

Вот с какими трудностями реально сталкивался лично и что замечают пользователи:

Outpaint (дорисовка) иногда шалит: свежедобавленные фрагменты резко выбиваются по стилю или содержанию. Спасти ситуацию можно, но иногда приходится настраивать параметры и даже редактировать вручную. Увы, идеального результата с первого клика не жди.
Qwen довольно прожорлив к «железу». Минимум — видеокарта уровня NVIDIA 3090, комфортно — 4090 или даже 5090. Цены, мягко говоря, немаленькие. Но не всё так грустно: если потянуть апгрейд ПК не по карману, часть функционала работает прямо в Telegram через бота @yes_ai_bot. Для старта хватает обычного смартфона.
Иногда Qwen меняет детали изображения без просьбы: появляется неожиданный фон или новые объекты. Бывало, просишь одно, а в ответ получаешь сюрпризы на картинке. Такие «художественные вольности» сложно контролировать, и они раздражают.
Словарный запас у Qwen скромнее, чем у конкурентов. Сложные или редкие термины часто воспринимаются неправильно. Например, для специфических нишевых проектов или задач возможностей этой нейросети уже не хватает.
Qwen общается только на английском и китайском. На русском, увы, не работает, что для российского рынка — большой минус. Постоянно приходилось переключаться на другой язык, и это далеко не всем удобно.

Как генерировать изображения через Qwen Images

Покажу на примере — будем работать с Telegram-ботом @yes_ai_bot, который умеет использовать нейросеть Qwen Images.

Заходим в Telegram, находим бота @yes_ai_bot
В настройках подбираем параметры под себя: выбираем подходящий чекпойнт (версию модели). Устанавливаем количество шагов генерации — для большинства задач достаточно 20 шагов, этого хватает с головой. По желанию можно задать размер изображения в пикселях и определить, сколько картинок бот сделает за один раз.

Не хочется тратить время на придумывание сложных промтов? В галерее есть уже готовые стили — просто выбирайте тот, что нравится. Удобно, все шаблоны сразу под рукой.

Работать с Yes Ai можно на любом языке. Пишите запрос так, как удобно, хоть по-русски. Сервис переведёт всё на английский сам — не надо думать о правильном синтаксисе или искать переводчик.

Настроить нейросеть Qwen Images можно буквально за пару минут:

Чекпойнт модели. Это основа будущей картинки. Каждый чекпойнт — отдельная стилистика, свой уникальный датасет. Например, если хочется фотореализма, ставьте чекпойнт, который «умеет» фотостиль. Для анимации — другой. Под вашу задачу всегда найдётся подходящий.
Количество шагов генерации. Больше шагов — проработаннее детали, четче результат. Например, быстрая генерация — 8-12 шагов. Для сложной картинки с деталями ставлю 20. Лично для меня это оптимум между скоростью, ценой и качеством.
Формат. Выбирайте нужные пропорции: квадрат 1:1, вертикаль 9:16 для историй, классический 16:9 для заставок и превью. Сразу видно размеры в пикселях — удобно подбирать под соцсети или сайт.
Количество изображений. Можно сгенерировать одну картинку, а можно сразу несколько. Иногда сравниваю два варианта одной идеи — часто выходит совершенно разный стиль и атмосфера.

Затрудняетесь с выбором промпта? Загляните на наш форум. В открытой бесплатной галерее собраны десятки удачных вариантов — листайте, выбирайте, вдохновляйтесь.

Генерация изображений с помощью Qwen Images и LoRA на практике

Чтобы получить иллюстрацию через Qwen Images вместе с LoRA-моделью, действуйте по классической схеме — всё просто и понятно. Главное отличие: в запрос добавляем специальный ключ. Он указывает системе, какую конкретно LoRA-подмодель подключить и насколько сильно её влияние должно проявляться.

Пример промпта для Qwen Images с использованием LoRA:

Панда ест лапшу из миски <lora:1938784:1.1> pixel art in 2dhd octopath traveler style

Разберёмся, как это устроено.

Запись <lora:1938784:1.1> состоит из двух важных частей. Число "1938784" — идентификатор конкретной LoRA-модели с сайта civitai.com. По этому номеру находится именно тот стиль, который вам нужен.
Вторая часть — "1.1" — это, по сути, регулятор силы воздействия выбранной модели на финальную картинку. Чаще всего используются значения от 0.7 до 1.5. Хотите, чтобы влияние было заметнее? Повышайте цифру.
Фразы вроде "pixel art in 2dhd octopath traveler style" — это так называемые ключевые слова. Они подсказывают нейросети, как должен выглядеть ваш итоговый результат, и задают визуальное направление генерации.

Где найти номер LoRA для нужных ключей?

Самый удобный вариант — открыть галерею моделей LoRA в Yes Ai Bot. Это почти хранилище с уже подобранными вариантами, которые пробовали другие пользователи. Нужный ключ можно просто скопировать прямо из списка. Учтите, если в карточке модели прописаны специальные триггер-слова, обязательно добавляйте их к своему промпту. Обычно такие фразы выделяют отдельно, чтобы вы их не пропустили — иначе выбранная LoRA не будет работать так, как надо.

Как загрузить модель Qwen LoRA с Civitai в галерею Yes Ai

В стандартном списке Yes Ai не нашлось нужной нейросети? Решение есть — добавить свежую модель с платформы Civitai. Это огромная база нейросетевых решений со всего мира.

Вот что нужно сделать. Для начала определитесь, какую модель хотите использовать — например, для генерации текстов или изображений. Дальше переходите на https://civitai.com/models.

Чтобы не потеряться среди тысяч вариантов, воспользуйтесь фильтрами: установите «LoRA» и «Qwen». В списке появятся только модели, которые подходят по вашим критериям. Выберите нужную — дальше процесс добавления в галерею Yes Ai займет всего пару минут.

Открываете список моделей — выбираете ту, что подходит по стилю и набору функций. Не ленитесь заглянуть в описания: авторы обычно подробно разбирают, что умеет каждая LoRA-модель на практике. Как только определились, кликаете на карточку, копируете ссылку из браузера, например: https://civitai.com/models/1938784/2dhd-pixel-art-octopath-s...

Сразу отправляете эту ссылку боту Yes Ai в Telegram. Бот всё обработает сам — новая модель появится в вашей галерее минут через пятнадцать, а чаще ещё быстрее. Если берёте что-то на Qwen, обратите внимание: нужны только модели, где явно указано “Base model: Qwen”. До отправки проверьте, что в нижнем меню бота выбрана нужная нейросеть — должна быть надпись “Нейросеть: Qwen Images [изменить]”.

Когда LoRA уже подключена, промпты с соответствующим ключом начинают работать мгновенно. Для примера, вся команда выглядит так: <lora:1938784:1> Здесь 1938784 — это идентификатор выбранной модели, который всегда виден в ссылке при копировании из Civitai.

Однако это только первый шаг. Помимо ключа важны ещё и триггерные слова — их обязательно публикует сам создатель модели. Без них LoRA зачастую вообще не реагирует или выдает странные результаты. Поэтому совет: всегда ищите в описании или профиле автора список этих слов. Обычно они выделяются отдельно — запоминать их не надо, но держать под рукой обязательно.

Триггерные слова — это специальные команды, которые вы вставляете в запрос. С их помощью LoRA понимает, что именно от неё хотят. Эти слова — как ключ, который открывает нужные функции нейросети.

Для этой модели есть свой уникальный триггер:

pixel art in 2dhd octopath traveler style

Собираем всё воедино: нужен промт для генератора изображений, чтобы получилась панда за поеданием лапши.

панда кушает лапшу из миски <lora:1938784:1> pixel art in 2dhd octopath traveler style

Многих интересует: можно ли совмещать разные языки внутри одного запроса? Например, написать основную часть промта по-русски, а триггер вставить на английском.

В Yes Ai это не проблема — смешивайте языки как хотите, главное, чтобы суть была понятна. Алгоритмы корректно воспринимают и обрабатывают такой микс.

Другое дело — работа с Qwen на личном ПК. Здесь лучше не рисковать: старайтесь сразу переводить весь промт на английский, чтобы избежать непредсказуемых результатов.

Как выбрать весовой коэффициент для LoRA и зачем он вообще нужен

Весовой коэффициент в LoRA отвечает за то, какую роль выбранная модель сыграет в вашей генерации. Проще говоря: чем выше значение, тем ярче выражены особенности, которые заложены в конкретной LoRA. Слишком высокий коэффициент – рискуете получить сильно перекрученный или неестественный результат. Слишком низкий – эффект модели окажется почти незаметен.

На практике всё просто. Возьмём пример с Yes Ai Bot: вы прописываете идентификатор модели и коэффициент прямо через двоеточие, вот так — <lora:1938784:1.2> Число 1.2 как раз и задаёт “силу” влияния вашей LoRA. Чем ближе это значение к единице или чуть выше, тем отчётливее результат. Обычно большинство пользователей крутится в диапазоне от 0.7 до 1.5. Это своего рода золотая середина – здесь модель уже видна, но картинка сохраняет гармонию.

Но всё индивидуально. Кто-то стабильно использует LoRA с коэффициентом 0.6 для едва заметной стилизации. Встречал заказчиков, которым по душе агрессивные стили — для таких без 2.0 не обходится. Так что, в первую очередь, смотрите на совет автора модели. Часто хорошие LoRA сопровождаются краткими гайдлайнами от тренера.

Зайдите на страницу модели на Civitai — многие создатели честно выкладывают рекомендуемые значения веса LoRA в описании.
Откройте примеры работ на той же странице. Под картинками часто указывают промпты и точный параметр веса, который помог получить такой результат.

Если ни среди советов в описании, ни под тестовыми изображениями не встретился подходящий вариант — выберите вес 1.0 и посмотрите, что получится. Не стесняйтесь играть с настройками: постепенно уменьшайте или прибавляйте значение, пока не увидите подходящий эффект.

По личному опыту: идеальный результат с первого раза — большая редкость. С генеративным AI важны терпение и готовность пробовать разное. Пара лишних итераций — нормальная часть творчества, а не напрасная трата времени.

Хотите быстро подобрать промпты, которые реально работают? На нашем форуме мы собрали специальную галерею — там вы найдёте десятки живых примеров для Qwen Images. Каждое решение проверено на практике. Все нужные настройки тоже указываем. Остаётся только выбрать подходящий вариант и использовать у себя.

Если базовые генерации через промпты и настройку LoRA уже освоили — отлично, двигайтесь дальше! Остались вопросы или хочется поделиться своими наблюдениями? Пишите напрямую в Telegram: https://t.me/yes_ai_talk Не тратьте время на эксперименты в пустую — используйте опыт сообщества.

Показать полностью 8

Чат-бот Искусственный интеллект Нейронные сети Компьютерная графика Дизайнер Тренд Qwen Нейросеть Qwen-Image Telegram (ссылка) Telegram бот Telegram Lora Длиннопост

Fergisson

Искусственный интеллект

Проблема с генерацией персонажей и стиля. Нужна помощь. Lora⁠⁠

4 месяца назад

Привет! Я создаю геймифицированный проект, основанный на уникальном визуальном мире — с маскотами, лором, уровнями, скинами, кастомизацией и мини-комиксами.

Я уже придумал визуальную концепцию и лор, прописал сезоны и развитие маскотов, написал сценарии мини-комиксов, однако упёрся в создание контента.

Ввиду скромных бюджетов (делаю на свои деньги) решил обратиться к AI для генерации картинок и персонажей.

Я уже 3 месяца в свободное от работы время пытаюсь стабильно генерировать персонажей с помощью LoRA / Stable Diffusion / ComfyUI и сервисов типа SeeArt, однако у меня это не получается.

Моя цель — создать два стабильных визуальных стиля:

Главный герой маскот
Визуальный стиль

Прошу помощи либо вашего совета🙏

Что я уже пробовал?

DALLE и Sora.

Начинал с базовых AI, получил набор базовых генераций, благодаря которым у меня есть чёткое представление о том, как всё должно выглядеть — датасет, сценарии и готовая вселенная.

Однако, сколько я не пытался рисовать целые комиксы либо отдельные сцены, постоянно прыгало освещение, стиль либо фильтр – а особенно персонажи. Задался вопросом как это можно стабилизировать? Так я узнал о Lora.

2. ComfyUI, kohya

Месяц я пытался развернуть ComfyUI, kohya на своем компьютере (GTX 3070Ti) при помощи ChatGPT, однако без познаний в кодинге постоянно лезли какие-то ошибки и я бросил это.

3. Civitai + Seeart

Дальше я обратился к готовым сервисам для создания Lora.

Еле как сгенерировал два отдельных датасета под персонажа и под визуальный стиль (по 17 картинок) и пошел перебирать различные настройки для создания Lora через Civitai, weights, shakker.

Сначала делал на основе FLUX-модели, однако все время получал не то. Когда попробовал SDXL начал получать +/- подходящие Lora.

В итоге через пару недель сделал Lora через shakker и загрузил в seeart.

Дальше пару недель я перебирал все возможные настройки, ControlNet функции, ослаблял либо усиливал силу моих Lora – в итоге сделал несколько выводов:

Canny (ControlNet) – просто накладывает моего идеального маскота поверх изображения без понимания композиции кадра

Depth (ControlNet) – нарушает форму пина хотя рисует окружение в нужной мне стилистике.

Остальные ControlNet функции тоже оказались для меня не актуальными.

Рабочая доска в Miro

Пока так и не удалось добиться:

Стабильного визуального стиля (от изображения к изображению меняется форма, стиль, пропорции)
Контроля над персонажем (невозможно повторить одного и того же маскота в нужной позе/ракурсе)
Производства комиксов с единой стилистикой

Я не художник и не ML-инженер, но у меня есть чёткое представление о том, как всё должно выглядеть — референсы, сценарии и готовая вселенная.

Понимаю, что можно развернуть системы типа ComfyUI на арендованном GPU и углубится в создание персональных инструментов, однако чувствую, что уже много потратил на это времени.

Помогите советами:

Действительно ли реализация подобной идеи через AI затрачивает столько усилий или только я хожу "вокруг да около"?
Какая модель и есть ли точные решения для того, чтобы это развернуть на моем либо арендованном GPU, чтобы мог создавать сцены, комиксы как на конвеере?
Есть ли инженеры-фрилансеры, которые занимаются разработкой и установкой SD с кастомной LoRA/ControlNet, чтобы я дальше сам мог генерировать сцены с персонажами?

Либо вообще стоит нанять AI-художника для создания сцен / персонажей и не тратить свое время? Сколько это стоит?

Буду очень признателен вашей обратной связи!

Показать полностью 2

Искусственный интеллект Lora Stable Diffusion Flux Civitai Длиннопост

CrowsHaveEyes

Лига программистов

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных⁠⁠

6 месяцев назад

Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.

В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction. При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.

Традиционный подход: LLM + RAG, которого уже не достаточно

Retrieval‑Augmented Generation (RAG) — тандем LLM и векторных баз для поиска релевантных фрагментов, вставляемых в контекст перед генерацией, который обрел популярность в последние год-полтора благодаря нескольким безусловным преимуществам.

Этот подход позволяет использовать модели общего назначения на узкоспециализированных доменах без полного дообучения. Он и сейчас является самым надежным и дешевым способом снизить галлюцинации, даёт ссылки на документы и улучшает точность ответа. RAG используется в цепочке следующих логических шагов, через которые проходят данные в системе: векторизация → recall → prompt → LLM → извлечение структурированных данных.

Теперь о минусах RAG. Описанная методика только дополняет контекст модели релевантными данными, но не повышает способность самой LLM к извлечению нужных признаков. Эта способность зависит от того, каким задачам и на каких данных модель была обучена. К тому же RAG добавляет несколько архитектурных и прикладных сложностей - пайплайн с векторной базой, embedding, поиск по индексу, чанкинг данных, который может быть нетривиальным процессом с применением различных методик (таких как Semantic Chunking).

Сейчас контекстное окно модели позволяет вместить намного больше данных, чем раньше - взять хотя бы 1 млн токенов у Llama 4, так что необходимость в чанкинге и самом RAG уже не настолько острая. Есть, конечно, проблема понимания длинного контекста. Важно понимать, что при решении практических задач точность LLM может падать пропорционально длине контекста - на эту тему есть интересный бенчмарк:

Разные модели имеют разные показатели long context understanding, как видно из таблицы выше. Их точность для определенных задач можно увеличить двумя способами - SFT-файнтюнингом на размеченных данных и дистилляцией - передачей знаний от более сильной модели.

Fine‑tuning: точечное улучшение LLM

Файнтюнинг изначально был менее доступен, чем RAG - во-первых, он требует понимания того, как работает оптимизация весов большой языковой модели-трансформера (если мы не говорим про файнтюнинг каких-то других архитектур нейросетей). Во-вторых, он требует набора данных (как правило, размеченных, если мы говорим про Supervised Fine-Tuning), и в третьих, он требует вычислительных мощностей, таких как GPU-кластер.

В результате файнтюнинг позволяет настроить веса модели под конкретные инструкции, задачи, формат данных, что значительно повышает точность модели в определенном специализированном домене.

На своем опыте я сделал следующий вывод: файнтюнинг необходим для разработки агентов, особенно в области feature-extraction задач, это очень эффективная практика, которая должна быть взята на вооружение разработчиками, так как она закрывает недостатки RAG и служит необходимым компонентом прикладных ИИ систем. Перечисленные выше трудности файнтюнинга тоже постепенно решаются - во-первых, облачные провайдеры делают доступными вычислительные мощности. В моих статьях и видео достаточно гайдов по использованию облака для файнтюнинга. Чтобы экономить на GPU, по-прежнему остается актуальной методика Low-Rank Adaptation (LoRA), хотя во многих случаях и полный файнтюнинг, который модифицирует веса модели полностью, тоже возможен и оправдан. Ведь для узко специализированной задачи может быть достаточно обучить модель на совсем небольшом наборе данных - 100-500 примеров.

Динамическая квантизация в сочетании с LoRA (QLoRA) позволяет еще сильнее сократить расход видеопамяти и время обучения модели.

В целом SFT-файнтюнинг можно разделить на следующие шаги: подготовка датасета → формирование train и validation наборов → обучение → оценка. В моем последнем видео я "начал с конца" и разобрал прикладные аспекты оценки (evaluation) при разработке агентских систем. Лишь недавно я обратил внимание на библиотеки для evaluation, такие как openevals в экосистеме Langchain/Langsmith, о которых в знал и раньше, но обходился простым скриптингом. Для тех, кто только начинает знакомство с evals, будет полезен мой ноутбук с экспериментами на Langchain/Langsmith и openevals.

При подготовке данных для feature extraction важно выбрать итоговый формат данных, который будет понятен и человеку, и LLM. При небольшом объеме данных самое важное - качественные примеры ответов (output), которые готовятся обычно человеком, вручную. Это особенно актуально для специализированных случаев feature-extraction - например, если вы разрабатываете систему, которая будет читать технические спецификации изделий, товарные коды и тому подобные типы данных. Для составления такого датасета придется привлекать человека с профессиональными знаниями в соответствующем домене. А для LLM чем проще выходной формат данных, тем меньше вероятность галлюцинаций. Поэтому я руководствуюсь тремя принципами -

1. Не усложнять выходной формат данных применением, например, JSON или XML - простого текста в большинстве случаев достаточно;

2. Выполнять feature-extraction из минимальной единицы входных данных за одну генерацию. Это может быть одна PDF-страница, изображение, параграф текста;

3. Использовать Chain-of-Thoughts для валидации процесса извлечения.

Само обучение, как ни странно, вызывает меньше всего проблем - используйте готовые средства обучения библиотеки transformers или API OpenAI, контролируйте качество чекпоинтов, своевременно используя evaluation, и следите за оверфиттингом.

Distillation: перенос знания

Distillation — это обучение компактных или более слабых моделей на основе поведения более сильной LLM‑«учителя». Это еще один способ повысить качество модели, часто менее затратный, чем SFT-файнтюнинг - достаточно просто сгенерировать датасет с помощью модели-учителя, без участия человека.

Отличным практическим примером перечисленных методик может послужить исследование технологического института Джорджии, опубликованное в январе 2025.

Авторами была реализована следующая архитектура:

DistilBERT + fine‑tuning на 10 000 документов → компактная модель с эффективным временем обучения (4–9 ч на ПК) с 97% качества модели-родителя. Пайплайн извлечения признаков включал следующие шаги:

Сэмплинг 10k примеров из тестового корпуса (объявления вакансий) с целью извлечения признаков.
Разбивка на чанки с применением Semantic Chunking
Генерация ground‑truth с помощью LLM (Gemini).
Файнтюнинг DistilBERT - небольшой модели с архитектурой раннего трансформера, которая получена путем дистилляции знаний модели BERT. Дистилляция позволяет сохранить 97% процентов качества, при размере на 40% меньше, чем у исходной модели BERT
Prediction - извлечение признаков.

Логично предположить, что рассмотренные в этой статье методики извлечения признаков из документов можно и нужно комбинировать.

RAG — поиск релевантных фрагментов, Fine‑tuning для улучшения и стабилизации ответов модели, и Distillation в эффективной агентской системе дополняется промпт-инжинирингом и CoT, Chain‑of‑thoughts, для самовалидации системой извлеченной информации и ее автоматического итеративного приближения к ожидаемому результату.

Показать полностью 2

[моё] Искусственный интеллект ChatGPT Openai Программирование Машинное обучение Lora Длиннопост

egor.leto

Stable Diffusion & Flux

Cyborg FLUX — LoRA для создания кибернетических образов!⁠⁠

Серия Нейросклад

7 месяцев назад

1/6

Название модели: Cyborg FLUX

Ссылка на модель: https://civitai.com/models/1651648/cyborg-flux?modelVersionId=1869477

Тип модели: #LoRA

Количество скачиваний: 142

Дата загрузки: 5 июня 2025

Базовая модель: Flux.1 D

Триггерные слова: cyborg

Теги: #concept, #cyborg, #android, #robot, #bionic, #human_machine

Описание модели | Комментарий разработчика:

Эта LoRA создана для генерации изображений в стиле киборга, человека-машины, робота и андроида. Она поможет вам воплотить футуристические и механические образы в ваших проектах. Отлично подходит для создания концепт-артов и персонажей в жанре научной фантастики.

Источник: 🤖 НЕЙРО-СКЛАД — всё, что нужно, для твоей нейронки!

Показать полностью 6

[моё] Искусственный интеллект Нейронные сети Арты нейросетей Telegram (ссылка) Тренд Lora Flux Киборги Концепт Android Робот Bionicle Киберпанк

305

Nerual.Dreming

Stable Diffusion & Flux

Как я обучал LoRA на стиле South Park для Flux: сбор кадров через MPV, особенности FluxGym и эксперименты с рангами⁠⁠

8 месяцев назад

Генеративные нейросети уже изменили мир цифрового искусства, но настоящая магия начинается, когда ты сам берешь их под контроль. Сегодня расскажу о своем эксперименте по обучению LoRA на стиле South Park — от сбора датасета до финальной модели. Поделюсь реальным опытом, техническими нюансами и самое главное — что конкретно сработало, а что оказалось пустой тратой времени.

Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист.

Идея обучить LoRA на стиле мультсериала пришла ко мне случайно. На глаза попался новый анимационный сериал «Ваш дружелюбный сосед Человек-паук», и я подумал: «Было бы классно обучить LoRA именно на этом стиле!». Я уже обучал LoRA на отдельных персонажах и простых стилях, но на таких сложных и комплексных особо ещё не тренировал.

Но стиль человека-паука показался мне слишком сложным для первого эксперимента такого рода. Решил сначала потренироваться на чем-то попроще. И тут удачно подвернулась спешл-серия South Park! Стиль South Park простой, узнаваемый, многие его любят (включая меня). На Civitai уже была одна LoRA South Park, так что я подумал — если смог кто-то другой, то и я смогу!

Спойлер: всё оказалось гораздо сложнее, чем я думал. Но обо всём по порядку.

❯ Как собрать датасет, не сдохнув от скуки

Первое, что нужно для обучения LoRA — качественный датасет. У меня была FullHD-серия South Park — идеальное качество для набора скриншотов. Осталось только придумать, как эти скриншоты делать быстро и удобно.

Для просмотра видео я использую MPV. Раньше сидел на MPC-HC, но он стал подтормаживать на некоторых 4K рипах, так что я переехал на MPV. Он не только быстрее, но и поддерживает кучу всяких приколюшек типа скриптинга. Хотя для наших целей хватит и встроенной функции скриншотов.

Функция сохранения кадров в MPV активируется нажатием клавиши S (только на английской раскладке, что важно). Но чтобы не хранить скриншоты где попало, стоит настроить плеер. Создаём файл конфигурации по пути C:\Users\[имя_пользователя]\AppData\Roaming\mpv\mpv.conf (можно быстро перейти через Win+R → %APPDATA%\mpv → Enter). Если папки mpv нет – создайте её.

Вот содержимое файла mpv.conf:

screenshot-directory="C:/Users/user/Pictures/Screenshots/mpv"
screenshot-template="%F/%P"
screenshot-format=png
save-position-on-quit=yes
resume-playback=yes

(Замените user на ваше имя пользователя)

Что делает каждая строчка: screenshot-directory задаёт путь для скриншотов, screenshot-template определяет формат имени (где %F - имя видео, %P - позиция), screenshot-format выбирает PNG для лучшего качества, а две последние строки заставляют плеер запоминать где вы остановились и автоматически продолжать с этого места при следующем запуске. Таким образом мы решаем и проблему скриншотов, и вечный вопрос — «а где я остановился в прошлый раз?».

Вооружившись настроенным MPV, я посмотрел несколько серий South Park, нажимая S в ключевые моменты. Это, кстати, гораздо веселее, чем может показаться — сидишь себе, ржёшь над Картманом и заодно собираешь датасет.

В итоге у меня набралось около 150 скриншотов. Но для качественного обучения мало просто надёргать кадров — нужно тщательно их отфильтровать: убрать смазанные кадры, выкинуть неудачные ракурсы, оставить только типичные для стиля примеры. Для тренировки LoRA на персонажа обычно достаточно ~30 изображений, а вот для стиля нужно больше — до 200. У меня осталось около 120 кадров после фильтрации.

❯ Подготовка изображений к обучению

Теперь встал вопрос обработки. Обучение модели будет проходить в разрешении 1024×1024, а мои скриншоты были другого формата. Без паники! Python-скрипт спешит на помощь!

Для тех, кто никогда не работал с Python, вот краткая инструкция: скачайте и установите Python с официального сайта, при установке поставьте галочку «Add Python to PATH», потом откройте командную строку (Win+R, введите «cmd») и выполните команду pip install pillow для установки библиотеки обработки изображений.

Теперь создайте текстовый файл с названием resize_images.py, вставьте в него код ниже, поместите файл в папку со скриншотами и запустите двойным кликом:

from PIL import Image
import os
# Создаем выходную директорию, если её нет
output_dir = "outputs"
if not os.path.exists(output_dir):
os.makedirs(output_dir)
# Получаем все файлы изображений из текущей директории
image_extensions = ['.jpg', '.jpeg', '.png', '.bmp', '.gif', '.tiff', '.webp']
image_files = []
for file in os.listdir('.'):
if any(file.lower().endswith(ext) for ext in image_extensions) and os.path.isfile(file):
image_files.append(file)
# Обрабатываем каждое изображение
for i, file in enumerate(image_files):
try:
# Открываем изображение
img = Image.open(file)
# Принудительно конвертируем в RGB (убираем прозрачность)
img = img.convert('RGB')
# Получаем размеры изображения
width, height = img.size
# Определяем новые размеры, сохраняя соотношение сторон
if width > height:
# Если ширина больше высоты, устанавливаем ширину = 1024
new_width = 1024
new_height = int(height * (new_width / width))
else:
# Если высота больше ширины, устанавливаем высоту = 1024
new_height = 1024
new_width = int(width * (new_height / height))
# Изменяем размер изображения с сохранением пропорций
resized_img = img.resize((new_width, new_height), Image.Resampling.LANCZOS)
# Сохраняем с порядковым номером в формате PNG с максимальным качеством
output_path = os.path.join(output_dir, f"{i+1:03d}.png")
resized_img.save(output_path, format='PNG', optimize=True, compress_level=0)
print(f"Обработано {file} -> {output_path} ({new_width}x{new_height})")
except Exception as e:
print(f"Ошибка при обработке {file}: {e}")
print(f"Завершена обработка {len(image_files)} изображений.")

Этот скрипт делает несколько полезных вещей: сохраняет пропорции изображений, убирает прозрачность (чтобы не было проблем при обучении), нумерует файлы последовательно и оптимизирует PNG для лучшего качества. После запуска вы получите в папке outputs все обработанные изображения.

❯ Создание описаний для изображений

Следующий шаг — создание текстовых описаний (по-английски это называется captioning) для изображений. Нейросети учатся на парах «картинка + описание», и от качества описаний очень зависит результат.

Если бы я делал LoRA для чего-то безобидного, то использовал бы Florence-2 от Microsoft. Эта модель шикарно описывает обычные сцены и довольно быстрая. Но с South Park ситуация сложнее — там NSFW-контент, который Florence-2 не сможет нормально обработать (стесняется).

Я перепробовал кучу инструментов для создания описаний и в итоге остановился на Joy Caption Alpha Two. Эта модель меня покорила тем, что в ней есть более 19 различных настроек, разные типы описаний (включая стили Midjourney и Fusion) и основа на визуальной языковой модели, что даёт более подробные и точные описания.

Но возникла проблема — Joy Caption обрабатывает изображения только по одному, а у меня их 120! Сначала я искал готовые решения для пакетной обработки, но нашел только несколько cli, которые у меня даже не запустились. Пришлось закатать рукава и сделать свою локальную версию, за одно прикрутил к ней перевод и пакетный режим обработки.

Несколько вечеров кодинга (и некоторое количество психованных удалений файлов) — и я смог сделать работающую локальную версию с мультирежимом. Я хорошо потрудился, чтобы превратить это в портативную версию, которая запускается даже на видеокартах с 12 ГБ памяти.

Результатом стал JoyCaption Ultimate α2, который я выложил на канал Нейрософт, где публикуются репаки и портативные версии различных нейросетей. Моя модификация умеет генерировать описания в 9 разных режимах, поддерживает расширенные инструкции, разные стили и длину описаний, а также позволяет визуально проверить и исправить неудачные промпты в пакетном режиме.

Обработка 120 изображений заняла около 5 минут на RTX 4090. Главное — результат получился отличный, с корректными описаниями всех особенностей стиля South Park. На выходе мы получаем папку с результатами, в которой лежат все картинки и у каждой есть txt файл с промптом.

❯ Запуск обучения в FluxGym

Теперь, когда у меня был готовый датасет с картинками и описаниями, можно было приступать к самому обучению. Для этого я использовал FluxGym, установленный через Pinokio.

Pinokio — это удобный инсталлер для различных нейросетей. Установка проста: заходите на сайт, скачиваете, запускаете. Через интерфейс Pinokio находите FluxGym, жмёте Install, ждёте загрузки компонентов — и вуаля, у вас есть рабочий инструмент для обучения LoRA специально под модель Flux.

После запуска FluxGym появляется окошко с настройками. Я закинул свой датасет и настроил такие параметры:

Ранг: 4 (мне казалось, что для простого стиля South Park этого достаточно)
Эпохи: 13
Повторения: 10
Генерация сэмплов каждые 500 шагов
Добавил параметры --w 1280 --h 768 --s 20 для настройки превью, чтобы они генерировались с нормальным разрешением, а не стандартным 512×512

Запустил обучение и стал с нетерпением ждать результатов... И тут произошёл первый шок.

❯ Дневник Роршаха, 4 апреля: результаты разваливались на глазах

Результаты были... мягко говоря, неутешительными. Фоны получались более-менее нормальными, но персонажи — просто ужас какой-то. Месиво из десятков одинаковых Картманов, наложенных друг на друга, деформированные лица, непонятные конечности.

«Нет, это не очередной трип Паркера и Стоуна, это были мои плохо натренированные LoRA», — думал я, глядя на эту цифровую какофонию. Раньше я тренировал LoRA на персонажах, и никаких проблем не возникало. Почему же сейчас всё пошло не так?

❯ Эксперименты с параметрами обучения

Гуглинг подсказал, что для стилей, возможно, нужен более высокий ранг LoRA. Это влияет на глубину обучения — чем выше ранг, тем глубже модель может изучить особенности стиля.

Я решил попробовать обучение с рангом 128. Результаты стали лучше, но объем модели раздулся до полутора гигабайт! Решил попробовать компромиссный вариант: ранг 64, при котором LoRA весит примерно 500-600 МБ, что уже приемлемо.

Также я кардинально снизил скороть обучения. По умолчанию в FluxGym используется --learning_rate 8e-4, а я уменьшил до --learning_rate 2e-4, то есть в 4 раза. Это должно было предотвратить переобучение, но увеличило время тренировки. Вместо нескольких часов обучение заняло почти полдня. Но ради качества можно и подождать.

В процессе экспериментов я также пришел к выводу, что лучше ставить количество повторов равным 1, а желаемую продолжительность обучения регулировать числом эпох. Это даёт бóльшую гибкость и упрощает анализ результатов.

❯ Звёздный дневник, 38 мая 3.057 года: переученность видна невооружённым глазом

Примерно на 260-й эпохе я начал замечать явные признаки переобучения — множество зрачков в глазах персонажей, смазанные формы, снижение качества изображений. Пора было останавливаться. К тому времени обучение шло уже около суток.

Я решил остановиться на 255-й эпохе, и у меня получилось 90 файлов моделей с разных этапов обучения. Но как теперь понять, какая из них лучшая?

Автоматизация тестирования моделей

Для начала я написал простой скрипт, который создал мне список всех файлов в папке:

import os
from datetime import datetime
# Получаем текущую папку, откуда запущен скрипт
current_folder = os.getcwd()
# Имя выходного файла
output_file = 'file_list.txt'
# Открываем файл для записи
with open(output_file, 'w', encoding='utf-8') as f:
f.write(f"Список файлов в текущей папке: {current_folder}\n")
f.write(f"Дата: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
f.write("-" * 50 + "\n\n")
# Получаем список всех файлов в текущей папке и подпапках
for root, dirs, files in os.walk(current_folder):
# Получаем относительный путь от текущей папки
rel_path = os.path.relpath(root, current_folder)
if rel_path != '.':
f.write(f"\nПапка: {rel_path}\n")
else:
f.write("Текущая папка:\n")
# Записываем все файлы из этой папки
for file in sorted(files):
f.write(f" {file}\n")
print(f"Список файлов сохранен в {output_file}")

Затем скормив в ЛЛМ список, я составил последовательность для тестирования с равномерной выборкой примерно каждой 30-й эпохи:

<lora:sp64-000003:1>, <lora:sp64-000030:1>, <lora:sp64-000060:1>, <lora:sp64-000087:1>, <lora:sp64-000114:1>, <lora:sp64-000144:1>, <lora:sp64-000171:1>, <lora:sp64-000198:1>, <lora:sp64-000228:1>, <lora:sp64-000255:1>

Для тестирования я использовал Stable Diffusion WebUI Forge. Хоть этот форк A1111 и устаревает, он всё ещё удобен для многих задач. Особенно круто в нём работает скрипт X/Y/Z plot, который позволяет автоматически протестировать разные LoRA и получить наглядную таблицу.

Я использовал функцию PROMPT S/R (Search and Replace), чтобы автоматически перебрать все варианты LoRA. Для тестов я использовал такие промпты:

Digital drawing in South Park style A fat boy sits astride a cow, with a red barn behind him
Digital drawing in South Park style a policeman is sitting in a strip club, a naked stripper is showing her breasts on stage.
Digital drawing in South Park style tricycle chase, fat boy with glasses rides after red-haired boy in green ushanka hat, cinematic

Результаты тестирования, я небрежно сложил на онлайн доску, можно посмотреть.

❯ Ошибка новичка при тестировании

После первых тестов я понял свою глупую ошибку — я тестировал на промте, похожем на те, что были в моём датасете! Так делать нельзя, ведь это не показывает реальную гибкость модели.

Я составил более короткие и совершенно другие промпты, и результаты оказались ГОРАЗДО лучше. Оказывается, проблема была не в моделях, а в моём тестировании!

❯ Финальный раунд экспериментов и открытия

После нескольких циклов тестирования я обнаружил несколько интересных закономерностей:

LoRA на ранге 128 выглядит интереснее, чем на ранге 4 — она глубже изучает стиль и не так топорно его применяет. Высокий ранг позволяет модели улавливать более сложные и нюансированные особенности стиля.

Чем ниже ранг, тем быстрее происходит переобучение, что было для меня сюрпризом. Я ожидал, что модели с высоким рангом будут быстрее переобучаться из-за большего количества параметров. На практике оказалось наоборот — высокий ранг позволяет обучаться более «аккуратно», с меньшим риском жесткой фиксации на обучающих примерах.

В итоге я остановился на ранге 64 и эпохе 114, которая дала лучший баланс стилизации без переобучения. Удивительно, но это только примерно треть от всего обучения — более поздние эпохи давали признаки переобучения.

Я проверил эту модель с разными весами (0.8 и 1.2), чтобы убедиться, что LoRA достаточно гибкая и работает предсказуемо при разных значениях. Результаты меня порадовали — даже при весе 0.8 стиль South Park был хорошо узнаваем, а при 1.2 не появлялись артефакты переобучения.

❯ Ключевые уроки из моего эксперимента

Обучение LoRA на стили оказалось гораздо сложнее, чем я предполагал. Вот главные уроки, которые я извлек:

Для стилей нужен гораздо более высокий ранг, чем для персонажей. Если для персонажа часто хватает ранга 4-8, то для стиля лучше ставить 64-128. Это связано с тем, что стиль — это комплексный набор визуальных особенностей, которые затрагивают множество аспектов изображения.

Чем ниже скорость обучения, тем более плавно происходит обучение, хотя и дольше. Для сложных стилей лучше уменьшить скорость в 3-4 раза от рекомендуемой и запастись терпением. Результат того стоит — меньше шансов получить переобученную модель.

Оптимальные эпохи часто находятся примерно в первой трети всего обучения. У меня лучший результат дала эпоха 114 из 255. Не бойтесь останавливать обучение раньше, если видите признаки переобучения.

Никогда (серьезно, НИКОГДА) не тестируйте LoRA на промтах, похожих на те, что были в датасете! Это даст вам ложное представление о качестве модели. Тестировать нужно на новых, совершенно других промтах, чтобы проверить гибкость и универсальность обученной LoRA.

❯ Итоговый результат

Готовую LoRA я опубликовал на Civitai: South Park Style Flux LoRA.

Все примеры и тесты можно посмотреть на доске: Примеры и тесты.

Обучение LoRA на стили оказалось намного сложнее, чем я ожидал, но результат того стоил. Теперь я гораздо лучше понимаю процесс и готов браться за более сложные стили — возможно, даже за тот самый сериал про человека-паука, который изначально меня вдохновил.

А какие LoRA вы обучали? Делитесь своим опытом в комментариях!

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Показать полностью 19

[моё] Искусственный интеллект Нейронные сети Flux Lora South Park Stable Diffusion Арты нейросетей Длиннопост Обучение модели

Посты не найдены

1 2 3 4 5 6

Добавление LoRA модели через Telegram-бота

Шаг 1. Поиск подходящей LoRA на Civitai

Шаг 2. Загрузка LoRA через бота

Как использовать LoRA в промтах для генерации

Пример промта с LoRA

Работа с триггерными фразами

Как вписать триггеры в промт

Корректировка веса LoRA: как подобрать нужное значение

Совет по выбору веса

Сравнение SD 1.5 и SDXL: совместимость LoRA

Как сделать правильный выбор

Типичные ошибки и способы их устранения

Инструкция по созданию аниме-иллюстраций с помощью нейросетей

Расширение возможностей рисования аниме с искусственным интеллектом

Как шаг за шагом создать аниме с помощью нейросетей

Слияние аниме и нейросетей: перспективы искусства и искусственного интеллекта

Модификация картинок в нейросети Qwen Images

Переходим к самому сочному — что умеет Qwen с изображениями.

Недостатки нейросети Qwen Images

Как генерировать изображения через Qwen Images

Генерация изображений с помощью Qwen Images и LoRA на практике

Как загрузить модель Qwen LoRA с Civitai в галерею Yes Ai

Как выбрать весовой коэффициент для LoRA и зачем он вообще нужен

Что я уже пробовал?

Традиционный подход: LLM + RAG, которого уже не достаточно

Fine‑tuning: точечное улучшение LLM

Distillation: перенос знания

❯ Как собрать датасет, не сдохнув от скуки

❯ Подготовка изображений к обучению

❯ Создание описаний для изображений

❯ Запуск обучения в FluxGym

❯ Дневник Роршаха, 4 апреля: результаты разваливались на глазах

❯ Эксперименты с параметрами обучения

❯ Звёздный дневник, 38 мая 3.057 года: переученность видна невооружённым глазом

Автоматизация тестирования моделей

❯ Ошибка новичка при тестировании

❯ Финальный раунд экспериментов и открытия

❯ Ключевые уроки из моего эксперимента

❯ Итоговый результат

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы