
Искусственный интеллект
Действительно годный контент
Перехожу к рассказу о том, как пользоваться сервисом Wav2Lip.
К сожалению, среди работающих блокнотов в Google Colab, я нашел очень ранний, поэтому он плохо адаптирован под вариативность, и чтобы в принципе получить результат, нужно придерживаться очень четких правил, о которых порой забываешь и 10 минут ожидания превращаются в просто неудачную попытку.
А, и да, программа, по этим же причинам работает не очень быстро. Бывает, для синхронизации одного видео в полминуты приходится подождать 10-15 минут, но это цена за бесплатность и неограниченность в использовании. Причем, платные сервисы даже не всегда показывают такое же качество.
Ну и чтобы не нагромождать пост полотном текста, инструкцию я сделал в статье по ссылке.
Пример смотрите на видео.
И еще раз ссылочки для Вас:
Код на GitHub.
Работающая модель GoogleColab.
А вообще, смотря на все это, возникает желание самому разобраться, чтобы доработать и оптимизировать программу, сделав из нее приложение. И, думаю, через месяц-два я это реализую.
Наблюдайте за прогрессом)
Текст в видеоряд
Tellers.ai превращает любой текст в видеоряд с монтажом, используя кадры из реального мира.
Tellers не генерирует видео, а использует базу данных готовых роликов, находя подходящие клипы для иллюстрации вашего текста.
Ссылка
Источник
Апскейлинг видео
EvTexture — новый метод апскейлинга видео
В методе EvTexture используется отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.
Страничка EvTexture
GitHub
Источник
Поющий Геральт
Тестируем новую чудо-нейросетку "Hedra".
Сперва по-быстрому сгеренировал портрет Геральта.
Потом применил к нему одну песню, которую я написал с помощью польскоговорящих членов своего Дискорд-сервера
Вышло презабавно. Жалко только, что не всю смогло применить из-за ограничений.
Если кому интересно, оригинал песни тут:
https://suno.com/song/91e929f3-2b21-4f8a-a0fe-a07badb32a3a
Заработок на дипфейках
Я пропал немного с виду. Но не просто так, эти два дня я разбирался и выполнял заказ на синхронизацию движений губ в видео с рекламным текстом.
Сложность в том, что нужно было не просто оживить статичное фото и наложить звук - с выходом Hedra это сделать можно за пару минут - а заменить озвучку и синхронизировать рот на уже готовом видео с достаточно активной динамикой и сменой планов.
Такие сервисы тоже есть, но чаще всего платные, и не особо дешевые. Например, в Di-D водяной знак убирают только если заплатишь 100$)
И я пошел шерстить просторы интернета в поисках подходящей программы. Потом вспомнил, что я уже упоминал такую, но не разобрался как она тогда работает - Wav2Lip.
Это программа с открытым исходным кодом и с большим количеством вариантов запуска ее - очень много людей сделали на ее основе блокноты в Google Colab, но почти все они уже не работают.
Многие платные сервисы под капотом у себя имеют именно эту программу, кто-то улучшенную, а кто-то чистую. Где-то, в пробном варианте платной нейросети результат у меня получался даже хуже, чем в итоге в этой бесплатной.
В итоге я нашел работающий блокнот, сделал тесты и приступил к работе. Почти весь день сегодня шаманил над роликом. Дополнительно у меня еще попросили еще движения рук персонажа состыковать со смыслом текста, поэтому пришлось делать дополнительный монтаж.
Само видео не буду сюда загружать, потому что его собираются использовать в рекламе, но завтра сделаю для Вас демонстрацию. Пока что можете сами попробовать разобраться в блокноте этой программы - по этой ссылочке.
Доброй ночи всем)
P.S. Пойду себе макарошки с сыром приготовлю.
Open-Sora
Вышла новая версия Open-Sora с открытым исходным кодом.
На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.
Основные моменты:
Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.



