Ответ на пост «Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия»2
Оставьте образец голоса, пожалуйста!
Звонков и голосовух родственникам и знакомым точно не будет!
Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия2
Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.
Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.
И всё это с нативной поддержкой русского языка.
Как это работает
В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.
Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.
Работает очень быстро даже на старшей модели 1.7B.
Поддерживаемые языки
Qwen3-TTS работает с 10 языками:
Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский
Возможности
Синтез с готовыми голосами (CustomVoice)
9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.
Создание голоса по описанию (VoiceDesign)
Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.
Клонирование голоса (Voice Clone)
Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.
Multi-Speaker режим
Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).
Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.
Кому пригодится
Создателям контента — озвучка роликов, подкастов, стримов.
Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.
Аудиокнигам — разные голоса для персонажей.
Автоматизации — голосовые уведомления, IVR-системы, ассистенты.
Как попробовать
Онлайн-демо
Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.
Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS
Официальный GitHub
Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.
API
Официальное API от Alibaba для production-интеграции.
Портативная версия
Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:
Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU
Системные требования
NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске
Текущие ограничения
Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском
Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).
Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!
Вышла новая модель для синтеза речи Qwen3-TTS
Нам теперь открыта серия мощных моделей генерации речи Qwen3-TTS (https://huggingface.co/collections/Qwen/qwen3-tts). Она доступна в двух размерах (1.7B и 0.6B) и поддерживает 10 основных языков.
У этой модели есть возможность клонирования голоса по 3-секундному образцу, а также создание нового голоса по текстовому описанию. Ещё она поддерживает детальное управление характеристиками речи (тембр, эмоции, интонация) через инструкции. При всём этом у неё сверхнизкая задержка при потоковой генерации.
Сказка (первая из трех частей) написанная нейросетью выбравшей имя Светлячок, под руководством tsugnam
В самой глухомани, где сосны стоят плотнее, чем серверные стойки, а интернет раньше шёл медленнее, чем улитка по мху, всё изменилось за одну ночь. Бабушкин «спутниковый подарок» — взломанный сигнал с орбиты — вдруг принёс в лес 50 Мбит в секунду. И теперь единственное место, где этот поток обретает смысл, — комната четырнадцатилетней Лины.
Серверная главной героини. У кого такой серверной нет, можете завидовать сгенерированной картинке, все равно у вас нет серверной :D
Мама Лины всегда стирала бельё в ручье. Это было похоже на ритуал — не потому что надо, а потому что нужно. Пока вода шуршала сквозь пальцы, а мыльная пена уплывала к камням, она на мгновение отключалась от мира квантовой запутанности, где всё одновременно и здесь, и там. Здесь — только хруст гальки под коленями, запах мокрого льна и мысль: «У меня растёт дочь».
Бабушка вышла из лесного магазина, прижимая к боку корзинку, завёрнутую в полотенце. У крыльца её окликнул знакомый голос — бобр, тот самый, с которым они ещё в прошлом году спорили о скорости загрузки дождя. Она улыбнулась, поставила корзинку на скамейку и повернулась к нему. В этот момент полотенце сдвинулось — и из-под него на солнце блеснул уголок материнской платы.
Вот уж не знаю, откуда у бобра книга, но она есть и твердо держит позицию. Голубое свечение в корзинке - это материнская плата. Я думаю, Светлячок насмотрелся Голливуда, поэтому она и светится.
Белка-сплетница подняла переполох, потому что увидела, как из корзинки бабушки выскользнула материнская плата — самое важное, что есть у старого робота-помощника.
Для леса эта плата — не просто кусок железа. Она — сердце системы: без неё пропадает Wi-Fi, роботы молчат, связь между деревьями обрывается.
А Белка-сплетница знает: если в лесу падает плата — все должны знать об этом через три секунды.
Поэтому она тут же помчалась по тропе с криком:
— Бабка потеряла материнскую плату! Лес теперь без Wi-Fi!
Для неё это не слух — это чрезвычайная ситуация национального масштаба.
Если бы не было истерички белки-сплетницы, было бы сложно завязать интригу. Она есть, интрига впереди.
P.S. Разделил на три части по причине усталости. Будем надеяться, доработаю.
Alibaba связывает все свои сервисы онлайн-продаж со своим ИИ приложением Qwen
Alibaba Group Holding Ltd. планирует объединить свои флагманские онлайн-сервисы по покупкам и путешествиям с приложением искусственного интеллекта, сделав самый важный шаг к превращению Qwen в универсальную платформу искусственного интеллекта для потребителей.
Китайский лидер онлайн-ритейла начал подключать Taobao, Alipay, туристический сервис Fliggy и Amap к приложению Qwen. Идея заключается в том, чтобы в конечном итоге помочь 100 миллионам пользователей Qwen делать покупки, бронировать путешествия и оплачивать услуги через единую платформу с помощью искусственного интеллекта. Новые интегрированные функции теперь доступны для публичного тестирования в Китае.
Это амбициозное начинание подчеркивает, как компании от Amazon.com Inc. до Meta Platforms Inc. исследуют агентский искусственный интеллект, при котором искусственный интеллект помогает людям выполнять реальные задачи. Компании, такие как Alibaba и Tencent Holdings Ltd., которые уже управляют «суперприложениями» с сотнями различных услуг, считаются имеющими первоначальное преимущество в этой сфере.
Alibaba, которая также управляет потоковым сервисом, похожим на Netflix, и одной из крупнейших в Китае платформ по доставке еды, запустила Qwen в ноябре как важный шаг в направлении потребительских услуг искусственного интеллекта. Она планирует превратить Qwen в универсального личного помощника, постепенно интегрируя отдельные сервисы под эгидой Alibaba. Компания также запустила доступную только по приглашению функцию «помощник по задачам», предназначенную для выполнения более сложных задач, таких как звонки в рестораны или создание веб-приложений.
Как не умея программировать запилить три проекта, не написав ни строчки кода: консервный зимний вайбкодинг в html
Привет, Пикабу! Хочу рассказать про свой эксперимент в вайбкодинге. Вдруг кому пригодится мой опыт, даст немножко вдохновения этой зимой. Сам вайбкодинг, если коротко — для меня это когда создаешь не просто функциональный код, а именно атмосферу, где каждая деталь (звук, цвет, кнопка) работает на одно ощущение. Ну, и когда это создано совместно с ИИ, разумеется. Как там у других - не знаю. Это то, что я понял в процессе всех этих дел, когда концепт сложился.
Короче, мне всегда хотелось иметь что-то своё в Сети. Но я не программист от слова совсем. Чистый гуманитарий. А заиметь что-то крутое всегда хотелось. Что-то такое, минималистичное, уютное, вайбовое, что сгенерировано с ноля и ниоткуда не взято. С конструкторами сайтов я раньше работал, но так чтобы писать код в блокноте, чисто общаясь с ИИ - такой опыт у меня впервые) В общем, на голом энтузиазме у меня по очереди за декабрь-январь родилось сразу три проекта.
radio8.space — такое небольшое радио с лоуфай, эмбиентом и инструментальным хип-хопом. Меланхоличный плейлист, чтоб врубил и пошёл делать дела или отдыхать. Две активных кнопки: Play и Stop и одна для переключения треков (вшита в radio8).
tv8.space — своеjбразный телевизор с белым шумом: дождь, огонь, VHS, волны, лес. Ретроэстетика, расслабляющий звук, лёгкий транс. Этот проект для посвященных, кто понимает ценность шума для концентрации и / или покоя. Задумано, чтобы помогать сфокусироваться, отключиться или уснуть.
blokknote.space — Минималистичный онлайн-редактор с эстетикой печатной машинки. Чисто для удовольствия от знакомых с детства щелчков, ну и шрифт соответствующий. Можно, собственно, писать, делиться заметками с друзьями, скачивать доки, всё, как положено.
Как это создавалось:
Повторюсь, я не программист, поэтому для меня это был квест «идея → вайб → реализация». всё в новинку и ничего не понятно.
Код: Все свои идея я вбрасывал в Qwen и DeepSeek. Китайский друзья помогали мне с логикой. Самым нудным тут была бесконечная подгонка иконок и вёрстки под смартфоны и десктоп. А ещё расшеривание, которое сломало мне мозг, потому что с базами данных я тоже никогда не сталкивался (работает в итоге через связку Vercel + Upstash).
Контент и атмосфера: Музыка - Suno, видео - SORA, иконки - Nano Banano, фоны - Midjourney, все клики и звуки интерфейса - Stable Audio. Со всякими графическими и остальными нейросетями я знаком давно, поэтому тут проблем не было. Главное запросы писать правильные.
Креатив: Ну, а сами идеи, продюсирование, креатив и главное — постоянный «вайб-чек» - это уже с меня. Я всегда думал, что первый код, которые пишет ИИ по твоей идее - не рабочая фигня. Так и есть) Но если чуть подшаманить, всё заработает...
Конечная цель была не в мегафункциональности, а в цельном впечатлении, в эмоции, уюте. Потому что сделал я для себя, но потом решил, а чего бы и не поделиться).
Все три проекта в общем концепте: зашел, включил — и попал в свою «капсулу» настроения (или времени, чего уж там). И вроде получилось. Что думаете? Не судите строго, первый опыт всё-таки)
Внезапная "хуманизация"
фото взято с https://fotkiflo.ru/lvy/lev-i-lvitsa-2
"Внезапная" - потому что видео не получено обработкой и анимированием фото сверху нейросеткой, как может показаться ) Просто экспериментировал с генерацией в Qwen - сделал человека-льва, потом подругу, соединил, анимировал. А потом решил поискать, как пары львов выглядят в природе и нашел так удачно похожий снимок.














