Когда кончились идеи
Видео на ютубе - ссылка
Оставьте образец голоса, пожалуйста!
Звонков и голосовух родственникам и знакомым точно не будет!
Ищу девушку которую сможет озвучивать моего персонажа (Ru, En).
Коротко об персонаже:
Анна (35 лет)
Женщина, сбежавшая от разрушенного брака и городской суеты в старый фамильный дом у моря. Она выглядит уставшей и потерянной, но внутри неё есть скрытая сила и желание начать всё с чистого листа.
1. Характер: Замкнутая, чувствительная, склонная к самоанализу.
2. Внешность: Тёмные волосы, простая практичная одежда (куртка, джинсы), выдающая в ней человека, готового к работе над домом.
3. Цель: Восстановить разрушенный дом бабушки и через это «отреставрировать» собственную душу, отпустив призраков прошлого.
Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.
Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.
И всё это с нативной поддержкой русского языка.
В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.
Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.
Работает очень быстро даже на старшей модели 1.7B.
Qwen3-TTS работает с 10 языками:
Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский
Синтез с готовыми голосами (CustomVoice)
9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.
Создание голоса по описанию (VoiceDesign)
Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.
Клонирование голоса (Voice Clone)
Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.
Multi-Speaker режим
Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).
Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.
Создателям контента — озвучка роликов, подкастов, стримов.
Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.
Аудиокнигам — разные голоса для персонажей.
Автоматизации — голосовые уведомления, IVR-системы, ассистенты.
Онлайн-демо
Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.
Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS
Официальный GitHub
Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.
API
Официальное API от Alibaba для production-интеграции.
Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:
Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU
NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске
Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском
Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).
Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!
Ночь стояла неподвижной, как выдохнувший мир. Я сидел у костра напротив седого старца, чьи глаза будто отражали небо, в котором давным-давно погасли звёзды. Он молчал так долго, что тишина начала звучать громче огня.
— Ты пришёл за знанием, — наконец сказал он. — Но знание не лежит на тропе. Оно и есть сама тропа.
Эти слова впились в меня глубже, чем жар костра. Старец поднялся и жестом велел следовать за ним. Мы шли по пустыне, где песок казался живым. Казалось, невидимые силы наблюдают за каждым шагом, словно оценивают, достоин ли я идти дальше.
— Ты видишь лишь зеркало собственного страха, — сказал он. — Но есть и другое зрение. Оно принадлежит тому, кто знает: мир — это лишь сборка лучей. Всё состоит из энергии.
Он приблизился и коснулся моей груди. Всё вокруг дрогнуло. Камни стали жидкими, небо — близким, словно низкий потолок. Я слышал шорохи, которых раньше не замечал: дыхание пустыни, шёпот ветра, переходящего в голос.
— Не теряйся, — сказал старец, словно издалека. — Это лишь смена положения точки, из которой ты собираешь реальность.
На миг я увидел самого себя — бледного, цепляющегося за привычные границы. А рядом — другое существо: лёгкое, сияющее, наблюдающее за мной с любопытством.
Я понял, что оба — я.
Мы остановились у расселины. Из темноты сверкнул взгляд. Не звериный. Человеческий? Или ни то ни другое?
— Это учитель, который не говорит, — произнёс старец. — Он показывает путь без слов.
Существо приблизилось. От него исходила тишина, но в этой тишине было больше смысла, чем в любых речах. Его взгляд проникал в меня, очищая от жалости к себе, от важности, от привычной тяжести.
Когда оно исчезло, старец сказал:
— Теперь ты понимаешь, почему воин не позволяет миру сломать себя. Он шаг за шагом стирает собственную историю и становится лёгким.
Мы вернулись к костру под рассветным небом. Пламя почти погасло, но тлело упрямо, как последний аргумент света перед рождением дня.
— То, что ты видел, — не чудо, — сказал старец. — Чудо — это человек, который перестал быть пленником самого себя.
Он протянул мне руку.
— Иди. Как пойдёшь — решишь сам. Твоя жизнь отныне не цепь событий, а путь сердца.
Я шагнул в утренний свет. Мир был тем же, но смотрелся иначе — словно его сложили заново. Я чувствовал: где-то позади старец улыбается. Не мне, а тому, кем мне ещё только предстоит стать.
Истории из нижнего Интернета : https://author.today/work/530680