Серия «Новости»

6

Вышла новая модель для синтеза речи Qwen3-TTS

Серия Новости

Нам теперь открыта серия мощных моделей генерации речи Qwen3-TTS (https://huggingface.co/collections/Qwen/qwen3-tts). Она доступна в двух размерах (1.7B и 0.6B) и поддерживает 10 основных языков.

У этой модели есть возможность клонирования голоса по 3-секундному образцу, а также создание нового голоса по текстовому описанию. Ещё она поддерживает детальное управление характеристиками речи (тембр, эмоции, интонация) через инструкции. При всём этом у неё сверхнизкая задержка при потоковой генерации.

Показать полностью 2
5

Вышла новая модель для генерации и редактирования изображений FLUX.2 [klein]

Серия Новости

Опубликовали новое семейство моделей FLUX.2 [klein] (https://huggingface.co/black-forest-labs/FLUX.2-klein-9B), которые самые быстрые и компактные для генерации и редактирования изображений, давая высочайшее качество с выводом < 1 сек., и они работают на потребительском железе (от ~ 13 ГБ VRAM).

Их скорость генерации/редактирования <0.5 сек., а универсальность им обеспечивает единая модель для T2I, I2I, multi-reference.

В плане доступности 4B модель предоставляется с Apache 2.0 для локального запуска (RTX 3090/4070). В свою очередь 9B модель выложена с лицензией FLUX NCL.

По качеству модели соответствуют или превосходят модели в 5 раз больше.

Есть несколько вариантов моделей, и первые из них FLUX.2 [klein] 9B/4B (дистиллированные), нужные для быстрого вывода. Потом идут полноценные модели FLUX.2 [klein] Base 9B/4B, предназначенные для тонкой настройки и исследований. А в конце находятся квантованные версии (FP8/NVFP4), созданные совместно с NVIDIA для ещё большей скорости и экономии VRAM.

Показать полностью 2
3

Вышла новая модель для машинного перевода TranslateGemma

Серия Новости

Здесь у нас серия открытых моделей для машинного перевода на основе Gemma 3, называющаяся TranslateGemma (https://huggingface.co/collections/google/translategemma), которые специально дообучены для перевода, показывая значительное улучшение качества.

Чтобы дообучить модели первым делом использовали метод контролируемого обучения (SFT) на смеси синтетических (сгенерированных Gemini) и человеческих параллельных текстов (+30% общих инструкций). Вторым этапом шло обучение с подкреплением (RL), где для оптимизации качества использовали объединение reward-моделей (MetricX-QE, AutoMQM, ChrF и другие).

Во время сбора данных охватили множество языков, включая низкоресурсные, сочетая синтетические (Gemini + MADLAD-400) и человеческие (SMOL, GATITOS) данные.

В результате на автооценке (WMT24++, 55 языков) TranslateGemma стабильно превосходит базовую Gemma 3 по MetricX и COMET22 во всех размерах (4B, 12B, 27B), причём меньшие модели часто сравнимы с большими базовыми. По задачам перевода изображений (Vistra) модели сохранили мультимодальность Gemma 3 и качество перевода текста на изображениях также улучшилось. Что касается человеческой оценки (WMT25, 10 языков), то она подтвердила улучшения, особенно для низкоресурсных языков, за исключением пары с японского на английский (регресс из-за ошибок в именах собственных).

Показать полностью 1
4

Представлена условная память Engram от DeepSeek

Серия Новости

В DeepSeek взялись за проблему, суть которой в том, что трансформеры не имеют встроенного механизма поиска знаний, тратя вычислительные слои на реконструкцию статической информации.

В качестве решения они предложили условную память как новую ось разреженности, дополняющую условные вычисления (MoE). Реализуя её в модуле Engram (https://github.com/deepseek-ai/Engram), который обеспечивает O(1)-поиск статических паттернов через хешированные N-граммные эмбеддинги.

С его помощью модель рациональней использует MoE, где оптимальное распределение параметров между архитектурами следует U-образному закону, улучшая общую эффективность. Поэтому Engram-27B превосходит iso-параметричный и iso-FLOPs MoE-базлайн не только в задачах на знания, таких как MMLU и CMMLU, но и в рассуждениях (BBH, ARC), коде (HumanEval) и математике (MATH).

Всё это работает за счёт освобождения ранних слоёв модели от запоминания статики, умереннее увеличивая глубину сети для сложных рассуждений и освобождая внимание для работы с длинным контекстом и благодаря этому улучшая результаты в бенчмарке RULER. В плане эффективности можно сказать, что детерминированный доступ к памяти позволяет выполнять её разгрузку на хост с предвыборкой, и это даёт ничтожные накладные расходы при выводе, составляющие менее 3%.

Показать полностью 2
0

Вышла новая модель для генерации и редактирования изображений GLM-Image

Серия Новости

Выложена авторегрессионная модель для генерации изображений, насыщенных знаниями, с высокой точностью GLM-Image (https://huggingface.co/zai-org/GLM-Image).

Она первая открытая промышленная модель, сочетающая авторегрессионный трансформер (9B параметров, на основе GLM-4) для понимания семантики и диффузионный декодер (7B параметров, DiT) для детализации.

Использование гибридной архитектуры обеспечивает ей преимущество в сложных задачах, давая лучшее следование инструкциям, рендеринг текста и работу со знаниями, а ещё высокую детализацию. Кроме того, есть поддержка множества задач, таких как Text-to-Image, редактирование, стилизация, сохранение идентичности.

При токенизации в ней используется semantic-VQ (XOmni) для лучшей семантической связи токенов. Обучение AR-части включало многоэтапное обучение на разных разрешениях с прогрессивной стратегией генерации. Диффузионный декодер выполнял условную генерацию на основе семантических токенов, где для работы с текстом и редактирования добавлены glyph-эмбеддинги и блок-каузальное внимание. Также во время post-training проводили раздельную оптимизацию AR-модуля (семантика, эстетика) и декодера (детали, текст) с помощью GRPO.

В результате модель лидирует по рендерингу текста (CVTG-2k, LongText-Bench) и конкурентоспособна в общих задачах (OneIG, DPG Bench, TIFF Bench).

Показать полностью 4

Вышла новая модель для автономного вождения Alpamayo-R1

Серия Новости

Созданная модель Alpamayo-R1 (https://huggingface.co/nvidia/Alpamayo-R1-10B), получившая после презентации на CES 2026 официальное название Alpamayo 1, нужна для автономного вождения, объединяя логические рассуждения с планированием траектории. Для её обучения был использован набор данных CoC, который содержит в себе причинно-следственные объяснения действий водителя, созданные автоматически и с участием человека.

Задействованная архитектура VLA принимает на вход данные с четырех камер (фронтальной широкоугольной, телеобъектива и двух боковых) с историей в 0.4 секунды и основана на языковой модели Cosmos-Reason для рассуждений и диффузионном декодере для построения траекторий в реальном времени. Обучение модели началось с тонкой настройки на данных CoC, а потом применили обучение с подкреплением для согласованности рассуждений и действий.

В результате точность планирования на наборе данных PhysicalAI-AV выросла на 12% в сложных сценариях, количество опасных сближений в симуляции снизилось на 35%, а метод обучения с подкреплением улучшил качество рассуждений на 45%. При этом итоговая модель на 10B параметров работает на реальном автомобиле с задержкой 99 мс.

Показать полностью 1
3

Вышла новая модель для распознавания речи Nemotron-Speech-Streaming-En-0.6b

Серия Новости

Модель Nemotron-Speech-Streaming-En-0.6b (https://huggingface.co/nvidia/nemotron-speech-streaming-en-0...) для потокового распознавания речи с низкой задержкой основана на FastConformer.

В ней применён контроль контекста, дающий ограниченный просмотр вперед и назад в энкодере. Кроме того, был реализован механизм кэширования активаций для эффективного потокового вывода без повтора вычислений.

Модель согласованная и в ней нет разрыва между режимами обучения и вывода. У неё гибридная архитектура, включающая общий энкодер для двух декодеров (CTC и RNN-T), что улучшает точность и скорость обучения.

В плане гибкости есть поддержка нескольких уровней задержки одной моделью.

В результате модель превышает точность буферизованных стриминговых подходов при меньшей задержке и времени вывода, а гибридная архитектура улучшает сходимость CTC-декодера.

Показать полностью 3
1

Вышла новая модель для синтеза речи GLM-TTS

Серия Новости
Вышла новая модель для синтеза речи GLM-TTS

Выложена производственная система синтеза речи (TTS), ориентированная на эффективность, управляемость и качество GLM-TTS (https://huggingface.co/zai-org/GLM-TTS).

Она имеет двухэтапную архитектуру, в которой соединена авторегрессионная модель "текст-в-токены" и диффузионная модель "токены-в-волну". В ней присутствует оптимизированный токенизатор речи на основе Whisper-VQ с ограничениями по тону (F0) и увеличенным словарём, что даёт результат в виде высокой схожести голоса (SIM=76.1) и низкой частоты ошибок по символам (CER=1.03%).

Её обучение было с подкреплением (RL) по методу GRPO с несколькими reward-функциями (произношение, схожесть, эмоции, смех), благодаря чему улучшалась выразительность и стабильность обучения. Кастомизация голоса через тонкую настройку LoRA (только ~15% параметров) является низкозатратной, и для этого требуется ~1 час аудио целевого голоса.

А точный контроль произношения через гибридный ввод "текст + фонемы" решает проблему омофонов и редких слов, особенно для китайского языка. Улучшенный вокодер Vocos2D с 2D-свертками может лучше моделировать частотные поддиапазоны, повышая качество звука.

В итоге по эффективности модель достигает SOTA (state-of-the-art) результатов на открытых бенчмарках, обучаясь всего на ~100k часов данных (значительно меньше аналогов).

Показать полностью 1
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества