Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Удивительный мир Волшебных островов нуждается в маге, который сможет наполнить бурной энергией увядающую красоту древних городов. Множество мифических существ ожидают вашей помощи на разбросанных в эфире островах.

Маджонг Волшебные Острова

Казуальные, Маджонг, Головоломки

Играть

Топ прошлой недели

  • solenakrivetka solenakrivetka 7 постов
  • Animalrescueed Animalrescueed 53 поста
  • ia.panorama ia.panorama 12 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
Baramburum
Baramburum
Серия Надо делать

Голосовая мышь⁠⁠

1 месяц назад
Голосовая мышь

На подходе очередной гаджет, стартап Sandbar и их кольцо Stream. Производитель называет его «голосовой мышью». С помощью этого кольца можно делать голосовые заметки, общаться с ИИ-помощником и листать треки, не роясь в карманах. Микрофоны в нем по умолчанию выключены - они просыпаются только когда вы касаетесь сенсорной панели. То есть можно вслух наговорить свои внезапные мысли и сразу их сохранить. Потом всё это великолепие можно в приложении расшифровать в текст, а в будущем - еще и выгрузить прямиком в Notion. Внутри еще живет чат-бот, с которым можно поболтать голосом.

Серебряная версия обойдется в $249 или примерно 20,1 тысячу рублей, а золотая - уже в $299, то есть около 24,1 тысячи. И куда же сейчас без подписки! За $10 (примерно 808 рублей) в месяц вам откроют безлимит для заметок и чатов, а также доступ к новым функциям. В общем, если часто генерируете идеи и не боитесь разговаривать с рукой - возможно, это ваш вариант.

Ваша реакция
Всего голосов:
Показать полностью 1
Опрос Искусственный интеллект Кольцо Гаджеты Диктофон
3
2
bitprice

Яндекс представляет новое носимое ИИ-устройство — диктофон с Алисой Про⁠⁠

1 месяц назад
1/4

Яндекс представил компактный диктофон с Алисой Про, ориентированный на корпоративный сектор.

Диктофон маленький и лёгкий, по размеру сопоставим с пластиковой картой, управляется переключателем и кнопкой, оснащён индикатором записи.

Устройство позволяет записывать всё самое важное, от лекций и совещаний до заметок вслух для самого себя. Алиса Про расшифровывает записи, выделяет ключевые тезисы и извлекает нужные факты из архива.

Все записи в памяти защищены аппаратным шифрованием. Ключ хранится на смартфоне пользователя. Даже если диктофон утерян, данные будут в безопасности.

Диктофон — собственная разработка Яндекса; его будет производить Яндекс Фабрика.

Продажи начнутся в первой половине 2026 года, тогда же будут раскрыты и другие подробности о новом продукте.

Показать полностью 4
Электроника Гаджеты Диктофон Яндекс Яндекс Алиса Telegram (ссылка)
5
8
Pazitron
Pazitron

Диктофон на минималках Arduino Nano/SD карта/предусилитель на одном транзисторе⁠⁠

2 месяца назад

Часто встречаются видео или примеры проектов, где используют транзисторы серий BC547, BC546 и т.д. для каких либо самоделок и начинающих радиолюбителей отпугивает поиск аналогов и тратиться не охота. Такие транзисторы вряд ли вам будут встречаться в старой радиоаппаратуре, чаще всего вы встретите там транзисторы 9014 или 8050 один из них и будем использовать, а так же будем использовать всё, что завалялось дома, например адаптер SD карты под Micro SD и микрофон из сломанного планшета. Из всего этого начинающие радиолюбители и не только, могут собрать минималистичный, рабочий, максимально простой предусилитель на одном транзисторе, а так же задействовать его, как рабочее устройство через Arduino Nano с возможностью записи аудио на SD карту. Скачать скетч и другие файлы можно с моего Google диска https://drive.google.com/file/d/1cL2mGv0qy9diJRJkwgeh4W1-lgI...

Принципиальная схема предусилителя микрофона. Компоненты и их номиналы указаны в справа, в Менеджере проекта.

Принципиальная схема предусилителя микрофона. Компоненты и их номиналы указаны в справа, в Менеджере проекта.

Трассировка дорожек для платы. Квадратные площадки это плюсовые соединения, большие круглые, это минус, овальный вывод, это выход сигнала с микрофона.

Трассировка дорожек для платы. Квадратные площадки это плюсовые соединения, большие круглые, это минус, овальный вывод, это выход сигнала с микрофона.

В архиве так же будет лежать файл Light Burn, что бы можно было плату сделать на диодном лазерном станке, дорожки оптимизированы под станок. Для это необходимо покрасить поверхность фольгированного текстолита, высушить, сжечь лазером лишнюю краску, оставив дорожки, сделать травление платы любым доступным способом, смыть краску с дорожек растворителем 646.

Распиновка SD карты/адаптера для подключения к Arduino. Используются выводы Arduino (D10, D11, GND, 5V, D13, D12)

Распиновка SD карты/адаптера для подключения к Arduino. Используются выводы Arduino (D10, D11, GND, 5V, D13, D12)

Сборка предусилителя навесным монтажом, если лень делать плату.

Сборка предусилителя навесным монтажом, если лень делать плату.

Плата, вид снизу.

Плата, вид снизу.

Плата, вид сверху.

Плата, вид сверху.

Распаянный SD адаптер для Arduino.

Распаянный SD адаптер для Arduino.

Подключение предусилителя к Arduino:
Минус предусилителя к выводу (GND)
Плюс предусилителя к выводу (5V)
Выход сигнала предусилителя к выводу (A1)
Отдельное питание предусилителя не требуется, питание осуществляется через Arduino.

Подключение кнопки начала/остановки записи к Arduino:
Один вывод кнопки к выводу (GND)
Второй вывод кнопки к выводу (D2)

Подключение светодиода для индикации записи:
Минус (катод) светодиода к выводу (GND)
Плюс (анод) светодиода к выводу (D5)

Керамический конденсатор 100нФ параллельно кнопке, опционально (антидребезг кнопки)

Перейти к видео

Пример записи. Качество конечно так себе, но работает. Запись сохраняется в формате WAV, для прослушивания, возможно понадобятся соответствующие аудиокодеки или можно конвертировать в mp3 через онлайн-сервисы.

Показать полностью 8 1
[моё] Arduino Пайка Диктофон Самоделки Изготовление Скетч Радиолюбители Видео Короткие видео Длиннопост
6
31
empenoso
empenoso
Программирование на python

Умный диктофон без облака - или как я приручал Docker⁠⁠

2 месяца назад

Несколько недель назад я опубликовал статью о том, как превратить обычный диктофон в инструмент для расшифровки речи с помощью OpenAI Whisper. Идея была создать бесплатную и приватную систему ИИ диктофона, которая избавляет от необходимости переслушивать аудиозаписи лекций или выступлений. Тогда статья нашла своего читателя, собрав 16К просмотров и 120 закладок.

ИИ и обычные диктофоны

ИИ и обычные диктофоны

В процессе настройки я боролся с несовместимостью библиотек, подбирал нужные версии драйверов и вручную собирал рабочее окружение. В комментариях мне справедливо заметили: «Вместо всей этой возни можно было найти готовый Docker-контейнер и поднять всё одной командой». Звучало логично, и я с энтузиазмом принял этот совет. Я ведь верю людям в интернете.

Новая идея - не просто расшифровывать речь, а разделять её по голосам - как на совещании или встрече. Это называется диаризацией, и для неё существует продвинутая версия - WhisperX. Цель была проста - получить на выходе не сплошное полотно текста, а готовый протокол встречи, где понятно, кто и что сказал. Казалось, с Docker это будет легко.

Но я заблуждался. Путь «в одну команду» оказался полон сюрпризов - всё сыпалось одно за другим: то скрипт не видел мои файлы, то не мог получить к ним доступ, то просто зависал без объяснения причин. Внутри этой «волшебной упаковки» царил хаос, и мне приходилось разбираться, почему она не хочет работать.

Но когда я всё починил и заставил систему работать, результат превзошёл мои ожидания. Новейшая модель large-v3 в связке с диаризацией выдала не просто текст, а структурированный диалог.

Это был настолько лучший результат, что я смог передать его большой языковой модели (LLM) и получить глубокий анализ одной очень важной для меня личной ситуации - под таким углом, о котором я сам бы никогда не задумался.

Именно в этот момент мой скепсис в отношении «умных ИИ-диктофонов», которые я критиковал в первой статье, сильно пошатнулся. Скорее всего их сила не в тотальной записи, а в возможности превращать хаос в структурированные данные, готовые для анализа.

В этой статье я хочу поделиться своим опытом прохождения этого квеста, показать, как обойти все скрытые сложности, и дать вам готовые инструкции, чтобы вы тоже могли превращать свои записи в осмысленные диалоги.

Весь код выложен на Гитхаб.

Код на Гитхабе

Код на Гитхабе

Docker как панацея и почему Linux

В комментариях меня критиковали за то, что я опять написал статью про Linux. Да, у меня на домашнем компьютере стоит Ubuntu в режиме двойной загрузки - и многим непонятно, почему я не сделал всё под Windows. Ответ прост: для задач с нейросетями Linux даёт меньше неожиданностей и больше контроля. Драйверы, контейнеры, права доступа - под Linux их проще исследовать и чинить, особенно когда начинаешь ковырять CUDA и системные зависимости.

Ещё меня критиковали за RTX 5060 Ti 16GB - мол, не у всех такие видеокарты. Согласен, это не смартфон в кармане. Но для работы с большими моделями и диаризацией нужна мощь GPU: я использую её как инструмент. К тому же подходы, которые я описываю, работают и на более скромных конфигурациях - просто медленнее.

А теперь начнём с самого начала - что такое Docker простыми словами? Представьте, что вместо того, чтобы настраивать компьютер под каждую программу, вы берёте готовую «коробку» и в ней уже есть всё: нужные версии Python, библиотеки, утилиты. Эта «коробка» запускается одинаково на любой машине - как виртуальная мини-кухня.

То есть мой план действий был такой:

  1. Установить Docker.

  2. Скачать готовый образ с WhisperX.

  3. Запустить одну команду и получить готовый протокол встречи.

Так что могло пойти не так?

Первое столкновение с реальностью

Уже на первом шаге начались сюрпризы:

Секретный токен, который не дошёл до адресата

Чтобы запустить диаризацию, WhisperX использует модели от pyannote, а они требуют авторизации через токен Hugging Face. Я передал его как переменную окружения Docker (-e HF_TOKEN=...), будучи уверенным, что этого достаточно. Но утилита внутри контейнера ожидала его совсем в другом виде - аргументом командной строки (--hf_token). В итоге модель упорно отказывалась работать, и я долго не понимал, где ошибка.

Война за права доступа

Следующая засада - PermissionError при попытке записи в системные папки /.cache. Контейнер как гость в доме: ему разрешили пользоваться кухонным столом, а он пошёл сверлить стены в гостиной. Разумеется, система его остановила. Решение оказалось простым - создать отдельную «полку» для кеша (~/.whisperx) и явно указать путь.

Загадочное зависание

Запускаешь скрипт - и тишина. Ни ошибок, ни логов, будто процесс замёрз. На деле работа шла, просто механизм вывода в контейнере «затыкался». Решение - добавить индикатор прогресса.

Так что Docker - не магия, а всего лишь ещё один инструмент, который тоже нужно приручить.

Решение: два скрипта

Я написал две утилиты - один раз подготовить систему, второй - управлять обработкой. Это простая, надёжная пара: установщик устраняет системные «подводные камни», оркестратор - закрывает все проблемы запуска (HF-token, кэш, права, прогресс).

Шаг 1. Фундамент: whisperx_diarization_setup.sh

Назначение: однократно подготовить Ubuntu - поставить Docker, NVIDIA toolkit, скачать образ WhisperX, создать рабочие папки и общий кэш ~/whisperx.
Что делает:

  • проверяет дистрибутив и наличие GPU (nvidia-smi);

  • устанавливает Docker и добавляет пользователя в группу docker;

  • ставит NVIDIA Container Toolkit и настраивает runtime;

  • подтягивает образ ghcr.io/jim60105/whisperx:latest;

  • создаёт ./audio, ./results и ~/whisperx, выставляет права и генерирует config.env.

Пример:

# создаём директории и конфиг
mkdir -p ./audio ./results "$HOME/whisperx"
chmod -R 777 ./audio ./results "$HOME/whisperx"
cat > ./config.env <<'EOF'
HF_TOKEN=your_token_here
WHISPER_MODEL=large-v3
DEVICE=cuda
...
EOF
# загрузка образа
sudo docker pull ghcr.io/jim60105/whisperx:latest

Шаг 2. Пульт управления: whisperx_diarization.py

Роль: оркестратор - перебирает файлы, формирует корректную команду docker run и решает описанные проблемы. Как он их решает:

  • HF_TOKEN передаётся и как -e HF_TOKEN=..., и в аргументах --hf_token при запуске whisperx;

  • глобальная папка кеша ~/whisperx монтируется в контейнер и назначается HOME=/models, XDG_CACHE_HOME=/models/.cache - проблем с PermissionError нет;

  • прогресс-бар: чтение stderr контейнера и человеко-понятные статусы (VAD → транскрибация → выравнивание → диаризация);

  • проверка готовности: --check тестирует Docker, образ и права записи.

Пример:

# проверка системы
python3 whisperx_diarization.py --check
# обработать всю папку
python3 whisperx_diarization.py

Подробная инструкция и актуальные скрипты - в репозитории:
👉 https://github.com/empenoso/offline-audio-transcriber

Результаты

Когда все технические баталии были позади, я наконец смог оценить, стоила ли игра свеч. Результат был отличный.

В первой статье обычный Whisper выдавал сплошное текстовое полотно. Информативно, но безжизненно. Вы не знали, где заканчивается мысль одного человека и начинается реплика другого.

Было (обычный Whisper):

...да, я согласен с этим подходом но нужно учесть риски которые мы не обсудили например финансовую сторону вопроса и как это повлияет на сроки я думаю нам стоит вернуться к этому на следующей неделе...

Стало (WhisperX с диаризацией):

[00:01:15.520 --> 00:01:19.880] SPEAKER_01: Да, я согласен с этим подходом, но нужно учесть риски, которые мы не обсудили.
[00:01:20.100 --> 00:01:22.740] SPEAKER_02: Например, финансовую сторону вопроса и как это повлияет на сроки?
[00:01:23.020 --> 00:01:25.900] SPEAKER_01: Именно. Я думаю, нам стоит вернуться к этому на следующей неделе.

WhisperX с диаризацией превращает этот монолит в сценарий пьесы. Каждый спикер получает свой идентификатор, а его реплики - точные временные метки. Разница колоссальная. Теперь это не просто расшифровка, а полноценный протокол.

Мой личный кейс

Но настоящая магия началась, когда я решил пойти дальше. Я взял расшифровку одного личного разговора, сохранённую в таком структурированном виде, и загрузил её в нейросеть бесплатную нейросеть от гугла Gemini 2.5 Pro с простым запросом: «Действуй как аналитик. Проанализируй этот диалог».

Именно из-за структуры Gemini смогла отследить, кто инициировал темы, кто чаще соглашался или перебивал, как менялась тональность и динамика беседы. В итоге я получил анализ скрытых паттернов в общении, о которых сам никогда бы не задумался. Это был взгляд на ситуацию с абсолютно неожиданной стороны, который помог мне лучше понять и себя, и собеседника.

Даже бесплатное приложение в телефоне может служить источником

Даже бесплатное приложение в телефоне может служить источником

Я понял, что их главная ценность «ИИ-диктофонов» - не в способности записывать каждый ваш шаг, а в умении превращать хаос человеческого общения в структурированные, машиночитаемые данные. Это открывает возможности: от создания кратких сводок по итогам встреч до глубокого анализа коммуникаций, который раньше был невозможен.

Заключение

В итоге путь от «просто используй Docker» к рабочей связке WhisperX показал очевидную вещь: контейнеры - удобный инструмент, но не магия.

Подготовка системы и правильная оркестровка запуска - это то, что превращает хаос в рабочий процесс. Если вы готовы потерпеть небольшие сложности ради удобства в дальнейшем - результат оправдает усилия: структурированные протоколы и возможность глубокого анализа бесед.

Автор: Михаил Шардин
🔗 Моя онлайн-визитка
📢 Telegram «Умный Дом Инвестора»

23 сентября 2025

Показать полностью 4
[моё] Python Диктофон Расшифровка Гайд Длиннопост
3
77
empenoso
empenoso
Программирование на python

Как сделать умный диктофон бесплатно: превращаем аудио в текст без подписок⁠⁠

3 месяца назад

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности.

Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту.

Мой купленный за 2 т.р. диктофон с возможностью подключения внешнего микрофона на фоне коробки с ESP32

Мой купленный за 2 т.р. диктофон с возможностью подключения внешнего микрофона на фоне коробки с ESP32

В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами.

Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать.

Мои скрипты выложены на GitHub.

Теоретическая часть: что, почему и как?

За последние пару лет появилось немало open‑source решений для распознавания речи, но именно Whisper стал фактическим стандартом. Его модели обучены на колоссальном массиве данных, что обеспечивает высокую точность распознавания. По сравнению с другими бесплатными движками, Whisper даёт результат ближе всего к коммерческим сервисам вроде Google Speech‑to‑Text и при этом работает автономно. Важный плюс — мультиязычность. Русский язык поддерживается «из коробки».

Модели Whisper бывают разных размеров: от tiny до large. На данный момент наиболее актуальной и точной является large-v3. Главный принцип здесь — компромисс между скоростью, точностью и требуемыми ресурсами (в первую очередь, видеопамятью). У меня видеокарта NVIDIA GeForce RTX 5060 Ti 16 ГБ, поэтому на тестах использую large модель, она требует ~10 ГБ VRAM, но можно начать и со small модели — для неё достаточно ~2 ГБ VRAM.

Не стоит забывать и о приватности: все данные остаются у вас на компьютере. Никаких облачных серверов, никаких подписок. Что понадобится для запуска?

Железо: компьютер с Linux (я использую Ubuntu, но у меня стоит двойная загрузка Windows & Linux через rEFInd Boot Manager). Рекомендуется видеокарта NVIDIA — GPU многократно ускоряет работу, хотя на CPU тоже всё запустится, только медленнее. В качестве источника звука я тестировал обычный диктофон за пару тысяч рублей.

Диктофон за 1–3 тыс. рублей. Много их

Диктофон за 1–3 тыс. рублей. Много их

Софт:

  • Python — язык, на котором работает весь стек.

  • FFmpeg — универсальный конвертер аудио/видео.

  • PyTorch — фреймворк, на котором обучены модели.

  • NVIDIA Drivers и CUDA — для связи с видеокартой.

Практическая часть: пошаговая инструкция

Теперь перейдём от теории к практике и соберём рабочую систему распознавания. Я разбил процесс на несколько шагов — так будет проще повторить.

Шаг 1. Подготовка окружения

Когда‑то я собирал dlib с поддержкой CUDA для для того чтобы распознать лица всех соседей с камеры в подъезде. Тогда я прошёл через несовместимости, конфликты версий и ручную сборку библиотек. Поэтому к установке Whisper я уже был подготовлен.

Чтобы избавить вас от всего этого «удовольствия», я написал универсальный bash‑скрипт setup_whisper.sh. Он берёт на себя всю грязную работу по настройке окружения на Ubuntu 24:

  • обновляет систему и ставит базовые пакеты, включая Python и FFmpeg;

  • проверяет драйверы NVIDIA и при необходимости устанавливает их;

  • подтягивает CUDA Toolkit;

  • создаёт виртуальное окружение Python и внутри него ставит PyTorch (учитывая модель видеокарты);

  • загружает сам Whisper и полезные библиотеки;

  • запускает тест, проверяющий, что GPU действительно работает.

Запуск прост:

chmod +x setup_whisper.sh
./setup_whisper.sh

Запуск ./<!--noindex--><a href="https://pikabu.ru/story/kak_sdelat_umnyiy_diktofon_besplatno_prevrashchaem_audio_v_tekst_bez_podpisok_13139759?u=http%3A%2F%2Fsetup_whisper.sh&t=setup_whisper.sh&h=f58aabf40a080560fc15ad80d1fc1f7e5a70a861" title="http://setup_whisper.sh" target="_blank" rel="nofollow noopener">setup_whisper.sh</a><!--/noindex-->

Запуск ./setup_whisper.sh

Полный код setup_whisper.sh на Гитхабе.

Шаг 2. Запись и подготовка аудио

Чем лучше исходная запись, тем меньше ошибок. Записывайте ближе к источнику звука, избегайте шумных помещений и треска. Whisper работает с самыми популярными форматами: mp3, wav, m4a, так что конвертировать вручную не придётся.

Шаг 3. Массовая расшифровка всех подряд записей

Здесь в игру вступает мой второй скрипт — whisper_transcribe.py. Он:

  • автоматически находит все аудиофайлы в папке;

  • использует GPU (если доступен), ускоряя работу в десятки раз;

  • сохраняет результат в нескольких форматах:

    • .txt для текста,

    • .srt с таймкодами (можно открыть как субтитры),

    • all_transcripts.txt — общий файл со всеми расшифровками.

Пример использования:

# Активируем окружение
source .venv/bin/activate

# Запуск по умолчанию (ищет аудио в текущей папке)
python3 whisper_transcribe.py

# Указываем папку с файлами, модель и папку для результатов
python3 whisper_transcribe.py ./audio large ./results

Полный код whisper_transcribe.py на Гитхабе.

python3 <!--noindex--><a href="https://pikabu.ru/story/kak_sdelat_umnyiy_diktofon_besplatno_prevrashchaem_audio_v_tekst_bez_podpisok_13139759?u=http%3A%2F%2Fwhisper_transcribe.py&t=whisper_transcribe.py&h=09be7b3f2a230f2b2d73bca5864e682c8502fa2d" title="http://whisper_transcribe.py" target="_blank" rel="nofollow noopener">whisper_transcribe.py</a><!--/noindex--> ./audio large ./results

python3 whisper_transcribe.py ./audio large ./results

Шаг 4. Анализ результатов

После обработки вы получите полный набор файлов. Например:

  • some_lecture.txt — текст лекции;

  • some_lecture.srt — субтитры вида:

    12 00:04:22,500 --> 00:04:26,200 Здесь спикер рассказывает о ключевой идее...

  • all_transcripts.txt — всё сразу в одном документе.

Я проверил систему на часовом файле. Модель large на моей RTX 5060 Ti справилась за ~8 минут.

Разделение по спикерам (диаризация) - почему это сложно?

А если записывать не лекцию, а совещание? На записи говорят пять человек, и вам нужно понять, кто именно что сказал. Обычный Whisper выдаёт сплошной текст без указания человека. Здесь на помощь приходит диаризация — технология, которая анализирует голосовые характеристики и помечает фрагменты как «Спикер 1», «Спикер 2» и так далее.

Для этого существует WhisperX — расширенная версия Whisper с поддержкой диаризации. Однако при попытке установки я опять столкнулся с классической проблемой ML‑экосистемы: конфликтом зависимостей. WhisperX требует определённые версии torchaudio, которые несовместимы с новыми драйверами NVIDIA для RTX 5060 Ti.

Решение мне подсказали: Docker‑контейнеры NVIDIA. По сути, это готовые «коробки» с предустановленным софтом для машинного обучения — разработчики уже решили все проблемы совместимости за вас. NVIDIA поддерживает целую экосистему таких контейнеров через NGC (NVIDIA GPU Cloud), а сообщество создает специализированные образы под конкретные задачи. Вместо многочасовой борьбы с зависимостями достаточно одной команды docker pull, и вы получаете полностью рабочую среду с предустановленным WhisperX, настроенным PyTorch и всеми библиотеками. В данном случае контейнер ghcr.io/jim60105/whisperx включает диаризацию из коробки и отлично работает с современными GPU.

Диаризация откроет новые возможности: автоматическую генерацию протоколов встреч с указанием авторства реплик, анализ активности участников дискуссий, создание интерактивных расшифровок с навигацией по спикерам.

Это тема для отдельной статьи, которую планирую выпустить после тестирования Docker‑решения на реальных многоголосых записях.

Заключение

Мы собрали систему, которая позволяет бесплатно и полностью автономно расшифровывать лекции, выступления, а в перспективе и совещания. В основе — OpenAI Whisper, а все настройки и запуск упрощают мои open source скрипты. Достаточно один раз подготовить окружение — и дальше вы сможете регулярно получать точные транскрипты без подписок и риска приватности.

Следующий шаг — диаризация. Это позволит автоматически разделять текст по спикерам и превращать расшифровку совещания в полноценный протокол с указанием авторства.

Автор: Михаил Шардин
🔗 Моя онлайн‑визитка
📢 Telegram «Умный Дом Инвестора»

2 сентября 2025

Показать полностью 5
[моё] Программирование Диктофон Python Длиннопост
18
AIvengo.news
AIvengo.news
Искусственный интеллект

Непонятный бум популярности ИИ-диктофонов, которые массово используют айтишники и инвесторы⁠⁠

4 месяца назад

ИИ-диктофоны - это специальные устройства, автоматически записывающих и анализирующих разговоры. Они выпускаются в различных видах — браслеты, кулоны, заколки. И продаются по цене от $99 до $199, ещё и с годовой подпиской от $50 до $168.

Эти устройства поддерживают множество языков, создают расшифровки и краткие сводки с возможностью полнотекстового поиска.

Вот примеры использования:

Основатель стартапа Buddi Анит Патель: "Когда на встрече больше десяти человек, сложно всё удержать в голове. Лучше записать".

Руководитель Accelr8 Пэт Сантьяго: "ИИ замечает детали, ускользающие от человеческого внимания".

Директор компании Mostly Serious Джарад Джонсон: "Есть тенденция к корпоративным закупкам этих устройств для целых отделов, особенно в сфере продаж".

Почему-то есть у меня устойчивое мнение, что это всё просто очередные понты 😎.

--

Мой тг-канал: Новости ИИ by AIvengo, пишу каждый день про ИИ

Показать полностью
[моё] Искусственный интеллект Диктофон Текст
5
Kuchka70
Kuchka70

Занятная штукенция⁠⁠

5 месяцев назад
Перейти к видео
Компьютерная мышка Тачпад Гаджеты Видео Вертикальное видео Короткие видео Диктофон Лазерная указка
48
Tehnic2012
Tehnic2012
Серия Изобретения прошлого

Как упрямство одного человека заставило мир звучать⁠⁠

5 месяцев назад

Друзья, вспомним сегодня старину Эдисона. Того самого изобретателя лампочки и фонографа.

Того, кто оставил после себя мир иным.

Т.А. Эдисон

Т.А. Эдисон

С высоты нашего времени сложно понять весь гений этого человека. А был ли он гением на самом деле? Об этом и пойдет наш рассказ.

Представьте: 1877 год. Нет айфонов, ютюба и даже радио. Мир звучит скрипуче, как плохо смазанная телега, а музыка "живет" лишь в концертных залах.

И вдруг один одержимый технарь решил, что звук можно записать, а потом воспроизвести.

И тут главный вопрос: как это сделать?

Телеграф, который заговорил

Эдисон не сразу сел записывать голоса. Сперва он ковырялся в телеграфе, пытаясь улучшить передачу сигналов. По ходу этой работы его осенило: если игла, бегающая по спирали углубления барабана сможет оставлять не только точки и тире, но и издавать вибрации звука с помощью специальной мембраны?

Первые эксперименты провалились. Мембрана рвалась, иглы гнулись, а звук больше напоминал скрежет и скрип.

Но Эдисон не сдавался. Он перешел на оловянную фольгу, обернутую вокруг того же барабана.

В течение 15-20 часов ежедневно изобретатель диктует на барабан одно и то же слово. Слово было — "спешиал" ("особенный" — с английского). Аппарат повторял в ответ лишь невнятное: "пешиа"...

Так повторялось долгие 7 месяцев.

Было от чего сойти с ума!

Попробуйте повторить любое слово хотя бы 10 раз. Потом попытайтесь делать это каждый день почти без сна и отдыха.

Но он достиг главного. Слово, произнесенное 1000 раз подряд со скоростью 150 слов в минуту было примерно с той же скоростью воспроизведено фонографом.

Это был прорыв покруче искусственного интеллекта современности!

Потом была демонстрация записи популярной детской песенки "У Мери был барашек" в редакции одной из газет. Эдисон в одно мгновение стал знаменит. Его даже окрестили "волшебником из Менло Парк".

Фонограф Эдисона. Изображение из открытого доступа

Фонограф Эдисона. Изображение из открытого доступа

Фонограф 1.0 был хрупким: оловянная фольга рвалась после пары воспроизведений. Эдисон перепробовал десятки материалов, пока не остановился на воске.

Это был долгий путь проб и ошибок.

А что потом?
Фонограф стал предком всего: от граммофонов до сервиса Spotify. Но самое смешное — сам Эдисон считал его "секретарской машинкой". Он думал, что главное применение устройства — диктовка писем. Как же он ошибся в итоге!

История фонографа — история безграничного упрямства. А Эдисон — не гений-одиночка. Это был обычный человек, почти без образования. В одном он отличался от большинства: полным отсутствием боязни пробовать снова и снова...

Если вам интересно каждый день узнавать об интересной технике, искренне приглашаю вас по ссылке ниже.

Канал "Причуды техники..."

Показать полностью 2
[моё] Изобретения Звук Плеер Музыка Диктофон Томас Эдисон Лампа Эдисона Фонограф Граммофон Длиннопост
5
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии