Голосовой набор
Осторожно, мат.
Больше абсурдного юмора от FAH в этом плейлисте.
Телега тут. Принимаю заказы на переводы и озвучки в личку.
Нейросеть для расшифровки видео и аудио в текст или субтитры
Whisper - это мультиязычная нейросеть, позволяющая распознавать речь в видео или аудиофайле и расшифровывать их в текст, а также в режиме реального времени переводить речь в текст за счет аудиозахвата.
Кому будет полезна:
- Людям, кому нужны субтитры для видеоконтента (Ютуберы, телевиденье)
- Наборщикам текста
- Работающим со стенограммами
и многим другим.
Мы с вами будем разбирать версию на C++, которую очень легко использовать и которая не требует установки кучи зависимостей.
Интерфейс выглядит довольно просто.
Нам надо выбрать язык нашего источника. Если хотите сразу же перевести текст на английский - выберите Translate.
В Transcribe File вы выбираете файл, из которого будем извлекать текст.
Output format: формат, в котором сохраним текст. Есть как обычный текстовый файл, так и различные стандарты субтитров.
Ну и в поле ниже выбираете, куда сохранится текст.
После всех настроек нажимаем Transcribe и обработка начнется. За процессом можно следить, нажав Debug Console, выглядит это как-то так:
Нажав Audio Capture мы переходим в режим захвата звука с микрофона.
Установка:
1) Качаем архив WhisperDesktop.zip с Github и распаковываем.
2) С Huggingface качаем модель. Чем больше модель весит, тем более точно будет работать расшифровка, но и больше использоваться видеопамяти. Рекомендую попробовать модели ggml-medium.bin и ggml-large.bin
3) Закидываем нашу модель в папку, с WhisperDesktop.exe и запускаем его.
Вот в принципе и всё. Больше различных статей по полезным и интересным нейросетям, а также мои сборки можно найти у меня в телеграм канале.
Ввод текста голосом
Изучаю языки, понадобилось сделать упражнение на понимание на слух. Слушал, слушал, толком ничего не понял. Решил помочь себе и записать аудиоупражнение сперва в текстовый подстрочник. Попробовал сперва Word dictation из Office 365, но ему не понравился мой интернет, не знаю уж почему. Затем взял Google Docs и прямо на телефоне всё отлично записалось.
Далее в видео смотрим пример...
На самом деле, можно точно также вводить в любую другую программу на телефоне, например, эту вот концовку текста я ввел с помощью предустановленного Notes.
Извиняюсь за вертикальное видео, по другому с телефона запись экрана делать не очень удобно...
Если вы потеряли слух
Прочитал пост ГЛУХАЯ
Вот что хочется сказать. Не стоит отчаиваться. Сегодняшние технологии спешат на помощь. Конечно, не всегда можно вернуть слух, но можно продолжать общаться с миром.
Решение простое. Берём самый недорогой Android смартфон. Открываем любой текстовый документ, на клавиатуре включаем ввод текста голосом. И в режиме реального времени читаем то, что говорит ваш собеседник.
Точность распознавания очень высокая. Будут конечно ошибки, но не критичные для понимания контекста. А отвечать можно будет уже голосом.
Богатый внутренний мир пользователя Apple
Уберите детей и беременных женщин от монитора!
Начал использовать, наконец, голосовой набор. У меня Андроид. Приятель говорит, а у него некоторые слова на Айфоне плохо распознаются. И действительно...
"Вы никогда не узнаете это слово, если не посмотрите видео по ссылке..."
(ВНИМАНИЕ! Видео содержит бранные слова в виде текста! Слушать вполне прилично)
Немного про голосовые сообщения
К сожалению такое иногда попадается.
А недавно чуть не оказался автором подобного "чуда". Ехал в машине и надо было срочно отписаться. И вспомнил тут про одну крайне удобную фишку Андроида. Точнее клавиатуры гбоард.
Во-первых эта фишка требует качественной дикции. Особенно по-английски.
Во-вторых, знаки препинания она не ставит сама и их приходится диктовать.
Но как иногда удобно пользоваться - не поймёшь пока не попробуешь.
зы: переписка за рулем зло, даже голосовым набором, смотреть таки надо на дорогу.