Транскрипция: истории из жизни, советы, новости, юмор и картинки — Горячее

7 дней назад

Продолжаю делать бота, который переводит речь в текст (транскрибация)⁠⁠

Что нового

сильно ускорил трансрибацию
улучшил сумаризацию
Сделал умные названия документов (раньше бесило, когда куча файлов с одинаковым названием)

А на какой это все

Удобно для рабочих созвонов, подкастов или когда нужно быстро понять о чем было длинное голосовое.

Сейчас ботом пользуется ~1300 человек в месяц. Не ожидал, что будет так много, но приятно, что поделка оказалась полезной. Сервер пока держится.

Если есть идеи что добавить - пишите. Ничего не обещаю, но интересно иногда по выходным его попилить. Ведь наговнокодить на выходных так весело)))

https://t.me/VidVKYT2AudioBot

Бот бесплатный и никакого платного функционала пока не предвидится!

Almutabi

24 дня назад

Возник спор⁠⁠

Как правильно называть новый месенджер «мАкс» или «мЭкс»?

Мессенджер Транскрипция Короткопост Текст

Neurosonya

1 месяц назад

Лига фрилансеров

Серия Полезность

Конвертация аудио и видео в текст. Как сделать транскрипцию совещания и затем определить итоги совещания⁠⁠

1/2

Пост полезности, как сделать транскрипцию совещания и затем определить итоги совещания.

Помогут в этом инструменты высокой точности, которые переводят аудио или видео в текст. В сети расфорсился инструмент Transkriptor, который обещает расшифровать ваши аудио и видео с 99% точностью.

Я проверила на своем видео из прошлого поста, действительно, сервис точный, есть приложение, так что удобно использовать на совещаниях. Запись экрана тоже хорошо расшифровывает, можно скачать и загрузить файлы разных форматов. Там же на платформе есть ИИ.

А теперь к минусам Transkriptor:

Бесплатно подойдет для роликов до 2 минут, далее подписка от 20$ в месяц или 100$ за год, за это дается 2400 минут в месяц. Кстати, потом дают скидку и уже 10$ в месяц за все.

Я рекомендую сервис для профессионального использования, когда другие не справляются или для рабочих совещаний. Так же я вам подготовила бесплатную альтернативу, я и сама любитель сэкономить)

Бесплатная альтернатива:

Хорошие бесплатные возможности дает Yescribe.ai - бесплатно можно загрузить 3 файла в день по 30 минут и точность тоже 99%. Тоже около 100 языков, включая русский.

А потом я рекомендую транскрипцию встречи вставить в ChatGPT, чтобы он привел сумбурные записи в структурированную запись с четко определенными моментами по итогу совещания. А поможет вам в этом этот промпт 😉

Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Больше полезных, а главное проверенных сервисов для учебы, работы и бизнеса в моем Закрытом клубе. Там же мы учимся промптить, разбираемся в языковых моделях, помогаем друг другу с задачами. Смысл в том, что вы платите только один раз! Вам не нужно торопиться, пока подписка действует, вы можете учиться в своем темпе, и в любой момент задать вопрос в чате) А то всё быстро устаревает, а на постоянные обучения денег не напасешься, я это понимаю.

Показать полностью 2

[моё] Бесплатно Удаленная работа Фриланс Искусственный интеллект Нейронные сети Транскрипция Text-to-speech Заметки Совещание Протокол Работа Бизнес Малый бизнес Помощь Предпринимательство Технологии Будущее Услуги

user4740118

2 месяца назад

Транскрибация аудио в текст с помощью ИИ⁠⁠

Допустим, у вас есть видео с какой-нибудь важной для вас информацией, к примеру, о жизни в 19 веке. Вы хотите, чтобы LLM вам создал на основе информации из видео конспект.

В этот момент вы понимаете, что просто запихнуть в чат диалога видео не получится и начинаете думать как это сделать.

Я ненавижу любые платные программы или программы частично бесплатные. В исключении у меня только Topaz Gigapixel AI для улучшения изображений, так как у этой программы хорошие результаты. Но во всех других ситуациях я хочу использовать только бесплатные инструменты и, желательно, офлайн. Но вернёмся к сути.

Вот моя инструкция о том, как сделать транскрибацию аудио из видео в текст:

После того как мы скачали видео нам нужно извлечь аудио. Для этого есть много сайтов и вот один из них:

https://audio-extractor.net/ru/

Если вам нужно обрезать аудио, то вот для примера сайт:

https://mp3cut.net/ru/

После того как мы извлекли аудио, нам нужно его перевести в текст. Для этого есть несколько решений. Я выделил две бесплатные программы для этой задачи.

НО перед началом стоит мне сказать, что все эти две эти программы в своей основе используют ИИ-модель Whisper от OpenAI.

Небольшая справка о Whisper от OpenAI:

Whisper — это современная модель машинного обучения, разработанная OpenAI. Она предназначена для распознавания речи и транскрипции. Программа была впервые представлена в сентябре 2022 года как открытый проект. Whisper умеет транскрибировать речь на английском и других языках, а также переводить с некоторых неанглийских языков на английский.
Ключевые особенности Whisper:
Тип: программное обеспечение для транскрипции, кодировщик-декодер, базовая модель, акустическая модель.
Лицензия: MIT License.
Архитектура: трансформер с кодированием-декодированием.
Обучение: модель была обучена на 680 000 часов многоязычных и многозадачных данных с использованием полууправляемого подхода.

Теперь, после этой небольшой справки, перейдём к двум программам, с помощью которых мы будем запускать Whisper локально на компьютере. Хочу ещё добавить то что я капец как устал искать эти две бесплатные программы для офлайн транскрибации так как обычно все результаты поиска были завалены платными сайтами.

Функционал и управление в этих программах интуитивно понятны, и я не хочу высасывать из пальца описание того, что нужно делать в каждой программе. Скажу только то, что советую вам перед началом транскрибации скачать модель whisper-large-v3. Также хочу вас предупредить о том, что итоговый результат не всегда идеальный, так что проверяйте его.

Первой программой будет Vibe (https://thewh1teagle.github.io/vibe/) (https://github.com/thewh1teagle/vibe):

Транскрибация аудио в текст с помощью ИИ Искусственный интеллект, Нейронные сети, Транскрипция, Аудио, Запись, Расшифровка, Гифка, Длиннопост

Второй программой является aTrain (https://github.com/JuergenFleiss/aTrain) (https://apps.microsoft.com/detail/9n15q44szns2?hl=ru-RU&...):

Вот и всё, теперь у вас есть готовая транскрибация.

Спасибо за внимание!

Показать полностью 8

[моё] Искусственный интеллект Нейронные сети Транскрипция Аудио Запись Расшифровка Гифка Длиннопост

Вопрос из ленты «Эксперты»

NikkyChun

2 месяца назад

Посоветуйте онлайн сервис или программу для скачивания текста лекций с видео ютуб⁠⁠

Посоветуйте онлайн сервис или программу для скачивания текста лекций с видео ютуб

Вопрос Спроси Пикабу Транскрипция Искусственный интеллект Текст

user9911831

3 месяца назад

ЗвукоПоток: Транскрибация и сумаризация аудио⁠⁠

Привет всем!

Хочу рассказать о новом направлении развития моего телеграм-бота ЗвукоПоток. За последнее время я пересмотрел приоритеты в его развитии, основываясь на собственных потребностях и отзывах пользователей.

Почему меняется направление: Я сам столкнулся с тем, что на работе стало слишком много созвонов, и мне нужен инструмент для быстрой расшифровки и создания кратких итогов. Поэтому я решил сфокусироваться на том, что действительно помогает мне самому.

Что теперь умеет бот:

Транскрибация аудио в текст (работает с голосовыми сообщениями)
Создание кратких резюме аудиозаписей (особенно полезно для длинных совещаний, но чуда не ждите модель маленькая и звезд с неба не хватает но мне кажется что норм. зато очень экономная)
Поддержка разных языков с автоматическим определением
Обработка аудио из VK и Google Drive

О YouTube: К сожалению, я вынужден был отключить поддержку YouTube. Постоянные блокировки и необходимость обходить ограничения отнимают слишком много времени и сил. Заниматься этой борьбой больше не хочется.

Важно понимать: Это не коммерческий продукт, а мой личный проект, которым я просто делюсь. Бот полностью бесплатный, без каких-либо скрытых платежей. Сервер у меня небольшой, поэтому есть технические ограничения.

Бот по-прежнему можно найти в Telegram по имени: ЗвукоПоток

Буду рад, если кому-то он окажется полезным так же, как и мне. И спасибо всем, кто пользуется ботом и относится с пониманием к его ограничениям.

Показать полностью

[моё] Telegram Транскрипция Работа Чат-бот Текст

wonderlove

4 месяца назад

Искусственный интеллект

Озвучка диалогов с помощью нейросети FishSpeech⁠⁠

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.

❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.
Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.
Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.
Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».
Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.
Мультиязычный интерфейс. Доступны русский и английский.
Автообновления и интеграция с GitHub.

❯ Обзор интерфейса

Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

Указать имя говорящего, которое должно совпадать с именем в тексте диалога.
Выбрать референсный голос из доступных вариантов.
Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.