Пост полезности, как сделать транскрипцию совещания и затем определить итоги совещания.
Помогут в этом инструменты высокой точности, которые переводят аудио или видео в текст. В сети расфорсился инструмент Transkriptor, который обещает расшифровать ваши аудио и видео с 99% точностью.
Я проверила на своем видео из прошлого поста, действительно, сервис точный, есть приложение, так что удобно использовать на совещаниях. Запись экрана тоже хорошо расшифровывает, можно скачать и загрузить файлы разных форматов. Там же на платформе есть ИИ.
А теперь к минусам Transkriptor:
Бесплатно подойдет для роликов до 2 минут, далее подписка от 20$ в месяц или 100$ за год, за это дается 2400 минут в месяц. Кстати, потом дают скидку и уже 10$ в месяц за все.
Я рекомендую сервис для профессионального использования, когда другие не справляются или для рабочих совещаний. Так же я вам подготовила бесплатную альтернативу, я и сама любитель сэкономить)
Бесплатная альтернатива:
Хорошие бесплатные возможности дает Yescribe.ai - бесплатно можно загрузить 3 файла в день по 30 минут и точность тоже 99%. Тоже около 100 языков, включая русский.
А потом я рекомендую транскрипцию встречи вставить в ChatGPT, чтобы он привел сумбурные записи в структурированную запись с четко определенными моментами по итогу совещания. А поможет вам в этом этот промпт 😉
Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.
Больше полезных, а главное проверенных сервисов для учебы, работы и бизнеса в моем Закрытом клубе. Там же мы учимся промптить, разбираемся в языковых моделях, помогаем друг другу с задачами. Смысл в том, что вы платите только один раз! Вам не нужно торопиться, пока подписка действует, вы можете учиться в своем темпе, и в любой момент задать вопрос в чате) А то всё быстро устаревает, а на постоянные обучения денег не напасешься, я это понимаю.
Допустим, у вас есть видео с какой-нибудь важной для вас информацией, к примеру, о жизни в 19 веке. Вы хотите, чтобы LLM вам создал на основе информации из видео конспект.
В этот момент вы понимаете, что просто запихнуть в чат диалога видео не получится и начинаете думать как это сделать.
Я ненавижу любые платные программы или программы частично бесплатные. В исключении у меня только Topaz Gigapixel AI для улучшения изображений, так как у этой программы хорошие результаты. Но во всех других ситуациях я хочу использовать только бесплатные инструменты и, желательно, офлайн. Но вернёмся к сути.
Вот моя инструкция о том, как сделать транскрибацию аудио из видео в текст:
После того как мы скачали видео нам нужно извлечь аудио. Для этого есть много сайтов и вот один из них:
После того как мы извлекли аудио, нам нужно его перевести в текст. Для этого есть несколько решений. Я выделил две бесплатные программы для этой задачи.
НО перед началом стоит мне сказать, что все эти две эти программы в своей основе используют ИИ-модель Whisper от OpenAI.
Небольшая справка о Whisper от OpenAI:
Whisper — это современная модель машинного обучения, разработанная OpenAI. Она предназначена для распознавания речи и транскрипции. Программа была впервые представлена в сентябре 2022 года как открытый проект. Whisper умеет транскрибировать речь на английском и других языках, а также переводить с некоторых неанглийских языков на английский.
Ключевые особенности Whisper:
Тип: программное обеспечение для транскрипции, кодировщик-декодер, базовая модель, акустическая модель.
Лицензия: MIT License.
Архитектура: трансформер с кодированием-декодированием.
Обучение: модель была обучена на 680 000 часов многоязычных и многозадачных данных с использованием полууправляемого подхода.
Теперь, после этой небольшой справки, перейдём к двум программам, с помощью которых мы будем запускать Whisper локально на компьютере. Хочу ещё добавить то что я капец как устал искать эти две бесплатные программы для офлайн транскрибации так как обычно все результаты поиска были завалены платными сайтами.
Функционал и управление в этих программах интуитивно понятны, и я не хочу высасывать из пальца описание того, что нужно делать в каждой программе. Скажу только то, что советую вам перед началом транскрибации скачать модель whisper-large-v3. Также хочу вас предупредить о том, что итоговый результат не всегда идеальный, так что проверяйте его.
Хочу рассказать о новом направлении развития моего телеграм-бота ЗвукоПоток. За последнее время я пересмотрел приоритеты в его развитии, основываясь на собственных потребностях и отзывах пользователей.
Почему меняется направление: Я сам столкнулся с тем, что на работе стало слишком много созвонов, и мне нужен инструмент для быстрой расшифровки и создания кратких итогов. Поэтому я решил сфокусироваться на том, что действительно помогает мне самому.
Что теперь умеет бот:
Транскрибация аудио в текст (работает с голосовыми сообщениями)
Создание кратких резюме аудиозаписей (особенно полезно для длинных совещаний, но чуда не ждите модель маленькая и звезд с неба не хватает но мне кажется что норм. зато очень экономная)
Поддержка разных языков с автоматическим определением
Обработка аудио из VK и Google Drive
О YouTube: К сожалению, я вынужден был отключить поддержку YouTube. Постоянные блокировки и необходимость обходить ограничения отнимают слишком много времени и сил. Заниматься этой борьбой больше не хочется.
Важно понимать: Это не коммерческий продукт, а мой личный проект, которым я просто делюсь. Бот полностью бесплатный, без каких-либо скрытых платежей. Сервер у меня небольшой, поэтому есть технические ограничения.
Бот по-прежнему можно найти в Telegram по имени: ЗвукоПоток
Буду рад, если кому-то он окажется полезным так же, как и мне. И спасибо всем, кто пользуется ботом и относится с пониманием к его ограничениям.
Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.
Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.
Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.
❯ Основные особенности FishSpeech🐠
Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.
Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:
Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.
Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.
Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.
Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».
Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.
Мультиязычный интерфейс. Доступны русский и английский.
Автообновления и интеграция с GitHub.
❯ Обзор интерфейса
Интерфейс FishSpeech Dialogue
Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.
Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих,число реплик и общее количество символов. Нижняя часть содержит текст диалога.
Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.
В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».
Плавно спускаемся ниже.
Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.
Для каждого говорящего доступна отдельная панель настроек. Здесь можно:
Указать имя говорящего, которое должно совпадать с именем в тексте диалога.
Выбрать референсный голос из доступных вариантов.
Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.
Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D
В самом низу находятся расширенные настройки:
Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:
В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.
❯ Примеры и возможности
Начнём с простого — рассуждения Винни-Пуха.
Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.
Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.
Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.
Дмитрий Нагиев и Чебурашка:
Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.
Ещё пара примеров:
Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.
Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.
Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!