Ручная расшифровка - это недели работы
Двухдневный форум с 20 параллельными треками - это 300–500 часов аудио. Ни одна команда стенографистов не справится за приемлемые деньги и сроки. В итоге расшифровывается 10–15% контента, остальное теряется.
Автоматическая расшифровка конференций, форумов и корпоративных мероприятий. Русская экспертная речь, разделение по спикерам, WER 4–6%. Данные не покидают ваш контур.
Двухдневный форум с 20 параллельными треками - это 300–500 часов аудио. Ни одна команда стенографистов не справится за приемлемые деньги и сроки. В итоге расшифровывается 10–15% контента, остальное теряется.
Otter, Fireflies, Google Speech - обучены на бытовой речи. Термины из госуправления, финансов, промышленности они транскрибируют с WER 25–40%. Каждую запись нужно перечитывать и исправлять вручную.
Закрытые сессии, стратегические обсуждения, персональные данные участников - это все уходит на зарубежные серверы. Для госзаказчиков и крупных корпораций это неприемлемо.
Сырой текст без разметки спикеров, без таймкодов, без привязки к программе мероприятия - не управленческий артефакт. Это просто файл, который никто не читает.
Подключение к многоканальному аудио. Поддержка прямого потока (RTMP/SRT) и файлов после мероприятия.
GigaAM или Whisper large-v3 распознают русскую экспертную речь. WER 4–6% на отраслевой лексике.
pyannote-audio разделяет спикеров. Каждая реплика получает метку участника и точный таймкод.
Размеченный транскрипт, субтитры, семантический индекс и API-вывод. Готово к следующим модулям агента.
Полный текст с таймкодами и метками спикеров. Экспорт в DOCX, PDF, JSON.
Готовый SRT/VTT для публикации записей сессий с точной синхронизацией.
Транскрипт загружается в векторную базу - по нему можно задавать вопросы в интерфейсе агента.
Машиночитаемый вывод для интеграции с вашей CRM, LMS или BI-системой.
Весь стек разворачивается на вашем железе или в вашем закрытом облаке. Модели работают локально - нет вызовов внешних API, нет передачи аудио третьим лицам.
Возьмем одну архивную запись сессии, прогоним через контур, отдадим размеченный транскрипт. Видно сразу - без слайдов.