Боевой кейс - август 2025, Сколково

Архипелаг 2025: верифицированная AI-аналитика форума с reverse proof

9 дней. 3 800 участников. 25 фиксаторов. On-premise Whisper. Две LLM-модели. Семантическое ядро и антигаллюцинаторный контроль. Каждый инсайт - с цитатой из транскрипта.

АНО «Платформа НТИ»СколковоOn-premiseБеспилотные системы

дней форума

3 800+

участников

регионов России

стран

фиксаторов в поле

аудиторий одновременно

156

транскрибированных сессий

62 ГБ

цифрового следа

Задача

Что теряет любой крупный форум без системы

×95% сказанного испаряется - нет записи, нет памяти
×Отчеты пишутся по памяти через неделю после закрытия
×Заказчик не знает, что реально обсуждали участники
×Нет способа проверить: LLM-вывод это факт или галлюцинация
×Неожиданные инсайты участников не попадают к организаторам

Что изменилось

С системой цифрового следа

→Каждая сессия зафиксирована и транскрибирована в тот же день
→Отчет по каждому дню - на следующее утро
→Заказчик видит реальную повестку участников, не методистов
→Любой вывод проверяем: есть цитата с тайм-кодом в исходнике
→Темы за контуром ядра выделяются автоматически как инсайты

Архитектура системы

Шесть звеньев одного pipeline

Не расшифровка аудио. Верифицированная система принятия решений на основе коммуникации участников.

Полевой сбор

25 фиксаторов цифрового следа работали в аудиториях с портативными рекордерами. Каждый файл именовался прямо в поле: дата, аудитория, тема сессии. В пиковые дни - 36 точек параллельно.

25 человек в поле

Веб-интерфейс загрузки

Специально разработанная веб-морда для сбора материалов: фиксаторы заливали аудио и текстовые заметки в единую точку. Никаких мессенджеров, флешек и потерянных файлов.

Единая точка сбора

On-premise транскрибация

Whisper развернут на локальном сервере. Аудио уходило в очередь и возвращалось текстом в течение нескольких часов. Ни одна запись не покинула контур заказчика.

Whisper, без облака

Семантическое ядро

До форума составили предметную базу: известные темы трека беспилотных систем, ожидаемые дискурсы, ключевые понятия. Это ядро стало эталоном для анализа каждой сессии.

Reference-база тем

Две LLM - два угла зрения

Каждая транскрипция обрабатывалась двумя моделями с разными системными промптами. Одна давала структурированный отчет по формату заказчика, вторая искала неожиданное - темы за контуром семантического ядра.

Два системных промпта

Reverse proof

Каждый инсайт сопровождался обратной ссылкой на цитату в исходном транскрипте. Это делало проверку тривиальной: любой вывод можно верифицировать за секунды. LLM не могла придумать - только процитировать.

Антигаллюцинаторный контроль

Ключевой механизм

Семантическое ядро + анализ за контуром

Классический AI пересказывает то, что было. Наша система сравнивает каждую сессию с предметной базой и находит то, чего не ожидали организаторы.

Внутри ядра

Тема совпадает с ожидаемой предметной областью - фиксируется как подтверждение гипотезы заказчика

За контуром ядра

Тема не предусмотрена семантическим ядром - это сигнал: участники думают о чем-то, чего не ожидали организаторы

Reverse proof - как работает верификация

Каждый инсайт, который LLM выдает как «выход за контур», сопровождается точной цитатой из транскрипта - с именем аудитории, датой и фрагментом текста. Проверка тривиальна: открываешь исходник, находишь слова. Это делает вывод неопровержимым и защищает от галлюцинаций модели.

Покрытие по дням

Что фиксировалось каждый день

День	Дата	Аудиторий	Транскрибаций	Примеры тем
1	8 авг	18	26	Модель рынка услуг дронов, технологический суверенитет
2	9 авг	18	31	Школа акселерации, инфохимия, наставничество
3	10 авг	26	48	Дронификация АПК, клуб дорожных карт, интенсив БАС
4	11 авг	19	45	Бесшовное цифровое небо, ИИ для дроносферы
5–9	13–17 авг	36	-	Финальные соревнования, защиты проектов

Что нашли за контуром ядра

Тема «технологический суверенитет» оказалась сквозной нитью всех 9 дней - от пленарной сессии до прикладных лабораторий. Это не было запланировано как сквозная тема форума, но участники возвращались к ней снова и снова. Каждый инсайт подкреплен цитатами из транскриптов разных дней - доказательная база, а не интерпретация методиста.

Результаты

Что получил заказчик

Ежедневные отчеты на утро

Два формата отчета по каждому дню - в зависимости от получателя: оперативный для команды и аналитический для заказчика. Готово до начала следующего дня форума.

25+ методических пакетов

Аналитика по трекам и дорожные карты участников - на основе реального содержания сессий, а не пересказа методистов по памяти.

Карта неожиданных инсайтов

Темы, которые выходили за контур семантического ядра, - отдельный артефакт. Организаторы увидели, о чем думают участники, не сообщая им об этом.

Верифицируемая база знаний

Каждый вывод - с обратной ссылкой. Заказчик может взять любой тезис из отчета и за 30 секунд проверить его в исходном транскрипте.

Хотите такую же систему на своем форуме?

Расскажите о масштабе и датах - предложим архитектуру под ваш формат, с нужным уровнем глубины анализа.

Обсудить проект О транскрибации →