Роль метаданных в анализе телеэфира

22.03.2017 10:12

Продолжая разговор об анализе зрительских предпочтений и том, как эти данные могут быть использованы, поднятый Марией Каменской в авторской статье "Чего не хватает зрителю?", предлагаем рассмотреть еще один инструмент аналитики - мета-данные, собираемые как собственными операторскими системами EPG (Электронный программный гид), так и компаниями, предоставляющими такую услугу операторам. В EPG аккумулируются программные сетки с массой сопроводительной информации, анализ которой позволит оператору лучше понимать собственный продукт и работать над его улучшением. 

Что нужно сделать, чтобы ответь на три простых вопроса?

1. Какие самые рейтинговые по версии "Кинопоиска" и IMDb познавательные передачи выходили в эфир на всех каналах, вещающих в России и странах СНГ, за последние полтора года?

2. Сколько выходов было у каждой передачи?

3. Когда и на каком канале каждая из них впервые вышла в эфир?

Время для сбора информации непосредственно от телеканалов упущено, поэтому для начала нужно найти источники, в которых есть телепрограмма по всем каналам. Да еще и за такой длительный период.

Затем придется определить контент для каждого эфирного события. Причем названия одного и того же контента на каналах могут различаться, быть на разных языках или оказаться вплетены в описание эфира, когда сложно понять, где название самого контента, а где название его серии или другая вспомогательная информация. А ведь нужно точно идентифицировать этот контент без создания дублей.

Каждую неделю на 1,4 тыс. каналах (это все каналы, вещающие в интересующих нас странах) в среднем 340 тыс. эфирных событий. Умножаем на 80 недель и получаем 27 млн 200 тыс. эфирных событий, которые нужно идентифицировать. К счастью, описания эфирных событий на каналах повторяются и оригинальных описаний всего 1 млн 360 тыс.

Далее для всего полученного контента, а это 160 тыс. уникальных единиц, нужно определить, относится он к категории познавательного или нет, так как нас интересует не весь контент, а лишь определенная категория. И затем останется только определить рейтинг для 8,5 тыс. познавательных передач.

Если на определение эфирного события тратить 30 секунд, на определение категории контакта 30 секунд, а на определение рейтинга контента 2 минуты (по 1 минуте на каждый), общие трудозатраты будут такими: 11330 + 1330 + 283 = 12 940 чел./час. Примерно 4 млн рублей... И это с учетом того, что у нас уже имеется ИТ инфраструктура, созданная специально под нашу задачу, так как на таблицах Exсel такая задача решается крайне неэффективно. К счастью, вся работа уже проделана, и мы готовы поделиться с вами полученными результатами.

Итак, первый вопрос был, какие самые рейтинговые, по версии "Кинопоиска" и IMDb, познавательные передачи выходили в эфир на всех каналах, вещающих в России и странах СНГ, за последние полтора года?

 

 

Второй вопрос: сколько выходов было у каждой передачи?

 

Третий вопрос: когда и на каком канале каждая из них впервые вышла в эфир?

Естественно, полученные и обработанные данные, а также наполненный нашими свойствами контент можно использовать и для ответов на многие другие вопросы. Пример на рейтингах — это малая часть набора метаданных, которыми можно наполнить полученный нами список уникальных передач. В частности, контент можно классифицировать по категории, жанру, теме, возрастной группе, полу, году выпуска, производителю и разным другим рейтингам.

В итоге это дает массу шансов для быстрого анализа большого объема данных и, как следствие, возможность принимать своевременные и взвешенные управленческие решения.

Темы

Об авторе

Виталий Васильев
Генеральный директор компании EPG-Service