Использование данных операторов в рекламной и медиаиндустрии

Эпиграф от редакции: 
Заметка была опубликована в печатном выпуске "Кабельщика", подготовленного редакцией специально для CSTB. Журнал был сдан в печать в середине февраля – до драматических событий, разделивших наш мир на ДО и ПОСЛЕ. Поэтому некоторые события и обстоятельства, о которых пишут наши авторы, выглядят несколько иначе, чем они выглядели бы, если бы статьи писались сейчас. Но, тем не менее, мы считаем своим долгом опубликовать эти замечательные тексты и онлайн – пусть даже с такой поправкой.
Подробнее: https://www.cableman.ru/article/kross-media-izmereniya-regionalnykh-telekanalov

Телекомоператоры научились собирать большой объем информации о своих абонентах. Но как его анализировать, а главное, как применять полученные результаты – простого ответа пока не существует. Представляется, что это и невозможно, так как по мере развития технологий будут меняться задачи, подходы и методики их решения. 

Одним из примеров такой эволюции может быть определение целевой аудитории (ЦА) услуги или товара. Например, еще несколько лет назад для выделения людей, которые путешествуют за границу, необходимо было запустить опрос. Затем на основании полученной информации попытаться описать путешественников с максимально возможной точностью на основании социально-демографических признаков респондентов. Понятно, что по ходу решения на каждом этапе ошибка определения нарастала. Сегодня, используя данные операторов, можно запросить выписку из билинга мобильной связи и отобрать тех, кто пользовался международным роумингом. Но на этом определение ЦА, увы, не закончено. Провайдеров в стране сотни, поэтому в идеале потребуется собрать такую информацию от всех операторов и "просто" свести воедино. Другими словами, задача вроде бы решается более качественно, но при условии разрешения новых не менее сложных проблем.

Попробую описать ближайшие задачи компании – измерителя аудитории на основании данных операторов, которые сформулированы рекламной и медиаиндустрией. Их достижение позволит более широко использовать накопленную информацию в ежедневной работе по анализу аудитории медиа и планированию рекламных кампаний. 

1. Сбор данных об аудитории ТВ и интернета от телекомоператоров по единой методике и формату. Хранение накопленной информации.

2. Обогащение полученных данных демографическими характеристиками.

3. Расширение географии измерений.

4. Предоставление данных в удобном для получателя формате. Не только в рамках стандартного программного обеспечения самого поставщика.

Сбор данных об аудитории медиа от телекомоператоров по единой методике и формату

Такая задача у разработчиков новых решений относится к "гигиеническому" уровню – без его реализации бессмысленно делать что-то дальше. И на первый взгляд, проблемы нет. Если операторы собирают данные, например, по аудитории телевидения, информация должна быть одинаковая: телеканал, время включения и переключения приставки. Но, если провайдер имеет большое региональное представительство, филиалов у него тоже много. И в каждом из них могут вести свой список каналов, названия которых подчас отличаются. Версий одного и того же вещателя за счет разницы в часовых поясах и орбит тоже несколько. А еще есть SD и НD версии. Если оператор небольшой, названия каналов в его базе могут быть в принципе любыми. Так, для "Первого канала" в России существует 16 вариантов написания во внутренних базах данных провайдеров, среди которых "1 канал", "Первый", "Один ХД", "1+2" ("Первый на орбите +2 часа") и даже еще ОРТ. 

Компания, которая собирает данные, должна уметь получать их в любом формате от поставщика и самостоятельно обрабатывать информацию на основе собственных таблиц перекодировки для корректного отнесения аудитории к вещателю. Ведение таких справочников – работа ежедневная, в большей степени ручная. При этом важно иметь постоянный контакт со всеми операторами, чтобы быстро обсуждать и исправлять появляющиеся ошибки. Собранную информацию требуется проверить и валидировать. Убрать сбои оборудования, вычистить ситуации с аномально большим смотрением одного канала на конкретной приставке, провести предварительный анализ по смене позиций вещателей в частотном плане. Последний пункт может привести к произвольным изменениям в итоговых данных. 

Хранение миллиардов переключений абонентов в день – очень затратная во всех смыслах задача. Стандартом индустрии является минутная агрегация, но некоторые клиенты уже начинают спрашивать про секундные данные. Удовлетворение этого желания приведет к росту требований к аппаратному обеспечению в десятки раз.

Обогащение полученной информации демографическими характеристиками

Реализация предыдущего шага позволяет получить первичную информацию о просмотре телеканалов абонентами, то есть как контент смотрели на приставках, но ничего не говорит о реальных зрителях. Не помогает и наличие контракта, где есть данные о подписчике. Ни состав домохозяйства, ни поведение этих людей перед экранами заранее не известны.

В интернет-индустрии способов восстановления информации о реальных пользователях изобретено много, причем каждая из компаний использует тот массив данных, которым обладает. Например, социальные сети учитывают регистрационную информацию, но любой человек может выдать себя за кого угодно. Поэтому моделирование социально-демографических характеристик на основе подведения (посещение определенных сайтов или просмотр каналов/программ) является сейчас наиболее используемым методом.

MediaHills в 2022 году начал поставку данных по демографии, а на первом этапе были выбраны пол и возраст. Важно подчеркнуть – это оценка вероятности состава домохозяйства и нахождения его членов перед телевизором в конкретный момент на основе работы нейросети. Но благодаря big data и обучению алгоритма на выходе ежедневной процедуры получается достаточно надежная оценка состава аудитории телеканала и отдельной передачи. 

Методика, используемая при моделировании, состоит из нескольких ключевых блоков.

Объединение данных об аудитории ТВ с другими данными операторов. Например, учет регистрации телефона в домашней Wi-Fi сети. 

Использование в обучении алгоритма программ-маркеров, однородность состава аудитории у которых устойчива во времени. Например, футбольный матч на платном телеканале, детские программы днем и т.д.

Использование в качестве образца для моделирования данных панельного исследования. Полученные оценки по составу аудитории передач и каналов сравниваются с полученными на панели данными. В случае серьезных расхождений в нейросети перестраиваются параметры работы.

В будущем добавятся другие характеристики, которые влияют на телесмотрение: образование, занятость, уровень дохода и т.д. Это потребует увеличения производительных мощностей и новых адаптаций алгоритмов.

Расширение географии измерений

Миллионы абонентов позволяют репрезентировать не только страну или крупные города, но и те населенные пункты, данные по которым не были никогда доступны. Сочи, Кострома, Ханты-Мансийск, Пермский край и даже Нягань. В компании MediaHills принят минимальный уровень 1000 абонентов, который позволяет открыть информацию о точке измерения (населенный пункт, город, область, республика), но уже сейчас во многих городах и субъектах России это число на порядок больше. В идеале для увеличения надежности поставки данных по выбранной географии в ней должны работать несколько операторов. Это позволяет снизить зависимость от одного поставщика.

Таблица 1. Топ-10 регионов по размеру анализируемой абонентской базы, MediaHills

  

Источник: MediaHills
 
 

Рынок (или конкретный заказчик) должен принять для себя несколько решений.

Список регионов. Для репрезентации не абонентской базы, а территории необходим большой комплекс подготовительных процедур. Проведение установочного исследования, уточнение списка операторов и телеканалов, состава их пакетов.

Какая именно информация нужна? Применительно к телевидению – если только аудитория передач и телеканалов, то существующая методика использования Electronic Program Guide (EPG) полностью подходит, а, например, добавление мониторинга рекламы требует дополнительных затрат на установку оборудования, расшифровку эфира, ведение базы данных и доработку интерфейса.

Требуется ли объединение данных по разным медиа? Ввиду большого разнообразия используемых устройств и площадок, на которых потребляется контент, заказчик и исполнитель исследования должны обсудить список измеряемых медиа и технологию сбора/обработки данных.

Предоставление данных в удобном для получателя формате

Для небольших клиентов и оперативных задач анализа аудитории телеканала или рекламной кампании нужно приложение с удобным интерфейсом. Оно должно поддерживать расчет всех требуемых статистик, аудиторий и работать на настольных и мобильных устройствах. Индивидуализация – еще один тренд разработки. В случае потребности конкретного пользователя в специальном анализе (пересечение каналов/регионов или выбор нестандартной аудитории) разработчик должен иметь возможность добавить ему специальные отчеты.

Рисунок 1. Анализ телевизионных данных 

Источник: MediaHills. Интерфейс приложения 2022
(Чтобы увеличить картинку, кликните на нее)
 
 

Крупнейшие рекламные агентства разработали собственные софты и базы данных для сбора и анализа потоков разнородных сведений, поэтому предоставление им просто доступа к еще одному программному обеспечению, откуда пользователи руками должны переносить информацию, – тупиковый путь. Наиболее востребованным способом обмена данными в таком случае является API (Application Programming Interface, программный интерфейс приложения) – специальный протокол для взаимодействия компьютерных программ, который позволяет использовать данные одного приложения внутри другого. Таких протоколов может быть много, а задача поставщика данных – "состыковать" серверы для автоматического обмена информацией.

В качестве короткого окрыляющего резюме. Выше перечислены лишь те задачи, которые уже поставлены рынком и находятся в высокой стадии проработки. Получив их решение, индустрия сможет внедрить новые технологии и применить те методики, которые совсем недавно казались фантастикой.