AI/ML: как новые технологии преобразят вещание

Достижения в области искусственного интеллекта (ИИ) и машинного обучения находят широкое применение в бизнесе телерадиовещания. В деловой программе в рамках выставки CSTB 2021, которая пройдет на неделе высоких технологий в Москве, планируется круглый стол с приглашением экспертов, которые расскажут о состоявшихся проектах внедрения этих технологий. И действительно, сегодня мы можем уже говорить об ИИ, как о состоявшемся факторе трансформации телерадиовещания.

Во-первых, ИИ позволяет вещательным компаниям оптимизировать прямые трансляции.

Некоторые специалисты высказывают опасения, что вещательные системы искусственного интеллекта вытеснят ПТС и команду операторов выездного вещания. Но на самом деле эта технология в настоящее время используется для освещения событий, которые иначе не транслировались бы совсем. Британская радиовещательная корпорация (BBC) предложила следующий инновационный подход "AI in Production".

Для обеспечения вещания в нем используются статические камеры сверхвысокого разрешения (UHD), которые поставили вместо 2-3 обычных камер. Так как материал 4K, записываемый этими камерами высокого разрешения, в каком-то смысле является избыточным, то это означает, что в процессе производства можно создавать разные композиции, просто кадрируя отснятый материал – например выбирая крупный, средний и общий план.

Использование таких статических или дистанционно управляемых камер позволяет снимать небольшие прямые трансляции с помощью команды из одного человека. Это также позволяет выездной группе вещания покрывать бОльшее количество мест, откуда ведется трансляция, если речь идет о гонках, например, или скачках. В этом подходе также применяется автоматическое кадрирование и создание клиповой последовательности планов. Система использует базовые правила композиции, которые обычно используют операторы. Она также использует технологию распознавания лиц для идентификации объектов. Систему искусственного интеллекта можно научить размещать кадры в последовательности, которая кажется естественной для зрителя. Это требует, чтобы система учитывала продолжительность каждого кадра и распознавала случаи,  когда субъект в кадре что-то говорит. Она должна принимать во внимание любые реакции аудитории или других субъектов. Тесты, проводящие сравнение ИИ-системы с человеком-оператором, показали, что на сегодня системе не хватает тонкости опытного оператора камеры. Однако, результат по-прежнему впечатляет, а ИИ-алгоритм все еще дорабатывается.

Ясно, что в настоящее время технология искусственного интеллекта недостаточно совершенна, чтобы ее можно было использовать для производства премиальной продукции, такой, например, как Чемпионаты мира. Но у нее есть потенциал для бюджетного, регионального вещания. "Виртуальная многокамерная" система может с успехом заменить дешевую однокамерную трансляцию. Она может использоваться для панельных дискуссий, и для журналистских прямых трансляций. С небольшой доработкой эту технологию успешно можно использовать для живых выступлений, таких как комедийные, музыкальные и даже около спортивные передачи.

Другое важное применение систем ИИ в журналистике - поиск новостей.

Такую систему умного производства разработала Японская радиовещательная корпорация NHK. Она предназначена для того, чтобы, объединяя данные социальных сетей и государственный системы мониторинга окружающей среды, сообщать о важных (катастрофических) ситуациях. Система запрограммирована искать определенные слова и фразы, в различных категориях новостей. Затем они группируются, чтобы группа производства новостей могла просматривать отчеты, где они появляются с высокой частотой.           

Система также может контролировать данные об уровне воды из государственных мониторинговых систем, чтобы автоматически предупреждать о сильных дождях и наводнениях. Для каталогизации новостных клипов также полезен ИИ алгоритм распознавания речи. В настоящее время программное обеспечение может автоматически расшифровывать обычную человеческую речь на многх языках. Тем не менее, ИИ все еще испытывает трудности с некоторыми интервью, когда говорящий имеет сильный акцент, говорит слишком быстро или менее четко.

Если уж речь зашла об аудио, то ИИ может генерировать автоматические звуковые описания для прямых трансляций, таких как спортивные трансляции. Такое ПО используется для слабовидящих, но и не только. Технология также может использоваться для создания аудиокомментариев к спортивным соревнованиям для радио или телевидения с помощью синтезатора речи. Его можно использовать как для спортивных, так и для новостных программ, где можно легко озвучивать факты и статистику. Технология синтеза речи быстро совершенствуется, и теперь возможен естественный тон голоса.

Компьютерный язык жестов также развивается на основе ИИ как способ отображения звукового сопровождения программы. Анимированный персонаж, созданный при помощи компьютерной графики, теперь может с успехом заменить живого переводчика на язык жестов.

Но и это еще не все. Системы AI/ML находят свое применение в рекламе и кинематографе. Например, не только для автоматизации дублирования контента на другие языки, но и для изменения мимики актера в соответствии со структурой звучащей речи.

Ну и самое потрясающее – это применение алгоритмов ИИ для создания, например, персонажей сериального продукта. Это может быть полное омоложение (состаривание) героя в соответствии с замыслом авторов, автоматический подбор дублеров (или, например, детей-родителей) по каталогом актеров, для достижения родственного сходства и так далее.

Если же мы затронем вопросы доставки, то здесь очень важная область применения - сжатие видео на базе AI. Netflix уже несколько лет использует этот формат и уже заявлял, что алгоритмы сжатия, основанные на искусственном интеллекте, могут сэкономить до 1 миллиарда долларов в год. Однако пионер OTT Video использует AI не только для предложения фильмов и сериалов. В сотрудничестве с Университетом Южной Калифорнии и Нантским университетом Netflix использовал ИИ для разработки "Dynamic Optimizer".

Dynamic Optimizer от Netflix опирается на тот факт, что для передачи менее сложного видеоконтента возможно более высокое сжатие, а для высокодинамического – менее. Но поскольку даже в самых визуально сложных телешоу встречаются сцены не насыщенные деталями, то степень сжатия может изменяться достаточно часто даже внутри одной программы и это позволяет значительно повысить степень суммарного сжатия без заметной потери качества.

Алгоритмы AI теперь стали "зашиваться" в смарт ТВ. Телевизоры обучаются учитывать предпочтения своих владельцев и сообщать о них производителям контента.

Использование искусственного интеллекта и машинного обучения для создания и распространения контента постоянно расширяется, а чтобы услышать все самое новое и интересное на эту тему приглашаем на "Круглый стол" в программе CSTB.