Специалисты лаборатории Disney Research, чьим трудам неоднократно посвящались материалы на 3DNews, представили алгоритм для идентификации издаваемого объектом звука. Разработанная система позволяет в случае наличия одной лишь визуализации предмета автоматически подобрать необходимый аудиоряд.
Представленная технология, проще говоря, является некой интерпретацией одной из составляющих «компьютерного зрения», как заявляют сами авторы проекта. Если существующие сегодня программные комплексы способны распознать тип/вид/категорию объекта, попавшего в кадр, то проект Disney Research готов дополнительно снабдить видео звуковой дорожкой.
Необходимую аудиоассоциацию, которая лежит в основе рассматриваемой технологии, обеспечивает условный «искусственный интеллект», который специалисты Disney Research обучали по специальной методике. Для этой цели брался большой архив видеозаписей с центральным объектом, подлежащим распознаванию. При этом на записи присутствовал посторонний фон, который должен был сбить алгоритм с толку.
Однако в действительности же детище Disney Research пока не способно похвастаться высокой точностью: система может спутать трамвай с автомобилем, присвоив одному из них несоответствующий звук.
И хотя технология, на первый взгляд, не кажется столь уж необходимой, авторы проекта уверены, что их программный комплекс существенно облегчит процесс производства видеоконтента, а также может помочь людям с плохим зрением. Но для превращения алмаза в бриллиант — совершенствования системы для её безукоризненного функционирования — Disney Research ещё слишком далеки.
Источник: