MIT, Microsoft и Adobe разработали алгоритм «визуального микрофона»

6 август, 2014 - 14:45

Сводный исследовательский коллектив Массачусетского технологического института (MIT), Microsoft Research и Adobe Research продемонстрирует на выставке Siggraph 2014 разработанную им систему, которая извлекает звук из «немого» видео, анализируя вибрации изображенных на нем объектов.

«Звук заставляет объект вибрировать, создавая очень слабые визуальные сигналы, обычно невидимые невооруженным глазом» — поясняет один из участников работы, аспирант MIT Эйби Дэвис (Abe Davis).

Используя свой алгоритм, авторы смогли дистанционно «услышать» даже шуршание пластиковой обертки из-за пуленепробиваемого стекла. Для этого они использовали видео, отснятое скоростной камерой с частотой 2-6 тыс. кадров в секунду, а также стандартной моделью (60 fps). В обоих случаях получены приемлемые результаты. Даже при частоте 60 fps реконструированные аудиоданные позволяли определить количество и пол собеседников в помещении и попытаться их идентифицировать.

Разработчики предвидят, что технология «визуального микрофона» получит применение в правоохранительной практике, но рассчитывают на гораздо более широкое ее распространение.

«Люди не отдают себе отчета в существовании этой информации, но она способна поведать очень много как о звуковой среде вокруг объекта, так и о нем самом, поскольку форма, состав и структура объекта определяют то, как он будет реагировать на звук», — отметил Дэвис.