Ученые научили нейросеть определять звучание каждого пикселя на видео

Ученые обучили нейросеть вычислять звучание каждого отдельного фрагмента аудиоряда в составе видео на «уровне пикселей».