Нейросеть научилась искать объекты на изображении по голосовому описанию

Система состоит из двух нейросетей — первая делит изображение на сетку из маленьких ячеек, а вторая разделяет звуковую спектрограмму на короткие отрезки по одной-две секунды.