Ha egy autó hangját halljuk felvételről, akkor mi emberek gond nélkül megtudjuk mondani, hogy az nem a vonatos, hanem a lejtőn lefelé guruló autót ábrázoló képhez tartozik. Egy AI számára azonban ez még kihívást jelent.
A Computer Vision európai konferenciáján a Disney Research csapat egy olyan rendszer működését mutatta be, mely képes sikeresen társítani az ajtó becsukódás vagy az üvegcsörömpölés hangját a hozzájuk tartozó képekkel.
Az audió alapú asszociáció talán könnyűnek tűnik nekünk emberek számára, de valójában mindezt megtanítani egy gépnek nem is olyan egyszerű. A Disney kutatói egy csomó tárgyakról készült videóval „etették” a mesterséges intelligenciát, hogy megtanulja, mely képekhez, mely hangok tartozhatnak. A narráció, a háttérzaj vagy más tárgyakból eredő hangok könnyen összezavarhatják a gépet. A hangok elkülönítése és megszűrése végül megtette a magáét. A rendszer persze még messze nem tökéletes és néha még most is akad problémája annak eldöntésében, hogy melyik kép tartozik egy adott hanghoz, de határozottan halladást értek el a kutatók.
A kutatók által bemutatott technológia gyakorlatilag minden mesterséges intelligenciát használó rendszer számára hasznos fejlesztés. Olyan robotok készítését teszik lehetővé, amelyek valós időben képesek lesznek segíteni a vizuális tájékozódásuk tekintetében korlátozott helyzetbe került embereket. Gépeket teremteni, amelyek nem csak rögzítik, de értelmezni is képesek a körülöttük lévő világ hangjait.