Jump to content

Egy kép talán felér ezer szóval, de a hangok legalább olyan fontosak

2016. 11. 17. 10:00

Disney Research azon dolgozik, hogy a számítógépes rendszerük ne csak azt ismerje fel, hogy mit mutatnak a képek, de azt is tudja, hogy milyen hangokat adnak ki a rajtuk ábrázolt dolgok.

Ha egy autó hangját halljuk felvételről, akkor mi emberek gond nélkül megtudjuk mondani, hogy az nem a vonatos, hanem a lejtőn lefelé guruló autót ábrázoló képhez tartozik. Egy AI számára azonban ez még kihívást jelent.

A Computer Vision európai konferenciáján a Disney Research csapat egy olyan rendszer működését mutatta be, mely képes sikeresen társítani az ajtó becsukódás vagy az üvegcsörömpölés hangját a hozzájuk tartozó képekkel.

Az audió alapú asszociáció talán könnyűnek tűnik nekünk emberek számára, de valójában mindezt megtanítani egy gépnek nem is olyan egyszerű. A Disney kutatói egy csomó tárgyakról készült videóval „etették” a mesterséges intelligenciát, hogy megtanulja, mely képekhez, mely hangok tartozhatnak. A narráció, a háttérzaj vagy más tárgyakból eredő hangok könnyen összezavarhatják a gépet. A hangok elkülönítése és megszűrése végül megtette a magáét. A rendszer persze még messze nem tökéletes és néha még most is akad problémája annak eldöntésében, hogy melyik kép tartozik egy adott hanghoz, de határozottan halladást értek el a kutatók.

A kutatók által bemutatott technológia gyakorlatilag minden mesterséges intelligenciát használó rendszer számára hasznos fejlesztés. Olyan robotok készítését teszik lehetővé, amelyek valós időben képesek lesznek segíteni a vizuális tájékozódásuk tekintetében korlátozott helyzetbe került embereket. Gépeket teremteni, amelyek nem csak rögzítik, de értelmezni is képesek a körülöttük lévő világ hangjait.

(Forrás: disneyresearch.com Kép forrása: disneyresearch.com)