
A Google DeepMind csapata egy új WaveNet névre keresztelt mesterséges intelligenciával ált elő, ami megtévesztően jól tudja utánozni a valós emberi beszédet.
Jelenleg a fejlesztők két fajta metódust használnak a beszédprogramok fejlesztésére. Az egyik az, hogy fognak egy vállalkozó szellemű egyént és felmondatnak vele egy csomó szót és beszédrészletet, amit aztán rögzítenek. Ezzel csak az a baj, hogy a kiejtett hangokat és hanglejtéseket nehéz manipulálni a rendelkezésre álló felvételek alapján, így megkapjuk a „klasszikus” gépies kissé töredezet beszédet.
A másik módszer, hogy a szavakat elektronikus formába alakítják és ebbe belekódolják azt is, hogy hogyan kéne hangzaniuk. Ezt a módszert választva könnyebb lesz kikerekíteni a felmondandó szöveget, de még a másik módszernél is robotosabb hangot fogunk kapni.
A DeepMind csapata a fetiek helyett a mesterséges intelligencia felé fordult, hogy beszédprogramot hozzon létre. A Neurális hálónak nyers hanghullámokat adtak át feldolgozásra, amik valós emberi beszédekről készültek. A hanghullámok a vizuális reprezentációi a hangok formálódásának. A WaveNet ezeket tanulta meg és tulajdonképpen önálló hanghullámok formálásával képes megszólalni.
A programot már tesztelték is, ahol a résztvevő tesztalanyok sokkal emberibbnek találták a WaveNet hangját, mint a többi módszer által megszólaltatott programokét. Aki nem hiszi az pedig utána járhat a DeepMind honlapján, ahol is néhány minta már a kétkedő fülek rendelkezésére áll.