Jump to content

A Google mesterséges intelligenciája képes realisztikusan utánozni az emberi beszédet

2016. 09. 11. 12:00

Még mindig nagyon könnyű megmondani, hogy egy valódi személy vagy egy gépi program hangja szól hozzánk, de ez már nem sokáig marad így.

A Google DeepMind csapata egy új WaveNet névre keresztelt mesterséges intelligenciával ált elő, ami megtévesztően jól tudja utánozni a valós emberi beszédet.

Jelenleg a fejlesztők két fajta metódust használnak a beszédprogramok fejlesztésére. Az egyik az, hogy fognak egy vállalkozó szellemű egyént és felmondatnak vele egy csomó szót és beszédrészletet, amit aztán rögzítenek. Ezzel csak az a baj, hogy a kiejtett hangokat és hanglejtéseket nehéz manipulálni a rendelkezésre álló felvételek alapján, így megkapjuk a „klasszikus” gépies kissé töredezet beszédet.

A másik módszer, hogy a szavakat elektronikus formába alakítják és ebbe belekódolják azt is, hogy hogyan kéne hangzaniuk. Ezt a módszert választva könnyebb lesz kikerekíteni a felmondandó szöveget, de még a másik módszernél is robotosabb hangot fogunk kapni.

A DeepMind csapata a fetiek helyett a mesterséges intelligencia felé fordult, hogy beszédprogramot hozzon létre. A Neurális hálónak nyers hanghullámokat adtak át feldolgozásra, amik valós emberi beszédekről készültek. A hanghullámok a vizuális reprezentációi a hangok formálódásának. A WaveNet ezeket tanulta meg és tulajdonképpen önálló hanghullámok formálásával képes megszólalni.

A programot már tesztelték is, ahol a résztvevő tesztalanyok sokkal emberibbnek találták a WaveNet hangját, mint a többi módszer által megszólaltatott programokét. Aki nem hiszi az pedig utána járhat a DeepMind honlapján, ahol is néhány minta már a kétkedő fülek rendelkezésére áll.

(Forrás: engadget.com Fotó forrása: pixabay.com)