Jump to content

Facebook kutatói számokkal a fordításért?

2020. 03. 01. 22:45

A Facebook kutatói szerint a szavak ábrázolása és a nyelvek közötti matematikai hasonlóságok kiaknázása ígéretes út.

A nagy teljesítményű automatikus fordítás nagy prioritást jelent az internetes óriások számára. Annak lehetővé tétele, hogy a lehető legtöbb ember világszerte kommunikáljon, azontúl, hogy önzetlen, még jó üzlet is.

A Facebook, a Google és a Microsoft, valamint az orosz Yandex, a kínai Baidu és más közösségi felületek folyamatosan törekszenek fordítási eszközök fejlesztésére.

Facebook mesterséges intelligencia szakértőivel dolgozik egy párizsi kutatólaboratóriumban.

Jelenleg legfeljebb 200 nyelvet használnak a Facebookon - mondta Antoine Bordes, a közösségi hálózat alapvető AI kutatásának európai társigazgatója.

Az automatikus fordítás jelenleg azon alapul, hogy mindkét nyelven azonos szövegekből nagy adatbázisok működnek. De sok nyelvpár számára nem elég ilyen párhuzamos szöveg.

Ezért kerestek egy másik módszert a kutatók, például a Facebook által kifejlesztett rendszert, amely matematikai reprezentációt hoz létre a szavak számára.

Minden szó "vektorrá" válik a több száz dimenziós térben. A szavak, amelyek szoros kapcsolatban állnak a beszélt nyelven, szintén közel állnak egymáshoz ebben a vektor térben.

"Például, ha jelentéstanilag vesszük a" macska "és a" kutya "szavakat, ezek olyan szavak, amelyek hasonló dolgot írnak le, tehát fizikailag rendkívül közel vannak egymáshoz" a vektor térben - mondta Guillaume Lample, a rendszer egyik tervezője.

"Ha olyan szavakat veszünk, mint Madrid, London, Párizs, amelyek európai fővárosok, ugyanaz az ötlet.

Ezeket a nyelvi térképeket algoritmusok segítségével össze lehet kapcsolni idővel teljesen finom kapcsolatokat tudnak létrehozni. Lample szerint az eredmények már ígéretesek. Az angol-román nyelvpár esetében a Facebook jelenlegi gépi fordítási rendszere "egyenlő vagy talán egy kicsit rosszabb", mint a szó vektorrendszer. "Az angol-urdu ritkább nyelvpár esetében, ahol a Facebook hagyományos rendszerében nincs sok kétnyelvű szöveg, amelyre hivatkozni kell, a vektorrend szó már jobb"- mondta Lample.

De megengedheti-e a módszer a fordítást például baszkról egy amazoniai törzs nyelvére? - Elméletileg igen, mondta Lample, ám gyakorlatban a nyelv feltérképezésére nagyszámú írott szövegre van szükség, ami hiányzik az Amazonas törzsi nyelvén.

Ha csak tízezer kifejezés van, az nem fog működni. Százezrekre van szükség." - mondta.

A francia CNRS nemzeti tudományos központ szakértői szerint a Lample Facebook által alkalmazott megközelítése hasznos eredményeket hozhat, még akkor is, ha nem eredményez tökéletes fordítást.

A "fogalmi forradalomban" Thierry Poibeau, a CNRS Lattice laboratóriuma, szintén kutatást végez gépi fordításban.

Azt mondta, hogy "párhuzamos adatok nélküli fordítás" - szótárak vagy ugyanazon dokumentumok mindkét nyelvű verziója - a gépi fordítás "Szent Grál" része.

"De a kérdés az, hogy milyen teljesítményszintre lehet számítani" a szó vektor módszeréből - mondta Poibeau.

A módszer "adhat képet az eredeti szövegről", de a jó fordítás képessége egyik alkalommal sem bizonyított.

Francois Yvon, a CNRS Mechanikai és Műszaki Tudományok Számítástechnikai Laboratóriumának kutatója szerint "a nyelvek összekapcsolása sokkal nehezebb", ha azok távol vannak egymástól. "A fogalmak jelölésének módja a kínai nyelven teljesen eltér a franciától" - tette hozzá.

Yvon szerint azonban még a hiányos fordítások is hasznosak lehetnek, és elegendőek lehetnek a gyűlöletbeszéd nyomon követéséhez, amely a Facebook egyik legfontosabb prioritása.

(Forrás: itmozaik.co.hu;Japantoday | Kép: pixabay.com)