AI HALLGATTAM AZ EMBEREK HANGJáT. AZTáN GENERáLTA AZ ARCUKAT.

Send

Készítettél-e valaha egy olyan személy mentális képét, amelyet még soha nem láttál, kizárólag a hangja alapján? A mesterséges intelligencia (AI) ezt most megteheti, digitális képet hozva létre az arcáról, csupán egy rövid hangfájl segítségével.

A Speech2Face néven ismertetett ideghálózatot - egy számítógépet, amely "gondolkodik" az emberi agyhoz hasonló módon - a tudósok oktattak több millió internetes oktatóvideón keresztül, amelyek több mint 100 000 különböző ember beszélgetését mutatták be.

Ebből az adatkészletből a Speech2Face megismerte a hangok és az emberi arc egyes fizikai tulajdonságai közötti asszociációkat - írták a kutatók egy új tanulmányban. Az AI ezután egy audio klipet használt a hanghoz illő fotorealisztikus arc modellezésére.

A megállapításokat online közzétették az arXiv preprint nyomtatványában, május 23-án, és ezeket még nem vizsgálták meg.

Szerencsére, az AI (még) nem tudja pontosan, hogy néz ki egy adott ember, csak a hangjuk alapján. A neurális hálózat felismert bizonyos markereket a beszédben, amelyek rámutattak a nemekre, életkorra és etnikai hovatartozásra, olyan tulajdonságokra, amelyek sok emberben osztoznak - jelentették a tanulmány szerzői.

"Mint ilyen, a modell csak átlagos kinézetű arcokat fog előállítani" - írta a tudósok. "Nem hoz létre képeket meghatározott személyekről."

Az AI már bebizonyította, hogy képes gyengéden pontos emberi arcokat előállítani, bár a macskák értelmezése őszintén szólva kissé félelmetes.

A Speech2Face által generált arcok - mind elülső oldaluk, semleges kifejezésekkel - nem egyezik pontosan a hangok mögötti emberekkel. De a képek általában a megfelelő korcsoportokat, etnikai hovatartozást és nemeket rögzítették, a tanulmány szerint.

Az algoritmus értelmezése azonban messze nem volt tökéletes. A Speech2Face "vegyes teljesítményt" mutatott, amikor szembesültek a nyelvi variációkkal. Például, amikor az AI meghallgatta egy ázsiai kínaiul beszélő ember hangklipjét, a program egy ázsiai arc képét készítette. Amikor azonban ugyanaz az ember angolul beszélt egy másik hangklipben, az AI fehér ember arcát generálta - jelentették a tudósok.

Az algoritmus kimutatta a nemek közötti torzítást is, az alacsony hangú hangok összekapcsolásával a férfi arcokkal, a magas hangú hangok a női arcokkal. Mivel a képzési adatállomány csak a YouTube oktatási videóit képviseli, az "nem képviseli egyenlően az egész világ lakosságát" - írta a kutatók.

A video adatkészlettel kapcsolatos további aggodalmak felmerültek, amikor egy YouTube-videóban megjelenő személy meglepődött, amikor megtudta, hogy hasonlóságát beépítették a vizsgálatba. Nick Sullivan, a San Francisco-i Cloudflare internetes biztonsági cég kriptográfia vezetője váratlanul észrevette arcát a Speech2Face képzéséhez használt egyik példaként (amelyet az algoritmus meglehetősen hozzávetőlegesen reprodukált).

Sullivan nem volt hajlandó megjelenni a tanulmányban, de az ezen adatállományban található YouTube-videókat széles körben úgy tekintik, hogy a kutatók számára további engedélyek megszerzése nélkül használhatók, mondja Slate.

Send