A "Mona Lisa" rejtélyes, festett mosolyát az egész világon ismerték, de ez a híres arc a közelmúltban meglepően új kifejezések sorozatát jelentette meg, a mesterséges intelligencia (AI) jóvoltából.
A május 21-én a YouTube-on megosztott videóban három videoklipek zavaró példákat mutatnak a Mona Lisáról, miközben ajkát mozgatja és fejét fordítja. Őt egy konvolúciós neurális hálózat hozta létre - egyfajta AI, amely ugyanúgy dolgozza fel az információkat, mint az emberi agy, a képek elemzése és feldolgozása céljából.
A kutatók kiképezték az algoritmust, hogy megértsék az arcvonások általános alakját és hogyan viselkednek egymással szemben, majd alkalmazzák ezeket az információkat állóképekre. Az eredmény egy arcképből származó új arckifejezések valósághű video sorozata volt.
A Mona Lisa videókhoz az AI „megtanulta” az arcmozgást három emberi alany adatkészleteiből, három nagyon különböző animáció előállításával. Míg mindhárom klip még mindig felismerhető Mona Lisa-ként, az edzési modellek megjelenésében és viselkedésében tapasztalható változások megkülönböztetett "személyiségeket" kölcsönöztek az "élő portréknak", Egor Zakharov, a Skolkovo Tudományos és Technológiai Intézet mérnöke. a Samsung AI Center (mindkettő Moszkvában található), magyarázva a videóban.
Zakharov és kollégái animációkat készítettek a 20. századi kulturális ikonok fényképeiből is, például Albert Einstein, Marilyn Monroe és Salvador Dali. A kutatók az május 20-án online, az arXiv preprint folyóiratban közzétett tanulmányban ismertették megállapításaikat, amelyekre nem került sor szakmai áttekintés.
Az ilyen videofelvételek előállítása, mint például a deepfakes, nem egyszerű. Az emberi fej geometriailag összetett és nagyon dinamikus; A fej 3D modelljeinek "tízmillió paramétere van" - írta a tanulmány szerzői.
Sőt, a tanulmány szerint az emberi látórendszer nagyon jó a "még kisebb hibák" felismerésére a 3D-s mintázatú emberi fejben. Ha lát valamit, ami szinte embernek tűnik - de nem egészen -, az mélységes nyugtalanság érzetét váltja ki, amelyet úgy ismertek, mint az unalmas völgy hatás.
Az AI korábban bebizonyította, hogy lehetséges meggyőző mélysugárzás előállítása, de ehhez a kívánt alany többszöget igényelt. Az új tanulmányhoz a mérnökök bevezették az AI-t egy nagyon nagy referenciavideó-adatkészletbe, amelyben az emberi arcok működésben vannak. A tudósok megállapították az arc tereptárgyakat, amelyek bármely arcra vonatkoznának, hogy megtanítsák az idegi hálózatot, hogyan viselkednek az arcok általában.
Ezután kiképezték az AI-t, hogy használja a referencia kifejezéseket a forrás jellemzőinek mozgásának feltérképezésére. Ez lehetővé tette az AI számára, hogy készítsen egy mélyfajt, még akkor is, ha csak egy képen volt dolgozni, jelentettek a kutatók.
A további forrásképek még részletesebb eredményt nyújtottak a végső animációban. A 32 kép helyett egy kép helyett elkészített videók "tökéletes realizmust" értek el egy felhasználói tanulmányban - írta a tudósok.