A múlt héten Alexandria Ocasio-Cortez újonnan megválasztott amerikai köztársasági képviselő címet készített, amikor a negyedik éves MLK Now esemény részeként elmondta, hogy az arcfelismerési technológiák és algoritmusok "mindig tartalmazzák ezeket a faji egyenlőtlenségeket, amelyek lefordulnak, mivel az algoritmusok még mindig készülnek az emberek által, és ezek az algoritmusok még mindig kapcsolódnak az alapvető emberi feltételezésekhez. Ezek csak automatizáltak. És automatizált feltételezések - ha nem erősítik meg a torzítást, akkor csak automatizálják a torzítást. "
Ez azt jelenti, hogy az algoritmusok, amelyek elméletileg a matematikai objektív igazságokon alapulnak, "rasszista" lehetnek? És ha igen, mit lehet tenni az eltérés megszüntetése érdekében?
Kiderült, hogy az algoritmusokból származó output valóban elfogult eredményeket hozhat. Az adattudósok szerint a számítógépes programok, az idegi hálózatok, a gépi tanulási algoritmusok és a mesterséges intelligencia (AI) azért működnek, mert megtanulják, hogyan kell viselkedni a kapott adatok alapján. A szoftvert az emberek torzítják, akik torzítással bírnak, és az edzési adatokat az emberek torzítják.
A gépi tanulás két szakasza megmutatja, hogy ez az elfogultság hogyan válhat be egy látszólag automatizált folyamatba. Az első szakaszban, a képzési szakaszban, egy algoritmus megtanul adatkészlet vagy bizonyos szabályok vagy korlátozások alapján. A második szakasz a következtetési szakasz, amelyben egy algoritmus alkalmazza azt, amit megtanult a gyakorlatban. Ez a második szakasz feltárja az algoritmus torzulásait. Például, ha egy algoritmust csak hosszú hajú nők képeivel képzünk, akkor azt fogja gondolni, hogy mindenki, akinek rövid haja van, férfi.
A Google hírhedten tűz alá került 2015-ben, amikor a Google Photos a fekete embereket gorillákként jelölte be, valószínűleg azért, mert ezek voltak az egyetlen sötét bőrű lények az edzőkészletben.
És az elfogultság számos úton átjuthat be. "Gyakori hiba az, hogy egy elfogult ember múltbeli döntésein alapuló előrejelzéseket készítünk egy algoritmust" - mondta a Live Sciencenek Sophie Searcy, a Metis adattudományi képzési bootcamp vezető kutatója. "Ha algoritmust készítek egy kölcsöntisztviselők által korábban hozott döntések automatizálására, előfordulhat, hogy megteszem a könnyű utat és kiképezem az algoritmust a kölcsönfelügyelők korábbi döntéseire. De természetesen, ha ezek a kölcsöntisztviselők elfogultak lennének, akkor az általam felépített algoritmus folytatja ezeket az torzításokat. "
A Searcy a COMPAS példáját idézi, amely az Egyesült Államok büntető igazságszolgáltatási rendszerében az ítéletek elkészítéséhez használt prediktív eszköz, amely megpróbálja megjósolni, hogy hol fog elkövetni bűncselekmény. A ProPublica elemzést végzett a COMPAS-on, és megállapította, hogy az egyéb statisztikai magyarázatok ellenőrzése után az eszköz túlbecsülte a fekete vádlottak újbóli visszaesésének kockázatát, és következetesen alábecsülte a fehér vádlottak kockázatát.
Az algoritmikus torzítások elleni küzdelem érdekében Searcy azt mondta a Live Science számára, hogy a mérnököknek és az adattudósoknak sokrétűbb adatkészleteket kell készíteniük az új problémákra, valamint meg kell próbálniuk megérteni és enyhíteni a meglévő adatkészletekbe épített torzítást.
Mindenekelőtt, mondta Ira Cohen, a prediktív elemző társaság, az Anodot adattudósa, a mérnököknek képzési készlettel kell rendelkezniük, amely viszonylag egységesen reprezentálja az összes népességtípust, ha algoritmust képeznek az etnikai vagy nemi tulajdonságok azonosítására. "Fontos, hogy elegendő példát képviseljünk az egyes népességcsoportokból, még akkor is, ha ezek a kisebbségek a vizsgált teljes népességben" - mondta Cohen a Live Science-nek. Végül, Cohen azt javasolja, hogy ellenőrizzék-e a torzításokat egy tesztkészletben, amelybe beletartoznak e csoportok emberei. "Ha egy adott verseny esetén a pontosság statisztikailag szignifikánsan alacsonyabb, mint a többi kategóriánál, akkor az algoritmus torzíthat, és értékelném az ehhez használt edzési adatokat" - mondta Cohen a LiveScience-nek. Például, ha az algoritmus helyesen azonosít 1000 fehér arcból 900-at, de helyesen 1000-ből ázsiai arcból csak 600-at képes azonosítani, akkor az algoritmus elfogult lehet az ázsiaiakkal szemben - tette hozzá Cohen.
A torzítás eltávolítása hihetetlenül nagy kihívást jelenthet az AI számára.
Még a Google, amelyet a kereskedelemben alkalmazott AI előfutáraként tekint, 2015-től nyilvánvalóan nem tudott átfogó megoldást találni a gorillaprobléma megoldására. A Wired azt találta, hogy ahelyett, hogy algoritmusainak módját különböztette volna meg a színes emberek és a gorillák között, a Google egyszerűen blokkolta képfelismerő algoritmusai a gorillák egyáltalán azonosításához.
A Google példája jó emlékeztető arra, hogy az AI szoftverek képzése nehéz feladat lehet, különösen akkor, ha a szoftvereket nem reprezentatív és sokféle embercsoport teszteli vagy képzi.