-- Olvasási idő kb.: 1 perc és 5 másodperc
A mesterséges intelligenciát (AI) használó modellek által generált szintetikus tartalmak olyan szinten elárasztották az internetet, hogy kutatók szerint az ezeket működtető „üzemanyag”, vagyis az emberek által létrehozott adatok (szövegek, képek stb.) visszafordíthatatlanul beszennyeződnek – írja a Register nevű techszaklap.
Mint írják, az internet AI-generált szövegekkel való telítődése egyre nagyobb ütemben zajlik, és ez nemcsak azért baj, mert esetenként hamis információk kerülnek az emberek elé, hanem aktívan szabotálhatja az AI-modellek következő generációjának fejlesztését.
A modellek ugyanis az elérhető adathalmazból tanulnak, márpedig 2022 előtt szinte az egész internet ember által előállított szövegekből, képekből és más adatokból állt, a ChatGPT és az első képgenerátorok megjelenése óta azonban vészesen terjednek a mesterségesen generált adatok. Ez egy olyan körforgást idéz elő, aminek során a gép egyre nagyobb mértékben saját magától tanul, és a valóságtól egyre inkább elszakadó szintetikus adatokat dolgozza fel újra és újra.
A ChatGPT mint atombomba
Maurice Chiodo, a Cambridge-i Egyetem Egzisztenciális Kockázatok Kutatóközpontjának munkatársa ezt a válságot az alacsony háttérsugárzású acél helyzetéhez hasonlítja – ez minden olyan acélt takar, amit az első atombombák robbantása előtt gyártottak, így még nem szennyeződött a gyártásához szükséges légköri oxigénben található radioaktív sugárzással.
Szerinte ehhez hasonlóan a 2022 előtt létrehozott adatok ma tisztának számítanak, az újabbak pedig potenciálisan szennyezettnek minősülnek. Chiodo szerint az egyre inkább szennyezett adatkörnyezet megtisztítása valószínűleg lehetetlen, így a tiszta adatokhoz való hozzáférés hamarosan az AI-ipar legértékesebb erőforrásává válhat.