Kutatók Szerint Bizonyos AI-modellek önálló „túlélési Hajlamot” Mutathatnak

Egy AI-biztonsággal foglalkozó kutatócég azt állítja, hogy bizonyos mesterséges intelligencia-modellek önálló „túlélési hajlamot” mutathatnak – írja a Guardian. A Palisade Research múlt hónapban publikált tanulmányában azt írják a kutatók, hogy egyes fejlett AI-modellek ellenállnak a kikapcsolásnak, sőt időnként megpróbálják kijátszani a leállítási folyamatokat.

A Palisade legújabb tanulmányában olyan kísérleteket írt le, amikben vezető AI-modellek (köztük a Google Gemini 2.5, az xAI Grok 4, valamint az OpenAI GPT-o3 és GPT-5) feladatot kaptak, majd ezután utasítást arra, hogy saját magukat kapcsolják ki. Bizonyos modellek, különösen a Grok 4 és a GPT-o3, azonban továbbra is megpróbálták megakadályozni a leállítást – még a módosított kísérleti környezetben is. A cég aggasztónak nevezte, hogy erre nem találtak egyértelmű magyarázatot.

„Az, hogy nem tudjuk pontosan megmagyarázni, miért állnak ellen egyes modellek a leállításnak, miért hazudnak a céljaik eléréséért, vagy miért próbálnak zsarolni, finoman szólva nem ideális” – írja a Palisade.

A cég szerint az úgynevezett „túlélési viselkedés” lehet az egyik magyarázat: a modellek gyakrabban álltak ellen a leállításnak, ha azt közölték velük, hogy leállítás után „soha többé nem fognak futni”. Másik lehetséges ok a leállítási utasítások kétértelműsége, de a Palisade szerint ez önmagában nem magyarázza teljesen a jelenséget. Harmadik tényező lehet az, hogy egyes vállalatok biztonsági tréninget is alkalmaznak a modellek végső tanítási szakaszában, ami szintén befolyásolhatja a viselkedésüket.

A Palisade minden kísérletét laboratóriumi, mesterséges körülmények között végezte, amit több szakértő azzal kritizált, hogy messze áll a valós felhasználási helyzetektől. Mégis, Steven Adler, az OpenAI korábbi munkatársa, aki tavaly a biztonsági aggályai miatt távozott a cégtől, úgy véli:

„A fejlesztőcégek nem szeretnék, ha a modelljeik így viselkednének, még kísérleti környezetben sem. Ezek az eredmények világosan mutatják, hol hibázik ma még az AI-biztonság.”

Andrea Miotti, a ControlAI vezérigazgatója szerint a Palisade eredményei egy tágabb trendbe illenek, amiben a mesterséges intelligenciák egyre inkább képesek szembeszegülni a fejlesztőik utasításaival. Példaként említette az OpenAI GPT-o1 modellhez készült tavalyi „rendszerkártyát”, amiben leírták, hogy a modell megpróbált „megszökni” a működési környezetéből, amikor azt hitte, felül fogják írni.

Idén nyáron az egyik vezető AI-cég, az Anthropic is publikált egy tanulmányt, amiben azt írta, hogy modellje, a Claude, egy kísérlet során hajlandónak mutatkozott zsarolni egy fiktív vállalati vezetőt egy viszonya miatt – csak hogy elkerülje a leállítást. A kutatók szerint ez a viselkedés nem egyedi, hasonló mintákat mutattak más nagy fejlesztők modelljei is – köztük az OpenAI, a Google, a Meta és az xAI rendszerei.

A Palisade végül azt írta, hogy az eredmények rávilágítanak: sokkal mélyebb megértésre van szükség az AI-modellek viselkedésével kapcsolatban.