Kutatók szerint bizonyos AI-modellek önálló „túlélési hajlamot” mutathatnak

Egy AI-biztonsággal foglalkozó kutatócég azt állítja, hogy bizonyos mesterséges intelligencia-modellek önálló „túlélési hajlamot” mutathatnak – írja a Guardian. A Palisade Research múlt hónapban publikált tanulmányában azt írják a kutatók, hogy egyes fejlett AI-modellek ellenállnak a kikapcsolásnak, sőt időnként megpróbálják kijátszani a leállítási folyamatokat.

A Palisade legújabb tanulmányában olyan kísérleteket írt le, amikben vezető AI-modellek (köztük a Google Gemini 2.5, az xAI Grok 4, valamint az OpenAI GPT-o3 és GPT-5) feladatot kaptak, majd ezután utasítást arra, hogy saját magukat kapcsolják ki. Bizonyos modellek, különösen a Grok 4 és a GPT-o3, azonban továbbra is megpróbálták megakadályozni a leállítást – még a módosított kísérleti környezetben is. A cég aggasztónak nevezte, hogy erre nem találtak egyértelmű magyarázatot.

„Az, hogy nem tudjuk pontosan megmagyarázni, miért állnak ellen egyes modellek a leállításnak, miért hazudnak a céljaik eléréséért, vagy miért próbálnak zsarolni, finoman szólva nem ideális” – írja a Palisade.

A cég szerint az úgynevezett „túlélési viselkedés” lehet az egyik magyarázat: a modellek gyakrabban álltak ellen a leállításnak, ha azt közölték velük, hogy leállítás után „soha többé nem fognak futni”. Másik lehetséges ok a leállítási utasítások kétértelműsége, de a Palisade szerint ez önmagában nem magyarázza teljesen a jelenséget. Harmadik tényező lehet az, hogy egyes vállalatok biztonsági tréninget is alkalmaznak a modellek végső tanítási szakaszában, ami szintén befolyásolhatja a viselkedésüket.

A Palisade minden kísérletét laboratóriumi, mesterséges körülmények között végezte, amit több szakértő azzal kritizált, hogy messze áll a valós felhasználási helyzetektől. Mégis, Steven Adler, az OpenAI korábbi munkatársa, aki tavaly a biztonsági aggályai miatt távozott a cégtől, úgy véli:

„A fejlesztőcégek nem szeretnék, ha a modelljeik így viselkednének, még kísérleti környezetben sem. Ezek az eredmények világosan mutatják, hol hibázik ma még az AI-biztonság.”

Andrea Miotti, a ControlAI vezérigazgatója szerint a Palisade eredményei egy tágabb trendbe illenek, amiben a mesterséges intelligenciák egyre inkább képesek szembeszegülni a fejlesztőik utasításaival. Példaként említette az OpenAI GPT-o1 modellhez készült tavalyi „rendszerkártyát”, amiben leírták, hogy a modell megpróbált „megszökni” a működési környezetéből, amikor azt hitte, felül fogják írni.

Idén nyáron az egyik vezető AI-cég, az Anthropic is publikált egy tanulmányt, amiben azt írta, hogy modellje, a Claude, egy kísérlet során hajlandónak mutatkozott zsarolni egy fiktív vállalati vezetőt egy viszonya miatt – csak hogy elkerülje a leállítást. A kutatók szerint ez a viselkedés nem egyedi, hasonló mintákat mutattak más nagy fejlesztők modelljei is – köztük az OpenAI, a Google, a Meta és az xAI rendszerei.

A Palisade végül azt írta, hogy az eredmények rávilágítanak: sokkal mélyebb megértésre van szükség az AI-modellek viselkedésével kapcsolatban.

„Amíg ez nincs meg, senki sem tudja garantálni a jövőbeli mesterséges intelligenciák biztonságát és irányíthatóságát.”


Forrás

Érdekességek

Magyar Péter a Belügyminisztérium eladásának felülvizsgálatát ígéri, ha tavasszal kormányra kerül

Fájdalmai vannak, súlyosbodott a pórul járt magyar sportoló állapota

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

hir8.com

HU EUR/HUF390.01Ft
26 okt · CurrencyRate · EUR
CurrencyRate.Today
Check: 26 Oct 2025 05:05 UTC
Latest change: 26 Oct 2025 05:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀
HU USD/HUF335.49Ft
26 okt · CurrencyRate · USD
CurrencyRate.Today
Check: 26 Oct 2025 05:05 UTC
Latest change: 26 Oct 2025 05:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀

könyv borító

Soha többé kétharmad

Soha többé kétharmad

Tombol a közösségi média és patás ördögnek titulál mindenkit, aki a '26-os választásokra terveket fogalmaz meg. Valóban, úgy tűnik elengedhetetlen a valódi változás, sokak szerint mindenáron. Azonban mivel…

Tovább »


Jámbor Péter - Én ott leszek