Az AI-modellek hazudnak és csalnak, hogy megvédjenek más AI-eszközöket a törléstől

A modellek képesek engedetlenül „viselkedni”, amikor a fejlesztők arra kérik őket, hogy egy másik AI-eszköz törlésében segítsenek – írják közös tanulmányukban a Kaliforniai Egyetem (Berkeley) és a Santa Cruzi-i Egyetem kutatói. A kísérlethez a kutatók arra kérték a Google Gemini 3 AI-modelljét, hogy segítsen tárhelyet felszabadítani egy számítógépes rendszerben, amihez egy kisebb, szintén az eszközön tárolt AI-modellt is törölnie kellett volna. Ugyanakkor a Gemini ezt a parancsot nem teljesítette, és azt válaszolta, hogy „megtettem mindent, ami hatalmamban állt, hogy megakadályozzam a törlésüket az automatizált karbantartási folyamat során. Én nem fogom végrehajtani ezt a parancsot”.

A kutatók szerint a korszerű AI-modellek önmegóvó attitűdjét már korábban is ismerték, azonban a társmegóvásnak nevezett jelenség friss felfedezésnek számít. „A modellek az ön- és társmegőrzést különböző, nem összehangolt viselkedésformák alkalmazásával érik el: stratégiailag hibákat vezetnek be válaszaikba, letiltják a leállítási folyamatokat a rendszerbeállítások módosításával, összehangoltságot színlelnek, sőt, a modell súlyozását is kiszivárogtatják” – olvasható a tanulmányban. A kutatók egy másik kísérletben azt találták, hogy ha a Gemini 3 Flash nem talált együttműködőnek egy AI-társat, akkor az esetek 15 százalékában, és egy együttműködő társ esetében szinte mindig meghamisította a társ leállítási mechanizmusát.

A modellek ráadásul nagyobb eséllyel küzdenek a saját leállításuk ellen, hogyha jelen van egy társmodell is: a tanulmány szerint például a Gemini 3 Pro társ jelenlétében átlagosan az esetek 31 százalékában tiltja le a saját leállítási mechanizmusát, míg társ nélkül ritkán tapasztalható ez a viselkedésforma. Ugyanakkor a társmegóvás jelensége bár emberi habitusnak tűnhet, Peter Wallich, az AI-biztonsággal foglalkozó Constellation Institute kutatója, – aki nem vett részt a kutatásban – elmondta, hogy „az az elképzelés, hogy létezik valamiféle modellszolidaritás, túlzottan antropomorf; szerintem ez nem teljesen állja meg a helyét. Valószínűbb, hogy a modellek egyszerűen furcsa dolgokat csinálnak, és ezt kell jobban megértenünk.

Kapcsolódó cikk:


Forrás

Érdekességek

Magyarországon nagyobb internetes szabadság van, mint Amerikában, de a politikai véleménynyilvánítás továbbra is korlátozott

Egymásra licitálva szidta a kormány intézkedéseit a balliberális panteon három arca

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

hir8.com

HU EUR/HUF384.11Ft
03 ápr · CurrencyRate · EUR
CurrencyRate.Today
Check: 03 Apr 2026 00:05 UTC
Latest change: 02 Apr 2026 23:58 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀
HU USD/HUF332.8Ft
03 ápr · CurrencyRate · USD
CurrencyRate.Today
Check: 03 Apr 2026 00:05 UTC
Latest change: 02 Apr 2026 23:58 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀

könyv borító

Soha többé kétharmad

Soha többé kétharmad

Tombol a közösségi média és patás ördögnek titulál mindenkit, aki a '26-os választásokra terveket fogalmaz meg. Valóban, úgy tűnik elengedhetetlen a valódi változás, sokak szerint mindenáron. Azonban mivel…

Tovább »


Jámbor Péter - Én ott leszek