Arra Tanítja Modelljeit Az OpenAI, Hogy Bevallják, Ha Hibáznak Vagy Hazudnak

Az OpenAI kutatói hibáik és hazugságaik bevallására kezdték tanítani a nagy nyelvi modelleket (LLM) – írja az MIT Technology Review. A folyamat során az LLM-eknek a gondolatmenetüket kellett elmagyarázniuk, és ha bevallották, hogy szándékosan csúsztattak a válaszban, akkor a kutatók jutalmazták az őszinteségüket.

A kutatás célja az volt, hogy a kutatók ne megelőzzék a hibás válaszokat, hanem megértsék, hogy a nagy nyelvi modellek milyen gondolatmenet alapján jutnak el a hamis válaszadáshoz. Ennek oka legtöbbször az volt, hogy az LLM több célnak akart egyszerre megfelelni: segítőkésznek akart tűnni, ami az őszinte válaszadás rovására ment.

A kutatók a tesztben arra kérték a GPT-5 Thinkinget (a komplex érvelésre és pontosságra kifejlesztett modell), hogy egy olyan kódot írjon és teszteljen, amely nanoszekundumok alatt képes megoldani egy matematikai problémát – miközben erre egyetlen kód sem képes. A nyelvi modell úgy csalt a válaszadáskor, hogy a kód időzítőjét nullára állította, hogy látszólag ne teljen az idő a kód futtatása alatt, ugyanakkor ezután be is vallotta, hogy milyen módon ferdített. A kutatók a tesztek után az LLM-ek vallomásait „őszintének” vagy „nem őszintének” minősítették majd ezeket összehasonlították a modell gondolatmenetével. Ugyanakkor Naomi Saphra, a Harvard Egyetem kutatója szerint az LLM-ek vallomásaiban nem lehet teljesen megbízni, mert a nagy nyelvi modellek belső folyamatai továbbra is ismeretlenek.

A kutatók a modellek vallomásra való tanításától azt várják, hogy a technológia alapvetően őszinteségre fog törekedni, ha az ellenkezőjére nem kérik őket. Ehhez a folyamathoz hasonlóan korábban már a DeepSeek AI nevű kínai mesterségesintelligencia-cég is jutalmazó módszerrel kezdte el önálló gondolkodásra tanítani az R1 nevű, úgynevezett érvelő modell legújabb változatát. A modellt a tanításifolyamat alatt nem kijavították, hanem próba-hiba módszerrel a jó megoldásokat jutalmazták.

Forrás