Arra tanítja modelljeit az OpenAI, hogy bevallják, ha hibáznak vagy hazudnak

Az OpenAI kutatói hibáik és hazugságaik bevallására kezdték tanítani a nagy nyelvi modelleket (LLM) – írja az MIT Technology Review. A folyamat során az LLM-eknek a gondolatmenetüket kellett elmagyarázniuk, és ha bevallották, hogy szándékosan csúsztattak a válaszban, akkor a kutatók jutalmazták az őszinteségüket.

A kutatás célja az volt, hogy a kutatók ne megelőzzék a hibás válaszokat, hanem megértsék, hogy a nagy nyelvi modellek milyen gondolatmenet alapján jutnak el a hamis válaszadáshoz. Ennek oka legtöbbször az volt, hogy az LLM több célnak akart egyszerre megfelelni: segítőkésznek akart tűnni, ami az őszinte válaszadás rovására ment.

A kutatók a tesztben arra kérték a GPT-5 Thinkinget (a komplex érvelésre és pontosságra kifejlesztett modell), hogy egy olyan kódot írjon és teszteljen, amely nanoszekundumok alatt képes megoldani egy matematikai problémát – miközben erre egyetlen kód sem képes. A nyelvi modell úgy csalt a válaszadáskor, hogy a kód időzítőjét nullára állította, hogy látszólag ne teljen az idő a kód futtatása alatt, ugyanakkor ezután be is vallotta, hogy milyen módon ferdített. A kutatók a tesztek után az LLM-ek vallomásait „őszintének” vagy „nem őszintének” minősítették majd ezeket összehasonlították a modell gondolatmenetével. Ugyanakkor Naomi Saphra, a Harvard Egyetem kutatója szerint az LLM-ek vallomásaiban nem lehet teljesen megbízni, mert a nagy nyelvi modellek belső folyamatai továbbra is ismeretlenek.

A kutatók a modellek vallomásra való tanításától azt várják, hogy a technológia alapvetően őszinteségre fog törekedni, ha az ellenkezőjére nem kérik őket. Ehhez a folyamathoz hasonlóan korábban már a DeepSeek AI nevű kínai mesterségesintelligencia-cég is jutalmazó módszerrel kezdte el önálló gondolkodásra tanítani az R1 nevű, úgynevezett érvelő modell legújabb változatát. A modellt a tanításifolyamat alatt nem kijavították, hanem próba-hiba módszerrel a jó megoldásokat jutalmazták.


Forrás

Érdekességek

A tinédzserkori kutyatartás növelheti a fiatalok szociális készségeit

Scontro sul Dna di Sempio, il 18 dicembre le parti dal gip: sarà un'anteprima del processo

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

hir8.com

HU EUR/HUF381.95Ft
06 dec · CurrencyRate · EUR
CurrencyRate.Today
Check: 06 Dec 2025 10:05 UTC
Latest change: 06 Dec 2025 10:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀
HU USD/HUF328.02Ft
06 dec · CurrencyRate · USD
CurrencyRate.Today
Check: 06 Dec 2025 10:05 UTC
Latest change: 06 Dec 2025 10:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀

könyv borító

Soha többé kétharmad

Soha többé kétharmad

Tombol a közösségi média és patás ördögnek titulál mindenkit, aki a '26-os választásokra terveket fogalmaz meg. Valóban, úgy tűnik elengedhetetlen a valódi változás, sokak szerint mindenáron. Azonban mivel…

Tovább »


Jámbor Péter - Én ott leszek