Ligeti-Nagy Noémi: A magyar nyelv is megérdemli a saját nyelvi modelljét

Szeptember közepén rendeztük meg 12. Qubit Live estünket, amelyen meghívott előadóinkkal a mesterséges intelligencia (AI) főbb kutatási irányaival, korlátaival és társadalmi kockázataival foglalkoztunk. A napokban megosztjuk az eseményen elhangzott előadásokat, a kerekasztal-beszélgetést és a nézői kérdésekre adott válaszokat is, hogy az is megnézhesse őket, aki nem tudott részt venni a Qubit+ előfizetőinek meghirdetett rendezvényünkön.

Van-e szükség magyar nyelvű, még inkább magyar fejlesztésű mesterséges intelligenciára? Az AI-eszközök iránti globális érdeklődés alapján magyar nyelvűre mindenképpen van, és a kezdeti botladozások után mára minden nagyobb nyelvi modell kiválóan meg is tanult magyarul. A saját fejlesztés szükségessége már fogósabb kérdés. A mesterséges intelligenciáért felelős kormánybiztos, Palkovics László például nemzeti érdeknek nevezte a magyar nyelvű AI-rendszerek fejlesztését, míg egyes technológiai befektetők és vállalkozók szerint „a digitális nyelvi szuverenitás nem grandiózus ambíció, hanem kulturális szükségszerűség”.

Ligeti-Nagy Noémi alkalmazott nyelvész, az ELTE-hez csatolt Nyelvtudományi Kutatóközpont Nyelvtechnológiai Kutatócsoportjának vezetője a 12. Qubit Live-on elmondta, hogy két okból is szükség van magyar fejlesztésű nyelvi modellre: a biztonság és a megbízhatóság miatt. Előbbi alatt azt kell érteni, hogy ha például a ChatGPT-vel beszélgetünk, akkor a beszélgetés tartalma az OpenAI tulajdonában lesz, és a felhőn keresztül idegen szervereken tárolódik, ami főképp érzékeny adatok, állami vagy vállalati titkok esetében lehet problémás – egy saját nyelvi modell és chatbot fejlesztése esetében helyben, saját szervereken maradnának ezek az adatok. A megbízhatóság pedig arra vonatkozik, hogy ha mi tanítjuk be a magyar modellt, akkor mi döntjük el, mi a tananyag: az AI-nak óriási mennyiségű szöveganyagra van szüksége, hogy elsajátítsa a nyelvi képességeket, és míg a nagy techcégek az internet véletlenszerű oldalaival tömik a gép agyát, egy saját modellt válogatott, minőségi és akár az interneten nem fellelhető szövegekkel jobban is be lehetne tanítani.

De valójában már nem is kérdés, hogy kell-e magyar nyelvi modell, hiszen van: a Puli. Az NyTK munkatársainak jóvoltából már nemcsak magyarra továbbtanított GPT vagy Llama modelleket lehet kipróbálni egy-egy feladatra, hanem valódi beszélgetésre képes chatbotot is létrehoztak. De hogyan lehet egyáltalán saját nyelvi modellt alkotni? Először is rengeteg adatra van szükség, hiszen minél több szót és szókapcsolatot lát a modell, annál nagyobb lesz a nyelvi tudása. A sok adatot aztán meg kell tisztítani, ki kell gyomlálni az ismétlődéseket, hogy minél választékosabb legyen. Ezután jön a modellezés, amelynek során az algoritmus ténylegesen elsajátítja a nyelvet, megérti a szabályokat és mintázatokat: ez nyelvórákról ismerős feladatok (szavak behelyettesítése, mondat befejezése) számítástechnikai változatain keresztül érhető el. „És így jön létre a nyelvmodell, ami tulajdonképpen a nyelvnek a lenyomata valószínűségekben, számokban” – mondta Ligeti-Nagy.

Hogy ebből a nyelvi modellből chatbot legyen, még tovább kell tanítani speciális feladatokra, például hogy válaszoljon a kérdésekre, hajtson végre kért utasításokat vagy legyen udvarias – ez a finomhangolás fázisa, ami egy jutalmazásos rendszerben történik. A folyamatnak ez a pontja az, ami a legnagyobb kihívás elé állítja a fejlesztőket: a chatmodellel beszélgetni kell, méghozzá rengeteget, ehhez pedig sok-sok ember sok-sok munkaórájára van szükség – és még több pénzre, hogy kifizessék az emberi munkát.

Az előadás videó és podcast formájában is elérhető. Nézd meg itt:


Forrás

Érdekességek

Zavaros és nevetséges magyarázatokkal állt elő a legismertebb baloldali Twitch-streamer, hogy áramütéssel idomítja-e a kutyáját

A zajos utak közelében nagyobb biztonságban érzik magukat a városi mókusok

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

hir8.com

HU EUR/HUF389.58Ft
18 okt · CurrencyRate · EUR
CurrencyRate.Today
Check: 17 Oct 2025 22:05 UTC
Latest change: 17 Oct 2025 22:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀
HU USD/HUF334.11Ft
18 okt · CurrencyRate · USD
CurrencyRate.Today
Check: 17 Oct 2025 22:05 UTC
Latest change: 17 Oct 2025 22:00 UTC
API: CurrencyRate
Disclaimers. This plugin or website cannot guarantee the accuracy of the exchange rates displayed. You should confirm current rates before making any transactions that could be affected by changes in the exchange rates.
You can install this WP plugin on your website from the WordPress official website: Exchange Rates🚀

könyv borító

Soha többé kétharmad

Soha többé kétharmad

Tombol a közösségi média és patás ördögnek titulál mindenkit, aki a '26-os választásokra terveket fogalmaz meg. Valóban, úgy tűnik elengedhetetlen a valódi változás, sokak szerint mindenáron. Azonban mivel…

Tovább »


Jámbor Péter - Én ott leszek