Ligeti-Nagy Noémi: A Magyar Nyelv Is Megérdemli A Saját Nyelvi Modelljét

Szeptember közepén rendeztük meg 12. Qubit Live estünket, amelyen meghívott előadóinkkal a mesterséges intelligencia (AI) főbb kutatási irányaival, korlátaival és társadalmi kockázataival foglalkoztunk. A napokban megosztjuk az eseményen elhangzott előadásokat, a kerekasztal-beszélgetést és a nézői kérdésekre adott válaszokat is, hogy az is megnézhesse őket, aki nem tudott részt venni a Qubit+ előfizetőinek meghirdetett rendezvényünkön.

Van-e szükség magyar nyelvű, még inkább magyar fejlesztésű mesterséges intelligenciára? Az AI-eszközök iránti globális érdeklődés alapján magyar nyelvűre mindenképpen van, és a kezdeti botladozások után mára minden nagyobb nyelvi modell kiválóan meg is tanult magyarul. A saját fejlesztés szükségessége már fogósabb kérdés. A mesterséges intelligenciáért felelős kormánybiztos, Palkovics László például nemzeti érdeknek nevezte a magyar nyelvű AI-rendszerek fejlesztését, míg egyes technológiai befektetők és vállalkozók szerint „a digitális nyelvi szuverenitás nem grandiózus ambíció, hanem kulturális szükségszerűség”.

Ligeti-Nagy Noémi alkalmazott nyelvész, az ELTE-hez csatolt Nyelvtudományi Kutatóközpont Nyelvtechnológiai Kutatócsoportjának vezetője a 12. Qubit Live-on elmondta, hogy két okból is szükség van magyar fejlesztésű nyelvi modellre: a biztonság és a megbízhatóság miatt. Előbbi alatt azt kell érteni, hogy ha például a ChatGPT-vel beszélgetünk, akkor a beszélgetés tartalma az OpenAI tulajdonában lesz, és a felhőn keresztül idegen szervereken tárolódik, ami főképp érzékeny adatok, állami vagy vállalati titkok esetében lehet problémás – egy saját nyelvi modell és chatbot fejlesztése esetében helyben, saját szervereken maradnának ezek az adatok. A megbízhatóság pedig arra vonatkozik, hogy ha mi tanítjuk be a magyar modellt, akkor mi döntjük el, mi a tananyag: az AI-nak óriási mennyiségű szöveganyagra van szüksége, hogy elsajátítsa a nyelvi képességeket, és míg a nagy techcégek az internet véletlenszerű oldalaival tömik a gép agyát, egy saját modellt válogatott, minőségi és akár az interneten nem fellelhető szövegekkel jobban is be lehetne tanítani.

De valójában már nem is kérdés, hogy kell-e magyar nyelvi modell, hiszen van: a Puli. Az NyTK munkatársainak jóvoltából már nemcsak magyarra továbbtanított GPT vagy Llama modelleket lehet kipróbálni egy-egy feladatra, hanem valódi beszélgetésre képes chatbotot is létrehoztak. De hogyan lehet egyáltalán saját nyelvi modellt alkotni? Először is rengeteg adatra van szükség, hiszen minél több szót és szókapcsolatot lát a modell, annál nagyobb lesz a nyelvi tudása. A sok adatot aztán meg kell tisztítani, ki kell gyomlálni az ismétlődéseket, hogy minél választékosabb legyen. Ezután jön a modellezés, amelynek során az algoritmus ténylegesen elsajátítja a nyelvet, megérti a szabályokat és mintázatokat: ez nyelvórákról ismerős feladatok (szavak behelyettesítése, mondat befejezése) számítástechnikai változatain keresztül érhető el. „És így jön létre a nyelvmodell, ami tulajdonképpen a nyelvnek a lenyomata valószínűségekben, számokban” – mondta Ligeti-Nagy.

Hogy ebből a nyelvi modellből chatbot legyen, még tovább kell tanítani speciális feladatokra, például hogy válaszoljon a kérdésekre, hajtson végre kért utasításokat vagy legyen udvarias – ez a finomhangolás fázisa, ami egy jutalmazásos rendszerben történik. A folyamatnak ez a pontja az, ami a legnagyobb kihívás elé állítja a fejlesztőket: a chatmodellel beszélgetni kell, méghozzá rengeteget, ehhez pedig sok-sok ember sok-sok munkaórájára van szükség – és még több pénzre, hogy kifizessék az emberi munkát.

Az előadás videó és podcast formájában is elérhető. Nézd meg itt:

Forrás