
Ahogy a járdán sétálva megpillantunk egy mellettünk elhaladó autót, egyszerre általában csak két, vagy legfeljebb három kerekét látjuk, mégis szinte rögtön biztosra vesszük, hogy az adott autó négy keréken gurul. Ez jól illusztrálja, hogy agyunk nem csak fokozatosan állítja össze a környezetünkről alkotott képet apró képrészletekből, hanem a világról meglévő tudásunkra is támaszkodik azok értelmezéséhez.
A környezetünkről kapott vizuális információ egyszerűen nem elégséges ahhoz, hogy magabiztosan tudjunk következtetni arra, valójában mi is történik körülöttünk, mondja a Qubitnek Orbán Gergő, a HUN-REN Wigner Fizikai Kutatóközpont Komputációs Rendszerszintű Idegtudomány „Lendület” Kutatócsoportjának vezetője, aki kollégáival egy mesterséges intelligencia (AI) modellt használt az emberi látás működésének jobb megértéséhez.

Ahhoz, hogy ténylegesen értelmezni tudjuk a látottakat, fel kell használnunk azt is, amit a világ működéséről tudunk, például hogy az autók jellemzően négy keréken guruló, stabil objektumok. Orbán és kollégái szerint az, hogy a világ működésére hagyatkozunk a látottak értelmezéséhez, összefüggésben áll az agy anatómiai felépítésével is.
A Nature Communications folyóiratban pénteken közölt tanulmányukban a magyar kutatók egy generatív, mély tanulási (deep generative) modellt mutatnak be, ami reményeik szerint nemcsak az emberi látókéregben zajló számítási folyamatok megértését mozdítja elő, hanem támpontokat ad majd a kísérleti idegtudománnyal foglalkozó kutatóknak is, hogy mit vizsgáljanak, és miként optimalizálják úgy állatkísérleteiket, hogy a legtöbb információt nyerjék a vizuálisinformáció-feldolgozás folyamatáról.
A generatív AI-modellek bepillantást engednek az emberi látókéreg működésébe
Ez a feldolgozás, különösen a főemlősökben, egy erősen hierarchikusan szerveződő látókéregben történik, ahol az alsóbb területektől a felsőbbek felé haladva az idegsejtek egyre nagyobb térrészek és egyre bonyolultabb információk elemzését végzik.
A hierarchikusan szerveződő látókéreg megértésében, írják tanulmányukban, egyre inkább központi szerepet játszanak a mély tanulási modellek. Ezek a képek feldolgozását jellemzően előrecsatolt módon végzik, vagyis az információ a feldolgozó rétegeken át kizárólag egyirányba, az alacsonyabbaktól a magasabb szintű „területek” felé áramlik. Ilyenek azok a célorientált vizuális modellek is, amik lehetővé teszik, hogy telefonjaink fotókönyvtárai megmondják, hogy egy általunk lefotózott növény vagy állat jó eséllyel milyen fajba tartozik.










