
Az Eötvös Loránd Tudományegyetem (ELTE) vezetésével működő Digitális Örökség Nemzeti Laboratórium (DH-LAB) és az Erdélyi Digitális Tudománytár (Digitéka) közös projektje keretében több százezer oldalnyi erdélyi magyar sajtóanyag vált kereshetővé és hosszú távon megőrizhetővé, adja hírül az ELTE.
A munka első szakaszában 26 erdélyi történeti újság mintegy 273 ezer oldalnyi képfelvételét alakították kereshető szövegfájlokká optikai karakterfelismerés (OCR) segítségével, majd további 60 ezer oldalnyi anyagot.
Így összesen 333 492 oldal magyar nyelvű erdélyi sajtóanyag feldolgozása készült el. Az elkészült állományokat a Digitéka számára kétrétegű, kereshető PDF formátumban, egységes vízjellel ellátva adták át. A projekt nem pusztán a digitalizálásról szólt, az OCR-folyamatok hatékonyságának növelése érdekében a projektben résztvevő felek – az ELTE kutatási és fejlesztési kompetenciáira és infrastruktúrájára is támaszkodva – közösen fejlesztették a dokumentumok szerkezeti felismerését végző, úgynevezett layout analysis rendszert. Ez az adatállomány egy olyan, kifejezetten az erdélyi és magyar történeti dokumentumokra optimalizált layout-felismerő rendszer kialakítását alapozza meg, amely számottevően javítja az OCR eredmények pontosságát.
Kapcsolódó cikkek a Qubiten:








