MEGOSZTOM

Arcanum, ahol a múlt visszakereshető

A rendszerváltás idején létrejött Arcanum Adatbázis Kiadó kulturális tartalmak tömeges digitalizálásával, adatbázisokba rendezésével és publikálásával foglalkozik. Az alapító-tulajdonossal, Biszak Sándorral Szűcs László beszélgetett.

Honnan és hogyan jutott el a mai Arcanumig?

Vegyészként végeztem az ELTE-n, s számomra viszonylag hamar kiderült, az én vegyészkedésem félreértés. Amikor a pályaválasztásra került sor, a Richter Gedeon gyógyszergyár könyvtárába kerültem. Ez 83-ban fantasztikus helynek számított, ott már volt internet, nemzetközi adatbázisokat értünk el tárcsázós telefonnal. Végzett vegyészként a kutatókat segítettem az információk beszerzésében. Az volt a meglepő, hogy ha magyar adatokat, szabadalmakat kerestünk, akkor is Amerikából kellett kikérnünk ezeket. Egy évig voltam ott, akkoriban Magyarországon már alakultak a kisszövetkezetek, egy ilyenhez kerültem, ahol az addigi munka folytatását céloztuk meg. Készítettünk egy szabadalmi adatbázist, akkor még floppy lemezen, s havonta hordtuk ki az előfizetőknek. 

– Ez az adatbázis már tekinthető az Arcanum ősének?

– Az Arcanumot 1989-ben alapítottuk közösen a szabadalmi hivatallal, a rendszerváltás idején, akkor már voltak CD-ROM-ok. Mi 91-ben adtuk ki az első CD-ROM-ot, majd megcsináltuk a Bibliát előbb floppyn, később CD-n is. 1996-97-ben lett ez elsősorban magyar cég. Elindult a CD gyártás, Verstár, Ady-összes, Mikszáth-összes, Jókai-összes, alapművek, Pallas lexikon, ezeket raktuk mind CD-re. Voltak megbízásaink az Országos Széchényi Könyvtártól, illetve a Nemzeti Levéltártól. Akkoriban még az volt a divat, hogy gépeltük a szövegeket, ahogy a kiadókban, a szerkesztőségekben is csinálták. Valamikor a 2000-es évek elején jelent meg a Google Books, onnan kezdve már nem bajlódtunk beírással, hanem automatikusan szövegeket állítottunk elő, ez az úgynevezett OCR technika, az elkészült szövegekben pedig keresni is lehetett. Ez változtatta meg a világot, meg a mi gondolkodásmódunkat. Azt soha nem is tudtuk volna újragépelni, amit Magyarországon jó százötven év alatt ötven-hatvan nyomda ólomban kiszedett. 

Utólag jó döntésnek bizonyult, hogy előbb a periodikákat kezdtük el feldolgozni, mert a különböző lapok annyira személyesek, annyira benne van szinte mindenki. Különösen a napilapok jelentetnek olyan mennyiségű adatot, valamilyen formában szinte mindenki benne van ezekben. A tudományos folyóiratokkal kezdtük, az országos napilapok feldolgozásától rettegtünk, megoldhatatlanul nagy feladatnak tűnt. Akkoriban jutottunk hozzá egy Népszava-sorozathoz, amit éppen ki akartak dobni. Megpróbáltuk mindenféle kockázat és kötelezettség nélkül feldolgozni, s egészen jól működött. Ettől a pillanattól mondhatjuk, hogy tömeges digitalizációt végzünk.

– Milyen anyagmennyiséget jelent a mai napig ez a tömeges digitalizáció?

– Azt szoktuk mondani, jelenleg 55-60 millió oldal körül tartunk. Három nagy szolgáltatásunk van, az egyik az Arcanum Digitális Tudástár, az ADT, ott elértük a 39 millió oldalt, s szeretnénk a nyár folyamán átlépni a negyvenmillió oldalt, azaz elérni a 4 kilométert. A másik a Hungaricana, ami egy könyvtárakkal, levéltárakkal közös adatbázis, ott 15-20 millió oldal anyag érhető el, s van a Szaktárs nevű szolgáltatásunk, amiben húsz kiadó összes könyve tesz ki 6-8 millió oldalt. Ma már minden olyan jelentős folyóirat elérhető nálunk, amelynek digitalizálását engedték, a kiadók nem engedték a Nők Lapját, a HVG-t és a Magyar Narancsot

Érdekes kérdés, hogy az idők során egyáltalán mi marad fenn. Nagyon sok emigráns lappal találkoztunk a New Brunswick-i könyvtárban, onnan hoztunk el anyagokat, s ez alapján mondhatom, hogy az amerikai magyar emigráns sajtó 80-85 százaléka elveszett, elpusztult. Összességében a hozzáférhető magyar nyelvű lapok mintegy 75-80 százalékának feldolgozásánál tartunk, ha egyáltalán meg tudjuk mondani, mit jelent a száz százalék.

– Manapság is bukkannak fel kuriózumok?

– Egyre ritkábban. Ugyanis mind nehezebb a hiányzó lapokat, évfolyamokat pótolni. Kezdetben csak teljes gyűjteményeket digitalizáltunk, ma már ha tíz-húsz évfolyamból megvan egy-kettő, akkor is megcsináljuk, bízva abban, hogy előkerül a többi. 

– Egyáltalán hogyan lehet rábukkanni ilyen anyagokra?

– Ennek a harminc évnek köszönhetően rengeteg személyes kapcsolatunk alakult ki, járjuk a könyvtárak, levéltárak raktárait. Ez egyre sziszifuszibb munka. Szerencsére a gyűjtők is felfigyeltek már ránk, néha egészen különleges anyagokat tudnak szolgáltatni.

– Tudna olyan példákat mondani, amik az erdélyi magyar sajtó múltjából hiányoznak? 

– Például tudunk a Székely Nép című lapról, de példányaihoz még nem jutottunk. Sokszor az a nehézség is előáll, hogy nem tudjuk pontosan, mit is keresünk. Például nem gondoltam volna, hogy a rendszerváltás után létezett romániai magyar sportnapilap, de ma már vannak nálam 90-91-es lapszámok. Fogalmam sincs, meddig működött. Ezek a számok is egy olyan dobozból kerültek elő más lapokkal együtt, amit ki akartak dobni. Sokan bíráltak engem azzal, hogy a mennyiség megszállottja vagyok, aki nem figyel az apró részletekre. Ám meggyőződésem, hogy a mi anyagunk sikere arra épült, hogy elértük azt a kritikus tömeget, amikor az emberek már nem azt mondják, hogy ez vagy az a lap nincs meg, hanem azt, hogy túl sok van. Egyébként éppen egy másik romániai lap, a Jóbarát gyermekmagazin évfolyamain dolgozunk.

– Mit jelent ez a mi? Mekkora az Arcanum csapata?

– Összesen 25-30 munkatársunk van, közülük 6-7-en szkennelnek, 14-15-en OCR-eznek, a feldolgozást csinálják, van 2-3 képzett programozónk, illetve a csapat, amely a kötészetet csinálja. Ez egy stabil közösség, jó részük két-három évtizede együtt dolgozik. Többnyire a barátaimmal, ismerőseimmel indultunk, igazából az ELTE tollaslabda csapatával, s ma már a gyermekeim osztálytársai, barátai közül is csatlakoztak.

– Ez közhasznú tevékenység, ami üzleti alapon működik. Van lehetőségük támogatásokhoz jutni?

– Nekünk ugye két alapvető tevékenységünk van, a már említett Hungaricana az egyik. Ott, ha egy adott intézmény pályázik, vagy mi, akkor szabadon felhasználhatóan tesszük fel az anyagot. Ha viszont mi ruházunk be, akkor az ADT-re tesszük fel. Ilyen értelemben ritkán pályázunk, de ha mégis, az nem az ADT-re kerül. Ahhoz szigorúan tartjuk magunkat, hogy az saját, azt mi fejlesztjük, mi finanszírozzuk, s mi szedjük be az előfizetési díjakat is.

– Milyen hasonló külföldi példák vannak erre a munkára?

– A környező országok helyzetét viszonylag jól ismerem, egyedül Ausztriában van az Arcanumhoz mérhető szolgáltatás, azt az Osztrák Nemzeti Könyvtár csinálja. Mennyiségi és minőségi tekintetben is előttük járunk, például nálunk működik az arcfelismerő funkció, s a szkennelés minősége is jobb, ahogy a keresésé is. Az arcfelismerőt sokan használják, népszerű, feltöltik a nagypapa képét, abban bízva hátha találnak valamit…

Az angol nyelvű oldalak közül a legnagyobb a Newspapers.com, ezt a mormon egyház működteti. Hogy érzékeljük a kicsiségünket, nekik több mint 700 millió oldal feldolgozott anyaguk van, elsősorban a regionális, megyei, városi lapok Amerikából, ugyanis ezek fontosak a családfakutatásban. Nem ingyenes, de fillérekért használható. Talán a hollandoknál működik még a miénkhez hasonló módszer. Az ilyen oldalak leginkább a keresésnél akadnak el, pedig a teljes keresés az, ami az egészet éltetheti. 

Én 1983-ban tanultam meg, hogyan kell létrehozni egy kereshető adatbázist. Lévén, hogy ez akkor magától értetődő volt, csodálkozom, hogy a 2020-as években is képesek a kereshetőség lehetősége nélkül archívumokat létrehozni. Persze akadnak speciális, a keresést nehezítő tényezők, a német anyagok esetében például a gót betűk.

– Gondolom, ez a probléma előállhat a cirill betűs régi román sajtóanyagok feldolgozása esetében is?

– Abszolút, az ószláv szövegekre még nekünk sincs megoldásunk.

– Az Arcanum a román piacra lépést is megtette. Mi ennek a története?

– Bárdi Nándor vezérletével Marosvásárhelyen a megyei könyvtárban feldolgoztuk az ott fellelhető magyar nyelvű lapokat. Óriási szerencsére a román igazgató azt mondta erre: milyen jó ötlet. Azóta több román könyvtárral is felvettük a kapcsolatot, többnyire pozitívak a tapasztalataink. A legismertebb lapokat már Vásárhelyen megcsináltuk: România literară, Scînteia, a helyi Steaua Roșie, még a Sportult is. Ezeket fel is tettük az adatbázisba, s amikor volt már értékelhető mennyiségű anyagunk, akkor igyekeztünk felvenni a kapcsolatot más könyvtárakkal. Ugyancsak igen pozitív fogadtatásban volt részünk Nagyszebenben, kezdetben Váradon is, a megyei könyvtárban, viszont amikor aláírásra került volna a szerződés, a megyei önkormányzat elnöke ezt leállította, mondván, hogy nem biztosítunk hozzáférést a könyvtárnak az adatbázishoz, s nem adjuk át a digitális anyagot, holott ezeket a szerződés egyértelműen tartalmazta. Jelzem az adatbázishozzáférés azóta is fennáll, jelezve együttműködési készségünket. Annál inkább örülök a szebeni kapcsolatnak, ennek is köszönhetően a román sajtóanyagok tekintetében már 3-4 millió oldalnál tartunk, ami adatok tekintetében még többet is jelent, hiszen a régi román napilapok jó része hatalmas, A2 formátumú.

– Milyenek az Arcanum látogatottsági adatai?

– Mintegy tízezer magánelőfizetőnk van, s körülbelül 350 intézményi, könyvtár, levéltár, egyetem. A romániai piac esetében még dolgoznunk kell ahhoz, hogy elérjük a kritikus tömeget, bár közelítünk ehhez. Legújabban a Iași-i egyetemi könyvtárral kerültünk szoros kapcsolatba. Úgy látom, a román nyelvű anyagok tekintetében jövő év végére érhetjük el azt a szintet, hogy a Digi24 hírtévében hirdetést helyezzünk el, vagy pr-cikket egy olvasott román napilapban.

– Más irányban is terjeszkednének a régióban?

– Meglepően jól indult el a szlovákiai vonal. A kassai tudományos könyvtárból kerestek meg, sajnos éppen a szerződésünk aláírása előtt tört ki az orosz-ukrán háború, aminek következtében a szlovákiai állami intézményeknek, így a közgyűjteményeknek ideiglenesen megtiltották, hogy külföldiekkel szerződjenek. Hasonló korlátozást se Romániában, se Magyarországon nem tapasztaltam. Azerbajdzsánba is hívtak, az ottani nemzeti levéltár, könyvtár és az Akadémiai Könyvtár  vezetőivel tárgyaltunk, már túl is vagyunk egy nagyon sikeres demonstrációs rendszeren, ahol az azeri nyelv minden finomságát sikerült implementálni. Alá is írtuk az együttműködési szerződést, most a feldolgozás tömegesítése a cél.

– Szokott-e felhasználóként böngészni az Arcanumon?
– Bizonyos értelemben mindent nagy örömmel forgatok. Furcsa dolog az, hogy első megközelítésből majd minden régi lapszám érdektelen, mondjuk amikor a Revista de Chimie-t, a Metalurgica-t digitalizáltuk, netán a Bridzsélet folyóiratot, vagy a Postai és Távközlési Értesítőt, akkor nem egyszer mondogattam, tiszta hülyék vagyunk. De amikor az egész összeáll, egy teljes gyűjtemény, akkor elképesztő dolgokat képes adni. Egészen izgalmas lapok kerülnek a kezünkbe, mondjuk Iași-ban a Realitatea Ilustrată 1942-es számai, amiket személyesen digitalizáltam. Nekem az egyik szívügyem a sport, ezért is örülök régi sportlapok felbukkanásának. Érdekes számomra megnézni egy régi magyar-román meccs sajtóvisszhangjait az ellenfél szemszögéből. Vagy álmomban sem gondoltam volna, hogy létezett a két világháború között román nyelvű, kifejezetten színházi napilap, mint amilyen a Rampa volt. Ugye, azt szokás mondani, nincs érdektelenebb, mint a tegnapi újság, miközben nincs érdekesebb, mint egy százéves. Amivel még érdekesebbé tudjuk tenni, az a kereshetőség, nem csupán lapozgatni lehet. Mindenkinek ott van a nyoma a sajtómúltban, ha más nem, egy sor az iskolai értesítőben. Mi azt az egy sort is segítünk megtalálni.