Bihar, abenduaren 18an, UEUk Errenteriako Udalarekin elkarlanean antolatutako Humanitate Digitalak Euskal Herritik I. Jardunaldiak izango dira online. Besteak beste, Euskal Wikilarien Elkartearen eta UEUren Humanitate digitalen inguruko euskarazko ikerketa sustatzeko 2019ko deialdiaren lan sarituen aurkezpena egingo da. Sarituetako bat Dabid Lindemann eta Mikel Alonsoren “Larramendiren hiztegia Wikisource eta Wikidatara” lana izan da.
Larramendiren Hiztegi Hirukoitza (1745) eta eredu izan zuen Real Academia Españolaren Diccionario de Autoridades (1726-1739) hiztegien edukietatik abiatuta digitalizazio lan-fluxu osoa garatzea izan da zuen proiektua. Zein helbururekin?
Proiektuaren helburu orokorra izan da hiztegi historikoen digitalizazio lan-fluxua garatu eta ebaluatzea Larramendiren hiztegia erakuskaritzat hartuta. Larramendiren hiztegia XVIII. mendekoa izanik, hainbat zailtasun ditu digital bihurtzeko orduan; hala nola, sarreren kanpoko eta barruko antolamenduan duen koherentzia falta. Hiztegi hori digital bihurtu eta formatu egituratu batean jasotzeko gai izango bagina, ondorengo beste edozein hiztegirekin antzeko prozesua burutzeko gauza izango ginatekeela – horixe izan zen hasierako hipotesia.
Zer dute berezi bi hiztegi horiek?
Larramendiren Hiztegi Hirukoitza euskal hiztegigintzaren lan klasiko handia izan arren, eskaneatutako irudi bilduma gisa baino ez dago eskuragarri, egun arte. Diccionario de Autoridades, Larramendiren garaiko ereduzko hiztegia, Real Academia erakundeak digitalizazio osoa burutu arren, liburu fisiko gisa soilik dugu eskuragarri. Bertsio digitalaren edukiak banan-banako kontsultak eginez eskuragarriak dira, Real Academiak sortutako interfaze baten bitartez. Bi hiztegien arteko lotura eskuz aztertu izan dute, hau da, lagin txikietan oinarrituta; baina bien eduki osoak ezin izan ditugu ikerketarako aintzat hartu. Bestetik, Larramendiren hiztegiko gaztelaniazko sarrerek euskarara bidaltzen dute; eta aurkibidea, hau da, euskaratik gaztelaniara bidaltzen duen alderantzizko bertsioa, ezin izan da ekoitzi, egun arte. Hutsune horiek betetzeko ekarpena egin nahi dugu.
Zein izan da zuen lanaren prozesua?
Lehenik, Larramendiren faksimile orrialdeetan, Donostiako Koldo Mitxelena Liburutegiak eskaneatuta, OCR prozesua burutu dugu; hau da, karaktereen ezagutza optikoa, hiztegi-testua formatu digitalean lortzeko. Kraken izeneko tresna erabili dugu horretarako, ikasketa automatikoan oinarritzen dena. Hainbat orrialde eskuz transkribatu eta Kraken tresna informazio horrekin elikatuta, %98ko doitasuneko transkripzioa lortu dugu, orain arte eskuragarri zeuden transkripzioen doitasuna nabarmen gailenduz. Transkribatutako orriak eta faksimilearen bertsio bat Wikiteka plataformaren bitartez argitaratu ditugu, auzolanean OCR prozesuan gertatutako hutsak zuzen ditzagun. Bigarrenik, OCR prozesuko emaitzak Elexifier tresnaren bitartez XML egituratu batean jasotzeko ahalegina egin dugu. Tresna hori ere ikasketa automatikoan oinarritzen da. Hiztegi testuan, sarreren arteko mugak, eta sarreren barruan, item lexikografikoen arteko mugak zehazten saiatzen da Elexifier tresna, eskuz anotatuko lagin baten ebidentziatik abiatuta. Aldi berean, arau multzo bat definitu dugu eginbehar bera burutzeko; hau da, sarrerak banatu eta zatitzeko. Bi metodoon emaitzak alderatu egin ditugu, eta ikusi dugu emaitza osagarritzat har daitezkeela: metodo biek hainbatetan huts egiten dute, baina arazo ezberdinen aurrean. Hirugarrenik, Larramendiren hiztegitik lortutako zerrendak (gaztelaniazko sarrera-buruak eta euskarazko ordainak) Diccionario de Autoridadeseko lemategiarekin, alde batetik, eta, bestetik, zenbait euskal hiztegien lemategiekin konparatu ditugu. Azkenik, lagin baterako, Larramendirenean aurkitutako euskal lexemen agerpenak Wikidatan jasotzeko proposamena egin dugu, Wikidatako attested in (non jasoa) propietatea erabiliz.
Wikimedia proiektu bat edo gehiago erabili eta indartzea izan behar zuen ikerketaren helburuetako bat. Zuen kasuan zein ekarpen egin du zuen lanak?
Larramendiren faksimilea eta %98ko doitasuneko transkripzioa Wikiteka plataforman erabilgarri daude orain. Bestalde, Wikidatako zenbait euskal lexemek Larramendiren hiztegiko erreferentzia daramate, Wikitekako Larramendiren bertsioko agertokira bidaltzen dituztenak. Transkripzioa hobetzen dugun heinean, Larramendiren euskal ordain guztientzat horrelako erreferentziak jartzea da urruneko helburua. Honezkero, Larramendiren hiztegiaren itzulpena izango genuke, euskaratik gaztelaniara bidaltzen duena; aldi berean, lexemaren inguruan Wikidatan jasotako erlazio guztiekin saretua izango delarik.