EAMTko artikulu onenarentzako Springer saria IXA taldeari!

Europako Itzulpen Automatikoaren Elkartearen (EAMT) kongresuan artikulu onenarentzako Springer Saria eman digute IXA taldekooi. Hau poza!

EAMTaward

EAMT09 Kongresua Bartzelonan izan da maiatzaren 14 eta 15ean. Aurtengoan gai nagusia hau izan da: “Itzulpena Europako hizkuntzen artean, bereziki hiztun komunitate txikiak eta baliabide digital mugatuak dituzten hizkuntzetarako“.
IXA taldearen artikulua gai horren barruan bete-betean sartzen zenez, espainieraren preposizioak (eta kasu gramatikalak ere) itzultzeko teknika berria asmatu denez, eta gainera emaitza ederrak aurkezten zirenez, aukera ezin hobea izan dugu horrelako sari preziatu bat lortzeko.

Kongresura 54 artikulu bidali ziren munduko 24 estatutik. Hortik 22 artikulu onartu gabe geratu ziren, 18 onartu ziren poster moduan, eta beste 14ak artikuluaren aurkezpen publiko egiteko. Eta 14 horien artean aukeratu dute sariduna. Artikulu osoa IXA taldeko web orritik jaitsi daiteke, baina saiatu gara hemen ondoan azalpen sinplifikatu bat ematen:

Beste hainbat hizkuntzarekin gertatzen den bezala, zailtasun handiak aurkitzen ditu Matxin itzulpen sistemak erdarazko preposizio bat euskarara zuzen itzultzeko. Adibidez: Nola itzuli “de” preposizioa? Zaila da, aukerak gutxienez lau dira:

  • -ko:
    el tejado DE mi casa / nire etxeKO teilatua
  • -ren:
    el tejado DE Miren / MirenEN teilatua
  • -tik:
    vengo de casa / etxeTIK nator
  • marra bat:
    leche DE vaca / behi-esnea

Gure ikerketan hiru teknika landu ditugu preposizioak itzultzeko,

  1. Eskuz egindako erregelak. Adibidez: bizidunekin DE proposizioa itzuli -REN genitiboarekin, aldiz bizigabeekin -KO genitiboarekin itzuli.

  2. Corpusean (testu erraldoietan) kontatu dugu aditz bakoitza kasu-konbinaziorekin zenbatetan azaltzen da. Horrela erdarako esaldi bat itzuli behar dugunean esaldiko aditza euskarara itzuli eta euskarazko aditzaren kasu konbinazio ohikoena aukeratzen dugu erdarazko esaldiko preposizio guztien itzulpenekin bat datorrena.

  3. Hirugarren teknika antzekoa da, baina esaldietan kontatzen ditugun konbinazioak ez dira esaldiko kasu guztiena, (aditz, kasu, izen) hirukoteen maiztasunak baizik, hau da zenbatetan azaltzen den aditz bakoitza, kasu bakoitzarekin eta kasu horren barruan dagoen izen bakoitzarekin. Askoz gauza gehiago kontatu behar da azken aukera honekin! Zailagoa da datu nahikoak lortzea corpusetik!

Itzultzeko teknika klasikoa (erregelak) eta corpusean oinarritutakoak (estatistika) uztartu ditugu. Emaitzak onak izan dira. Pena, beti ezin izan dira hiru teknikak erabili, corpusean datu nahikorik ez zegoelako edo; baina, hala ere, Matxin hobexeago dabil hiru teknika hauek bata bestearen atzetik erabilita. Ederto!

Zorionak egileei: Eneko Agirre, Aitxiber Atutxa, Gorka Labaka, Mikel Lersundi, Aingeru Mayor and Kepa Sarasola!

Azterketa honen oinarrian askoren lana dago: corpusa bildu, izan sintagmak bereizteko analizatzaile morfosintaktikoa, corpusa analizatu, aditzen azpikategorizazioak definitu, EuskalWordnet osatu, bertatik bizidunak eta bizigabeak zein diren bereiztu, makinak mantendu, kontuak eraman…Beti gabiltza berrerabiltzen!

Beraz, zorionak IXA taldeko guztiei!

Iruzkinak (1)

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude