Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan :-(   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Azken egunak gure masterretan eta itzulpen-graduondokoan matrikulatzeko

Ixa Taldeak antolatzen dituen bi master eta graduondoko bat laster hasiko dira, oraindik geratzen dira egun batzuk matrikulatzeko:

  • UEU_IT_graduondokoa_BideoaItzulpengintza eta Teknologia graduondokoa. On-line ematen da itzultzaile profesionaleei eta  itzulpengintzako ikasleei espezializazio aukera eskaintzeko.  EIZIE, Langune, EHU eta UEUren artean antolatua.  Aurten 3. edizioa egingo da. Izena emateko epea irailaren 19an amaitzen da.
    Entzun bideo honetan bi ikasleren iritzia. Aupa itzultzaile hori.

 

 

  • HAP_diptiko_IrudiaHAP/LAP EHUko masterra Euskaraz eta ingelesez emango da, bietara:
    • Hizkuntzaren Azterketa eta Prozesamendua
    • Language Analysis and Processing.

    Informazio zehatzago hemen

 

 

 

 

2013-14 HAP masterreko tesien aurkezpenak (2014/09/17)

HAP_diptiko_IrudiaDatorren asteazkenean, hilak 17, 2013-14 ikasturteko HAP masterreko tesien aurkezpenak egingo dira Fakultateko Areto Nagusian. Lan interesgarri hauek masterrean ikasten denaren erakusgarria dira:

10:00 Analysis, Optimization and Development of an Answer Scoring System
Egilea: Iñigo Lopez-Gazpio
Tutorea: Montse Maritxalar

10:45 Ebaluatoia: crowd evaluation of English-Basque machine translation
Egilea: Nora Aranberri
Tutorea: Gorka Labaka

11:30 Euskararako HPSG gramatikaren lehen proposamena
Egilea: Jon Alkorta
Tutorea: Koldo Gojenola

15:45 Lehen urratsak bertsotarako gaien azterketa automatikoan: gaiaren erregistroaren predikzioa eta gaiaren eta bertsoaren arteko erlazio semantikoaren azterketa
Egilea: Ion Lizarazu
Tutorea: Bertol Arrieta Kortajarena

16:30 Izen-entitate eta Sentimenaren Analisia Frantsesez, Turismoaren Domeinurako Hurbilpena
Egilea: Andoni Azpeitia
Tutorea: Aitor Soroa

17:15 Hitzen arteko ahaidetasuna: teknikak eta ebaluazio aukerak
Egilea: Josu Goikoetxea
Tutorea: Eneko Agirre Bengoa, Aitor Soroa Etxabe

Tesia: EPEC corpusa predikatu-mailan etiketatzeko oinarriak (2014/09/04)

Tesiaren titulua:  EPEC corpusa predikatu-mailan etiketatzeko oinarriak: EPEC-RolSem, BVI eta e-ROLda
Non
: Informatika Fakultatean,
Eguna: irailak 4,
Ordua: 10:30ean (11:30etan ez)

Agindu bezala hemen dator Ainara Estarrona Ibarzola ixakideak ostegunean defendatuko duen tesia. Sintaktikoki etiketatuta dagoen EPEC corpusean predikatu-mailan etiketatu ahal izateko hiru baliabide berri sortu dira tesi honetan:

  • EPEC-RolSem corpusa, EPEC bezelakoa baina predikatu mailan ere etiketatua
  • BVI:  Euskarazko aditzen lexikoia (Basque Verb Index)
  • e-ROLda:  BVI  eta EPEC-RolSem kontsultatzeko tresna
EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

 

 

Tesia: Aditzen informazio lexikala eta anbiguotasun sintaktikoa (2014/07/23)

Aitziber Atutxa Salazar Ixakideak datorren asteko asteazkenean defendatuko du bere tesia: Aditzen inguruko informazio lexikala eta anbiguotasun sintaktikoen ebazpena

Non: Informatika Fakultatean,
Eguna: uztailak 23,
Ordua: 11:30ean

Euskara_sintaxi_konputazionala_1988-2014

1988tik, Joseba Abaituak bere tesian euskararako gramatika lexiko-funtzional bat sortu zuenetik, bide luzea egin dugu sintaxi konputazionalean. Bide horretan aurten hiru urrats berri, hiru tesi berri, aurrikusten ditugu:

  • Gramatika estatistikoa (Kepa Bengoetxea)
  • EusPropBank (Ainara Estarrona)
  • 2.751 aditzen informazio lexikalaren erabilera anbiguotasun sintaktikoak ebazteko. (Aitziber Atutxa)

Urte oparoa izango da gero 2014ko hau!

 

 

 

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat ;-)
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Doktorego tesia IXA taldean egin nahi duzu?

Ikasturtea bukatzen ari dela, plangintza egiteko garaia da ikasleentzat.
Hizkuntzaren prozesamenduko gure arlo honetan tesi bat egingo zenuke?

IXA Taldea Euskal Herriko Unibertsitateko ikerketa talde bat da, batez ere Informatika Fakultatean dabilena. Euskararen gaineko ikerketa aplikatua da gure xede nagusia, baina beste hizkuntzen inguruko ikerketa eta produktuen garapena ere sartzen dira gure eginkizunen artean. 25 urte daramatzagu lan honetan.

Gure ikerketa-lerro garrantzitsuenak hauek dira:

Une honetan bost proiektu europarretako partaide gara (PATHSNewsReaderREADERSOpeNER, eta QTLeap),  Eusko Jaurlaritzaren A motako ikertalde finkatua gara, eta Madrileko ministerioko  Hibrido Sint, TACARDI eta SKaTeR proiektuak ere baditugu. Proiektu horietatik, batez ere, sortzen zaizkigu tesiak egiteko ideiak eta beharra.

ixaproiektuak2014Azken 5 urteetan 8 tesi defendatu dira IXA taldean
eta une honetan 10 dira egiten ari diren tesiak beka ofizial batekin.

Zu ere animatuko zara gurekin tesia egitera?
Hala bada  bidali mezu bat ixa@ehu.es helbidera eta jarriko gara zurekin harremanetan.

IXATxiotesia

#txiotesia ekimenean gutxienez 9 izan ziren hizkuntza teknologiaren inguruko tesiak.

Elhuyar aldizkariko elkarrizketa bat Iñaki Alegria Ixakidearekin

Arg. © Jon Urbe/ARGAZKI PRESS

Ana Galarraga-k egindako elkarrizketa zabal eta dentso bat argitaratu du  Elhuyar aldizkariak Iñaki Alegria gure IXAkidearekin. Hainbat gai jorratu dituzte, hasierakoetan Ixa taldearen jardunaz aritu dira, eta gero Udako Euskal Unibertsitateaz:

Bai, badago zer irakurri elkarrizketa horretan.
Eta irakurri eta gero… badugu zereginik.

I_Alegria_Elhuyar_aldizk

QTLeap proiektua: itzulpen automatikoa hobetu nahian

QTLeap_logo_6letraEuropako proiektu berri batean lanean gabiltza pasa den azarotik: QTLeap. UPV/EHUko IXA Taldeak proiektuko beste kideekin batera egungo itzultzaile automatikoen mugak gainditu nahi ditu.

Perfekziotik urrun dauden egungo itzultzaile automatikoen emaitzak kalitatean dezente hobetzea da helburua.
QTLeap_ikono2Proiektuak hiru urteko iraupena izango du. IXA Taldeak elkarlanean jardungo du itzulpengintza automatikoan aitzindariak diren Europako beste hainbat erakunderekin: Alemaniako DKFI, Lisboako Unibertsitatea, Pragako Charles Unibertsitatea, Bulgariako Zientzien Akademia IICT-BAS, Berlingo Humboldt Unibertsitatea eta Herbehereetako  Groningengo Unibertsitatea.

Itzultzaile automatiko guztiek mugak dituzte. Egindako itzulpenak ez dira perfektuak, ezta gutxiago ere, baina laguntza-tresna baliagarri bilakatu dira azkenaldian.

QTLEAPLisboa2013_11_eskaileretanGramatikalki eta morfologikoki antzekoak diren hizkuntza-bikoteen arteko itzulpen automatiko on bat lortzea errazagoa da, gaztelania-katalana edo gaztelania-galegoa kasu. Euskararen kasuan, berriz, zailtasuna handiagoa da, eta lortzen den itzulpenaren kalitatea baxuagoa. Horretan hiru dira zailtasun handienak: 1) Euskarazko testuen egitura eta inguruko beste hizkuntzena oso ezberdinak direnez, itzulpeneko hitzen ordena asmatzea oso zaila da itzultzaile automatikoentzat, 2) hitz batek beste hizkuntzan dituen ordain egokia aukeratzea (adibidez, euskarazko baso hitza gaztelaniara itzultzerakoan ea bosque edo vaso aukeratu behar den, testuinguruaren ara. bera aukeratu behar da), eta 3) eskuz eta euskarara itzulitako testuekin osa daitekeen corpusa txikia dela.

QTleap_WebsiteGaur egungo itzultzaile automatikoek dituzten muga horiek gainditzen saiatuko gara QTLeap proiektu horretan. Horretarako, batetik, zuhaitz-banku edo treebank-ak erabiliko ditugu. Helburua da sintaktikoki ongi analizatutako esaldi mordoxka bat biltzea, eta horrekin itzultzaile automatikoei laguntzea itzulpeneko sintaxia hobeto aukeratzen.

Bestetik, gaur egun, esaldi konkretu batean hitz batek duen esanahia bereizteko behar den informazioa ez dago hiztegietan bakarrik, Internetetik ere lor daiteke horrelakorik. Horrenbestez, hitzen esanahiak edo adierak behar bezala bereizten ikasteko, Interneteko zenbait baliabide erabiliko ditugu. Esaterako, Wikipedia bezalako testu-bilduma handia, non hainbatetan testuko hitz baten adiera ongi zehaztuta egoten den. Alegia, hitz baten gainean esteka bat badago esteka hori Wikipediako adieretako batera doa. Horrelako esteka asko dituzten testuak bilduz gero, horrekin konputagailuak berak ere ikas lezake adierak bereizten. Wikipedia iturri posibleetako bat besterik ez da, gaur egun, Interneten gero eta testu gehiago dago horrelako lotura edo estekekin; Linked Open Data izenaz ezagutzen dira horrelakoak modu librean erabiltzerik badago.

Halaber, izen propioak, pertsona-izenak, erakunde-izenak edota toki geografikoak modu berezian landuko ditugu. Izan ere, izen propio guztiak landuta izatea ezinezkoa da, baina multzo handi bat kontrolatuta izateak asko hobetuko du itzulpenen kalitatea. Horrek aukera emango du, adibidez, Pilar del Castillo izena itzulpenean bere horretan mantentzeko, eta ez gazteluko pilarea emaitza lortzeko.

Horrenbestez, hiru adar nagusi horiek —zuhaitz-bankuak, Interneteko baliabideak eta izen propioak— lantzen ari da IXA Taldeak pasa den azarotik QTLeap proiektuan, egungo euskarazko itzultzaile automatikoen hiru arazo nagusiei —ezberdintasun morfologiko eta gramatikala, adiera-desanbiguazioa eta corpus txikia— konponbide berriak aurkitzeko.

Bota galdera!

Elhuyar_Iñigo_Bota_galderaLabur eta argi azaldu du Elhuyar aldizkarian Iñigo Lopez ikasleak zer egiten duen HAP masterreko lan praktikoan. Testutxo bat hartuta, euskara irakasteko galderak automatikoki sortzen ditu horren gainean. Adibidez, testua hau bada:

Pizzak asko gustatzen zaizkit; horregatik, afaltzeko hori prestatuko dut.

Galdera hauek sortzen ditu:

Zer gustatzen zaio asko?
Zer egingo du?
Zer prestatuko du afaltzeko?

Pertsona batentzat erraza da galderak horrela sortzea, baina konputagailuentzat ez.
Gai horretan ari da Iñigo bere doktore-tesia lantzen.

Elhuyar aldizkarian idatzi du azalpen hori, umor-ikutu batekin gainera: Bota galdera!