Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan ūüôĀ¬†¬† Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Wikipedia eta itzulpen automatikoa. Harri batez bizpalau xori

The People’s Web Meets NLP
“Webaren alde herrikoiak Hizkuntzaren Prozesamendua ezagutu du. Lankidetzan sortutako hizkuntza-baliabideak”
Horixe da ingelesez Springer argitaletxeak argitaratu berri duen liburu berri baten izenburua.
    Eta liburu horretako kapitulu batean (Reciprocal Enrichment between Basque Wikipedia and Machine Translators) luze azaldu dugu zer egin dugun IXA taldean Euskal Wikipedian 100 sarrera berri (50.000 hitz) gehitzeko eta Matxin itzultzaile automatikoa hobetzeko.
    2009-2013 urte tartean egin dugu lan hori. Itzulpen Automatikoan ikertzeko OpenMT2 proiektuaren barruan bideratu dugu lana. Euskal Wikipedialariekin ere koordinatu egin gara wikiproiektu baten barruan.
¬†¬†¬†¬† Ekaia aldizkariko abenduko ale berrian ere azalduko da proiektu honetan egin dugun lanaren berri, kasu honetan euskaraz, noski: Wikipedia eta itzulpen automatikoa: ‘Harri batez bizpalau xori’.
Matxin_Wikipedia_OmegaT
   Lankidetza eta hizkuntza-teknologia uztartzen lehen urrats hori burutu dugu orain, baina urrats berriak egin behar ditugu oraindik. Euskarazko Wikipedia badugu, tamainan munduko 35. wikipedia da, 150.000 artikulu dauzka, osasun onean dagoela esan genezake. Baina, tamalez, bere tamaina oraindik txikia da Hizkuntzaren Prozesamenduko aplikazio aurreratuetan erabil ahal izateko.

Euskal Wikipediaren edizio-maratoia Durangoko Azokan

Urrian wikizale batzuk bildu ginen Matxin itzultzaile automatikoa eta Euskal Wikipedia hobetzeko asmoz, OpenMT-2 eta Euskal Wikipedia  proiektuaren haritik. Wikipedian itzulpen automatikoaren bidez hainbat artikulu gehitzeko.

Orain Durangon egingo dugu beste saio bat Euskal Wikipediakoekin batera 10. urteurrena ospatuko dela eta. Orokorrean wikipediako artikuluen edizioa egingo da, baina gure itzulpen laguntzaren berri ere emango dugu.

Gaia: Euskal Wikipediaren 10. urteurrena. EDIZIO-MARATOIA.
Tokia:  Durangoko Azokan.
Antolatzaileak: Euskal Wikipedia, UEU eta Ixa taldeko OpenMT-2  proiektua.
Eguna: Abenduaren 6an (ez dago klaserik)
Ordua: 10:00-19:30

Ordubete beharko duzu Wikipedian artikulu txiki bat itzuli eta gehitzeko. Edo ordu  batzuk artikulu ertain bat sortzeko. Hiru aplikazio ezagutuko dituzu: Matxin itzultzailea, Wikipedia, eta itzulpen memoriak erabiltzeko OmegaT sistema.

Wikipediako jakintza-alor bateko artikuluen zerrenda atera dezakegu, hutsuneak detektatzen laguntzeko.

  1. Erderaz dauden artikulu eta edukien berri ere eman dezakegu.
  2. Edukiak automatikoki itzuli eta Wikipediara igotzeko aukera ere emango dugu.

Parte hartzeko interesa daukan edonori irekia da. Hori bai, norberak bere ordenagailu eramangarria ekarri beharko du.

Abenduaren 6an etortzerik ez baduzu zure kabuz ere instalatu eta egin dezakezu (begiratu hemen nola egin). Baina errazago izango zaizu Durangora etorrita, lagunduko dizun jendea egongo da eta.  Giro ederrean. Animatu zure ingurukoak ere!

Argibideak: Irati Iciar Madinabeitia (943 82 14 26 edota i.iciar@ueu.org)

Urriak 12: Matxin eta Wikipedia hobetzera etorriko zara?

Parte hartu nahi duzu Matxin itzultzaile automatikoa eta Euskal Wikipedia hobetzen? Boluntarioak behar ditugu OpenMT-2 eta Euskal Wikipedia proiektuan, Wikipedian itzulpen automatikoaren bidez hainbat artikulu gehitzeko, informatikari buruz.

Gaia: Wikitzul eguna
Tokia:  24 orduko laborategia. Informatika Fakultatea
Antolatzaileak: Ixa taldea eta Euskal Wikipedia
Eguna: Urriaren 12an (ez dago klaserik)
Ordua: 9:30-13:30

Ordubete beharko duzu Wikipedian artikulu txiki bat itzuli eta gehitzeko. Edo ordu batzuk artikulu ertain bat sortzeko. Hiru aplikazio ezagutuko dituzu: Matxin itzultzailea, Wikipedia, eta itzulpen memoriak erabiltzeko OmegaT sistema.

Urriaren 12an etortzerik ez baduzu zure kabuz ere instalatu eta egin dezakezu (begiratu hemen nola egin). Baina errazago izango zaizu Informatika Fakultatera bazatoz,   lagunduko dizun jendea egongo da eta.  Giro ederrean. 100.000 hitzeko itzulpen zuzendua behar dugu Matxin itzultzailea hobetzen esperimentatzeko. 50 boluntario beharko ditugu, bakoitzak 2000 hitz itzulita. Orain arte boluntarioak 22 gara eta guztira 6306 hitz sortu/zuzendu ditugu, Wikipedian 36 sarrera berri sortu ditugu.

ANIMATUKO ZARA? AUPA INFORMATIKARI  HORIEK!

LIHMT-2011 bilkura: Informazio linguistikoa itzulpen automatiko hibridorako.

Ixa taldea eta Bartzelonako TALP zentroa lankidetzan aritzen gara workshop bat antolatzeko itzulpen automatikoari buruz:
Using Linguistic Information for Hybrid Machine Translation
(LIHMT-2011).

Workshop hori Bartzelonan izango da azaroaren 18an, eta artikuluak bidaltzeko epea irailaren 9raino zabaldu da. http://ixa2.si.ehu.es/lihmt2011/

OpenMT-2 proiektuaren barruan egiten ditugun lanak zabaltzea eta kontrastatzea dira gure helburu nagusiak.

Hitzaldia. Lluís Màrquez. Ebaluazioa itzulpen automatikoan: Hizkuntz oinarriko neurrien konbinaziorantz(2011/05/10)


Gaia: “Ebaluazioa itzulpen automatikoan: Hizkuntz oinarriko neurrien konbinaziorantz /
Hizlaria
: Lluís Màrquez NLPRG, TALP
Technical University of Catalonia, UPC
Udara arte gurekin izango dugu Lluis Marquez, OPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere.
Tokia: Informatika Fakultateko Batzar Aretoa
Eguna: Maiatzaren 10.an
Ordua: 15:30


Laburpena:
Automatic evaluation plays a very important role in the development andcomparison of machine translation systems. In this talk we will overview the current trend of using linguistically-guided evaluation measures based on several linguistic layers and their combination.
Also, we will talk about confidence estimation measures, a particular subset of measures to assess output quality without the need of reference translations. Finally, we will overview the role of evaluation measures within the FAUST European project (Feedback Analysis for User Adaptive Statistical Translation; http://www.faust-fp7.eu/), focusing on the usage of user feedback to guide the combination of measures.

Hiru berri OPENMT2 proiektuan: Labaka, Marquez eta Wikipedia


Hiru berri dakartzagu OPENMT-2 proiektutik (2010-2012):

Gorka Labaka-ren tesiaren ondorioak

Tesi honetan euskararako itzulpen automatikoa estatistikoa aztertu du Gorkak; edo zehatzago esanda: nola erabili ezagutza morfologikoa eta sintaktikoa itzulpenaren emaitzak hobetze-aldera.EUSMT: Incorporating Linguistic Information to Statistical Machine Translation for Basque
Inguruko erdaretatik euskarara itzultzea ez da lan erraza, ez eskuz, ez automatikoki:

  • Euskararen morfologia oso aberatsa da. Horrek zailtasun handia ekartzen dio itzulpen estatistikoari. Hitz-formak euskaraz askoz gehiago direnez (etxe, etxea, etxera, etxetik…), zailagoa baita hitz guztientzat agerpen kopuru altuak aurkitzea corpus elebidunetan (lehenago itzulitako testuetan).
  • Hitzen ordena oso bestelakoa da.
  • Hiztun gutxiko hizkuntza izanik inguruko erdarek baino askoz testu itzuli gutxiago bil daitezke. Eta hori da estatistikaren euskarria!

Egoera horretan Gorka Labakak bi teknika garatu ditu itzulpen estatistikoaren kalitatea hobetzeko:

  • Hitzak segmentatzea. Lemak eta atzizkiak banatzea. Lau modu desberdin aztertu ditu, horrela ez-ohiko hitz-formen arazoa bideratzeko.
  • Erdarazko hitzak berrordenatzea. Izen-sintagmaren mailan eta esaldi mailan. beren ordainek euskaraz izango duten ordenara erakarriz. Berrantolaketa hau oso lagungarria izaten zaio dekodetzaile estatistikoari itzulpen egokiak bilatzerakoan.

Azkenaldian ikerlari gehienek itzulpen-sistema estatistikoei ematen diete protagonismo osoa, askok erregelan oinarritutako sistemak baztertzen dituzte. Baina Gorka Labakaren emaitzen ebaluazioaren arabera hori ez da jokaera zuzena.

Gorkak, besteak beste, ondorio hauek lortu ditu:

  • Erregelatan oinarritutako batek (Matxin) eta 8 miloi hitzeko corpusa darabilen sistema estatistiko estandar batek maila bereko emaitzak lortzen dutela.
  • Bere hobekuntzekin egindako EUSMT sistema estatistiko aztertutaak aurreko bi horiek baino emaitza hobeak lortzen dituela (HTER neurrian %10 hobea).
  • Sistema hobe bat eraiki daitekeela sistema biak konbinatuz. Beste %10ean hobeago izan liteke sistema “orakulo” bat, sistema bien emaitzak konparatu eta hoberena itzuliko balu.
    Aukeren %55ean EUSMTen proposamena hartu beharko luke, %41ean Matxinena, eta gainontzeko %4an itzulpen-memoriatan patroien bidez bilatuta.

Ondorio horiek ikusita, ikerketaren iparra hibridazioan eta postedizioan jarri dugu. Matxin eta EUSMTen emaitzak konbinatzeko modu eraginkorren bila ari gara. Eta ildo horietatik datoz ondoko beste berri biak.

Lluis Marquez ikerlaria gurekin izango dugu udara arte bisitan.

Itzulpen-sistemak konbinatzeko hibridazioan ikertzeko udara arte gurekin izango dugu Lluis Marquez,  OPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere. Gorka Labakaren esperimentuetan egiaztatu zen aukera badagoela Matxin eta EUSMT sistemak konbinatuz emaitza hobeak lortzeko. Orain konbinazio mota egokiena bilatzen ari gara.

Lankidetza Euskal Wikipediarekin postedizioan ikertzeko.

OpenMT-2 proiektuaren barruan informatikari buruzko Wikipediako 50 artikulu luze gehitzeko iniziatiba bat martxan jarri dugu. Matxin itzulpen-sistemak sortuko ditu lehen zirriborroak espainierako Wikipediatik itzulita, eta ondoren hainbat boluntarioren artean, eta eu.wikipedia elkarteak koordinatuta, zirriborro horiek zuzendu (OmegaT programa erabiliz) eta argitaratuko dituzte.

Esperientzia aberasgarria izango da bi norabideetan. Wikipediarentzat esperientzia onuragarria izango da 50 artikulu berri sortuko direlako, eta itzulpen automatikoarentzat ere bai eskuz posteditatutako itzulpenekin 100.000 hitzeko corpusa batuko delako. Corpus hori, itzulpen-sistema automatikoaren kalitatea hobetzeko funtsezko baliabide izango da, teknika estatistikoak erabiliz. (ikus IEB2011-ra bidalitako aurkepena, edo ingelesez  Wikimania2010-ra)