Hiru berri OPENMT2 proiektuan: Labaka, Marquez eta Wikipedia


Hiru berri dakartzagu OPENMT-2 proiektutik (2010-2012):

Gorka Labaka-ren tesiaren ondorioak

Tesi honetan euskararako itzulpen automatikoa estatistikoa aztertu du Gorkak; edo zehatzago esanda: nola erabili ezagutza morfologikoa eta sintaktikoa itzulpenaren emaitzak hobetze-aldera.EUSMT: Incorporating Linguistic Information to Statistical Machine Translation for Basque
Inguruko erdaretatik euskarara itzultzea ez da lan erraza, ez eskuz, ez automatikoki:

  • Euskararen morfologia oso aberatsa da. Horrek zailtasun handia ekartzen dio itzulpen estatistikoari. Hitz-formak euskaraz askoz gehiago direnez (etxe, etxea, etxera, etxetik…), zailagoa baita hitz guztientzat agerpen kopuru altuak aurkitzea corpus elebidunetan (lehenago itzulitako testuetan).
  • Hitzen ordena oso bestelakoa da.
  • Hiztun gutxiko hizkuntza izanik inguruko erdarek baino askoz testu itzuli gutxiago bil daitezke. Eta hori da estatistikaren euskarria!

Egoera horretan Gorka Labakak bi teknika garatu ditu itzulpen estatistikoaren kalitatea hobetzeko:

  • Hitzak segmentatzea. Lemak eta atzizkiak banatzea. Lau modu desberdin aztertu ditu, horrela ez-ohiko hitz-formen arazoa bideratzeko.
  • Erdarazko hitzak berrordenatzea. Izen-sintagmaren mailan eta esaldi mailan. beren ordainek euskaraz izango duten ordenara erakarriz. Berrantolaketa hau oso lagungarria izaten zaio dekodetzaile estatistikoari itzulpen egokiak bilatzerakoan.

Azkenaldian ikerlari gehienek itzulpen-sistema estatistikoei ematen diete protagonismo osoa, askok erregelan oinarritutako sistemak baztertzen dituzte. Baina Gorka Labakaren emaitzen ebaluazioaren arabera hori ez da jokaera zuzena.

Gorkak, besteak beste, ondorio hauek lortu ditu:

  • Erregelatan oinarritutako batek (Matxin) eta 8 miloi hitzeko corpusa darabilen sistema estatistiko estandar batek maila bereko emaitzak lortzen dutela.
  • Bere hobekuntzekin egindako EUSMT sistema estatistiko aztertutaak aurreko bi horiek baino emaitza hobeak lortzen dituela (HTER neurrian %10 hobea).
  • Sistema hobe bat eraiki daitekeela sistema biak konbinatuz. Beste %10ean hobeago izan liteke sistema “orakulo” bat, sistema bien emaitzak konparatu eta hoberena itzuliko balu.
    Aukeren %55ean EUSMTen proposamena hartu beharko luke, %41ean Matxinena, eta gainontzeko %4an itzulpen-memoriatan patroien bidez bilatuta.

Ondorio horiek ikusita, ikerketaren iparra hibridazioan eta postedizioan jarri dugu. Matxin eta EUSMTen emaitzak konbinatzeko modu eraginkorren bila ari gara. Eta ildo horietatik datoz ondoko beste berri biak.

Lluis Marquez ikerlaria gurekin izango dugu udara arte bisitan.

Itzulpen-sistemak konbinatzeko hibridazioan ikertzeko udara arte gurekin izango dugu Lluis MarquezOPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere. Gorka Labakaren esperimentuetan egiaztatu zen aukera badagoela Matxin eta EUSMT sistemak konbinatuz emaitza hobeak lortzeko. Orain konbinazio mota egokiena bilatzen ari gara.

Lankidetza Euskal Wikipediarekin postedizioan ikertzeko.

OpenMT-2 proiektuaren barruan informatikari buruzko Wikipediako 50 artikulu luze gehitzeko iniziatiba bat martxan jarri dugu. Matxin itzulpen-sistemak sortuko ditu lehen zirriborroak espainierako Wikipediatik itzulita, eta ondoren hainbat boluntarioren artean, eta eu.wikipedia elkarteak koordinatuta, zirriborro horiek zuzendu (OmegaT programa erabiliz) eta argitaratuko dituzte.

Esperientzia aberasgarria izango da bi norabideetan. Wikipediarentzat esperientzia onuragarria izango da 50 artikulu berri sortuko direlako, eta itzulpen automatikoarentzat ere bai eskuz posteditatutako itzulpenekin 100.000 hitzeko corpusa batuko delako. Corpus hori, itzulpen-sistema automatikoaren kalitatea hobetzeko funtsezko baliabide izango da, teknika estatistikoak erabiliz. (ikus IEB2011-ra bidalitako aurkepena, edo ingelesez  Wikimania2010-ra)

Iruzkinak (1)

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude