Wikipedia eta itzulpen automatikoa. Harri batez bizpalau xori

The People’s Web Meets NLP
“Webaren alde herrikoiak Hizkuntzaren Prozesamendua ezagutu du. Lankidetzan sortutako hizkuntza-baliabideak”
Horixe da ingelesez Springer argitaletxeak argitaratu berri duen liburu berri baten izenburua.
    Eta liburu horretako kapitulu batean (Reciprocal Enrichment between Basque Wikipedia and Machine Translators) luze azaldu dugu zer egin dugun IXA taldean Euskal Wikipedian 100 sarrera berri (50.000 hitz) gehitzeko eta Matxin itzultzaile automatikoa hobetzeko.
    2009-2013 urte tartean egin dugu lan hori. Itzulpen Automatikoan ikertzeko OpenMT2 proiektuaren barruan bideratu dugu lana. Euskal Wikipedialariekin ere koordinatu egin gara wikiproiektu baten barruan.
     Ekaia aldizkariko abenduko ale berrian ere azalduko da proiektu honetan egin dugun lanaren berri, kasu honetan euskaraz, noski: Wikipedia eta itzulpen automatikoa: ‘Harri batez bizpalau xori’.
Matxin_Wikipedia_OmegaT
   Lankidetza eta hizkuntza-teknologia uztartzen lehen urrats hori burutu dugu orain, baina urrats berriak egin behar ditugu oraindik. Euskarazko Wikipedia badugu, tamainan munduko 35. wikipedia da, 150.000 artikulu dauzka, osasun onean dagoela esan genezake. Baina, tamalez, bere tamaina oraindik txikia da Hizkuntzaren Prozesamenduko aplikazio aurreratuetan erabil ahal izateko.

NewsReader proiektua abian jarri dugu Amsterdamen

Ixa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015). Urtarrilaren 23an proiektua martxan jartzeko lehen bilera egin da Amsterdameko VU Unibertsitatean. Hauek gara kontsortzioko kideak :

NewsReaderproblem

Gaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero. Gertaera berrien aurrean arin erantzun behar duten erabaki-guneetako langileek ezintasunean ibiltzen dira gaur egunean, egun erabiltzen diren soluzioek ez baitabiltza behar bezala. Ondorioz ia ezinezkoa da erabakiak hartzea informazio esanguratsu guztia eskuratuta, eta profesional horiek moldatu behar izaten dira informazio ez-osoa, ez-zehatza eta zaharkituarekin.

NewsReaderStorylines NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan. Horrela, iraganeko gertaerak aztertuz NewsReader etorkizuneko gertaerak aurreikusteko gauza izango da. Gertaera berriak azaltzeko ahalmena lortuko du iraganeko datuak erabiliz. Finantzetako eta ekonomiako profesionalek testatuko dute tresna hau proiektuko azken urtean.

Euskal Wikipediaren edizio-maratoia Durangoko Azokan

Urrian wikizale batzuk bildu ginen Matxin itzultzaile automatikoa eta Euskal Wikipedia hobetzeko asmoz, OpenMT-2 eta Euskal Wikipedia  proiektuaren haritik. Wikipedian itzulpen automatikoaren bidez hainbat artikulu gehitzeko.

Orain Durangon egingo dugu beste saio bat Euskal Wikipediakoekin batera 10. urteurrena ospatuko dela eta. Orokorrean wikipediako artikuluen edizioa egingo da, baina gure itzulpen laguntzaren berri ere emango dugu.

Gaia: Euskal Wikipediaren 10. urteurrena. EDIZIO-MARATOIA.
Tokia:  Durangoko Azokan.
Antolatzaileak: Euskal Wikipedia, UEU eta Ixa taldeko OpenMT-2  proiektua.
Eguna: Abenduaren 6an (ez dago klaserik)
Ordua: 10:00-19:30

Ordubete beharko duzu Wikipedian artikulu txiki bat itzuli eta gehitzeko. Edo ordu  batzuk artikulu ertain bat sortzeko. Hiru aplikazio ezagutuko dituzu: Matxin itzultzailea, Wikipedia, eta itzulpen memoriak erabiltzeko OmegaT sistema.

Wikipediako jakintza-alor bateko artikuluen zerrenda atera dezakegu, hutsuneak detektatzen laguntzeko.

  1. Erderaz dauden artikulu eta edukien berri ere eman dezakegu.
  2. Edukiak automatikoki itzuli eta Wikipediara igotzeko aukera ere emango dugu.

Parte hartzeko interesa daukan edonori irekia da. Hori bai, norberak bere ordenagailu eramangarria ekarri beharko du.

Abenduaren 6an etortzerik ez baduzu zure kabuz ere instalatu eta egin dezakezu (begiratu hemen nola egin). Baina errazago izango zaizu Durangora etorrita, lagunduko dizun jendea egongo da eta.  Giro ederrean. Animatu zure ingurukoak ere!

Argibideak: Irati Iciar Madinabeitia (943 82 14 26 edota i.iciar@ueu.org)

Urriak 12: Matxin eta Wikipedia hobetzera etorriko zara?

Parte hartu nahi duzu Matxin itzultzaile automatikoa eta Euskal Wikipedia hobetzen? Boluntarioak behar ditugu OpenMT-2 eta Euskal Wikipedia proiektuan, Wikipedian itzulpen automatikoaren bidez hainbat artikulu gehitzeko, informatikari buruz.

Gaia: Wikitzul eguna
Tokia:  24 orduko laborategia. Informatika Fakultatea
Antolatzaileak: Ixa taldea eta Euskal Wikipedia
Eguna: Urriaren 12an (ez dago klaserik)
Ordua: 9:30-13:30

Ordubete beharko duzu Wikipedian artikulu txiki bat itzuli eta gehitzeko. Edo ordu batzuk artikulu ertain bat sortzeko. Hiru aplikazio ezagutuko dituzu: Matxin itzultzailea, Wikipedia, eta itzulpen memoriak erabiltzeko OmegaT sistema.

Urriaren 12an etortzerik ez baduzu zure kabuz ere instalatu eta egin dezakezu (begiratu hemen nola egin). Baina errazago izango zaizu Informatika Fakultatera bazatoz,   lagunduko dizun jendea egongo da eta.  Giro ederrean. 100.000 hitzeko itzulpen zuzendua behar dugu Matxin itzultzailea hobetzen esperimentatzeko. 50 boluntario beharko ditugu, bakoitzak 2000 hitz itzulita. Orain arte boluntarioak 22 gara eta guztira 6306 hitz sortu/zuzendu ditugu, Wikipedian 36 sarrera berri sortu ditugu.

ANIMATUKO ZARA? AUPA INFORMATIKARI  HORIEK!

Hiru berri OPENMT2 proiektuan: Labaka, Marquez eta Wikipedia


Hiru berri dakartzagu OPENMT-2 proiektutik (2010-2012):

Gorka Labaka-ren tesiaren ondorioak

Tesi honetan euskararako itzulpen automatikoa estatistikoa aztertu du Gorkak; edo zehatzago esanda: nola erabili ezagutza morfologikoa eta sintaktikoa itzulpenaren emaitzak hobetze-aldera.EUSMT: Incorporating Linguistic Information to Statistical Machine Translation for Basque
Inguruko erdaretatik euskarara itzultzea ez da lan erraza, ez eskuz, ez automatikoki:

  • Euskararen morfologia oso aberatsa da. Horrek zailtasun handia ekartzen dio itzulpen estatistikoari. Hitz-formak euskaraz askoz gehiago direnez (etxe, etxea, etxera, etxetik…), zailagoa baita hitz guztientzat agerpen kopuru altuak aurkitzea corpus elebidunetan (lehenago itzulitako testuetan).
  • Hitzen ordena oso bestelakoa da.
  • Hiztun gutxiko hizkuntza izanik inguruko erdarek baino askoz testu itzuli gutxiago bil daitezke. Eta hori da estatistikaren euskarria!

Egoera horretan Gorka Labakak bi teknika garatu ditu itzulpen estatistikoaren kalitatea hobetzeko:

  • Hitzak segmentatzea. Lemak eta atzizkiak banatzea. Lau modu desberdin aztertu ditu, horrela ez-ohiko hitz-formen arazoa bideratzeko.
  • Erdarazko hitzak berrordenatzea. Izen-sintagmaren mailan eta esaldi mailan. beren ordainek euskaraz izango duten ordenara erakarriz. Berrantolaketa hau oso lagungarria izaten zaio dekodetzaile estatistikoari itzulpen egokiak bilatzerakoan.

Azkenaldian ikerlari gehienek itzulpen-sistema estatistikoei ematen diete protagonismo osoa, askok erregelan oinarritutako sistemak baztertzen dituzte. Baina Gorka Labakaren emaitzen ebaluazioaren arabera hori ez da jokaera zuzena.

Gorkak, besteak beste, ondorio hauek lortu ditu:

  • Erregelatan oinarritutako batek (Matxin) eta 8 miloi hitzeko corpusa darabilen sistema estatistiko estandar batek maila bereko emaitzak lortzen dutela.
  • Bere hobekuntzekin egindako EUSMT sistema estatistiko aztertutaak aurreko bi horiek baino emaitza hobeak lortzen dituela (HTER neurrian %10 hobea).
  • Sistema hobe bat eraiki daitekeela sistema biak konbinatuz. Beste %10ean hobeago izan liteke sistema “orakulo” bat, sistema bien emaitzak konparatu eta hoberena itzuliko balu.
    Aukeren %55ean EUSMTen proposamena hartu beharko luke, %41ean Matxinena, eta gainontzeko %4an itzulpen-memoriatan patroien bidez bilatuta.

Ondorio horiek ikusita, ikerketaren iparra hibridazioan eta postedizioan jarri dugu. Matxin eta EUSMTen emaitzak konbinatzeko modu eraginkorren bila ari gara. Eta ildo horietatik datoz ondoko beste berri biak.

Lluis Marquez ikerlaria gurekin izango dugu udara arte bisitan.

Itzulpen-sistemak konbinatzeko hibridazioan ikertzeko udara arte gurekin izango dugu Lluis MarquezOPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere. Gorka Labakaren esperimentuetan egiaztatu zen aukera badagoela Matxin eta EUSMT sistemak konbinatuz emaitza hobeak lortzeko. Orain konbinazio mota egokiena bilatzen ari gara.

Lankidetza Euskal Wikipediarekin postedizioan ikertzeko.

OpenMT-2 proiektuaren barruan informatikari buruzko Wikipediako 50 artikulu luze gehitzeko iniziatiba bat martxan jarri dugu. Matxin itzulpen-sistemak sortuko ditu lehen zirriborroak espainierako Wikipediatik itzulita, eta ondoren hainbat boluntarioren artean, eta eu.wikipedia elkarteak koordinatuta, zirriborro horiek zuzendu (OmegaT programa erabiliz) eta argitaratuko dituzte.

Esperientzia aberasgarria izango da bi norabideetan. Wikipediarentzat esperientzia onuragarria izango da 50 artikulu berri sortuko direlako, eta itzulpen automatikoarentzat ere bai eskuz posteditatutako itzulpenekin 100.000 hitzeko corpusa batuko delako. Corpus hori, itzulpen-sistema automatikoaren kalitatea hobetzeko funtsezko baliabide izango da, teknika estatistikoak erabiliz. (ikus IEB2011-ra bidalitako aurkepena, edo ingelesez  Wikimania2010-ra)