Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan (iñigo Jauregi, 2017-12-19)

Gaia: Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan
Hizlaria:
Inigo Jauregi-k Telekomunikazioen Ingenieritza gradua atera zuen Nafarroako Unibertsitatean (Tecnum) 2016an. CEITen aritu zen gero bi urtez ikerketa laguntzaile lanetan.
2016ko abuztuaz geroztik Capital Markets Cooperative Research Centre-en (CMCRC) ari da lanean hikzuntzaren prozesamendua osasun sektorean aplikatzen.
2017tik tesia egiten dabil University of Technology Sydney-n (UTS). Bere ikerketaren gai nagusiak ikasketa automatikoa eta hizkuntzaren prozesamendua dira.
Eguna: abenduaren 19an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

Osasun sektorean egunero sortzen den informazio kopurua oso handia da eta, gainera, informazio horren zati handi bat testu hutsa izaten da. Bi gai lantzen ditut, bat unibertsitateari lotuta eta bestea enpresa pribatu baterako proiektu bati lotua:

  • Lehenengoa, farmako, medikamentu marka, gaixotasun, prozedura eta beste zenbait osasun domeinuko izenen ezagutze automatikoan datza (health-domain named-entity recognition). Horretarako, B-LSTM-CRF izeneko sare neuronala erabili dut.
  • Bigarren ikerketa praktikoagoa da. Enpresa honek mugikorreko app baten bitartez bakoitzaren osasunerako coaching zerbitzu pertsonalizatu bat eskaintzen du munduan zehar, 24h erabilgarri dagoen chat baten bitartez. Helburua erabiltzaileen mezuen kopuru handi bati automatikoki erantzungo dien chatbot bat sortzea da.

Tesia: Korreferentzia-ebazpena euskarazko testuetan (Ander Soraluze, 2017-07-12)

Tesiaren titulua: Korreferentzia-ebazpena euskarazko testuetan
Non: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 12, asteazkena
Ordua: 11:00etan
Egilea: Ander Soraluze Irureta
Zuzendariak: Olatz Arregi Uriarte / Patxi Xabier Arregi Iparragirre
Hizkuntza: Euskara-Ingelesa
Ikerketaren motibazioa, galderak:

Nazio Batuen Erakundea izan zen bitartekari eta hark hartu zuen prozesuaren ardura

Esaldi hori ulertu nahi badugu, jakin behar dugu “Nazio Batuen Erakundea“,  “bitartekari” eta “hark” testu-zatiek, hirurek, erakunde berari egiten diotela aipamena, erreferentziakide direla, korreferentzia egiteko hiru modu diferente direla. Zelan asmatu hori automatikoki? Zelan jakin testu-zatitxo bat noiz den erreferentzia bat eta ze kontzepturi egiten dion erreferentzia? Euskarazko testuetan, espainieraz edo ingelesezkoetan berdin berdin egin daiteke? Edo diferente egin behar da?

Mikel Artetxe-k saria jaso du Bartzelonako HP Hackatoian

Mikel Artetxe IXAkideak bigarren saria lortu du aste honetan Bartzelonan antolatu den  Hizkuntza Teknologietako Hackatoian. Antolatzailea Red.es izan da, Espainian Hizkuntza Teknologiak sustatzeko Planaren barruan kokatuta dago ekitaldia eta SESIAD agentziaren babesa izan du.

Hackatoia startup teknologikoak sustatzeko aurten Bartzelonan antolatu den “4 Years From Now” (4YFN) plataformaren barruan egon da, Mobile World Capital Barcelona azokan. Beste IXakide batzuk ere izan ditugu antolaketan inplikatuta (German Rigau, Iñaki Alegria eta Rodrigo Agerri).

Linguee_server

Ingelesezko “server” eta espainierazko “servidor” hitzen erabilera-adibideak Linguee aplikazioan.

Antolakuntzakoek 8 proiektu hautatu zituzten astelehenean, otsailak 27, izan zen hackatoi/lehiaketa honen finalerako. Mikel Artetxe lankideak Linguee moduko aplikazioak sortzeko programa bat garatu du; testu-corpus batetik abiatuta hiztegi elebidunak sortzeko aplikazio honek testu errealetako adibide errealak eskaintzen ditu hitzaren erabilera zelakoa den hobeto erakustearren. Software librea den aplikazio hau hainbat hizkuntzatarako erabili ahal izango da, tartean euskararako, noski.

Hackatoiko finalera heldu ziren proiektuak

Itzultzaile automatikoen bolada berria (sarean.eus)

Itzultzaile automatikoen bolada berria artikulua idatzi dute eta “.EUS” domeinuko sarean.eus webgunean. Hona hemen horko zati batzuk:

Sarean_MT_AlegriaEneko

“[…] aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki ikasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera, […] hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz.  Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz.[…]

[…] lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada.”

German Rigau hizlari TEXT MINING IN POLICY MAKING konferentzian

Pasa den astelehenean German Rigau Ixakidea hizlari inbitatua izan da Europako Batzordeak antolatu duen TEXT MINING IN POLICY MAKING konferentzian. Bertan aurkeztu dira testu-meatzaritzako hainbat arrakasta-kasu eta aprobetxatu egin da Batzordeak arlo horretaz sortu berri duen zentroa (JRC competence centre on text mining).

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)