Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018)

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun?  Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu.  Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira : – )
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idfKleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

  • Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
  • Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
  • Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
  • Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
  • Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
  • Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
  • Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen  HPko ariketak
  • Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
  • Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
  • Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.

Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan (iñigo Jauregi, 2017-12-19)

Gaia: Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan
Hizlaria:
Inigo Jauregi-k Telekomunikazioen Ingenieritza gradua atera zuen Nafarroako Unibertsitatean (Tecnum) 2016an. CEITen aritu zen gero bi urtez ikerketa laguntzaile lanetan.
2016ko abuztuaz geroztik Capital Markets Cooperative Research Centre-en (CMCRC) ari da lanean hikzuntzaren prozesamendua osasun sektorean aplikatzen.
2017tik tesia egiten dabil University of Technology Sydney-n (UTS). Bere ikerketaren gai nagusiak ikasketa automatikoa eta hizkuntzaren prozesamendua dira.
Eguna: abenduaren 19an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

Osasun sektorean egunero sortzen den informazio kopurua oso handia da eta, gainera, informazio horren zati handi bat testu hutsa izaten da. Bi gai lantzen ditut, bat unibertsitateari lotuta eta bestea enpresa pribatu baterako proiektu bati lotua:

  • Lehenengoa, farmako, medikamentu marka, gaixotasun, prozedura eta beste zenbait osasun domeinuko izenen ezagutze automatikoan datza (health-domain named-entity recognition). Horretarako, B-LSTM-CRF izeneko sare neuronala erabili dut.
  • Bigarren ikerketa praktikoagoa da. Enpresa honek mugikorreko app baten bitartez bakoitzaren osasunerako coaching zerbitzu pertsonalizatu bat eskaintzen du munduan zehar, 24h erabilgarri dagoen chat baten bitartez. Helburua erabiltzaileen mezuen kopuru handi bati automatikoki erantzungo dien chatbot bat sortzea da.

Tesia: Korreferentzia-ebazpena euskarazko testuetan (Ander Soraluze, 2017-07-12)

Tesiaren titulua: Korreferentzia-ebazpena euskarazko testuetan
Non: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 12, asteazkena
Ordua: 11:00etan
Egilea: Ander Soraluze Irureta
Zuzendariak: Olatz Arregi Uriarte / Patxi Xabier Arregi Iparragirre
Hizkuntza: Euskara-Ingelesa
Ikerketaren motibazioa, galderak:

Nazio Batuen Erakundea izan zen bitartekari eta hark hartu zuen prozesuaren ardura

Esaldi hori ulertu nahi badugu, jakin behar dugu “Nazio Batuen Erakundea“,  “bitartekari” eta “hark” testu-zatiek, hirurek, erakunde berari egiten diotela aipamena, erreferentziakide direla, korreferentzia egiteko hiru modu diferente direla. Zelan asmatu hori automatikoki? Zelan jakin testu-zatitxo bat noiz den erreferentzia bat eta ze kontzepturi egiten dion erreferentzia? Euskarazko testuetan, espainieraz edo ingelesezkoetan berdin berdin egin daiteke? Edo diferente egin behar da?

Mikel Artetxe-k saria jaso du Bartzelonako HP Hackatoian

Mikel Artetxe IXAkideak bigarren saria lortu du aste honetan Bartzelonan antolatu den  Hizkuntza Teknologietako Hackatoian. Antolatzailea Red.es izan da, Espainian Hizkuntza Teknologiak sustatzeko Planaren barruan kokatuta dago ekitaldia eta SESIAD agentziaren babesa izan du.

Hackatoia startup teknologikoak sustatzeko aurten Bartzelonan antolatu den “4 Years From Now” (4YFN) plataformaren barruan egon da, Mobile World Capital Barcelona azokan. Beste IXakide batzuk ere izan ditugu antolaketan inplikatuta (German Rigau, Iñaki Alegria eta Rodrigo Agerri).

Linguee_server

Ingelesezko “server” eta espainierazko “servidor” hitzen erabilera-adibideak Linguee aplikazioan.

Antolakuntzakoek 8 proiektu hautatu zituzten astelehenean, otsailak 27, izan zen hackatoi/lehiaketa honen finalerako. Mikel Artetxe lankideak Linguee moduko aplikazioak sortzeko programa bat garatu du; testu-corpus batetik abiatuta hiztegi elebidunak sortzeko aplikazio honek testu errealetako adibide errealak eskaintzen ditu hitzaren erabilera zelakoa den hobeto erakustearren. Software librea den aplikazio hau hainbat hizkuntzatarako erabili ahal izango da, tartean euskararako, noski.

Hackatoiko finalera heldu ziren proiektuak

Itzultzaile automatikoen bolada berria (sarean.eus)

Itzultzaile automatikoen bolada berria artikulua idatzi dute eta “.EUS” domeinuko sarean.eus webgunean. Hona hemen horko zati batzuk:

Sarean_MT_AlegriaEneko

“[…] aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki ikasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera, […] hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz.  Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz.[…]

[…] lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada.”

German Rigau hizlari TEXT MINING IN POLICY MAKING konferentzian

Pasa den astelehenean German Rigau Ixakidea hizlari inbitatua izan da Europako Batzordeak antolatu duen TEXT MINING IN POLICY MAKING konferentzian. Bertan aurkeztu dira testu-meatzaritzako hainbat arrakasta-kasu eta aprobetxatu egin da Batzordeak arlo horretaz sortu berri duen zentroa (JRC competence centre on text mining).

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf