Mikel Artetxe-k saria jaso du Bartzelonako HP Hackatoian

Mikel Artetxe IXAkideak bigarren saria lortu du aste honetan Bartzelonan antolatu den  Hizkuntza Teknologietako Hackatoian. Antolatzailea Red.es izan da, Espainian Hizkuntza Teknologiak sustatzeko Planaren barruan kokatuta dago ekitaldia eta SESIAD agentziaren babesa izan du.

Hackatoia startup teknologikoak sustatzeko aurten Bartzelonan antolatu den “4 Years From Now” (4YFN) plataformaren barruan egon da, Mobile World Capital Barcelona azokan. Beste IXakide batzuk ere izan ditugu antolaketan inplikatuta (German Rigau, Iñaki Alegria eta Rodrigo Agerri).

Linguee_server

Ingelesezko “server” eta espainierazko “servidor” hitzen erabilera-adibideak Linguee aplikazioan.

Antolakuntzakoek 8 proiektu hautatu zituzten astelehenean, otsailak 27, izan zen hackatoi/lehiaketa honen finalerako. Mikel Artetxe lankideak Linguee moduko aplikazioak sortzeko programa bat garatu du; testu-corpus batetik abiatuta hiztegi elebidunak sortzeko aplikazio honek testu errealetako adibide errealak eskaintzen ditu hitzaren erabilera zelakoa den hobeto erakustearren. Software librea den aplikazio hau hainbat hizkuntzatarako erabili ahal izango da, tartean euskararako, noski.

Hackatoiko finalera heldu ziren proiektuak

Mintegia: Jarreren sailkapena sare sozialetan (A. Zubiaga, 2017-02-14)

Izenburua: Helburu jakinekiko jarreren sailkapena sare sozialetan.
Hizlaria:
Eguna: Otsailaren 14an
Ordua: 16:00-17:00 (bai 16:00etan)
Gela: 3.2 gela. Informatika Fakultatea

Laburpena:

Sare sozialetako erabiltzaileek helburu, kontzeptu edo ideia ezberdinekiko erakusten duten jarrera antzematea erabilgarria izan daiteke kasu askotan. Hitzaldi honetan bi kasu jorratuko ditut. Batetik, sare sozialetan zabaltzen diren zurrumurruekin batera, erabiltzaileek aldeko zein kontrako jarrera ezberdinak erakusten dituzte, eztabaida sortuz eta zurrumurruen egiazkotasuna adostu nahian. Eztabaida hauetan ematen den diskurtsoa aztertzeko sailkatzaile sekuentzialekin egindako lana azalduko dut. Bestetik, sare sozialetako erabiltzaileen identitate nazionalaren sailkapena jorratuko dut, mugimendu independentisten esparruan. Euskal Herria, Herrialde Katalanak eta Eskozia adibide hartuta, erabiltzaileek naziotasunarekiko duten jarrera sailkatzeko egindako lana azalduko dut.

Bio laburra:

Arkaitz Zubiaga doktorego osteko ikertzailea da Warwickeko Unibertsitatean (Coventry, Ingalaterra). Aurretik CUNY eta DIT unibertsitateetan aritu zen, eta UNEDeko hizkuntzaren prozesamendurako taldean burutu zuen doktore tesia. Sare sozialetako edukiak ikertzen ditu hizkuntzaren prozesamendurako eta datu meatzaritzarako teknikak baliatuz, besteak beste, eta baita giza zientzia konputazionalerako tekniken bidez diziplina arteko atazak landuz ere.

Mintegia: Itzulpen Automatiko Neuronala: TAdeep eta Modela proiektuak (G. Labaka, 2017-01-31)

Izenburua:  Itzulpen Automatiko Neuronala: TADeep eta Modela proiektuak
Hizlaria: Gorka Labaka
Eguna: urtarrilaren 31n
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

2017. urtean, IXA taldeak bi proiektutan landuko ditu itzulpen automatiko neuronala (TAdeep eta Modela). Mintegian, Gorka Labakak itzulpena automatiko neuronalaren aurkezpen orokorra egingo du, eta horren ondoren proiektu horietan aurreikusitako eginbeharrak eta epeak azalduko dira.

TAdeep

Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

Zer da hizkuntzalaritza konputazionala? (K.Sarasola, Zientzia Kaiera)

Zientzia Kaiera (2017-01-20): Zer da hizkuntzaren prozesamendua?

UPV/EHUko “Kultura Zientifikoa” Katedrak gure ikertaldeko kidea den Kepa Sarasolarekin bideo bat grabatu du Hizkuntzalaritza Konputazionala zer den azaltzeko.

Hau da bideo albistea: “Hizkuntzalaritza konputazionalarekin lengoaiak errazago erabiltzeko tresnak garatzen ditugu“.

Gaiari buruz gehiago jakin nahi duenarentzat:

Espainerazko hitz-konbinazio bereziak bilatzen (Margarita Alonso, 2016-01-17)

Izenburua:  Procesamiento de colocaciones en castellano
…….  (Espainerazko kolokazioak bilatzen eta prozesatzen)
Eguna: urtarrilaren 17an
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

It is frequently stated that collocations are especially challenging to L2 learners, even to the more advanced ones (Henriksen 2013). This statement usually appears in the literature which focuses on English as L2. However, learners of English as L2 have at their disposal several resources to help them learn collocations, starting with a number of collocation dictionaries, teaching materials and many online lexical tools (among others, Benson et al. 1996, Crowther et al. 2002, McCarthy and O Dell 2005 or Wu et al. 2010). The situation for learners of Spanish as L2 is very different. Resources for learning collocations in Spanish, compared with those available in English, are scarce. There are only two Spanish combinatorial dictionaries (Bosque 2004, Alonso Ramos 2004), very few specific teaching materials (Prada et al. 2012), and until very recently there was no collocation online tool which could help the learner to choose the appropriate collocation.

Over the last years I have tried to fill these gaps as far as resources for learning Spanish collocations are concerned. However, due to the crisis that traditional dictionary format is facing, the question arises as to what form the ideal resource designed to help learners should take. The challenges are posed not only by online lexical tools, but also by corpora containing vast amounts of lexical information. In this light, some proposals for blending dictionary and corpus have been put forward as an ideal resource (Cobb 2003, Kilgarriff 2009). Corpus-driven lexicography has given rise to what can be called  lexically-driven corpora , resources which instead of providing lexical information in the form of a dictionary do so in the form of a concordance program exploiting language corpora. Through an appropriate user interface, lexical items become pointers to the texts that reveal their meaning, blurring the boundaries between dictionaries and corpora. Moreover, dictionaries have ceased to be stand-alone products to be complemented by CALL applications (Abel 2010). Therefore, the concept of the dictionary is changing towards a more flexible and dynamic tool which aims to better address the user s needs. This presentation shows how the resources we are building attempt to provide assistance with collocational needs. More particularly, I will describe the evolution of my research interests from an online collocation dictionary of Spanish (DiCE), the development of which began ten years ago, towards an online collocation writing assistant, the tool HARenES, which although integrated with the DiCE goes beyond the dictionary. In order to evaluate the effectiveness of correction suggestions offered by this tool, I will show the results of experimental study with students of Spanish as a second language. I will finish by presenting some reflections about the pedagogical role of the corpus

Itzultzaile automatikoen bolada berria (sarean.eus)

Itzultzaile automatikoen bolada berria artikulua idatzi dute eta “.EUS” domeinuko sarean.eus webgunean. Hona hemen horko zati batzuk:

Sarean_MT_AlegriaEneko

“[…] aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki Iiasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera, […] hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz.  Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz.[…]

[…] lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada.”

German Rigau hizlari TEXT MINING IN POLICY MAKING konferentzian

Pasa den astelehenean German Rigau Ixakidea hizlari inbitatua izan da Europako Batzordeak antolatu duen TEXT MINING IN POLICY MAKING konferentzian. Bertan aurkeztu dira testu-meatzaritzako hainbat arrakasta-kasu eta aprobetxatu egin da Batzordeak arlo horretaz sortu berri duen zentroa (JRC competence centre on text mining).