Espainerazko hitz-konbinazio bereziak bilatzen (Margarita Alonso, 2016-01-17)

Izenburua:  Procesamiento de colocaciones en castellano
…….  (Espainerazko kolokazioak bilatzen eta prozesatzen)
Eguna: urtarrilaren 17an
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

It is frequently stated that collocations are especially challenging to L2 learners, even to the more advanced ones (Henriksen 2013). This statement usually appears in the literature which focuses on English as L2. However, learners of English as L2 have at their disposal several resources to help them learn collocations, starting with a number of collocation dictionaries, teaching materials and many online lexical tools (among others, Benson et al. 1996, Crowther et al. 2002, McCarthy and O Dell 2005 or Wu et al. 2010). The situation for learners of Spanish as L2 is very different. Resources for learning collocations in Spanish, compared with those available in English, are scarce. There are only two Spanish combinatorial dictionaries (Bosque 2004, Alonso Ramos 2004), very few specific teaching materials (Prada et al. 2012), and until very recently there was no collocation online tool which could help the learner to choose the appropriate collocation.

Over the last years I have tried to fill these gaps as far as resources for learning Spanish collocations are concerned. However, due to the crisis that traditional dictionary format is facing, the question arises as to what form the ideal resource designed to help learners should take. The challenges are posed not only by online lexical tools, but also by corpora containing vast amounts of lexical information. In this light, some proposals for blending dictionary and corpus have been put forward as an ideal resource (Cobb 2003, Kilgarriff 2009). Corpus-driven lexicography has given rise to what can be called  lexically-driven corpora , resources which instead of providing lexical information in the form of a dictionary do so in the form of a concordance program exploiting language corpora. Through an appropriate user interface, lexical items become pointers to the texts that reveal their meaning, blurring the boundaries between dictionaries and corpora. Moreover, dictionaries have ceased to be stand-alone products to be complemented by CALL applications (Abel 2010). Therefore, the concept of the dictionary is changing towards a more flexible and dynamic tool which aims to better address the user s needs. This presentation shows how the resources we are building attempt to provide assistance with collocational needs. More particularly, I will describe the evolution of my research interests from an online collocation dictionary of Spanish (DiCE), the development of which began ten years ago, towards an online collocation writing assistant, the tool HARenES, which although integrated with the DiCE goes beyond the dictionary. In order to evaluate the effectiveness of correction suggestions offered by this tool, I will show the results of experimental study with students of Spanish as a second language. I will finish by presenting some reflections about the pedagogical role of the corpus

Itzultzaile automatikoen bolada berria (sarean.eus)

Itzultzaile automatikoen bolada berria artikulua idatzi dute eta “.EUS” domeinuko sarean.eus webgunean. Hona hemen horko zati batzuk:

Sarean_MT_AlegriaEneko

“[…] aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki Iiasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera, […] hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz.  Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz.[…]

[…] lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada.”

German Rigau hizlari TEXT MINING IN POLICY MAKING konferentzian

Pasa den astelehenean German Rigau Ixakidea hizlari inbitatua izan da Europako Batzordeak antolatu duen TEXT MINING IN POLICY MAKING konferentzian. Bertan aurkeztu dira testu-meatzaritzako hainbat arrakasta-kasu eta aprobetxatu egin da Batzordeak arlo horretaz sortu berri duen zentroa (JRC competence centre on text mining).

IXA taldearen ekarpenak COLING 2016 kongresuan (Osaka, abendua, 11-17)

COLING kongresua oso garrantzitsua da linguistika konputazionaleko ikerketa-arloan. 2016ko bilkura Japonian Osakan egiten ari da egun hauetan, abenduaren 11tik 17ra.
Hauek dira IXA Taldeak aurkeztuko dituen lanak:

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Uxoa-rentzat #txiotesia3 sari bat

Uxoa Iñurrieta Ixakideak irabazi du #txiotesia3 txapelketako sari bat, ekarpen ulergarrienaren saria izan da berea. ZORIONAK!
Irakurri behean Uxoaren 6 txioak:
txiotesia3_saria_2016

1 Izen+aditz konbinazioen itzulpena: azterketa linguistikoa eta tratamendu konputazionala

2 Izen+aditz konbinazio batzuk Unitate Fraseologikoak (UF) dira: konbinazio osoari begiratu behar zaio esanahia ondo ulertzeko

  • 3 Normalean ez dira hitzez hitz itzultzen, baina asko ez daude hiztegietan, eta denek ez dituzte gramatika-arauak jarraitzen

  • 4 Matxin itzultzaile automatikoari, oinarrian gramatika-arauak eta hiztegiak dituenez, UFak oso nahasgarri gertatzen zaizkio

    5 Bi erronka nagusi: gaztelaniazko UFak identifikatzea eta euskarara zuzen itzultzea. Konbitzul datu-basea lagungarria da bietan

    6 Konbitzulen jasotako UFei, ordainei eta informazio linguistikoari esker, Matxinek gero eta hobeto itzuliko ditu UFak

Ixa Taldeko beste bost tesitxiolari izan dira

 

#txiotesia3. Hizkuntza-teknologia arloko tesiak

Azaroaren 22an Unibertsitatea.net atariak antolatu duen #txiotesia3 ekimenean gutxienez 6 izan dira hizkuntza teknologiaren inguruko tesiak. Guztira 52 ikertzailek parte hartu zuten, aurreko edizioan baino %13 gehiago.
Sari banaketa abenduaren 1ean izango da Donostiako Garoa liburu dendan, bertan  unibertsitatea.net atariaren 10. urteurrena ospatu eta mahai-inguru bat ere izango da.

Hauek dira Hizkuntza-Teknologiako txio-tesilariak:


Uxoa Iñurrieta barrezka Matxinekin (Wolfram deuna)

wofram11uxoa_matxin_umorea_bergaraAtzo, Uxoa Iñurrietak parte hartu zuen Wolfram deuna 2016 umorezko saioan. Ikusi behean Teknopolis programako albistea (Uxoarena: 2’10”).

Bai, itzultzaile automatikoen esaldiak barregarri xamarrak izaten dira batzuetan. Horrelako adibide batzuekin bere tesi-lanaren motibazioa erakutsi zigun.

 

Errore horietako batzuk konpontzearren tesian egiten ari dena ikusi nahi baduzu…

Hitzaldia: Modernitaterako balio zuen euskarak? (A. Farwell, 2016-10-11)

Aritz Farwell (Arg.: Mikel Mtz. de Trespuentes)

Jo-ta-fuego gabiltza IXA taldean euskara murgiltzen teknologia berrietan, baina orain dela 100 urte uste zabaldua zen euskara baserrirako eta familiarako bakarrik balio zuela.
Horixe izan da Aritz Farwell-en aurten defenditu duen tesiaren gaia. Asteartean laburpen bat eskainiko digu.

Gaia: Modernitaterako balio du euskarak? Orain dela 100 urteko ikuspegia
Hizlaria:
Aritz Farwell Castillo Los Angeleseko Pitzer Collegen Historian lizentziatu ondoren, University of Chicagon egin zuen masterra. Duela hamar urte Euskal Herrira heldu zen doktoregoa egitera. 2016ko otsailaren 3an defendatu zuen UPV/EHUko Gizarte eta Komunikazio Zientzien Fakultatean ‘Borne Before the Moone: A Social and Political History of Basque at the Dawn of the Twentieth Century‘ tesia.
Eguna: urriaren 11an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:

Ikerlariaren arabera, gizartearen gehiengoak iritzi hauek partekatzen zituzten euskararen inguruan: “besteak beste, iraganeko erlikia bat bezala ikusten zen, zabartua zegoena, desagertzeko mehatxua gainean zuena, gutxietsia, bizitza publikotik at, linguistikoki irla bat, euskal herritarren jatorrizko hizkuntza eta beheko klasearen hizkuntza”. Horiek guztiak, hala ere, Farwellen esanetan, pertzepzioak ziren, tesian zehar azaltzen den bezala, esate baterako, “euskara ez baitzegoen eremu publikotik erabat baztertua”.