Mintegia: itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan (I. Cortes, 2017-05-09, 15:00)

Mintegia
Itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan

Noiz: asteartean, maiatzak 9, 15:00etan.
Non: 3.2 gelan.
15:15-15:30 aldera, teorikoa amaitu ondoren,  alde praktikoa ere egin nahi duenak, fakultateko 1.6 gelan i
Hizlaria: Itziar Cortes. (Elhuyar Fundazioa)
Izenburua: Consumer.eus elebitan:  uztartzen dituen proiektua

Laburpena:

Itzulpen automatikoarekin lotutako 3 urteko proiektu esperimentala da. Helburu nagusia Consumer.eus atarian argitaratzen diren gaztelaniazko edukiak euskarara ahalik eta modu azkarrrenean itzultzea da, eta, horretarako, itzulpen automatikoa eta itzulpen-memoriak erabiltzen dituen plataforma bat erabiltzen da. Bertan, gainera, automatikoki sortutako euskarazko edukia zuzendu daiteke, posteditatu; testuari egindako moldaketetatik ikasi, eta sistemak automatikoki ematen dituen emaitzak hobetzea da helburua.

Zehazki postedizio automatikoko sistema bat sortuko dugu urte bukaerarako, jasotako informazioa oinarri hartuz. Horregatik, garrantzitsua da ahalik eta zuzenketa edo postedizio gehiena biltzea, sistemak ikasketarako nahikoa informazio izan dezan.

Consumer2

Itzulpen automatiko eta postedizio bidez itzulpena sortzeko interfazea.

Consumer_atun1

Sortutako errezeta bat

HITZ BESTE: Ez adiorik, Xuxen-zale amorratu hori

Ez_adiorik_LertsundiTamalez, bukatu zaigu HITZ BESTE zutabea eguneroko Berria-n.
15 urte euskara garatzen, idazketa txukunaren dibulgazio egiten.
Zutabe hori izan da gure Xuxen-i buruz ohar, txalo eta artikulu gehiago sortu dituena, Xuxen letren kronikara ekarri izan duena.ESKERRIK ASKO Anjel!Adibide moduan, Hitz beste-ko ale adierazgarri bat:

Ixa xuxen

Hogeita bost urte xuxen edo, gutxienez, ixa xuxen idatzi behar genuela tematu zirenetik: ez dute meritu makala guztiz despejatu ezin dugun xuxen idaztearen ixa inkognita argitzeko tema.

Baina gaizki hasi naiz: despejatuk Xuxenen txibato gorria piztu dit. Txibatok ere bai. Honaino heldu haiz, amigo!

Ez ditut zuzenduko. Eskola zaharreko honek gaztelaniaz ikasi zuen inkognitak despejatzen —ahaztu ere bai hizkuntzen beharrik gabe— eta zaharrez nagi naiz inkognitak askatu egiten direla ikasten hasteko. Txibato hitzari dagokionez, oso erro gaizto bihurriak hartuak ditu gure hizkeran, hain erraz baztertzeko. Biak gordeko ditut, bada. Nire aukera da. Xuxenek abisua eman dit. Eta askatasuna. Erratuko banintz, kulpa ez luke, Axularren hartan bezala, Xuxenek, baldarrontzi honek baizik.

Ixa xuxen ibiltzeko makuluak eutsiko ahal dio beste hogeita bost urtez bideari eta bertan topa dezala Euskalerria Irratia albistea eman dezan.

OHARRAK (Post scriptum)
Xuxen ez da, jakina, Ixak hogeita bost urteetan egindako lan bakarra (Ixarik gabe, euskarak ez luke gaur duen tokia informatikaren plazan) baina Xuxen da Ixaren bandera ontzia, edo niri hala iruditzen zait behintzat. Orain hamar urte zutabe honekin hasi nintzenetik Xuxenekin bizi izan dudan harreman sentimentalarengatik izango da.

Eta horri aipamena eginez honela idazten zuen gozo Xabier Artolak gure blog honetan:

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai).

HAP Masterreko 7 ikasle-ohi IKERGAZTE biltzarrean

Maiatzaren 10, 11 eta 12an Iruñean ikerlari gazteak bilduko dituen IkerGazte biltzarreko aurkezpenen listan 7 artikulu aurkituko dituzu HAP masterreko ikasle ohiekin:

  • (18) Euskarazko gertaeren etiketatze automatikoa. Haritz Salaberri, Olatz Arregi eta Beñat Zapirain
  • (29) Poesiaren eskantsio automatikoa: bi hizkuntzen azterketa. Manex Agirrezabal, Iñaki Alegria eta Mans Hulden
  • (78) Testu-loturen labirinto semantikoan barna, esanahi-bektoreak lagun! Josu Goikoetxea, Iñigo Lopez-Gazpio, Eneko Agirre, Montse Maritxalar eta Aitor Soroa
  • (112) Osasun-zientzietako terminologiaren euskaratze automatikoaren ebaluazioa, osasungintzako euskal komunitatea inplikatuz. Olatz Perez-De-Viñaspre eta Maite Oronoz Anchordoqui
  • (120) Ahots kantatuaren sintesiaren, bertsolaritzarako egokitzapena. Xabier Sarasola, Eva Navas eta Inma Hernaez
  • (121) Euskarazko ezeztapenaren tratamendu automatikorako azterketa. Begoña Altuna, María Jesús Aranzabe eta Arantza Díaz de Ilarraza
  • (132) Aditz+izen konbinazioen itzulpen automatikoa, arau linguistikoen bidez. Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola

Gaur bukatzen da matrikula merkerako epea. Aupa!

Mikel Artetxe-k saria jaso du Bartzelonako HP Hackatoian

Mikel Artetxe IXAkideak bigarren saria lortu du aste honetan Bartzelonan antolatu den  Hizkuntza Teknologietako Hackatoian. Antolatzailea Red.es izan da, Espainian Hizkuntza Teknologiak sustatzeko Planaren barruan kokatuta dago ekitaldia eta SESIAD agentziaren babesa izan du.

Hackatoia startup teknologikoak sustatzeko aurten Bartzelonan antolatu den “4 Years From Now” (4YFN) plataformaren barruan egon da, Mobile World Capital Barcelona azokan. Beste IXakide batzuk ere izan ditugu antolaketan inplikatuta (German Rigau, Iñaki Alegria eta Rodrigo Agerri).

Linguee_server

Ingelesezko “server” eta espainierazko “servidor” hitzen erabilera-adibideak Linguee aplikazioan.

Antolakuntzakoek 8 proiektu hautatu zituzten astelehenean, otsailak 27, izan zen hackatoi/lehiaketa honen finalerako. Mikel Artetxe lankideak Linguee moduko aplikazioak sortzeko programa bat garatu du; testu-corpus batetik abiatuta hiztegi elebidunak sortzeko aplikazio honek testu errealetako adibide errealak eskaintzen ditu hitzaren erabilera zelakoa den hobeto erakustearren. Software librea den aplikazio hau hainbat hizkuntzatarako erabili ahal izango da, tartean euskararako, noski.

Hackatoiko finalera heldu ziren proiektuak

Mintegia: Jarreren sailkapena sare sozialetan (A. Zubiaga, 2017-02-14)

Izenburua: Helburu jakinekiko jarreren sailkapena sare sozialetan.
Hizlaria:
Eguna: Otsailaren 14an
Ordua: 16:00-17:00 (bai 16:00etan)
Gela: 3.2 gela. Informatika Fakultatea

Laburpena:

Sare sozialetako erabiltzaileek helburu, kontzeptu edo ideia ezberdinekiko erakusten duten jarrera antzematea erabilgarria izan daiteke kasu askotan. Hitzaldi honetan bi kasu jorratuko ditut. Batetik, sare sozialetan zabaltzen diren zurrumurruekin batera, erabiltzaileek aldeko zein kontrako jarrera ezberdinak erakusten dituzte, eztabaida sortuz eta zurrumurruen egiazkotasuna adostu nahian. Eztabaida hauetan ematen den diskurtsoa aztertzeko sailkatzaile sekuentzialekin egindako lana azalduko dut. Bestetik, sare sozialetako erabiltzaileen identitate nazionalaren sailkapena jorratuko dut, mugimendu independentisten esparruan. Euskal Herria, Herrialde Katalanak eta Eskozia adibide hartuta, erabiltzaileek naziotasunarekiko duten jarrera sailkatzeko egindako lana azalduko dut.

Bio laburra:

Arkaitz Zubiaga doktorego osteko ikertzailea da Warwickeko Unibertsitatean (Coventry, Ingalaterra). Aurretik CUNY eta DIT unibertsitateetan aritu zen, eta UNEDeko hizkuntzaren prozesamendurako taldean burutu zuen doktore tesia. Sare sozialetako edukiak ikertzen ditu hizkuntzaren prozesamendurako eta datu meatzaritzarako teknikak baliatuz, besteak beste, eta baita giza zientzia konputazionalerako tekniken bidez diziplina arteko atazak landuz ere.

Mintegia: Itzulpen Automatiko Neuronala: TAdeep eta Modela proiektuak (G. Labaka, 2017-01-31)

Izenburua:  Itzulpen Automatiko Neuronala: TADeep eta Modela proiektuak
Hizlaria: Gorka Labaka
Eguna: urtarrilaren 31n
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

2017. urtean, IXA taldeak bi proiektutan landuko ditu itzulpen automatiko neuronala (TAdeep eta Modela). Mintegian, Gorka Labakak itzulpena automatiko neuronalaren aurkezpen orokorra egingo du, eta horren ondoren proiektu horietan aurreikusitako eginbeharrak eta epeak azalduko dira.

TAdeep

Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

Zer da hizkuntzalaritza konputazionala? (K.Sarasola, Zientzia Kaiera)

Zientzia Kaiera (2017-01-20): Zer da hizkuntzaren prozesamendua?

UPV/EHUko “Kultura Zientifikoa” Katedrak gure ikertaldeko kidea den Kepa Sarasolarekin bideo bat grabatu du Hizkuntzalaritza Konputazionala zer den azaltzeko.

Hau da bideo albistea: “Hizkuntzalaritza konputazionalarekin lengoaiak errazago erabiltzeko tresnak garatzen ditugu“.

Gaiari buruz gehiago jakin nahi duenarentzat:

Espainerazko hitz-konbinazio bereziak bilatzen (Margarita Alonso, 2016-01-17)

Izenburua:  Procesamiento de colocaciones en castellano
…….  (Espainerazko kolokazioak bilatzen eta prozesatzen)
Eguna: urtarrilaren 17an
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

It is frequently stated that collocations are especially challenging to L2 learners, even to the more advanced ones (Henriksen 2013). This statement usually appears in the literature which focuses on English as L2. However, learners of English as L2 have at their disposal several resources to help them learn collocations, starting with a number of collocation dictionaries, teaching materials and many online lexical tools (among others, Benson et al. 1996, Crowther et al. 2002, McCarthy and O Dell 2005 or Wu et al. 2010). The situation for learners of Spanish as L2 is very different. Resources for learning collocations in Spanish, compared with those available in English, are scarce. There are only two Spanish combinatorial dictionaries (Bosque 2004, Alonso Ramos 2004), very few specific teaching materials (Prada et al. 2012), and until very recently there was no collocation online tool which could help the learner to choose the appropriate collocation.

Over the last years I have tried to fill these gaps as far as resources for learning Spanish collocations are concerned. However, due to the crisis that traditional dictionary format is facing, the question arises as to what form the ideal resource designed to help learners should take. The challenges are posed not only by online lexical tools, but also by corpora containing vast amounts of lexical information. In this light, some proposals for blending dictionary and corpus have been put forward as an ideal resource (Cobb 2003, Kilgarriff 2009). Corpus-driven lexicography has given rise to what can be called  lexically-driven corpora , resources which instead of providing lexical information in the form of a dictionary do so in the form of a concordance program exploiting language corpora. Through an appropriate user interface, lexical items become pointers to the texts that reveal their meaning, blurring the boundaries between dictionaries and corpora. Moreover, dictionaries have ceased to be stand-alone products to be complemented by CALL applications (Abel 2010). Therefore, the concept of the dictionary is changing towards a more flexible and dynamic tool which aims to better address the user s needs. This presentation shows how the resources we are building attempt to provide assistance with collocational needs. More particularly, I will describe the evolution of my research interests from an online collocation dictionary of Spanish (DiCE), the development of which began ten years ago, towards an online collocation writing assistant, the tool HARenES, which although integrated with the DiCE goes beyond the dictionary. In order to evaluate the effectiveness of correction suggestions offered by this tool, I will show the results of experimental study with students of Spanish as a second language. I will finish by presenting some reflections about the pedagogical role of the corpus