Hizkuntzaren Prozesamendua ikasgaiko praktika ikusgarri bat

Informatika Ingeniaritzako Hizkuntzaren Prozesamendua ikasgaian (HP) aurtengo ikasleek hainbat lan praktiko interesgarri garatu dituzte. Horien artean, Pello Arrue ikasleak Uztarria Azpeitiko aldizkaria aztertu du. 2001tik 2017ra arteko artikulu guztiak (17.034) batu ditu eta bi ikuspuntutatik aztertu ditu. Alde batetik, agertzen diren entitate izendun guztiak erauzi ditu (pertsonak, tokiak, erakundeak…). Eta bestetik, aurkitutako entitateak aldizkariaren gaien arabera sailkatu ditu. Hau da, IXA taldeak sortu duen Ixa-pipes tresna erabili du hasieran testu horiek masiboki analizatzeko, eta gero kontatu ditu entitate izendun bakoitzaren errepikapenak aldizkariko sail bakoitzean.
Esate baterako, irudian 16 urteotan gehien aipatu diren kirolariak ikus daitezke http://www.estadistikakazpeitia.pe.hu/perKirolak.php
Beste kontsulta batzuk egin ditzakezu. Saia zaitez!

LAN BIKAINA, PELLO!


Hizkuntzaren Prozesamendua ikasgaiaren helburu nagusia giza-lengoaiak (hizkuntzak) ordenagailu bidez tratatzeko dauden teknikak eta aplikazioak ezagutzea eta aplikatzea da. Hizkuntz industrien barruan kokatzen diren aplikazioen artean honakoak sartzen dira: Testuen edizioa, Informazioa bilatzea, informazioa erauztea, ezagutzaren kudeaketa, itzulpen automatikoa, lengoaia naturaleko interfazeak edo ahozko hizkuntzaren tratamendua.

Osasuna eta hizkuntza (Bilbo hiria Irratia, 2017/06/27)

BilboHiriaIrratia_Maite_Osasuna eta hizkuntza jardunaldiak egin dira ekainaren 27 eta 28an EHUko udako ikastaroen barruan. Osasungintza euskaratzen dabilen komunitatea batu egin da Bizkaia aretoan. Bilbo Hiria irratiak 11 grabazio argitaratu ditu jardunaldien inguruan. Grabazio batean Olatz Perez de Viñaspre eta Maite Oronoz ixakideak azaldu dira. Beraien arabera, osasun arloan euskaraz aritu nahi badugu, ezinbestekoa da terminologia finkatzea. Osasun langilearengana hurbildu eta “tengo rotura del tendón del músculo esplenio del cuello” esan ordez “lepoko esplenio giharraren tendoia hautsia dut” esateko gai bagara, euskararen normalizazio prozesuan aurrerapauso izugarria egina izango dugu. Horretan dihardute Olatzek eta Maitek. Terminologia itzulpen automatikoan garatu ostean orain testuak automatikoki itzultzeko ikerketan murgilduta daude.

Entzun irrati-programa hemen

Igone Zabala Ixakidearekin ere hitz egin dute EHUren ekarpena euskarako terminologia teknikoaren garapenaz. Ehunduz programako koordinatzailea da bera. Euskararen gaineko ikerketa aplikatua dute xede nagusi, baina beste hizkuntza batzuetan ikertzen eta produktuak garatzen ere aritzen dira. Terminologi teknologia ehunduz programa azaldu du. Entzun Igone Zabalaren hitzak hemen:

 

Beste esteka batzuk:

 

HITZ BESTE: Ez adiorik, Xuxen-zale amorratu hori

Ez_adiorik_LertsundiTamalez, bukatu zaigu HITZ BESTE zutabea eguneroko Berria-n.
15 urte euskara garatzen, idazketa txukunaren dibulgazio egiten.
Zutabe hori izan da gure Xuxen-i buruz ohar, txalo eta artikulu gehiago sortu dituena, Xuxen letren kronikara ekarri izan duena.ESKERRIK ASKO Anjel!Adibide moduan, Hitz beste-ko ale adierazgarri bat:

Ixa xuxen

Hogeita bost urte xuxen edo, gutxienez, ixa xuxen idatzi behar genuela tematu zirenetik: ez dute meritu makala guztiz despejatu ezin dugun xuxen idaztearen ixa inkognita argitzeko tema.

Baina gaizki hasi naiz: despejatuk Xuxenen txibato gorria piztu dit. Txibatok ere bai. Honaino heldu haiz, amigo!

Ez ditut zuzenduko. Eskola zaharreko honek gaztelaniaz ikasi zuen inkognitak despejatzen —ahaztu ere bai hizkuntzen beharrik gabe— eta zaharrez nagi naiz inkognitak askatu egiten direla ikasten hasteko. Txibato hitzari dagokionez, oso erro gaizto bihurriak hartuak ditu gure hizkeran, hain erraz baztertzeko. Biak gordeko ditut, bada. Nire aukera da. Xuxenek abisua eman dit. Eta askatasuna. Erratuko banintz, kulpa ez luke, Axularren hartan bezala, Xuxenek, baldarrontzi honek baizik.

Ixa xuxen ibiltzeko makuluak eutsiko ahal dio beste hogeita bost urtez bideari eta bertan topa dezala Euskalerria Irratia albistea eman dezan.

OHARRAK (Post scriptum)
Xuxen ez da, jakina, Ixak hogeita bost urteetan egindako lan bakarra (Ixarik gabe, euskarak ez luke gaur duen tokia informatikaren plazan) baina Xuxen da Ixaren bandera ontzia, edo niri hala iruditzen zait behintzat. Orain hamar urte zutabe honekin hasi nintzenetik Xuxenekin bizi izan dudan harreman sentimentalarengatik izango da.

Eta horri aipamena eginez honela idazten zuen gozo Xabier Artolak gure blog honetan:

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai).

Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

Zer da hizkuntzalaritza konputazionala? (K.Sarasola, Zientzia Kaiera)

Zientzia Kaiera (2017-01-20): Zer da hizkuntzaren prozesamendua?

UPV/EHUko “Kultura Zientifikoa” Katedrak gure ikertaldeko kidea den Kepa Sarasolarekin bideo bat grabatu du Hizkuntzalaritza Konputazionala zer den azaltzeko.

Hau da bideo albistea: “Hizkuntzalaritza konputazionalarekin lengoaiak errazago erabiltzeko tresnak garatzen ditugu“.

Gaiari buruz gehiago jakin nahi duenarentzat:

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Hizkuntza txikien jaia Kolonbiako bakealdian

kolonbia11Hizkuntza txikiak ikusezinak izaten dira gure mundu globalean, baina noizbait aukera izaten da horien berri izateko. Hori izan da orain Kolonbiako bake-prozesuarekin gertatu dena.

Gatazkari Bukaera Emateko Akordioa 44  hizkuntzatan, indigenak eta afroak, eskaintzen du Kolonbiako Kultura Ministerioak. Hizkuntza horien artean: awáa, ingera, kreolera, cofana, wayuunaikia, namtrika, nasa edo kurripakoa.  El acuerdo de Paz se habla en lenguas nativas webgune ofizialean testua deskargatu ahal duzu forma idatzia duten 38 hizkuntzatarako, eta audioa ahozko forma bakarrik duten beste 9 hizkuntzetarako. Ez daude guztiak baina, gehiago ere badira, irakurri Wikipediako Kolonbia artikuluan:

“Kolonbian 65 mintzaira indigena existitzen dira, 1991an konstituzioaren bidez lehenengo aldiz ofizialki onartu zituztenak. Gaur egun biztanleen %3ak indigenak dira, eta horietatik 800.000-850.000 hiztun propioak dira.”

kolonbiaueuHizkuntza-teknologiak lana errazten du horrelako erronketan, eta euskararen kasuan ere bai, noski. Horixe sinisten dugu IXA taldean eta horregatik antolatzen dugu UEU eta EHUrekin batera Itzulpengintza eta Teknologia on-line ikastaroa. Itzulpen zalea zara? Teknologia berriekin kuxkuxeroa? Animatzen zara? Azken aukera aste honetan.

Artikulu interesgarria Kolonbiako kontu honi buruz:

Ana Marcos-en artikulua ElPaísen

Ana Marcos-en artikulua ElPaísen

Itzulpen Automatikoko Europako Elkartean partaide instituzionala da Ixa Taldea

EAMT_IXAEuropean Association of Machine Translation elkartean hamaikagarren partaide instituzionala izan ginen Ixa Taldea 2012 urteaz geroztik.  IXA Taldearen aipamena berriztu dugu gaur EAMT webgunean, argazkia eta guzti.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudeatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Guztira orain hamabost gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak