Mintegia: Itzulpen Automatiko Neuronala: TAdeep eta Modela proiektuak (G. Labaka, 2017-01-31)

Izenburua:  Itzulpen Automatiko Neuronala: TADeep eta Modela proiektuak
Hizlaria: Gorka Labaka
Eguna: urtarrilaren 31n
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

2017. urtean, IXA taldeak bi proiektutan landuko ditu itzulpen automatiko neuronala (TAdeep eta Modela). Mintegian, Gorka Labakak itzulpena automatiko neuronalaren aurkezpen orokorra egingo du, eta horren ondoren proiektu horietan aurreikusitako eginbeharrak eta epeak azalduko dira.

TAdeep

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak

Xuxen5: harrera oso ona 4000 deskargarekin

Xuxen%_Artola_tolosaldeko Elkarrizketa bat egin diote Ixakidea den Xabier Artola ikerlariari  Toloasaldeko Ataria aldzkarian, besteak beste Xuxen5 programaren bertsio berriaz aritu izan dira. Azalpen sakonak azaldu dira hor: adibidez hauek:

“Orokorrean jendeak Worden atzean dagoen zuzentzailea Xuxen dela uste du, baina ez da horrela. Microsoftek eginiko euskarazko zuzentzaile «kaxkar» bat da. Xuxen norberak bere ordenagailuan edukitzeko norberak instalatu behar du xuxen.eus webgunetik.”

“Aipatzekoa da Elhuyarrek, azken bertsio honetan, bere baliabide propioak erabili behar izan dituela proiektua aurrera ateratzeko, ez baitugu diru laguntzarik jaso. Eusko Jaurlaritzak diruz lagundu izan ditu gure proiektu batzuk baina oraingo hau ez.”

Komunikabideetako beste albiste batzuk:

Pertsona batek ezin ditu milioika albiste irakurri, NewsReader-ek bai

Itziar_Aldabe_HitzaElkarrizketa bat egin diote Ixakidea den Itziar Aldabe ikerlariari Goierriko Hitza aldzkarian, besteak beste euskarak teknologian duen egoeraz eta berak lantzen duen  News Reader proiektu europarraz aritu dira:

Euskarak zer moduzko egoera du teknologia berrietan?

Normalean baliabideak behar dira. Ixa horregatik sortu zen, duela 27 urte. […] Euskara hor dago, eta ingelesarekin konparatzen bada, gauza batzuetan ez dago maila berean, baina beste gauza batzuetan bai.

Hizkuntza gutxituen artean, zer moduzko tokian dago euskara?

Ondo dago kokatuta, Ixa taldeari eta beste erakunde batzuei esker, Elhuyarri adibidez. Hizkuntza gutxituen artetik esango nuke, ondoena posizionatuta dagoena dela. Hemen urteak daramatzate baliabideak sortzen edo biltzen.

[…]

Euskararekin zer ikusirik ez duen Europako beste proiektu batean ere ari zara lanean.

Bai, News Reader proiektua da. Beste bi unibertsitaterekin eta hiru enpresekin ari gara lanean. Proiektu europarra da. Helburu nagusia finantza eta ekonomiako erabakiak hartzen laguntzeko gertaeren antzematea eta egituratzea burutzea da.NewsReaderAdibideren bat jar dezakezu?

Pentsa, enpresa bateko kargudun batek erabaki bat hartu behar duela; adibidez, beste enpresa bat erosi, bai ala ez erabaki behar duela. Enpresa horri bu- ruzko informazioa egunkari eta iturri desberdinetatik jaso daiteke. Informazio hori gainera hizkuntza desberdinetan egongo da. Baina pertsona batek ezin ditu milioika albiste irakurri. Gu, informazio horren guztiaren kronologia eta laburpena egingo duen tresna bat sortzen ari gara. Informazio guztia automatikoki prozesatzeko edo irakurtzeko gai den eta modu kronologiko batean zer gertatzen ari den modu bisualean agertuko duen tresna.

Zein hizkuntzatarako ari zarete tresna hori prestatzen?

Lau hizkuntzatarako ari gara lanean: ingelesa, gaztelera, italiera eta nederlandera, proiektuaren liderra bertakoa delako.

 

Rodrigo Agerri proiektu-aholkulari aurtengo Google Summer of Code-n

Gure lankide Rodrigo Agerri aukeratu dute aurtengo Google Summer of Code ekitaldiko proiektu baten aholkularia izateko (“mentor” izateko).
Proiektuaren gaia hitzen adiera-desanbiguazioa da (Word Sense Disambiguation – Supervised Techniques) eta Apache Software fundazioak aurkeztu du. Zorionak Rodri!

Google Summer of Code 2015: Onartutatako proiektu guztien lista.

Hitzaldia: Zurrumurruak antzeman eta tratatu Twitterren (A. Zubiaga, 2015/05/12)

Hizlaria: Arkaitz Zubiaga
………….University of Warwick

Eguna: Maiatzaren 12an, asteartean
Ordua: 15:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

Hitzaldiaren izenburua:
Zurrumurruak antzematen eta aztertzen Twitter sare sozialean

Laburpena:
Twitter bezalako sare sozialak mundu osoko gertaerez informatuta egoteko tresna paregabea diren arren, kontu handiz hartu behar da bertan irakurritakoa, informazio guztia ez baita zehatza eta egiazkoa. Gezurren hedapenak garrantzi handia du, batik bat, azken orduko albisteen inguruan informazio berria jakinarazten den ahala. Aurkezpen honetan PHEME FP7 proiektuan sare sozialetan hedatzen diren zurrumurruen gainean egiten ari garen ikerketa lanaz arituko naiz. Hasteko, kazetariekin batera lan eginez Twitter bidez gertakizunak jarraitu ahala zurrumurruak antzeman eta ikerketarako aproposa den datu bilduma sortzeko definitu dugun prozesua azalduko dut. Zurrumurru hauen testuingurua osatzeko, erabiltzaileek zurrumurruen inguruan sortutako eztabaidak batu ditugu, eta crowdsourcing bidez txioak anotatu, adostasun, ezadostasun, eta abarrak markatuz. Zurrumurru hauen inguruko eztabaidak hizkuntzaren prozesamendua eta sare sozialen analisia baliatuz aztertzea dugu helburu proiektu honetan.

Biografia:
Arkaitz Zubiaga doktorego ondorengo ikertzailea da Warwickeko Unibertsitatean (Coventry, Ingalaterra). Sare sozialak ikertzen aritu da azken urteotan, testu meatzaritza aplikatuz edukia aztertzeko eta baita erabiltzaileen jarrera ulertzeko ere. Azkenaldian kazetari eta soziologoekin batera lan egin du PHEME FP7 proiektuan, ikuspegi informatikotik sare sozialetan zurrumurruen inguruan gertatzen diren elkarrizketak lantzeko.

Gradu bukaerako proiektuak 2014/15 ikasturtean.

Ixa taldeak urtero hainbat Gradu-Amaierako Proiektu lantzen ditu graduko ikasleekin. 2013-2014 ikasturtean aurkeztu diren lau proiekturen berri ekarri nahi ditugu hona. Proiektu horiek eta aurreko urteetan egindako beste batzuen txostenak eskura daude ADDIn, EHUko Irakaskuntza eta Ikerketarako Artxibo Digitalean.

Itzulpen-sistema hibridoen eraikuntza EBMT bidezko itzulpen partzialak erabiliz
Artetxe Zurutuza, Mikel
Itzulpen automatikoan kokatzen da lan hau. Hainbat testu itzulitan agertzen diren adibideak erabiliz itzulpenak hobetzea da helburua (ingelesez Example Based Machine Translation, EBMT). Testuko entitateak (pertsona, erakunde edo tokien izenak) eta esaldia baino txikiagoak diren unitate sintaktikoak identifikatu, orokortu eta beren itzulpenak adibide horiek erabiliz sortzen dituen aurreprozesu batean oinarritzen da,  itzulpen partzial horiek gero esaldi mailan txertatu ahal izateko. Itzulpenak egiteko egun dauden beste teknikekin (estatistikoekin edota erregeletan oinarritutakoekin) hibridatzeko mekanismo bat ere garatu da.
Mikel orain HAP/LAP masterra egiten ari da, eta Ixa taldearen lankidetza-beka batekin ari da orain QTLeap proiektu europarrean.

QR kodeak eta eduki-kudeaketa eleanitza
Garaio Mendizabal, Manex
Gradu Amaierako Proiektu honek QR kodeak eta eduki-kudeaketa eleanitza jorratzen ditu Android telefonoetarako; QR kode bat irakurrita mezu bat, ohar bat, hainbat hizkuntzatan jaso ahal izateko. Sistemak hiru osagai ditu: (1) QR kodeak irakurtzen dituen Android sistema eragilerako aplikazioa; (2) Android aplikazio horrek atzituko duen Eduki Kudeatzailea, WordPress Edukiak Kudeatzeko Sistemaren bidez garatu dena eta edukiak hizkuntz ezberdinetan izango dituena; eta (3), Eduki Kudeatzaile hori edukiz osatzen laguntzeko modulu gehigarria, sare bidezko zerbitzuak erabilita itzulpenak prestatzeko eta QR kodeak sortzeko lagunduko duena. Pasai SanPedroko Ondartxo Museoan martxan jarri da QR aplikazio hau.
Manex puntuEUS Fundazioko informatikari gisa ari da lanean orain.

Adizki-bilaketa analogiaren bidez.
Kortajarena Guridi, Asier
Sortutako Android aplikazio honetan erabiltzaileak euskarazko adizki ez-ohikoak (ad.: genizkioke, ditinagu…) aurkitu ditzake ezagunago diren beste adizkien bidez eta analogia erabiliz.
Asier HAP/LAP masterra egiten ari da orain.

Lehen urratsak euskarazko testu anonimoen egile-esleipeneanIoanesCeballos
Ceballos Michelena, Ioanes
Gaur egungo bertsoen corpus bat hartuta, bertsoen autoreak zein diren asmatzeko aplikazio bat egin du, ikasketa automatikoa erabiliz. Anonimoak diren testuei egile probableak aurkitzeko erabiltzen dira tresna hauek

2014-10-24_Mikel_Manex_Asier

Mikel Artetxe, Manex Garaio eta Asier Kortajarena

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan 🙁   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.