Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

Zer da hizkuntzalaritza konputazionala? (K.Sarasola, Zientzia Kaiera)

Zientzia Kaiera (2017-01-20): Zer da hizkuntzaren prozesamendua?

UPV/EHUko “Kultura Zientifikoa” Katedrak gure ikertaldeko kidea den Kepa Sarasolarekin bideo bat grabatu du Hizkuntzalaritza Konputazionala zer den azaltzeko.

Hau da bideo albistea: “Hizkuntzalaritza konputazionalarekin lengoaiak errazago erabiltzeko tresnak garatzen ditugu“.

Gaiari buruz gehiago jakin nahi duenarentzat:

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Hizkuntza txikien jaia Kolonbiako bakealdian

kolonbia11Hizkuntza txikiak ikusezinak izaten dira gure mundu globalean, baina noizbait aukera izaten da horien berri izateko. Hori izan da orain Kolonbiako bake-prozesuarekin gertatu dena.

Gatazkari Bukaera Emateko Akordioa 44  hizkuntzatan, indigenak eta afroak, eskaintzen du Kolonbiako Kultura Ministerioak. Hizkuntza horien artean: awáa, ingera, kreolera, cofana, wayuunaikia, namtrika, nasa edo kurripakoa.  El acuerdo de Paz se habla en lenguas nativas webgune ofizialean testua deskargatu ahal duzu forma idatzia duten 38 hizkuntzatarako, eta audioa ahozko forma bakarrik duten beste 9 hizkuntzetarako. Ez daude guztiak baina, gehiago ere badira, irakurri Wikipediako Kolonbia artikuluan:

“Kolonbian 65 mintzaira indigena existitzen dira, 1991an konstituzioaren bidez lehenengo aldiz ofizialki onartu zituztenak. Gaur egun biztanleen %3ak indigenak dira, eta horietatik 800.000-850.000 hiztun propioak dira.”

kolonbiaueuHizkuntza-teknologiak lana errazten du horrelako erronketan, eta euskararen kasuan ere bai, noski. Horixe sinisten dugu IXA taldean eta horregatik antolatzen dugu UEU eta EHUrekin batera Itzulpengintza eta Teknologia on-line ikastaroa. Itzulpen zalea zara? Teknologia berriekin kuxkuxeroa? Animatzen zara? Azken aukera aste honetan.

Artikulu interesgarria Kolonbiako kontu honi buruz:

Ana Marcos-en artikulua ElPaísen

Ana Marcos-en artikulua ElPaísen

Itzulpen Automatikoko Europako Elkartean partaide instituzionala da Ixa Taldea

EAMT_IXAEuropean Association of Machine Translation elkartean hamaikagarren partaide instituzionala izan ginen Ixa Taldea 2012 urteaz geroztik.  IXA Taldearen aipamena berriztu dugu gaur EAMT webgunean, argazkia eta guzti.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudeatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Guztira orain hamabost gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak

Elkarrizketa Uxoa Iñurrieta-rekin unibertsitatea.net-en

Uxoa Iñurrieta gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Uxoak hau aurrikusten du: “Oso zaila izango da esaldi konplexuenak ere zuzen-zuzen itzuliko dituen tresnarik lortzea”

Uxoa tesia egiten ari da HAP-LAP programaren barruan. Hona hemen elkarrizketako galdera eta erantzun pare bat:

Konbitzul datu-basea daukazu esku artean; zer da?
Konbitzul datu-baseak izen+aditz motako konbinazioei eta haien itzulpenari buruzko informazioa jasotzen du. Hizkuntzaren prozesamenduari begira sortua da, eta baliagarria da hainbat aplikazio informatikotarako, itzultzaile automatikoetarako, kasu. Edo hala espero dugu, behintzat!

Zein da bere aplikazio praktikoa? Zertarako balia daiteke datu-base hau?
Demagun, adibidez, itzultzaile automatiko batek “adarra jo” esapidea gaztelaniara itzultzea nahi dugula. Ordenagailuak, guk informaziorik eman ezean, bi hitz horiek irakurri eta “tocar/pegar el cuerno” bezalako zerbait sortuko luke, ez bailuke jakingo benetako esanahia zein den. Bada, Konbitzulen sartzen ari garen datuek horrelakoak hobeto itzultzeko balioko dute.

Xuxen5: harrera oso ona 4000 deskargarekin

Xuxen%_Artola_tolosaldeko Elkarrizketa bat egin diote Ixakidea den Xabier Artola ikerlariari  Toloasaldeko Ataria aldzkarian, besteak beste Xuxen5 programaren bertsio berriaz aritu izan dira. Azalpen sakonak azaldu dira hor: adibidez hauek:

“Orokorrean jendeak Worden atzean dagoen zuzentzailea Xuxen dela uste du, baina ez da horrela. Microsoftek eginiko euskarazko zuzentzaile «kaxkar» bat da. Xuxen norberak bere ordenagailuan edukitzeko norberak instalatu behar du xuxen.eus webgunetik.”

“Aipatzekoa da Elhuyarrek, azken bertsio honetan, bere baliabide propioak erabili behar izan dituela proiektua aurrera ateratzeko, ez baitugu diru laguntzarik jaso. Eusko Jaurlaritzak diruz lagundu izan ditu gure proiektu batzuk baina oraingo hau ez.”

Komunikabideetako beste albiste batzuk:

Pertsona batek ezin ditu milioika albiste irakurri, NewsReader-ek bai

Itziar_Aldabe_HitzaElkarrizketa bat egin diote Ixakidea den Itziar Aldabe ikerlariari Goierriko Hitza aldzkarian, besteak beste euskarak teknologian duen egoeraz eta berak lantzen duen  News Reader proiektu europarraz aritu dira:

Euskarak zer moduzko egoera du teknologia berrietan?

Normalean baliabideak behar dira. Ixa horregatik sortu zen, duela 27 urte. […] Euskara hor dago, eta ingelesarekin konparatzen bada, gauza batzuetan ez dago maila berean, baina beste gauza batzuetan bai.

Hizkuntza gutxituen artean, zer moduzko tokian dago euskara?

Ondo dago kokatuta, Ixa taldeari eta beste erakunde batzuei esker, Elhuyarri adibidez. Hizkuntza gutxituen artetik esango nuke, ondoena posizionatuta dagoena dela. Hemen urteak daramatzate baliabideak sortzen edo biltzen.

[…]

Euskararekin zer ikusirik ez duen Europako beste proiektu batean ere ari zara lanean.

Bai, News Reader proiektua da. Beste bi unibertsitaterekin eta hiru enpresekin ari gara lanean. Proiektu europarra da. Helburu nagusia finantza eta ekonomiako erabakiak hartzen laguntzeko gertaeren antzematea eta egituratzea burutzea da.NewsReaderAdibideren bat jar dezakezu?

Pentsa, enpresa bateko kargudun batek erabaki bat hartu behar duela; adibidez, beste enpresa bat erosi, bai ala ez erabaki behar duela. Enpresa horri bu- ruzko informazioa egunkari eta iturri desberdinetatik jaso daiteke. Informazio hori gainera hizkuntza desberdinetan egongo da. Baina pertsona batek ezin ditu milioika albiste irakurri. Gu, informazio horren guztiaren kronologia eta laburpena egingo duen tresna bat sortzen ari gara. Informazio guztia automatikoki prozesatzeko edo irakurtzeko gai den eta modu kronologiko batean zer gertatzen ari den modu bisualean agertuko duen tresna.

Zein hizkuntzatarako ari zarete tresna hori prestatzen?

Lau hizkuntzatarako ari gara lanean: ingelesa, gaztelera, italiera eta nederlandera, proiektuaren liderra bertakoa delako.