QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Uxoa-rentzat #txiotesia3 sari bat

Uxoa Iñurrieta Ixakideak irabazi du #txiotesia3 txapelketako sari bat, ekarpen ulergarrienaren saria izan da berea. ZORIONAK!
Irakurri behean Uxoaren 6 txioak:
txiotesia3_saria_2016

1 Izen+aditz konbinazioen itzulpena: azterketa linguistikoa eta tratamendu konputazionala

2 Izen+aditz konbinazio batzuk Unitate Fraseologikoak (UF) dira: konbinazio osoari begiratu behar zaio esanahia ondo ulertzeko

  • 3 Normalean ez dira hitzez hitz itzultzen, baina asko ez daude hiztegietan, eta denek ez dituzte gramatika-arauak jarraitzen

  • 4 Matxin itzultzaile automatikoari, oinarrian gramatika-arauak eta hiztegiak dituenez, UFak oso nahasgarri gertatzen zaizkio

    5 Bi erronka nagusi: gaztelaniazko UFak identifikatzea eta euskarara zuzen itzultzea. Konbitzul datu-basea lagungarria da bietan

    6 Konbitzulen jasotako UFei, ordainei eta informazio linguistikoari esker, Matxinek gero eta hobeto itzuliko ditu UFak

Ixa Taldeko beste bost tesitxiolari izan dira

 

#txiotesia3. Hizkuntza-teknologia arloko tesiak

Azaroaren 22an Unibertsitatea.net atariak antolatu duen #txiotesia3 ekimenean gutxienez 6 izan dira hizkuntza teknologiaren inguruko tesiak. Guztira 52 ikertzailek parte hartu zuten, aurreko edizioan baino %13 gehiago.
Sari banaketa abenduaren 1ean izango da Donostiako Garoa liburu dendan, bertan  unibertsitatea.net atariaren 10. urteurrena ospatu eta mahai-inguru bat ere izango da.

Hauek dira Hizkuntza-Teknologiako txio-tesilariak:


Uxoa Iñurrieta barrezka Matxinekin (Wolfram deuna)

wofram11uxoa_matxin_umorea_bergaraAtzo, Uxoa Iñurrietak parte hartu zuen Wolfram deuna 2016 umorezko saioan. Ikusi behean Teknopolis programako albistea (Uxoarena: 2’10”).

Bai, itzultzaile automatikoen esaldiak barregarri xamarrak izaten dira batzuetan. Horrelako adibide batzuekin bere tesi-lanaren motibazioa erakutsi zigun.

 

Errore horietako batzuk konpontzearren tesian egiten ari dena ikusi nahi baduzu…

Hitzaldia: Modernitaterako balio zuen euskarak? (A. Farwell, 2016-10-11)

Aritz Farwell (Arg.: Mikel Mtz. de Trespuentes)

Jo-ta-fuego gabiltza IXA taldean euskara murgiltzen teknologia berrietan, baina orain dela 100 urte uste zabaldua zen euskara baserrirako eta familiarako bakarrik balio zuela.
Horixe izan da Aritz Farwell-en aurten defenditu duen tesiaren gaia. Asteartean laburpen bat eskainiko digu.

Gaia: Modernitaterako balio du euskarak? Orain dela 100 urteko ikuspegia
Hizlaria:
Aritz Farwell Castillo Los Angeleseko Pitzer Collegen Historian lizentziatu ondoren, University of Chicagon egin zuen masterra. Duela hamar urte Euskal Herrira heldu zen doktoregoa egitera. 2016ko otsailaren 3an defendatu zuen UPV/EHUko Gizarte eta Komunikazio Zientzien Fakultatean ‘Borne Before the Moone: A Social and Political History of Basque at the Dawn of the Twentieth Century‘ tesia.
Eguna: urriaren 11an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:

Ikerlariaren arabera, gizartearen gehiengoak iritzi hauek partekatzen zituzten euskararen inguruan: “besteak beste, iraganeko erlikia bat bezala ikusten zen, zabartua zegoena, desagertzeko mehatxua gainean zuena, gutxietsia, bizitza publikotik at, linguistikoki irla bat, euskal herritarren jatorrizko hizkuntza eta beheko klasearen hizkuntza”. Horiek guztiak, hala ere, Farwellen esanetan, pertzepzioak ziren, tesian zehar azaltzen den bezala, esate baterako, “euskara ez baitzegoen eremu publikotik erabat baztertua”.

Hizkuntza txikien jaia Kolonbiako bakealdian

kolonbia11Hizkuntza txikiak ikusezinak izaten dira gure mundu globalean, baina noizbait aukera izaten da horien berri izateko. Hori izan da orain Kolonbiako bake-prozesuarekin gertatu dena.

Gatazkari Bukaera Emateko Akordioa 44  hizkuntzatan, indigenak eta afroak, eskaintzen du Kolonbiako Kultura Ministerioak. Hizkuntza horien artean: awáa, ingera, kreolera, cofana, wayuunaikia, namtrika, nasa edo kurripakoa.  El acuerdo de Paz se habla en lenguas nativas webgune ofizialean testua deskargatu ahal duzu forma idatzia duten 38 hizkuntzatarako, eta audioa ahozko forma bakarrik duten beste 9 hizkuntzetarako. Ez daude guztiak baina, gehiago ere badira, irakurri Wikipediako Kolonbia artikuluan:

“Kolonbian 65 mintzaira indigena existitzen dira, 1991an konstituzioaren bidez lehenengo aldiz ofizialki onartu zituztenak. Gaur egun biztanleen %3ak indigenak dira, eta horietatik 800.000-850.000 hiztun propioak dira.”

kolonbiaueuHizkuntza-teknologiak lana errazten du horrelako erronketan, eta euskararen kasuan ere bai, noski. Horixe sinisten dugu IXA taldean eta horregatik antolatzen dugu UEU eta EHUrekin batera Itzulpengintza eta Teknologia on-line ikastaroa. Itzulpen zalea zara? Teknologia berriekin kuxkuxeroa? Animatzen zara? Azken aukera aste honetan.

Artikulu interesgarria Kolonbiako kontu honi buruz:

Ana Marcos-en artikulua ElPaísen

Ana Marcos-en artikulua ElPaísen

HAP/LAP masterreko lau tesiren defentsa

Eguna: irailaren 27a     Lekua: Ada Lovelace aretoa

15:30
Universal Dependencies for Buryat.
Egilea: Elena Badmaeva
Tutoreak: Koldo Gojenola , Gosse Bouma

16:15
LexSynSimpleText, a lexical and syntactic simplifier: first steps.
Egilea: Maria Eguimendia
Tutoreak: Arantza Diaz de Ilarraza and Gosse Bouma

17:00
Data Sparsity in Highly Inflected Languages: The Case of Morphosyntactic Tagging in Polish.
Egilea: Michael Ustaszewski
Tutoreak: Rodrigo Agerri and German Rigau

17:45
Multilingual Central Repository version 3.0: improving a very large lexical knowledge base.
Egilea: Daniel Parera Perez
Tutoreak: German Rigau Claramunt

Nora Aranberri Innsbruckeko udako ikastaroan irakasle

Innsbruck2Nora Aranberri taldekidea, Innsbruck-eko Unibertsitateak inbitatuta, irakaslea izan da Machine Translation for Translators: Taking Advantage of the New Technology workshopean, SummerTrans 2016 udako ikastaroaren barruan.

Itzultzaileentzako SummerTrans udako ikastaroa 2004an hasi zen. Aurten uztailaren 11tik 20ra izan da, itzulpenaren kalitatea eta egokitasuna gaia landu dutela: “SummerTrans VII: Quality and Competence in Translation”.
Partehartzaileak 60 izan dira, 16 herrialdetakoak: Tunisia, Europa, Txina eta India.NoraInnsbruck2016Michael Ustaszewski, 2014-2016 biurteko gure Eramus Mundus LCT masterreko ikaslea, orain irakaslea da Innsbruck-eko Unibertsitatean eta SummerTrans 2016 ikastaroko antolatzaileetako bat ere izan da

IMG_1428b

Michael-ek esan digu workshopeko ikasleak oso pozik geratu direla Norarekin ikasi dutenarekin ;-)

 

Euskal Wikipediaren testu-bertsio bat behar duzu?

Wikipedia oso baliabide interesgarria da hizkuntzaren prozesamendurako. Testu egituratua da eta metadatu asko barneratzen ditu. Baina oinarrizko estatistikak-eta lortu nahi badituzu komenigarria da testu-formatu hutsean edukitzea. Ixa Taldeko zenbait lanetan Euskal Wikipediaren testu bertsio bat lortu behar izan dugu eta orain bertsio hori Ixa Taldearen baliabideen artean jarri dugu edonork bertatik jaitsi ahal izateko moduan:

Euskarazko Wikipediaren esportazioa (2016ko apirilak 7ko bertsioa)

Oharrak:

Afrika2_text

Afrika artikulua testu moduan

WPAfrika1

Afrika artikulua Euskal Wikipedian

Mintegia: Big Data eta hizkuntza teknologia Trivagon (Min Fang, 2016/06/08)

Izenburua:  Big Data and NLP at Trivago
…………….(Big Data eta hizkuntzaren prozesamendua hotelak bilatzeko Trivago aplikazioan)
Hizlaria: Min Fang
…..2013 – 2015: Master Erasmus Mundus Language and Communication Technologies, summa cum laude
…..2015-… :   (Trivago, hotelak bilatzeko aplikazioa)
Eguna: ekainaren 8an
Ordua:  10:00 – 11:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:
Hoteletako bezeroek idazten dituzten balorazioetatik aldeko eta kontrako iritziak automatikoki lortzea da helburua, ikasketa automatikoa, analisi estatistikoa eta “Big data” teknikak erabilita. Sentimenduen analisia lantzen du.
I’m interested in getting insights from data by applying natural language processing, machine learning and statistical analyses. Ideally, those insights can then be turned into useful applications or facilitate higher level decisions.

Together with our software engineers I take care of our NLP capabilities: We work on improving and maintaining a highly flexible and scalable pipeline that is geared towards aspect-based sentiment analysis (and more in the future). Extracting knowledge from a large number of natural language texts allows us to understand our domain better and enhance the experience for our users.

Our technology stack includes:
– Python and Java
– R for analysis
– AWS for infrastructure