Tesia: Bertso-neurketa automatikoa (Manex Agirrezabal, 2017-06-19)

Tesiaren titulua:  Automatic Scansion Of Poetry (Bertso-neurketa automatikoa)
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 12:00etan
Egilea: Manex Agirrezabal Zabaleta
Zuzendariak: Iñaki Alegria Loinaz eta Mans Hulden doktoreak
Hizkuntza: Ingelesa

Ikerketaren motibazioa, galderak:

  • Zer jakin behar dugu bertso idatzi baten neurria eta erritmoa automatikoki analizatzeko?
    Zelan detektatu dezakegu?
  • Ezagutza linguistikoa erabiltzeak lagundu dezake poesia automatikoki analizatzeko?
    Ingeleserako lortutako metodoa baliagarria izango da espainierarako?
    Euskararako?
  • Posible al da bertso baten neurria analizatzea batere ezagutza linguistikorik erabili gabe?
    Horrelako analisi batean lortuko diren emaitzak interpretagarriak izango dira?

Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.

Mintegia: itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan (I. Cortes, 2017-05-09, 15:00)

Mintegia
Itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan

Noiz: asteartean, maiatzak 9, 15:00etan.
Non: 3.2 gelan.
15:15-15:30 aldera, teorikoa amaitu ondoren,  alde praktikoa ere egin nahi duenak, fakultateko 1.6 gelan i
Hizlaria: Itziar Cortes. (Elhuyar Fundazioa)
Izenburua: Consumer.eus elebitan:  uztartzen dituen proiektua

Laburpena:

Itzulpen automatikoarekin lotutako 3 urteko proiektu esperimentala da. Helburu nagusia Consumer.eus atarian argitaratzen diren gaztelaniazko edukiak euskarara ahalik eta modu azkarrrenean itzultzea da, eta, horretarako, itzulpen automatikoa eta itzulpen-memoriak erabiltzen dituen plataforma bat erabiltzen da. Bertan, gainera, automatikoki sortutako euskarazko edukia zuzendu daiteke, posteditatu; testuari egindako moldaketetatik ikasi, eta sistemak automatikoki ematen dituen emaitzak hobetzea da helburua.

Zehazki postedizio automatikoko sistema bat sortuko dugu urte bukaerarako, jasotako informazioa oinarri hartuz. Horregatik, garrantzitsua da ahalik eta zuzenketa edo postedizio gehiena biltzea, sistemak ikasketarako nahikoa informazio izan dezan.

Consumer2

Itzulpen automatiko eta postedizio bidez itzulpena sortzeko interfazea.

Consumer_atun1

Sortutako errezeta bat

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Hizkuntza txikien jaia Kolonbiako bakealdian

kolonbia11Hizkuntza txikiak ikusezinak izaten dira gure mundu globalean, baina noizbait aukera izaten da horien berri izateko. Hori izan da orain Kolonbiako bake-prozesuarekin gertatu dena.

Gatazkari Bukaera Emateko Akordioa 44  hizkuntzatan, indigenak eta afroak, eskaintzen du Kolonbiako Kultura Ministerioak. Hizkuntza horien artean: awáa, ingera, kreolera, cofana, wayuunaikia, namtrika, nasa edo kurripakoa.  El acuerdo de Paz se habla en lenguas nativas webgune ofizialean testua deskargatu ahal duzu forma idatzia duten 38 hizkuntzatarako, eta audioa ahozko forma bakarrik duten beste 9 hizkuntzetarako. Ez daude guztiak baina, gehiago ere badira, irakurri Wikipediako Kolonbia artikuluan:

“Kolonbian 65 mintzaira indigena existitzen dira, 1991an konstituzioaren bidez lehenengo aldiz ofizialki onartu zituztenak. Gaur egun biztanleen %3ak indigenak dira, eta horietatik 800.000-850.000 hiztun propioak dira.”

kolonbiaueuHizkuntza-teknologiak lana errazten du horrelako erronketan, eta euskararen kasuan ere bai, noski. Horixe sinisten dugu IXA taldean eta horregatik antolatzen dugu UEU eta EHUrekin batera Itzulpengintza eta Teknologia on-line ikastaroa. Itzulpen zalea zara? Teknologia berriekin kuxkuxeroa? Animatzen zara? Azken aukera aste honetan.

Artikulu interesgarria Kolonbiako kontu honi buruz:

Ana Marcos-en artikulua ElPaísen

Ana Marcos-en artikulua ElPaísen

Nora Aranberri Innsbruckeko udako ikastaroan irakasle

Innsbruck2Nora Aranberri taldekidea, Innsbruck-eko Unibertsitateak inbitatuta, irakaslea izan da Machine Translation for Translators: Taking Advantage of the New Technology workshopean, SummerTrans 2016 udako ikastaroaren barruan.

Itzultzaileentzako SummerTrans udako ikastaroa 2004an hasi zen. Aurten uztailaren 11tik 20ra izan da, itzulpenaren kalitatea eta egokitasuna gaia landu dutela: “SummerTrans VII: Quality and Competence in Translation”.
Partehartzaileak 60 izan dira, 16 herrialdetakoak: Tunisia, Europa, Txina eta India.NoraInnsbruck2016Michael Ustaszewski, 2014-2016 biurteko gure Eramus Mundus LCT masterreko ikaslea, orain irakaslea da Innsbruck-eko Unibertsitatean eta SummerTrans 2016 ikastaroko antolatzaileetako bat ere izan da

IMG_1428b

Michael-ek esan digu workshopeko ikasleak oso pozik geratu direla Norarekin ikasi dutenarekin ;-)

 

Itzulpen Automatikoko Europako Elkartean partaide instituzionala da Ixa Taldea

EAMT_IXAEuropean Association of Machine Translation elkartean hamaikagarren partaide instituzionala izan ginen Ixa Taldea 2012 urteaz geroztik.  IXA Taldearen aipamena berriztu dugu gaur EAMT webgunean, argazkia eta guzti.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudeatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Guztira orain hamabost gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

Hizkuntza-teknologia lagun errefuxiatuen integrazioan

Hizkuntzarteko zubiak: http://ixa2.si.ehu.es/welcome

Zertan lagun diezagukete hizkuntza-teknologiek?
Zein tresna/baliabide erabil ditzaket errefuxiatuekin komunikatzeko eta laguntzeko?
Atari honetan Siriako errefuxiatuekin erabil daitezkeen tresna batzuk proposatzen ditugu.
Euskara

Can language technology be helpful?  Of course!!
Which tools can I use to communicate with refugees and help them?
We suggest some tools in this website. Our aim is to give you an overview of the technology you can use with syrian refugees.
English

¿En qué nos pueden ayudar las tecnologías del lenguaje?
¿Con qué recursos puedo comunicarme con los refugiados y ayudarles?
En esta página recomendamos algunos recursos disponibles que pueden resultar útiles con los refugiados sirios.
Español

هل يمكن للتقنيات التي تم تطويرها في مجال اللغات أن تكون مفيدة لنا؟ الجواب هو طبعًا وبدون أي شك!ما هي الأدوات التي يمكن أن أستخدمها للتواصل مع اللاجئين ومساعدتهم؟نقترح في هذا الموقع بعض الأدوات المفيدة وهدفنا هو أن نعطيك لمحة عامة عن التقنيات والأدوات المتوفرة التي يمكنك استخدامها للتواصل مع اللاجئين السوريين

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Ongi etorri, Xuxen 5

Egun on, denoi:

Duela hogei urte baino gehiago Xuxen plazaratu genuenean, ez genuen uste izan duen oihartzuna izango zuenik euskal gizartean. Baina bistan da Xuxen ezinbesteko tresna bihurtu dela, ordenagailua erabiliz euskaraz idazten duen ororentzat.

Hogei urte luze joan dira, beraz, estreinako Xuxen hura, Macintosh ordenagailuetarako bertsioa −hiru hazbete eta erdiko disketeetan−, kaleratu genuenetik. Gogoan dut lankide batzuekin kanpoan nintzela aurkezpen publikoa egin zen egunean, eta telegrama bidali genuela zorionak emanez (lekutan geratu dira telegramak gaur egun!); oker ez banago, oraindik ere gordeta behar du telegrama horrek, Ixa taldeko kideren baten bulegoko tiraderan. Denbora joan da, beraz, eta denbora horretan zehar aurrera egin du Xuxenek, hainbat bertsio izan ditu, plataforma eta testu-prozesadore desberdinetarako prestatu da, Euskaldunon Egunkariarekin batera ere banatu izan da, milaka deskarga izan ditu Jaurlaritzaren euskadi.net webgunetik… Xuxen ikasle zein irakasleek erabiltzen dute, idazle nahiz itzultzaileek, kazetariek…, euskaraz zuzen eta arauak betez idatzi nahi duen edonork, hitz batean esanda. Xuxen ezagutzen ez duenik ez da euskaraz idazten dutenen artean.

Harrokeriarik gabe, baina harrotasunez, esan dezakegu Xuxen laguntza handikoa izan dela azken bi hamarkada hauetan, euskara idatziaren normalizazioan, Euskaltzaindiaren hiztegi-arauak kaleratu eta gutxira normaltasunez onartuak eta erabiliak izan zitezen. Euskaltzaindiaren arauen artean aipatzen ahal dira zenbait mugarri, 1970eko hamarkadatik hona: aditz batua eta izen-adjektiboen deklinabidea, erakusleena, lehen ortografia-arauak (h-dun hitzen zerrendak, esate baterako), maileguak egokitzeko arauak, leku-, erakunde- eta hizkuntza-izenak… baina, bat aipatzekotan, eta lexikoari dagokionez, Hiztegi Batuaren argitaratzea aipatu beharko genuke. Hiztegi hori izan da, lehen argitalpenetik hona, Euskaltzaindiak baliatu duen tresna nagusia lexiko estandarra finkatuz eta hedatuz joateko. Hiztegi Batua 2000. urtean argitaratu zen lehenbiziko aldiz, eta Xuxenen 2.3 bertsioa zegoen kalean ordurako. Harrezkero, Hiztegi Batuak hainbat edizio eta Xuxenek hainbat bertsio izan dituzte, eta elkarren bidelagun izan dira.

Xuxenen atzean ikerkuntza dago. Elhuyarrek eta UPV/EHUko Ixa Taldeak hizkuntzaren tratamendu automatikoaren arloan egiten dute ikerketa, eta euskararen tratamendua dute ardatz: hor daude, besteak beste, oinarrizko tresna eta baliabideak, hainbat eta hainbat aplikaziotan euskara presente egotea, webean kontsultagarri dauden corpus eta hiztegiak… bertako eta nazioarteko kongresu eta aldizkarietan egindako argitalpenak. Ixa Taldeak mantentzen ditu Xuxenen oinarri den hiztegia −EDBL, hau da, Euskararen Datu-Base Lexikala− eta Xuxenen motorra; izan ere, euskarazko zuzentzailea ez baita hiztegi huts batean oinarritzen, segmentatzaile morfologikoa behar baitu hitz bat zuzen idatzita dagoen ala ez erabakitzeko. Aipatutako datu-basea hizkuntza prozesatzeko lan guztietan erabiltzen da, etengabe eguneratzen da, etengabe zuzendu eta aberasten da; eta Xuxenen bertsio berri hau prestatzeko, Elhuyarren hiztegiekin ere erkatu da, eta esan behar da erkatze horretatik eratorri diren zuzentze-aberasteak garrantzi handikoak izan direla. Gaur egun, Euskaltzaindiak Hiztegi Batuaren bidez emandako arau eta gomendio guztiek dute beren isla EDBLn, eta Euskaltzaindiak plazaratu ahala gauzatzen dira arau horiek datu-basean. Beraz, EDBL egunean mantentzen da beti, eta handik sortzen da zuzentzaileak behar duen lexikoa, zuzentzaileak behar duen formatuan.

Azpimarra gorriez gain azpimarra berdeak ere hor izango ditu erabiltzaileak hemendik aurrera, testu “xuxenagoak” idaztean lagungarri. Gorriak zentzu kritikoz hartu behar diren bezalaxe −gehien-gehienetan gure akatsen berri ematen badigute ere, ez baita ahaztu behar ortografia-zuzentzaileek testua hitzez hitz aztertu ohi dutela, eta, beraz, litekeena dela negatibo faltsuak izatea noizean behin−, berdeen aurrean are zuhurrago jokatu behar du erabiltzaileak, eta Xuxenek proposatutakoari men egin behar zaion edo bestela jokatzea komeni den, kasuan kasuan erabaki beharko du. Azpimarra berdeen bitartez, izan ere, bi eratako oharrak helaraziko baitzaizkio erabiltzaileari: hitz estandarrak izan arren, Euskaltzaindiak lehenetsiak ez direnean, Euskaltzaindiak hobetsitakoen −gomendatuen− berri emango zaio azpimarra berde horien bitartez; eta ohiko zenbait akats gramatikalen berri emateko ere baliatuko dira. Esan beharrik ez dago, laguntza gramatikal hori gehiago da euskara ikasten ari den edo gramatika menderatzen ez duenarentzat, euskaraz ongi eta txukun idazten duenarentzat baino; halakoak beti izango ditu eskura, noski, konfigurazio-aukerak, akats gramatikalen detekzioa gaitu edo desgaitzeko.

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai). Eneko Bidegainek, berriz, “garbi erran omen die ikasleei ez duela onartuko Xuxenek pasatzen utziko ez lituzkeen hutsez betetako idazlanik” −eta ez da bakarra, bakarra ez denez, hori egiten, irakasleon artean−. Artikulu berean dio “kazetari batek ez lukeela artikulurik bukatutzat jo behar, Xuxen pasatu gabe”; eta “idazle bati ere komeni zaiola zuzentzaile ortografikoaren laguntzarekin lan egitea, argitaletxeari zuzenketen fasean alferrikako lana aurrezteko, eta argitaletxeko zuzentzailearen lana zuzenketa sakonago eta zorrotzagora bideratzeko”.

Bukatzeko, esan, hitzak eta adjektiboak erlatibizatuz, betiere, Xuxen Xuxen dela, orain arte bezala aurrerantzean ere, beti bezain eskura izango dugun zuzentzaile ortografiko, lexiko eta gramatikala, gaur egun idazteko ditugun tresna eta aplikazioetan instalatu eta erabili ahal izango dugun laguntza.

Eta Anduri beste hitz batzuk ebatsiko dizkiot, kazetariari emandako erantzunetik, Xuxenekin ei duen gorroto-amodiozko harremanaz galde egin diolarik: “Xuxeni esker, orain ateratzen den literatura guztia, eta liburuak, eta artikuluak, Xuxen sortu aurretik baino txukunago, zuzenago ateratzen dira. Beraz, chapeau Xuxeni”, esaten du Lertxundik, eta “ongi etorri, Xuxen 5” esanez amaituko dut nik. Besterik ez, eskerrik asko.

Xabier Artola Zubillaga.
Usurbil, 2015eko azaroaren 10a.