Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.

HITZ BESTE: Ez adiorik, Xuxen-zale amorratu hori

Ez_adiorik_LertsundiTamalez, bukatu zaigu HITZ BESTE zutabea eguneroko Berria-n.
15 urte euskara garatzen, idazketa txukunaren dibulgazio egiten.
Zutabe hori izan da gure Xuxen-i buruz ohar, txalo eta artikulu gehiago sortu dituena, Xuxen letren kronikara ekarri izan duena.ESKERRIK ASKO Anjel!Adibide moduan, Hitz beste-ko ale adierazgarri bat:

Ixa xuxen

Hogeita bost urte xuxen edo, gutxienez, ixa xuxen idatzi behar genuela tematu zirenetik: ez dute meritu makala guztiz despejatu ezin dugun xuxen idaztearen ixa inkognita argitzeko tema.

Baina gaizki hasi naiz: despejatuk Xuxenen txibato gorria piztu dit. Txibatok ere bai. Honaino heldu haiz, amigo!

Ez ditut zuzenduko. Eskola zaharreko honek gaztelaniaz ikasi zuen inkognitak despejatzen —ahaztu ere bai hizkuntzen beharrik gabe— eta zaharrez nagi naiz inkognitak askatu egiten direla ikasten hasteko. Txibato hitzari dagokionez, oso erro gaizto bihurriak hartuak ditu gure hizkeran, hain erraz baztertzeko. Biak gordeko ditut, bada. Nire aukera da. Xuxenek abisua eman dit. Eta askatasuna. Erratuko banintz, kulpa ez luke, Axularren hartan bezala, Xuxenek, baldarrontzi honek baizik.

Ixa xuxen ibiltzeko makuluak eutsiko ahal dio beste hogeita bost urtez bideari eta bertan topa dezala Euskalerria Irratia albistea eman dezan.

OHARRAK (Post scriptum)
Xuxen ez da, jakina, Ixak hogeita bost urteetan egindako lan bakarra (Ixarik gabe, euskarak ez luke gaur duen tokia informatikaren plazan) baina Xuxen da Ixaren bandera ontzia, edo niri hala iruditzen zait behintzat. Orain hamar urte zutabe honekin hasi nintzenetik Xuxenekin bizi izan dudan harreman sentimentalarengatik izango da.

Eta horri aipamena eginez honela idazten zuen gozo Xabier Artolak gure blog honetan:

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai).

Euskal Wikipediaren testu-bertsio bat behar duzu?

Wikipedia oso baliabide interesgarria da hizkuntzaren prozesamendurako. Testu egituratua da eta metadatu asko barneratzen ditu. Baina oinarrizko estatistikak-eta lortu nahi badituzu komenigarria da testu-formatu hutsean edukitzea. Ixa Taldeko zenbait lanetan Euskal Wikipediaren testu bertsio bat lortu behar izan dugu eta orain bertsio hori Ixa Taldearen baliabideen artean jarri dugu edonork bertatik jaitsi ahal izateko moduan:

Euskarazko Wikipediaren esportazioa (2016ko apirilak 7ko bertsioa)

Oharrak:

Afrika2_text

Afrika artikulua testu moduan

WPAfrika1

Afrika artikulua Euskal Wikipedian

Hizkuntza-teknologia lagun errefuxiatuen integrazioan

Hizkuntzarteko zubiak: http://ixa2.si.ehu.es/welcome

Zertan lagun diezagukete hizkuntza-teknologiek?
Zein tresna/baliabide erabil ditzaket errefuxiatuekin komunikatzeko eta laguntzeko?
Atari honetan Siriako errefuxiatuekin erabil daitezkeen tresna batzuk proposatzen ditugu.
Euskara

Can language technology be helpful?  Of course!!
Which tools can I use to communicate with refugees and help them?
We suggest some tools in this website. Our aim is to give you an overview of the technology you can use with syrian refugees.
English

¿En qué nos pueden ayudar las tecnologías del lenguaje?
¿Con qué recursos puedo comunicarme con los refugiados y ayudarles?
En esta página recomendamos algunos recursos disponibles que pueden resultar útiles con los refugiados sirios.
Español

هل يمكن للتقنيات التي تم تطويرها في مجال اللغات أن تكون مفيدة لنا؟ الجواب هو طبعًا وبدون أي شك!ما هي الأدوات التي يمكن أن أستخدمها للتواصل مع اللاجئين ومساعدتهم؟نقترح في هذا الموقع بعض الأدوات المفيدة وهدفنا هو أن نعطيك لمحة عامة عن التقنيات والأدوات المتوفرة التي يمكنك استخدامها للتواصل مع اللاجئين السوريين

Xuxen5: harrera oso ona 4000 deskargarekin

Xuxen%_Artola_tolosaldeko Elkarrizketa bat egin diote Ixakidea den Xabier Artola ikerlariari  Toloasaldeko Ataria aldzkarian, besteak beste Xuxen5 programaren bertsio berriaz aritu izan dira. Azalpen sakonak azaldu dira hor: adibidez hauek:

“Orokorrean jendeak Worden atzean dagoen zuzentzailea Xuxen dela uste du, baina ez da horrela. Microsoftek eginiko euskarazko zuzentzaile «kaxkar» bat da. Xuxen norberak bere ordenagailuan edukitzeko norberak instalatu behar du xuxen.eus webgunetik.”

“Aipatzekoa da Elhuyarrek, azken bertsio honetan, bere baliabide propioak erabili behar izan dituela proiektua aurrera ateratzeko, ez baitugu diru laguntzarik jaso. Eusko Jaurlaritzak diruz lagundu izan ditu gure proiektu batzuk baina oraingo hau ez.”

Komunikabideetako beste albiste batzuk:

Ongi etorri, Xuxen 5

Egun on, denoi:

Duela hogei urte baino gehiago Xuxen plazaratu genuenean, ez genuen uste izan duen oihartzuna izango zuenik euskal gizartean. Baina bistan da Xuxen ezinbesteko tresna bihurtu dela, ordenagailua erabiliz euskaraz idazten duen ororentzat.

Hogei urte luze joan dira, beraz, estreinako Xuxen hura, Macintosh ordenagailuetarako bertsioa −hiru hazbete eta erdiko disketeetan−, kaleratu genuenetik. Gogoan dut lankide batzuekin kanpoan nintzela aurkezpen publikoa egin zen egunean, eta telegrama bidali genuela zorionak emanez (lekutan geratu dira telegramak gaur egun!); oker ez banago, oraindik ere gordeta behar du telegrama horrek, Ixa taldeko kideren baten bulegoko tiraderan. Denbora joan da, beraz, eta denbora horretan zehar aurrera egin du Xuxenek, hainbat bertsio izan ditu, plataforma eta testu-prozesadore desberdinetarako prestatu da, Euskaldunon Egunkariarekin batera ere banatu izan da, milaka deskarga izan ditu Jaurlaritzaren euskadi.net webgunetik… Xuxen ikasle zein irakasleek erabiltzen dute, idazle nahiz itzultzaileek, kazetariek…, euskaraz zuzen eta arauak betez idatzi nahi duen edonork, hitz batean esanda. Xuxen ezagutzen ez duenik ez da euskaraz idazten dutenen artean.

Harrokeriarik gabe, baina harrotasunez, esan dezakegu Xuxen laguntza handikoa izan dela azken bi hamarkada hauetan, euskara idatziaren normalizazioan, Euskaltzaindiaren hiztegi-arauak kaleratu eta gutxira normaltasunez onartuak eta erabiliak izan zitezen. Euskaltzaindiaren arauen artean aipatzen ahal dira zenbait mugarri, 1970eko hamarkadatik hona: aditz batua eta izen-adjektiboen deklinabidea, erakusleena, lehen ortografia-arauak (h-dun hitzen zerrendak, esate baterako), maileguak egokitzeko arauak, leku-, erakunde- eta hizkuntza-izenak… baina, bat aipatzekotan, eta lexikoari dagokionez, Hiztegi Batuaren argitaratzea aipatu beharko genuke. Hiztegi hori izan da, lehen argitalpenetik hona, Euskaltzaindiak baliatu duen tresna nagusia lexiko estandarra finkatuz eta hedatuz joateko. Hiztegi Batua 2000. urtean argitaratu zen lehenbiziko aldiz, eta Xuxenen 2.3 bertsioa zegoen kalean ordurako. Harrezkero, Hiztegi Batuak hainbat edizio eta Xuxenek hainbat bertsio izan dituzte, eta elkarren bidelagun izan dira.

Xuxenen atzean ikerkuntza dago. Elhuyarrek eta UPV/EHUko Ixa Taldeak hizkuntzaren tratamendu automatikoaren arloan egiten dute ikerketa, eta euskararen tratamendua dute ardatz: hor daude, besteak beste, oinarrizko tresna eta baliabideak, hainbat eta hainbat aplikaziotan euskara presente egotea, webean kontsultagarri dauden corpus eta hiztegiak… bertako eta nazioarteko kongresu eta aldizkarietan egindako argitalpenak. Ixa Taldeak mantentzen ditu Xuxenen oinarri den hiztegia −EDBL, hau da, Euskararen Datu-Base Lexikala− eta Xuxenen motorra; izan ere, euskarazko zuzentzailea ez baita hiztegi huts batean oinarritzen, segmentatzaile morfologikoa behar baitu hitz bat zuzen idatzita dagoen ala ez erabakitzeko. Aipatutako datu-basea hizkuntza prozesatzeko lan guztietan erabiltzen da, etengabe eguneratzen da, etengabe zuzendu eta aberasten da; eta Xuxenen bertsio berri hau prestatzeko, Elhuyarren hiztegiekin ere erkatu da, eta esan behar da erkatze horretatik eratorri diren zuzentze-aberasteak garrantzi handikoak izan direla. Gaur egun, Euskaltzaindiak Hiztegi Batuaren bidez emandako arau eta gomendio guztiek dute beren isla EDBLn, eta Euskaltzaindiak plazaratu ahala gauzatzen dira arau horiek datu-basean. Beraz, EDBL egunean mantentzen da beti, eta handik sortzen da zuzentzaileak behar duen lexikoa, zuzentzaileak behar duen formatuan.

Azpimarra gorriez gain azpimarra berdeak ere hor izango ditu erabiltzaileak hemendik aurrera, testu “xuxenagoak” idaztean lagungarri. Gorriak zentzu kritikoz hartu behar diren bezalaxe −gehien-gehienetan gure akatsen berri ematen badigute ere, ez baita ahaztu behar ortografia-zuzentzaileek testua hitzez hitz aztertu ohi dutela, eta, beraz, litekeena dela negatibo faltsuak izatea noizean behin−, berdeen aurrean are zuhurrago jokatu behar du erabiltzaileak, eta Xuxenek proposatutakoari men egin behar zaion edo bestela jokatzea komeni den, kasuan kasuan erabaki beharko du. Azpimarra berdeen bitartez, izan ere, bi eratako oharrak helaraziko baitzaizkio erabiltzaileari: hitz estandarrak izan arren, Euskaltzaindiak lehenetsiak ez direnean, Euskaltzaindiak hobetsitakoen −gomendatuen− berri emango zaio azpimarra berde horien bitartez; eta ohiko zenbait akats gramatikalen berri emateko ere baliatuko dira. Esan beharrik ez dago, laguntza gramatikal hori gehiago da euskara ikasten ari den edo gramatika menderatzen ez duenarentzat, euskaraz ongi eta txukun idazten duenarentzat baino; halakoak beti izango ditu eskura, noski, konfigurazio-aukerak, akats gramatikalen detekzioa gaitu edo desgaitzeko.

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai). Eneko Bidegainek, berriz, “garbi erran omen die ikasleei ez duela onartuko Xuxenek pasatzen utziko ez lituzkeen hutsez betetako idazlanik” −eta ez da bakarra, bakarra ez denez, hori egiten, irakasleon artean−. Artikulu berean dio “kazetari batek ez lukeela artikulurik bukatutzat jo behar, Xuxen pasatu gabe”; eta “idazle bati ere komeni zaiola zuzentzaile ortografikoaren laguntzarekin lan egitea, argitaletxeari zuzenketen fasean alferrikako lana aurrezteko, eta argitaletxeko zuzentzailearen lana zuzenketa sakonago eta zorrotzagora bideratzeko”.

Bukatzeko, esan, hitzak eta adjektiboak erlatibizatuz, betiere, Xuxen Xuxen dela, orain arte bezala aurrerantzean ere, beti bezain eskura izango dugun zuzentzaile ortografiko, lexiko eta gramatikala, gaur egun idazteko ditugun tresna eta aplikazioetan instalatu eta erabili ahal izango dugun laguntza.

Eta Anduri beste hitz batzuk ebatsiko dizkiot, kazetariari emandako erantzunetik, Xuxenekin ei duen gorroto-amodiozko harremanaz galde egin diolarik: “Xuxeni esker, orain ateratzen den literatura guztia, eta liburuak, eta artikuluak, Xuxen sortu aurretik baino txukunago, zuzenago ateratzen dira. Beraz, chapeau Xuxeni”, esaten du Lertxundik, eta “ongi etorri, Xuxen 5” esanez amaituko dut nik. Besterik ez, eskerrik asko.

Xabier Artola Zubillaga.
Usurbil, 2015eko azaroaren 10a.

Eloína Miyares lankide kubatarra hil zaigu

Eloína_f0040405

Eloína Miyares Bermúdez. (Argazkia: Ecored)

Santiago de Cubako Centro de Lingüística Apli­cada (CLA) zentroko  sortzaileetako bat izan zen Eloína Miyares Bermúdez irakaslea uztailaren 26an hil zaigu gaixotasun luze baten ondorioz.

Ixa taldetik agur eta ohore.
Geratzen zaizkigu zure ekarpenak:

IXA taldea lankidetzan aritu izan da azken 14 urteetan CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar (DBE) hiztegi hori (digitala eta paperezkoa). Hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen da.

Agur Eloína

Mitzuli itzultzaileak 10.000 deskarga

Mitzuli_10000Deskargatu duzu Mitzuli aplikazioa android telefonora?

Testua, audio eta irudiak ere itzultzen ditu 50 hizkuntza-bikoteetarako, librea da… eta gure taldeko kide eta HAP masterreko ikasle den Mikel Artetxek sortu du!

Honezkero 10.000 deskarga izan ditu.
Zorionak eta eskerrik asko, Mikel!

 

Ikusi, ikusi albiste hauek:

Euskarazko eta gaztelaniazko izen+aditz konbinazioak lantzen

Konbitzul datu-baseak euskarazko eta gaztelaniazko izen+aditz konbinazioei buruzko informazioa biltzen du. Konbinazioen eta euren ordainen ezaugarri morfosintaktiko zein semantikoei begiratu diegu, eta bi hizkuntzak parez pare jarri ditugu, zer alde eta antzekotasun duten aztertzeko.

Konbitzul_Zubiak_eraikiBilatzailea atalean, datu-basean jasota dauden hitz-konbinazioak eta ordainak bilatu daitezke, hainbat irizpideren arabera:

  1. Hizkuntza-norantza: euskaratik gaztelaniara ala gaztelaniatik euskarara.
  2. Bilatu nahi den testuaren forma: konbinazio osoa, aditza edo izena.
  3. Informazio linguistiko gehigarria: euskara-gaztelania zentzuan, euskarazko izenaren kasu- edo postposizio-marka; gaztelania-euskara zentzuan, gaztelaniazko konbinazioaren egitura.

UxoaIñurrietaDatu-base hau IXA taldeko Uxoa Iñurrietak doktoretza-tesirako egin duen lan baten emaitza da. Lankidetzan aritu da beste hauekin ere: Itziar Aduriz, Mikel Artetxe, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola eta Ruben Urizar.

Informazio zehatzago nahi izanez gero ikusi artikulu berri hau:

Izen+aditz konbinazioen azterketa elebiduna, hizkuntza-aplikazio aurreratuei begira
Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola 2014, Linguamatica 6.2 (2014): 45-55.

Hona hemen Konbitzul datu-basean egin ditzakezun galderetako batzuk:

Konbitzul_TenderKonbitzul_tender_puentes

Erabili Xuxen sarean estra batzuekin (xuxen.eus)

Puntueus fenomenoarekin batera xuxen.eus azaldu da.
Durangoko azokan aurkeztu zen.
Betiko zuzentzailea da, baina erabil dezakezu edonon, edozein gailurekin (mugikorra tartean) eta gainera estra batzuekin:

  • Hitzen forma hobetsiak proposatzen ditu.
    Ez da errorea baina forma hobetsi bat definitu du Euskaltzaindiak.   😉
  • Zeure hiztegi propioa ere erabiliko du zuzenketan nahi baduzu.  🙂
  • Interneten duten presentziaren arabera ordenatuko dizkizu hitz oker bat zuzentzeko proposamenak.
  • Elhuyar hiztegietan bilatuko dizu hitz baten gainean klik bikoitza egitean.
  • Testua entzuteko aukera ere baduzu.

xuxeneus2Webgune horretan Xuxen-ek dituen hainbat aplikaziotarako bertsioei buruzko informazioa ere baduzu:

Laister, hilabete batzuen bueltan, hobekuntza gehiago. Aupa Xuxen!
Zalantzak argitzeko, jarri harremanetan Elhuyarrekoekin