Eloína Miyares lankide kubatarra hil zaigu

Eloína_f0040405

Eloína Miyares Bermúdez. (Argazkia: Ecored)

Santiago de Cubako Centro de Lingüística Apli­cada (CLA) zentroko  sortzaileetako bat izan zen Eloína Miyares Bermúdez irakaslea uztailaren 26an hil zaigu gaixotasun luze baten ondorioz.

Ixa taldetik agur eta ohore.
Geratzen zaizkigu zure ekarpenak:

IXA taldea lankidetzan aritu izan da azken 14 urteetan CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar (DBE) hiztegi hori (digitala eta paperezkoa). Hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen da.

Agur Eloína

Mitzuli itzultzaileak 10.000 deskarga

Mitzuli_10000Deskargatu duzu Mitzuli aplikazioa android telefonora?

Testua, audio eta irudiak ere itzultzen ditu 50 hizkuntza-bikoteetarako, librea da… eta gure taldeko kide eta HAP masterreko ikasle den Mikel Artetxek sortu du!

Honezkero 10.000 deskarga izan ditu.
Zorionak eta eskerrik asko, Mikel!

 

Ikusi, ikusi albiste hauek:

Euskarazko eta gaztelaniazko izen+aditz konbinazioak lantzen

Konbitzul datu-baseak euskarazko eta gaztelaniazko izen+aditz konbinazioei buruzko informazioa biltzen du. Konbinazioen eta euren ordainen ezaugarri morfosintaktiko zein semantikoei begiratu diegu, eta bi hizkuntzak parez pare jarri ditugu, zer alde eta antzekotasun duten aztertzeko.

Konbitzul_Zubiak_eraikiBilatzailea atalean, datu-basean jasota dauden hitz-konbinazioak eta ordainak bilatu daitezke, hainbat irizpideren arabera:

  1. Hizkuntza-norantza: euskaratik gaztelaniara ala gaztelaniatik euskarara.
  2. Bilatu nahi den testuaren forma: konbinazio osoa, aditza edo izena.
  3. Informazio linguistiko gehigarria: euskara-gaztelania zentzuan, euskarazko izenaren kasu- edo postposizio-marka; gaztelania-euskara zentzuan, gaztelaniazko konbinazioaren egitura.

UxoaIñurrietaDatu-base hau IXA taldeko Uxoa Iñurrietak doktoretza-tesirako egin duen lan baten emaitza da. Lankidetzan aritu da beste hauekin ere: Itziar Aduriz, Mikel Artetxe, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola eta Ruben Urizar.

Informazio zehatzago nahi izanez gero ikusi artikulu berri hau:

Izen+aditz konbinazioen azterketa elebiduna, hizkuntza-aplikazio aurreratuei begira
Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola 2014, Linguamatica 6.2 (2014): 45-55.

Hona hemen Konbitzul datu-basean egin ditzakezun galderetako batzuk:

Konbitzul_TenderKonbitzul_tender_puentes

Erabili Xuxen sarean estra batzuekin (xuxen.eus)

Puntueus fenomenoarekin batera xuxen.eus azaldu da.
Durangoko azokan aurkeztu zen.
Betiko zuzentzailea da, baina erabil dezakezu edonon, edozein gailurekin (mugikorra tartean) eta gainera estra batzuekin:

  • Hitzen forma hobetsiak proposatzen ditu.
    Ez da errorea baina forma hobetsi bat definitu du Euskaltzaindiak.   😉
  • Zeure hiztegi propioa ere erabiliko du zuzenketan nahi baduzu.  🙂
  • Interneten duten presentziaren arabera ordenatuko dizkizu hitz oker bat zuzentzeko proposamenak.
  • Elhuyar hiztegietan bilatuko dizu hitz baten gainean klik bikoitza egitean.
  • Testua entzuteko aukera ere baduzu.

xuxeneus2Webgune horretan Xuxen-ek dituen hainbat aplikaziotarako bertsioei buruzko informazioa ere baduzu:

Laister, hilabete batzuen bueltan, hobekuntza gehiago. Aupa Xuxen!
Zalantzak argitzeko, jarri harremanetan Elhuyarrekoekin

Richard Castro kitxua-ingeniariaren bisita

20141113_171503Richard Castro Mamani ikertzaile Cuscoarra, Zuricheko Unibertsitatean hilebeteko egonaldia bukatu eta gero, gure fakultatetik pasa da egin dituzten azken urratsen berri emateko: 1)zuzentzaile ortografikoak  definitu dituzte Cuzcoko eta hegoaldeko kitxuarako, 2) normalizatzaile bat aldaera  horietatik “bitxua batu”ra pasatzeko, eta 3) espainieratik kitxuarako itzultzaile automatikoa.

Normalizatzailea funtsezko tresna izango da bildu dituzten corpusak modu bateratuan tratatu ahal izateko. Zorionak Richard-i eta Annette Rios-i aurtengo COLING-en argitaratu duten artikuluarengatik:

Morphological Disambiguation and Text Normalization for Southern Quechua Varieties. Annette Rios, Richard Castro.  Coling, pages 39-47, Dublin 2014

Badira hiru urte Peruko UNSAAC unibertsitateko Hinantin taldearekin lankidetzan ari garela. Aurten bertan bi produktu berri bukatu ditugu: Hugo Joel Quisperekin Kitxuaren Datu-Base Lexikala sortu dugu eta Rosemary Jimenezekin kitxuazko corpusa kontsultatzeko lehenengo web-aplikazioa.

Kitxuaren Datu-Base Lexikala kontsultatzeko interfazea (http://ixa2.si.ehu.es/qldbapp)

 

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan 🙁   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Tesia: EPEC corpusa predikatu-mailan etiketatzeko oinarriak (2014/09/04)

Tesiaren titulua:  EPEC corpusa predikatu-mailan etiketatzeko oinarriak: EPEC-RolSem, BVI eta e-ROLda
Non
: Informatika Fakultatean,
Eguna: irailak 4,
Ordua: 10:30ean (11:30etan ez)

Agindu bezala hemen dator Ainara Estarrona Ibarzola ixakideak ostegunean defendatuko duen tesia. Sintaktikoki etiketatuta dagoen EPEC corpusean predikatu-mailan etiketatu ahal izateko hiru baliabide berri sortu dira tesi honetan:

  • EPEC-RolSem corpusa, EPEC bezelakoa baina predikatu mailan ere etiketatua
  • BVI:  Euskarazko aditzen lexikoia (Basque Verb Index)
  • e-ROLda:  BVI  eta EPEC-RolSem kontsultatzeko tresna
EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

 

 

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat 😉
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Ebaluatoia, ingelesetik euskarara itzultzen duten lehen prototipoak ebaluatzeko

Nora Aranberrik, Gorka Labakarekin elkarlanean, ingelesetik euskarara automatikoki itzultzen duten itzultzaile automatiko batzuk garatu ditu azken urtean. Marie Curie beka batekin egin du, ENEUS proiektuaren barruan.
Proiektuan lehenengo prototipo batzuk egin dira teknologia desberdinekin eta orain ebaluazio batekin bukatu behar da proiektu hori.
Ebaluatoia_interfazea2Horrelakoetan nazioartean moda-modan dago “ebaluatoiak” egitea. Programa egin duen taldetik kanpo dauden hainbat pertsonak egiten dute. Bakoitzak, bere ordenagailutik, esaldi sorta bat ebaluatzen du, esaldi bakoitza eta automatikoki lortutako itzulpen batzuk ikusita pertsonak erabakitzen du zein den hoberena.

Erdaretarako ebaluatoi asko egin dira. Batzuek diote euskaraz ebaluatoia ez dela ondo joango, euskararen mundua txikiegia dela, baina IXA taldean animatu gara ebaluatoi bat antolatzen eta erantzun ona jasotzea espero dugu. Ea egia den! Parte hartuko duzuen guztiok “egundoko zozketa” batean parte hartuko duzue 🙂  Zozketa martxoaren 4an izango da.

Ingelesez dakizu? eta euskaraz?
Lagun iezaguzu euskara “teknologizatzen”!
Ebaluatoia otsailaren 14tik 25era, egon adi!

Zehaztasun gehiago 14tik aurrera. Zorte on!

Ebaluatoia2014

TC3 aldizkarian argitaratu dugu Berbatek proiektuko uzta

TC·_2013_BerbatekTranslation: Computation, Corpora, Cognition (TC3) aldizkari berriak itzulpengintzako lanak argitaratzen ditu modu elektronikoan eta atzipen libreko filosofiarekin.

TC3 aldizkari honek argitaratu berri du gure artikulu bat non ETORTEK deialdiko Berbatek proiektuan sortu genituen demoak deskribatzen ditugun. Proiektuaren garapenean darabilgun filosofia ere azaltzen dugu artikuluan.

Hiru demo hauek prestatu eta aurkeztu genituen prentsaurreko batean:

Artikulua TC3 aldizkariko ale berezi batean atera da:
Vol 3, No 1 (2013): Special Issue on Language Technologies for a Multilingual Europe
Hau da: Europa eleaniztunarentzako Hizkuntza Teknologiak.

Beraz… ondo kokatuta dago gure artikulu hori 🙂

The BerbaTek project for Basque: Promoting a less-resourced language via language technology for translation, content management and learning
Translation: Computation, Corpora, Cognition (TC3) journal. Vol 3, No 1, pp: 119-135 (2013). http://www.t-c3.org/index.php/t-c3/article/view/24/34

Eman eta zabal zazu