Erabili Xuxen sarean estra batzuekin (xuxen.eus)

Puntueus fenomenoarekin batera xuxen.eus azaldu da.
Durangoko azokan aurkeztu zen.
Betiko zuzentzailea da, baina erabil dezakezu edonon, edozein gailurekin (mugikorra tartean) eta gainera estra batzuekin:

  • Hitzen forma hobetsiak proposatzen ditu.
    Ez da errorea baina forma hobetsi bat definitu du Euskaltzaindiak.   😉
  • Zeure hiztegi propioa ere erabiliko du zuzenketan nahi baduzu.  🙂
  • Interneten duten presentziaren arabera ordenatuko dizkizu hitz oker bat zuzentzeko proposamenak.
  • Elhuyar hiztegietan bilatuko dizu hitz baten gainean klik bikoitza egitean.
  • Testua entzuteko aukera ere baduzu.

xuxeneus2Webgune horretan Xuxen-ek dituen hainbat aplikaziotarako bertsioei buruzko informazioa ere baduzu:

Laister, hilabete batzuen bueltan, hobekuntza gehiago. Aupa Xuxen!
Zalantzak argitzeko, jarri harremanetan Elhuyarrekoekin

Richard Castro kitxua-ingeniariaren bisita

20141113_171503Richard Castro Mamani ikertzaile Cuscoarra, Zuricheko Unibertsitatean hilebeteko egonaldia bukatu eta gero, gure fakultatetik pasa da egin dituzten azken urratsen berri emateko: 1)zuzentzaile ortografikoak  definitu dituzte Cuzcoko eta hegoaldeko kitxuarako, 2) normalizatzaile bat aldaera  horietatik “bitxua batu”ra pasatzeko, eta 3) espainieratik kitxuarako itzultzaile automatikoa.

Normalizatzailea funtsezko tresna izango da bildu dituzten corpusak modu bateratuan tratatu ahal izateko. Zorionak Richard-i eta Annette Rios-i aurtengo COLING-en argitaratu duten artikuluarengatik:

Morphological Disambiguation and Text Normalization for Southern Quechua Varieties. Annette Rios, Richard Castro.  Coling, pages 39-47, Dublin 2014

Badira hiru urte Peruko UNSAAC unibertsitateko Hinantin taldearekin lankidetzan ari garela. Aurten bertan bi produktu berri bukatu ditugu: Hugo Joel Quisperekin Kitxuaren Datu-Base Lexikala sortu dugu eta Rosemary Jimenezekin kitxuazko corpusa kontsultatzeko lehenengo web-aplikazioa.

Kitxuaren Datu-Base Lexikala kontsultatzeko interfazea (http://ixa2.si.ehu.es/qldbapp)

 

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan 🙁   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Tesia: EPEC corpusa predikatu-mailan etiketatzeko oinarriak (2014/09/04)

Tesiaren titulua:  EPEC corpusa predikatu-mailan etiketatzeko oinarriak: EPEC-RolSem, BVI eta e-ROLda
Non
: Informatika Fakultatean,
Eguna: irailak 4,
Ordua: 10:30ean (11:30etan ez)

Agindu bezala hemen dator Ainara Estarrona Ibarzola ixakideak ostegunean defendatuko duen tesia. Sintaktikoki etiketatuta dagoen EPEC corpusean predikatu-mailan etiketatu ahal izateko hiru baliabide berri sortu dira tesi honetan:

  • EPEC-RolSem corpusa, EPEC bezelakoa baina predikatu mailan ere etiketatua
  • BVI:  Euskarazko aditzen lexikoia (Basque Verb Index)
  • e-ROLda:  BVI  eta EPEC-RolSem kontsultatzeko tresna
EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

 

 

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat 😉
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Ebaluatoia, ingelesetik euskarara itzultzen duten lehen prototipoak ebaluatzeko

Nora Aranberrik, Gorka Labakarekin elkarlanean, ingelesetik euskarara automatikoki itzultzen duten itzultzaile automatiko batzuk garatu ditu azken urtean. Marie Curie beka batekin egin du, ENEUS proiektuaren barruan.
Proiektuan lehenengo prototipo batzuk egin dira teknologia desberdinekin eta orain ebaluazio batekin bukatu behar da proiektu hori.
Ebaluatoia_interfazea2Horrelakoetan nazioartean moda-modan dago “ebaluatoiak” egitea. Programa egin duen taldetik kanpo dauden hainbat pertsonak egiten dute. Bakoitzak, bere ordenagailutik, esaldi sorta bat ebaluatzen du, esaldi bakoitza eta automatikoki lortutako itzulpen batzuk ikusita pertsonak erabakitzen du zein den hoberena.

Erdaretarako ebaluatoi asko egin dira. Batzuek diote euskaraz ebaluatoia ez dela ondo joango, euskararen mundua txikiegia dela, baina IXA taldean animatu gara ebaluatoi bat antolatzen eta erantzun ona jasotzea espero dugu. Ea egia den! Parte hartuko duzuen guztiok “egundoko zozketa” batean parte hartuko duzue 🙂  Zozketa martxoaren 4an izango da.

Ingelesez dakizu? eta euskaraz?
Lagun iezaguzu euskara “teknologizatzen”!
Ebaluatoia otsailaren 14tik 25era, egon adi!

Zehaztasun gehiago 14tik aurrera. Zorte on!

Ebaluatoia2014

TC3 aldizkarian argitaratu dugu Berbatek proiektuko uzta

TC·_2013_BerbatekTranslation: Computation, Corpora, Cognition (TC3) aldizkari berriak itzulpengintzako lanak argitaratzen ditu modu elektronikoan eta atzipen libreko filosofiarekin.

TC3 aldizkari honek argitaratu berri du gure artikulu bat non ETORTEK deialdiko Berbatek proiektuan sortu genituen demoak deskribatzen ditugun. Proiektuaren garapenean darabilgun filosofia ere azaltzen dugu artikuluan.

Hiru demo hauek prestatu eta aurkeztu genituen prentsaurreko batean:

Artikulua TC3 aldizkariko ale berezi batean atera da:
Vol 3, No 1 (2013): Special Issue on Language Technologies for a Multilingual Europe
Hau da: Europa eleaniztunarentzako Hizkuntza Teknologiak.

Beraz… ondo kokatuta dago gure artikulu hori 🙂

The BerbaTek project for Basque: Promoting a less-resourced language via language technology for translation, content management and learning
Translation: Computation, Corpora, Cognition (TC3) journal. Vol 3, No 1, pp: 119-135 (2013). http://www.t-c3.org/index.php/t-c3/article/view/24/34

Eman eta zabal zazu

 

 

Ahora! Euskara lantzeko tresnak, robot bertsolariak eta Kilometroak2013 jaia

BerriaIxaLaskorain

2013ko Kilometroak jaiaren harira, erronka bitxia izan dute atzo Tolosako Laskorain ikastolako neska-mutilek Donostiako Informatika Fakultatean: robotekin aritu dira bertsotan.

Fakultateko Ixa Taldeak eta Robotikako ikertaldeak euskararekin lotu dituzte teknologia berriak eta ikerketa.

 

Horrela jaso dute gaur Berrian (hainbat zuzenketa egin dizkiegu bertan esandakoei):

Euskara sarean hizkuntza praktikoa bihur dadin, Ixa taldeak hizkuntzaren morfologia, sintaxia eta semantika landuko dituzten aplikazioak asmatu ditu.

[…]Gaur egun euskararekin lan egiteko oso eraginkorra bilakatu den Xuxen zuzentzaile ortografikoaz gain, OpenTrad itzultzaile automatikoa, Euskal WordNet sarea eta ZT eta EPEC corpusak sortu dituzte, eta etorkizunera begira PATHSNewsReaderREADERS eta  OpeNER proiektu europarrak aurrera ateratzeko ari dira lanean.

Berria_Ixa_Laskurain_Kontrazala

[…]Horrekin batera, Ixa taldea Herrialde Katalanetako zein Galiziako informatikariekin ari da lanean OpenTrad izeneko programa aurrera ateratzeko; programa horrek esaldi osoak itzultzeko gaitasuna dauka. Jada Google Translator programa baino eraginkorragoa bilakatu da.

[…]Baina aisialdiarekin lotutako aplikazioetan ere sartu dira, eta, adibidez, sakelakoetan erabiltzen den Angry Words  (edo Apalabrados) euskaraz ere jokatu ahal izatea bideratu dute.

[…]Baina sortutako gailu eta tresna guztien artean, bi robotek bereganatu dute ikasleen arreta: Tartalo robot bertsolaria eta Nao jostailu itxurako robot hiztun eta ibiltaria. Nao-k txundituta utzi ditu ikasleak mahaitik altxatu eta ongietorria eman dienean, eta hitz egiteko, mugitzeko eta gizakien keinuak imitatzeko gai dela erakutsi die aho zabalik begira zeudenei. Bi ikaslek Tartalorekin bertso lehiaketa egiteko aukera izan dute, Naok saioa aurkeztu ondoren. Tartalo gogor saiatu arren, argi gelditu da oraindik hezur-haragizko bertsolariek robotek baino hobeto menderatzen dutela hizkuntza.

[…]Aitzol Astigarraga ikerlariak,  Robotikako taldekoak,  azaldu duenez, robot horiek soEITBkulturaIxa_Laskurain_Bertsoakrtzeko helburua gailuei komunikatzen irakastea da. «Tartalo-k eta Nao-k erakusten dute posible dela robotei hizkuntzaren logika erakustea pixkanaka». Robotika taldearen eta Ixa taldearen elkarlanaren helburua roboten autonomia handitzea eta komunikatzeko gaitasunak garatzea da, ondoren, medikuntzan edota irakaskuntzan lagungarri izateko. «Robotek ikertzen jarraitzeko aukera ematen digute, eta, beharbada, etorkizunean elkarrizketak izateko gai izango dira».

Ikusi  bideo hauek ere bai:

Aro digital honetan nola dago euskara? (META-NET liburua)

Europa mailan Hizkuntzaren Prozesamenduan koordinazio-lanak egiten dituen META-NET sareak 30 “liburu zuri” argitaratu ditu alor honetan Europako hizkuntzen egoera aztertzearren. Horietako bat euskararena da, orain dela gutxi argitaratu dena:

“Euskara Aro Digitalean” liburua

Inmaculada Hernáez, Eva Navas, Igor Odriozola, Kepa Sarasola, Arantza Diaz de Ilarraza, Igor Leturia, Araceli Diaz de Lezana, Beñat Oihartzabal, Jasone Salaberria  2012
The Basque language in the digital age / Euskara aro digitalean
METANET White Paper Series.
Georg Rehm, Hans Uszkoreit (editors). Springer.

METANET_White_Papers_Basque.pdf

Liburuaren egile eta koordinatzaile nagusia izan den Inma Hernaezek laburpentxo hau egin du:

Oro har, META-NETen ikerketa-lanak ohartarazten du Europako hizkuntza gehienak digitalki iraungitzeko arriskuan daudela, aztertutako 30 hizkuntzetako 21ek duten babes digitala “hutsa” edo, kasurik onenean, “eskasa” baita.

Azterketak agerian uzten du hizkuntza batek ere ez duela “babes bikaina”; ingelesa baino ez da jo “babes ona” duen hizkuntzatzat, eta haren atzetik daude alemana, espainiera, frantsesa, italiera eta nederlandera, “babes ertainaz”. Bestalde euskarak, katalanak eta galegoak, bulgariera, greziera, hungariera eta polonierarekin batera, “babes zatikatua” dute, eta, hortaz arrisku handiko hizkuntzen multzoan ezarri dira horiek ere.

META-NETen arabera, ezinbestekoa da Europan ekimen koordinatu eta eskala handiko bat sortzea, dauden hutsuneak beteko baditugu eta teknologia ahalik eta hizkuntza gehienetara transferituko badugu. Izan ere, biztanleko karga finantzarioa oso handia da hizkuntza-komunitate txikienentzat; hizkuntzen artean teknologiak trukatu beharra dago; nabarmena da baliabideen, tresnen eta zerbitzuen elkarreragingarritasun falta; eta bistakoak dira hizkuntza-mugak eta muga politikoak maiz bat ez etortzearen ondorioak.

Bertsoak idazten laguntzeko “Arbel digitala” aurkeztu dute.

Manex Agirrezabal, Bertol Arrieta eta Iñaki Alegria Ixakideek eta Bertsozale Elkartearekin produktu berri bat sortu dute informatika, hizkuntza-teknologia eta bertsolaritza lantzeko. Arbel digitala aurkeztu dute Koldo Mitxelenan gaur Manex, Bertol eta Bertsozale Elkarteko Aritz Zerain eta Ixiar Eizagirrek.

Hainbat baliabide eskaintzen ditu tresna honek: errima-bilatzailea, neurri-markatzailea, neurri-egiaztatzailea, sinonimo-bilatzailea… Orain dela urte batzuk sortu zuten Bertsolarixa tresna baino dezente ahaltsuagoa da Arbel digital berri hau. Orain dela gutxi robot bertsolaria ere erakutsi zuten.

Bertsotarako arbel digitala zer den ondo jakiteko jo Bertsozale Elkarteak jarri duen azalpenera, edo hobeto, zuzenean joan proba egitera. Jarri lanean, ea “inspirazio artifizial” honekin bertso ederren bat sortzen duzun!

Arbel_digitalaAlbistea medioetan: Berria, bertso-eskolak.com, Diario Vasco, …

Albistea bertsoa.com webgunean