Hitzaldia: Bertso-sorkuntza automatikoa, posible ote? (2014/11/27)

UEUk eta Donostiako Euskara Zerbitzuak elkarlanean azarorako hitzaldi-sorta bat antolatu dute, ‘Dakiguna erakutsiko dizugu‘ izenburupean.

Aste honetan hjizlaria Manex Agirrezabal izango da:

Hitzaldia DOKA aretoan emango da, azaroak 27, osteguna, 19:00etan hasita.
Donostian, Antigua auzoan.
Hitzaldiaren ostean solasaldia eta mokautxo bat egongo dira.  :-))
Sarrera irekia eta doanekoa da.

Manex_Unibertsitatean_net

Richard Castro kitxua-ingeniariaren bisita

20141113_171503Richard Castro Mamani ikertzaile Cuscoarra, Zuricheko Unibertsitatean hilebeteko egonaldia bukatu eta gero, gure fakultatetik pasa da egin dituzten azken urratsen berri emateko: 1)zuzentzaile ortografikoak  definitu dituzte Cuzcoko eta hegoaldeko kitxuarako, 2) normalizatzaile bat aldaera  horietatik “bitxua batu”ra pasatzeko, eta 3) espainieratik kitxuarako itzultzaile automatikoa.

Normalizatzailea funtsezko tresna izango da bildu dituzten corpusak modu bateratuan tratatu ahal izateko. Zorionak Richard-i eta Annette Rios-i aurtengo COLING-en argitaratu duten artikuluarengatik:

Morphological Disambiguation and Text Normalization for Southern Quechua Varieties. Annette Rios, Richard Castro.  Coling, pages 39-47, Dublin 2014

Badira hiru urte Peruko UNSAAC unibertsitateko Hinantin taldearekin lankidetzan ari garela. Aurten bertan bi produktu berri bukatu ditugu: Hugo Joel Quisperekin Kitxuaren Datu-Base Lexikala sortu dugu eta Rosemary Jimenezekin kitxuazko corpusa kontsultatzeko lehenengo web-aplikazioa.

Kitxuaren Datu-Base Lexikala kontsultatzeko interfazea (http://ixa2.si.ehu.es/qldbapp)

 

Elkarrizketa Manex Agirrezabalekin unibertsitatea.net-en

Manex Agirrezabal gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Manexek hau aurrikusten du:“Konputagailuek bertsoak modu naturalean sortzea lortuko dute”

Manex_Unibertsitatean_netBertsoBOT: lehen urratsak proiektua aurkeztu zuen 2012an HAP masterrean,  eta orain  Delawareko unibertsitatean (AEBtan) dabil Manex. Handik erantzun ditu galderak eta hango pinuen arteko argazkia bidali omen du.

Hona hemen elkarrizketako bi galdera eta erantzunak:

Noizbait plazan makinak eta bertsolariak buruz buru ikusteko aukera izango dugu?

Fisikoki posible ikusten dudan arren, gure helburua ezberdina da. Gure helburua ez da bertso-sorkuntza sistema zuzenean robotean txertatzea eta bertsolariekin plazan ikustea. [...]

Bertsozaletasunak eraginda hautatu zenuen bertsolaritzaren ikerlerroa ala bertsolaritzaren bat-batekotasun horrekin “lehiatzeko” grinak eraginda?

Bai bata eta baita bestea… Batetik, bertso batek dituen ezaugarri metriko, semantiko eta pragmatikoek egunez-egun gehiago harritzen naute. Bestetik, beti gustatu izan zait zientzia-fikziozko filmetan makinek eta gizkaiek duten elkarrekintza naturala (HAL 9000 eta parekoak). Nik uste dut gure ikerkuntza-lerroak elkarrekintza hori naturalagoa egiten lagun dezakeela.

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan :-(   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Azken egunak gure masterretan eta itzulpen-graduondokoan matrikulatzeko

Ixa Taldeak antolatzen dituen bi master eta graduondoko bat laster hasiko dira, oraindik geratzen dira egun batzuk matrikulatzeko:

  • UEU_IT_graduondokoa_BideoaItzulpengintza eta Teknologia graduondokoa. On-line ematen da itzultzaile profesionaleei eta  itzulpengintzako ikasleei espezializazio aukera eskaintzeko.  EIZIE, Langune, EHU eta UEUren artean antolatua.  Aurten 3. edizioa egingo da. Izena emateko epea irailaren 19an amaitzen da.
    Entzun bideo honetan bi ikasleren iritzia. Aupa itzultzaile hori.

 

 

  • HAP_diptiko_IrudiaHAP/LAP EHUko masterra Euskaraz eta ingelesez emango da, bietara:
    • Hizkuntzaren Azterketa eta Prozesamendua
    • Language Analysis and Processing.

    Informazio zehatzago hemen

 

 

 

 

2013-14 HAP masterreko tesien aurkezpenak (2014/09/17)

HAP_diptiko_IrudiaDatorren asteazkenean, hilak 17, 2013-14 ikasturteko HAP masterreko tesien aurkezpenak egingo dira Fakultateko Areto Nagusian. Lan interesgarri hauek masterrean ikasten denaren erakusgarria dira:

10:00 Analysis, Optimization and Development of an Answer Scoring System
Egilea: Iñigo Lopez-Gazpio
Tutorea: Montse Maritxalar

10:45 Ebaluatoia: crowd evaluation of English-Basque machine translation
Egilea: Nora Aranberri
Tutorea: Gorka Labaka

11:30 Euskararako HPSG gramatikaren lehen proposamena
Egilea: Jon Alkorta
Tutorea: Koldo Gojenola

15:45 Lehen urratsak bertsotarako gaien azterketa automatikoan: gaiaren erregistroaren predikzioa eta gaiaren eta bertsoaren arteko erlazio semantikoaren azterketa
Egilea: Ion Lizarazu
Tutorea: Bertol Arrieta Kortajarena

16:30 Izen-entitate eta Sentimenaren Analisia Frantsesez, Turismoaren Domeinurako Hurbilpena
Egilea: Andoni Azpeitia
Tutorea: Aitor Soroa

17:15 Hitzen arteko ahaidetasuna: teknikak eta ebaluazio aukerak
Egilea: Josu Goikoetxea
Tutorea: Eneko Agirre Bengoa, Aitor Soroa Etxabe

Tesia: EPEC corpusa predikatu-mailan etiketatzeko oinarriak (2014/09/04)

Tesiaren titulua:  EPEC corpusa predikatu-mailan etiketatzeko oinarriak: EPEC-RolSem, BVI eta e-ROLda
Non
: Informatika Fakultatean,
Eguna: irailak 4,
Ordua: 10:30ean (11:30etan ez)

Agindu bezala hemen dator Ainara Estarrona Ibarzola ixakideak ostegunean defendatuko duen tesia. Sintaktikoki etiketatuta dagoen EPEC corpusean predikatu-mailan etiketatu ahal izateko hiru baliabide berri sortu dira tesi honetan:

  • EPEC-RolSem corpusa, EPEC bezelakoa baina predikatu mailan ere etiketatua
  • BVI:  Euskarazko aditzen lexikoia (Basque Verb Index)
  • e-ROLda:  BVI  eta EPEC-RolSem kontsultatzeko tresna
EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

 

 

Tesia: Aditzen informazio lexikala eta anbiguotasun sintaktikoa (2014/07/23)

Aitziber Atutxa Salazar Ixakideak datorren asteko asteazkenean defendatuko du bere tesia: Aditzen inguruko informazio lexikala eta anbiguotasun sintaktikoen ebazpena

Non: Informatika Fakultatean,
Eguna: uztailak 23,
Ordua: 11:30ean

Euskara_sintaxi_konputazionala_1988-2014

1988tik, Joseba Abaituak bere tesian euskararako gramatika lexiko-funtzional bat sortu zuenetik, bide luzea egin dugu sintaxi konputazionalean. Bide horretan aurten hiru urrats berri, hiru tesi berri, aurrikusten ditugu:

  • Gramatika estatistikoa (Kepa Bengoetxea)
  • EusPropBank (Ainara Estarrona)
  • 2.751 aditzen informazio lexikalaren erabilera anbiguotasun sintaktikoak ebazteko. (Aitziber Atutxa)

Urte oparoa izango da gero 2014ko hau!

 

 

 

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat ;-)
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Doktorego tesia IXA taldean egin nahi duzu?

Ikasturtea bukatzen ari dela, plangintza egiteko garaia da ikasleentzat.
Hizkuntzaren prozesamenduko gure arlo honetan tesi bat egingo zenuke?

IXA Taldea Euskal Herriko Unibertsitateko ikerketa talde bat da, batez ere Informatika Fakultatean dabilena. Euskararen gaineko ikerketa aplikatua da gure xede nagusia, baina beste hizkuntzen inguruko ikerketa eta produktuen garapena ere sartzen dira gure eginkizunen artean. 25 urte daramatzagu lan honetan.

Gure ikerketa-lerro garrantzitsuenak hauek dira:

Une honetan bost proiektu europarretako partaide gara (PATHSNewsReaderREADERSOpeNER, eta QTLeap),  Eusko Jaurlaritzaren A motako ikertalde finkatua gara, eta Madrileko ministerioko  Hibrido Sint, TACARDI eta SKaTeR proiektuak ere baditugu. Proiektu horietatik, batez ere, sortzen zaizkigu tesiak egiteko ideiak eta beharra.

ixaproiektuak2014Azken 5 urteetan 8 tesi defendatu dira IXA taldean
eta une honetan 10 dira egiten ari diren tesiak beka ofizial batekin.

Zu ere animatuko zara gurekin tesia egitera?
Hala bada  bidali mezu bat ixa@ehu.es helbidera eta jarriko gara zurekin harremanetan.

IXATxiotesia

#txiotesia ekimenean gutxienez 9 izan ziren hizkuntza teknologiaren inguruko tesiak.