Tesia: Aditzen informazio lexikala eta anbiguotasun sintaktikoa (2014/07/23)

Aitziber Atutxa Salazar Ixakideak datorren asteko asteazkenean defendatuko du bere tesia: Aditzen inguruko informazio lexikala eta anbiguotasun sintaktikoen ebazpena

Non: Informatika Fakultatean,
Eguna: uztailak 23,
Ordua: 11:30ean

Euskara_sintaxi_konputazionala_1988-2014

1988tik, Joseba Abaituak bere tesian euskararako gramatika lexiko-funtzional bat sortu zuenetik, bide luzea egin dugu sintaxi konputazionalean. Bide horretan aurten hiru urrats berri, hiru tesi berri, aurrikusten ditugu:

  • Gramatika estatistikoa (Kepa Bengoetxea)
  • EusPropBank (Ainara Estarrona)
  • 2.751 aditzen informazio lexikalaren erabilera anbiguotasun sintaktikoak ebazteko. (Aitziber Atutxa)

Urte oparoa izango da gero 2014ko hau!

 

 

 

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat ;-)
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Doktorego tesia IXA taldean egin nahi duzu?

Ikasturtea bukatzen ari dela, plangintza egiteko garaia da ikasleentzat.
Hizkuntzaren prozesamenduko gure arlo honetan tesi bat egingo zenuke?

IXA Taldea Euskal Herriko Unibertsitateko ikerketa talde bat da, batez ere Informatika Fakultatean dabilena. Euskararen gaineko ikerketa aplikatua da gure xede nagusia, baina beste hizkuntzen inguruko ikerketa eta produktuen garapena ere sartzen dira gure eginkizunen artean. 25 urte daramatzagu lan honetan.

Gure ikerketa-lerro garrantzitsuenak hauek dira:

Une honetan bost proiektu europarretako partaide gara (PATHSNewsReaderREADERSOpeNER, eta QTLeap),  Eusko Jaurlaritzaren A motako ikertalde finkatua gara, eta Madrileko ministerioko  Hibrido Sint, TACARDI eta SKaTeR proiektuak ere baditugu. Proiektu horietatik, batez ere, sortzen zaizkigu tesiak egiteko ideiak eta beharra.

ixaproiektuak2014Azken 5 urteetan 8 tesi defendatu dira IXA taldean
eta une honetan 10 dira egiten ari diren tesiak beka ofizial batekin.

Zu ere animatuko zara gurekin tesia egitera?
Hala bada  bidali mezu bat ixa@ehu.es helbidera eta jarriko gara zurekin harremanetan.

IXATxiotesia

#txiotesia ekimenean gutxienez 9 izan ziren hizkuntza teknologiaren inguruko tesiak.

Elhuyar aldizkariko elkarrizketa bat Iñaki Alegria Ixakidearekin

Arg. © Jon Urbe/ARGAZKI PRESS

Ana Galarraga-k egindako elkarrizketa zabal eta dentso bat argitaratu du  Elhuyar aldizkariak Iñaki Alegria gure IXAkidearekin. Hainbat gai jorratu dituzte, hasierakoetan Ixa taldearen jardunaz aritu dira, eta gero Udako Euskal Unibertsitateaz:

Bai, badago zer irakurri elkarrizketa horretan.
Eta irakurri eta gero… badugu zereginik.

I_Alegria_Elhuyar_aldizk

QTLeap proiektua: itzulpen automatikoa hobetu nahian

QTLeap_logo_6letraEuropako proiektu berri batean lanean gabiltza pasa den azarotik: QTLeap. UPV/EHUko IXA Taldeak proiektuko beste kideekin batera egungo itzultzaile automatikoen mugak gainditu nahi ditu.

Perfekziotik urrun dauden egungo itzultzaile automatikoen emaitzak kalitatean dezente hobetzea da helburua.
QTLeap_ikono2Proiektuak hiru urteko iraupena izango du. IXA Taldeak elkarlanean jardungo du itzulpengintza automatikoan aitzindariak diren Europako beste hainbat erakunderekin: Alemaniako DKFI, Lisboako Unibertsitatea, Pragako Charles Unibertsitatea, Bulgariako Zientzien Akademia IICT-BAS, Berlingo Humboldt Unibertsitatea eta Herbehereetako  Groningengo Unibertsitatea.

Itzultzaile automatiko guztiek mugak dituzte. Egindako itzulpenak ez dira perfektuak, ezta gutxiago ere, baina laguntza-tresna baliagarri bilakatu dira azkenaldian.

QTLEAPLisboa2013_11_eskaileretanGramatikalki eta morfologikoki antzekoak diren hizkuntza-bikoteen arteko itzulpen automatiko on bat lortzea errazagoa da, gaztelania-katalana edo gaztelania-galegoa kasu. Euskararen kasuan, berriz, zailtasuna handiagoa da, eta lortzen den itzulpenaren kalitatea baxuagoa. Horretan hiru dira zailtasun handienak: 1) Euskarazko testuen egitura eta inguruko beste hizkuntzena oso ezberdinak direnez, itzulpeneko hitzen ordena asmatzea oso zaila da itzultzaile automatikoentzat, 2) hitz batek beste hizkuntzan dituen ordain egokia aukeratzea (adibidez, euskarazko baso hitza gaztelaniara itzultzerakoan ea bosque edo vaso aukeratu behar den, testuinguruaren ara. bera aukeratu behar da), eta 3) eskuz eta euskarara itzulitako testuekin osa daitekeen corpusa txikia dela.

QTleap_WebsiteGaur egungo itzultzaile automatikoek dituzten muga horiek gainditzen saiatuko gara QTLeap proiektu horretan. Horretarako, batetik, zuhaitz-banku edo treebank-ak erabiliko ditugu. Helburua da sintaktikoki ongi analizatutako esaldi mordoxka bat biltzea, eta horrekin itzultzaile automatikoei laguntzea itzulpeneko sintaxia hobeto aukeratzen.

Bestetik, gaur egun, esaldi konkretu batean hitz batek duen esanahia bereizteko behar den informazioa ez dago hiztegietan bakarrik, Internetetik ere lor daiteke horrelakorik. Horrenbestez, hitzen esanahiak edo adierak behar bezala bereizten ikasteko, Interneteko zenbait baliabide erabiliko ditugu. Esaterako, Wikipedia bezalako testu-bilduma handia, non hainbatetan testuko hitz baten adiera ongi zehaztuta egoten den. Alegia, hitz baten gainean esteka bat badago esteka hori Wikipediako adieretako batera doa. Horrelako esteka asko dituzten testuak bilduz gero, horrekin konputagailuak berak ere ikas lezake adierak bereizten. Wikipedia iturri posibleetako bat besterik ez da, gaur egun, Interneten gero eta testu gehiago dago horrelako lotura edo estekekin; Linked Open Data izenaz ezagutzen dira horrelakoak modu librean erabiltzerik badago.

Halaber, izen propioak, pertsona-izenak, erakunde-izenak edota toki geografikoak modu berezian landuko ditugu. Izan ere, izen propio guztiak landuta izatea ezinezkoa da, baina multzo handi bat kontrolatuta izateak asko hobetuko du itzulpenen kalitatea. Horrek aukera emango du, adibidez, Pilar del Castillo izena itzulpenean bere horretan mantentzeko, eta ez gazteluko pilarea emaitza lortzeko.

Horrenbestez, hiru adar nagusi horiek —zuhaitz-bankuak, Interneteko baliabideak eta izen propioak— lantzen ari da IXA Taldeak pasa den azarotik QTLeap proiektuan, egungo euskarazko itzultzaile automatikoen hiru arazo nagusiei —ezberdintasun morfologiko eta gramatikala, adiera-desanbiguazioa eta corpus txikia— konponbide berriak aurkitzeko.

Bota galdera!

Elhuyar_Iñigo_Bota_galderaLabur eta argi azaldu du Elhuyar aldizkarian Iñigo Lopez ikasleak zer egiten duen HAP masterreko lan praktikoan. Testutxo bat hartuta, euskara irakasteko galderak automatikoki sortzen ditu horren gainean. Adibidez, testua hau bada:

Pizzak asko gustatzen zaizkit; horregatik, afaltzeko hori prestatuko dut.

Galdera hauek sortzen ditu:

Zer gustatzen zaio asko?
Zer egingo du?
Zer prestatuko du afaltzeko?

Pertsona batentzat erraza da galderak horrela sortzea, baina konputagailuentzat ez.
Gai horretan ari da Iñigo bere doktore-tesia lantzen.

Elhuyar aldizkarian idatzi du azalpen hori, umor-ikutu batekin gainera: Bota galdera!

Uzta oparoa Ekaia aldizkarian

Ekaia aldizkariko azken alea kalean eta sarean bietan dago honezkero.

Berri pozgarria da ikustea aldizkariaren 26. zenbaki honek tamaina handia hartu duela. Nonbait kalitatezko lan asko jaso eta argitaratu behar izan dute. Ikerkuntzako euskarazko argitalpenen osasun onaren erakusgarria izan daiteke hori.

Bestalde, berri oso pozgarria da ikustea Ixa taldearekin zerikusirik duten lau artikulu azaldu direla 26. zenbaki honetan. Ez bat eta ez bi, lau artikulu dira hauek:

  • Wikipedia eta itzulpen automatikoa: «harri batez bizpalau xori». Iñaki Alegria, Unai Cabezón, Unai Fernandez de Betoño, Gorka Labaka, Aingeru Mayor, Kepa Sarasola, Arkaitz Zubiaga  PDF
    OpenMT2 eta Euskal Wikipedia wikiproiektuaren barruan egindako ikerketari bukaera ematen dion deskribapen luzea da hau. Ingelesez liburu batean argitaratu dira emaitzak. Lehengo urtean Informatikari Euskaldunen Bilkuran euskaraz aurkeztu ziren emaitzak, baina Ekaiako artikulu honetan azalpen idatzi luzeagoa ematen dugu.
  • Euskararako koma-zuzentzaile automatiko baterantz. Bertol Arrieta, Iñaki Alegria, Arantza Diaz de Ilarraza PDF
    Bertol Arrieta irakaslearen tesitik eratorritako artikulua da. Koma puntuazio-marka ondo idazteko arauak aztertzen ditugu hor eta erabilera oker batzuk zuzentzeko aukerak proposatu ere.
  • Ikaste-domeinuaren sorkuntza erdiautomatikoa. Mikel Larrañaga, Angel Conde, Iñaki Calvo, Ana Arruarte, Jon A. Elorriaga PDF
    Artikulu hau ez da Ixa taldearena, Teknologian Oinarritutako Hezkuntzarako Tresnak arloan diharduen Galan taldearena da. Baina Mikel Larrañagak Ixa taldeko tresnak erabili ditu testu-liburuen “erradiografiak” egiteko, bere tesian.
  • Ingeniariak eta hizkuntzalaritza. J. R. Etxebarria PDF
    Ingeniariek historian zehar hizkuntzalaritzaren arloan eginiko ekarpenak deskribatzen dira, eta ondorio moduan bukatzen da artikulua Ingeniaritza Linguistikoari ongi etorria ematen. “Ingeniariek ekarpen propio handiak egin ditzaketela beren jakintza-arlotik, zuzenean baliabide teknologikoak hizkuntzalaritzan erabiliz eta integratuz, edota, aldi berean, ingeniaritza linguistikoaren garapenean lagunduz.”. Euskara lantzen ibili diren hainbat ingeniari aipatzen ditu (Txillardegi, Harluxet, Sagarna…), baina Joserra Etxebarriaren beraren izena falta da lista horretan. Bestalde, neskarik ez dago zerrendan, bat ere ez. Pena, eta eskerrak emakume ingeniari linguistiko ugari daukagula.

 

 

 

Mintegia: NewsReader proiektua (G. Rigau)

Gaia: NewReader proiektua
Hizlaria: German Rigau
Eguna: Martxoaren 19n, asteazkena
Ordua: 15:30 -16:30
Tokia:  3.2 gela. Informatika Fakultatea
Mintegi guztien egutegia

Laburpena

NewsReaderNewsReaderStorylinesGaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero.  NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan.

Ixa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015):

Bukatu da Ebaluatoia. Parte hartzea itzela izan da.

Ofizialki Ebaluatoia bukatu da (edo behintzat bere alde publikoa).
500 erabiltzaile inguruk hartu duzue parte eta 33.000 ebaluaziotik gora egin dira. Aurreikuspen guztiak gainditu dituen komunitate batekin egin dugu topo!
500 erabiltzaile eta 33.000 ebaluazio!

Ebaluatoia_33K_500user_gorrizAtzo egin genuen sariaren zozketa, 1549 zenbakia izan zen saritua. Itzulpengintza eta Interpretazioa Gradua ikasten duen Garazi Urraka-ri tokatu zaio. Zorionak.

ebaluatoia_1549Nire aldetik, eskerrak eman nahi dizkizuet zuen parte hartzeagatik, laguntzagatik eta pazientziagatik. Emaitzak… laster.
Eskerrik asko,

Nora Aranberri

Hitzaldia: Egitura Erretorikoaren Teoria (T. Pardo, 2014/02/27)

Hizlaria: Thiago Pardo

Irakaslea eta ikertzailea da Instituto de Ciências Matemáticas e de Computação (ICMC) Brasileko Universidade de São Paulon (USP)
Bere ikerkuntza-lerroak laburpen automatikoa, analisi diskurtsibo automatikoa, sinplifikazio automatikoa eta itzulpen automatikoa dira eta nabarmentzekoak dira bere ikerkuntzen ondorioz komunitate zientifikoari eskaini dizkion corpus aberastuak eta diskurtso-egitura aztertzeko tresnak.

Eguna: Otsailaren 27an, 2014, osteguna
Ordua: Arratsaldeko 3:30etan
Non
: Informatika Fakutatea, 3.1 gela
Izenburua:

“Rhetorical Structure Theory: relational discourse structure annotation”
/ Egitura Erretorikoaren Teoria: diskurtsoaren egitura erlazionalaren anotazioa

 Edukia:

Thiago A.S. Pardok dikurtsoa analizatzen duten hainbat tresna eraikitzen parte hartu du. Esperientzia horren berri emango digu. Besteak beste, hauek dira tresna horietako batzuk:

  • CSTNews interface – access to 50 clusters of news texts and their multidocument summaries, with texts annotated according to the Cross-document Structure Theory
  • CSTTool – a semi-automatic edition tool for annotating texts according to the Cross-document Structure Theory
  • DiZer 2.0 – an on-line version of DiZer, which is easily adaptable and portable to different text types/genres and languages
  • RSTeval – tool for discourse parsing evaluation, following Marcu (2000) evaluation method – the tool is able to compare RST trees (automatically or manually produced), producing precision and recall numbers
  • CorpusTCC - corpus of 100 Brazilian Portuguese scientific texts (from Computer Science domain – introduction sections of theses), marked by Marcu’s RSTTool (using this relation set), used for developing DiZer
  • RhetDB – Rhetorical Database – an edition environment for handling the rhetorical analyses produced by Daniel Marcu’s RSTTool; it offers several computational facilities for both computational and linguistic purposes. (this is an old version of the software; for better and more advanced features, use RST Toolkit above)