Mintegia: Zuhaitz-banku unibertsala (K.Gojenola, 2015/10/20)

Hizlaria:  Koldo Gojenola
Ordua: 15:00-16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Izenburua:  “Zuhaitz-banku unibertsala / Universal Treebank

2008. urtetik hona, hizkuntza desberdinetan garatutako zuhaitz-bankuek etiketatze eredu estandarra jarraitzeko hainbat saiakera egin dira (Standford Dependencies, Clear, Google UD, Standford UD, Hamlet). 2014tik aurrera Standford UDetan oinarritutako Universal Dependencies, “de facto”zko estandarra bihurtu da. Gure zuhaitz-bankua UDetara bihurtzen hasi gara, eta lehenengo bertsio bat atzigarri dago jada. Eman diren urratsak eta egoera azalduko ditugu mintegi honetan.

Tesia: Estaldura zabaleko euskararako analizatzaile sintaktiko estatistikoa (Kepa Bengoetxea, 2014-12-16)

Tesiaren titulua: Estaldura zabaleko euskararako analizatzaile sintaktiko estatistikoa
Non
: Informatika Fakultateko Gradu Aretoan
Eguna: Abenduak 16, asteartea
Ordua: 11:00etan
Egilea: Kepa Bengoetxea Kortazar
Zuzendaria: Koldo Gojenola Galletebeitia

Agindu bezala hemen dator Kepa Bengoetxea Kortazar ixakideak asteartean defendatuko duen tesia. Sintaxi konputazionalari buruz aurten aurkeztuko den hirugarren tesia da hau, estaldura zabaleko analizatzaile estatitiskoa dakarrena, Maltixa izenekoa.

EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

Hitzaldia: SVMren erabilera egitura sintaktikoak deskubritzeko (Toni Martí, 2014/12/15)

Hizlaria:Toni Martí, (Universitat de Barcelona, Hizkuntzalaritza orokorra)
Eguna: abenduaren 15ean, 2014, astelehena
Ordua: 11:00 – 12:30
Non
: Informatika Fakutatea, 3.2 gela
Izenburua: “SVMren erabilera egitura sintaktikoak deskubritzeko / A Vector Space Model approach to discover constructions”

 

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan 🙁   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Tesia: EPEC corpusa predikatu-mailan etiketatzeko oinarriak (2014/09/04)

Tesiaren titulua:  EPEC corpusa predikatu-mailan etiketatzeko oinarriak: EPEC-RolSem, BVI eta e-ROLda
Non
: Informatika Fakultatean,
Eguna: irailak 4,
Ordua: 10:30ean (11:30etan ez)

Agindu bezala hemen dator Ainara Estarrona Ibarzola ixakideak ostegunean defendatuko duen tesia. Sintaktikoki etiketatuta dagoen EPEC corpusean predikatu-mailan etiketatu ahal izateko hiru baliabide berri sortu dira tesi honetan:

  • EPEC-RolSem corpusa, EPEC bezelakoa baina predikatu mailan ere etiketatua
  • BVI:  Euskarazko aditzen lexikoia (Basque Verb Index)
  • e-ROLda:  BVI  eta EPEC-RolSem kontsultatzeko tresna
EU_SintaxiKonp_Mugarriak

Mugarriak euskarararen sintaxi konputazionalean

 

 

Kitxua lantzeko, Cusco-ko bisitariak berriro gurean

HinantinPeruko UNSAAC unibertsitateko lankidetzan ari gara orain dela bi urtetik hona. Euskara automatikoki tratatzeko erabili dugun teknologia eta estrategia kitxua hizkuntzari ere aplikatzea da gure helburua.

Zuzentzaile ortografiko bat martxan dago. Analizatzaile morfologikoa eta sintaktiko xume bat ere bai. Hilabete gutxiren barruan kitxuaren datu-base lexikalaren lehen bertsioa eta corpusa kontsultatzeko lehenengo web-aplikazio bat plazaratu nahi ditugu.

Lehengo urtean bi bisitari izan genituen:

Aurten beste bi bisitari ditugu gure artean:

  • IMG_1758Rosemary Jimenez:  testuak automatikoki sailkatzeko programa aurkeztu du gaur bertan, bere master-tesi moduan. Eta bera da corpusa eratu eta kontsultatzeko aplikazioa sortzen ari dena.
  • José Lozano: Kitxua irakasteko sistema bat sortzen ari da Waldir Farfan-ekin. Datorren igandean kitxuazko esaldiak analizatzen dituen sistema aurkeztuko du Polonian, Language Technology Congress (LTC’2013) kongresuan.

2012an Madrileko Kooperaziorako Ministerioko proiektu bat izan genuen, 2013an EHUrekin RUNASIMI proiektua. Juan Cruz irakasleak koordinatzen duen Hinantin taldea jaio da. Orain proiektu berri bat prestatzen ari gara lan hauei 2014an jarraipena emateko.

Hizkuntzalari Euskaldunen I. Topaketa

Arrakastatsua izan da Hizkuntzalari Euskaldunen I. Topaketa. UEUko Hizkuntzalaritza Sailburuak diren Itziar Aduriz eta Ruben Urizar IXAkideek balorazio oso positiboa egin dute bilkuraz.

Lau izan dira bilkuran Ixa Taldearen aldetik aurkeztu diren lanak:

  • Euskarazko testuen sinplifikazio automatikoa. Itziar Gonzalez Dios
  • EPEC corpusa predikatu mailan etiketatzeko eta ustiatzeko oinarriak: BVI, EPEC-RoISem eta e-ROLda. Ainara Estarrona
  • Ezagutza linguistikoa Ingelesa-Euskara itzulpen automatikoko sistemen garapenean. Nora Aranberri
  • BASYQUE: hizkeren arteko aldakortasun sintaktikoa aztertzeko aplikazioa. Gotzon Santander, Xan Aire, Larraitz uria eta Ricardo Etxepare (CNSR-IKER / UPV-EHU, IXA)

Zorionak, hizkuntzalariok!

Edurne Elizondoren albistea Berrian
(Arg.: A. Canellada, ARP)

Atro Voutilainen-en hitzaldia. Zuhaitz-bankua finlandierarako.(2011/06/08)

Finlandieraren prozesamendua betidanik izan da erreferentzia sendoa IXA taldearentzat. Horrela, euskararen analizatzaile morfologikoa eta analizatzaile sintaktikoa egin genituenean Finlandian sortutako “bi mailako formalismoarekin” eta “murriztapen-gramatikekin” landu genituen, haien urratsei jarraituz.
Zuhaitz-bankuak, edo treebank ere deituak, dira hurrengo urratsa, alegia, sintaktikoki etiketatutako corpusak. Ezinbesteko tresnak dira sintaxia tresna estatistikoekin landu ahal izateko. Euskararako EPEC corpusa (Euskararen Prozesamendurako Erreferentzia Corpusa) sortu dugu, Ancora proiektuaren bitartez kontsultatu daitekeena.

Atro Voutilainen berriro dator bisitan Euskal Herrira eta kontatuko digu nola sortu duten finlandierarako zuhaitz-bankua.

Gaia: Building a dependency treebank and other LRs for Finnish.
(Dependentziazko zuhaitz-bankua eta beste baliabide linguistiko batzuk finlandierarako eraikitzen.)
Tokia
: 3.2 gelan (batzar-gela ohia)
Hizlaria: Atro Voutilainen (University of Helsinki)
Eguna: Ekainaren 8an
Ordua: 11:30

Building a dependency treebank and other LRs for Finnish

  • Research infrastructure FIN-CLARIN
    • LR web service for R&D
    • corpora, language models, software, open source
    • FIN-CLARIN project
  • FinnTreeBank
    • user needs
    • grammar definition corpus
    • a parsebank with dependency syntactic annotation
  • Tagging and dependency parsing
    • Finnish
    • linguistic modelling
    • tools, technologies
    • modelling methods: experiments, comparisons

Ekainaren 7an eta 9an ere gure artean egongo da. Horregatik, Atrorekin hitz egin nahi duen edonork, Koldo Gojenolari abisatu mesedez, denbora antolatu ahal izateko.

Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez.


Zuzentzaile ortografiko automatikoa tresna lagungarria da zalantzarik gabe. Halako tresna batek aztergai duen aztertzeko unitatea hitz soltea izaten da. Testuen zuzenketa automatiko sakonagoa egin ahal izateko sintaxia ere kontuan hartu behar izaten da, eta halakoetan, esaldi luze-luzeak izan ohi direnez, esaldi horien sintaxia lantzeko esaldia “zati” txikiagoetan banatzea izan ohi da lehen pausoa: sintagmak eta perpausak identifikatzea, alegia.Bertol Arrieta Kortajarena Ixakideak bere tesian Ikasketa Automatikoko teknikak aztertu eta erabiltzea izan du helburu, euskararen sintaxian eta zuzenketa automatikoan bi urrats aurrera egiteko.

Hau da tesiaren izenburu osoa:
Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez: euskarako  kateen eta perpausen identifikazioa eta bere erabilera koma-zuzentzaile batean.

Hala, euskarako kate- eta perpaus-identifikatzaile automatikoak sortu dira, ikasketa automatikoko teknikak hizkuntzaren ezagutzan oinarritutakoekin uztartuz. Modu honetan, testu bat emanda, makina gai da testu horretako sintagmak, perpausak eta esaldiak modu automatikoan identifikatzeko. Tresna hauek oso baliagarriak dira analisi sintaktiko automatiko osoa edo sakona bideratzeko, eta baita Hizkuntzaren Prozesamenduko hainbat arloetan aurrerapausoak egiteko ere: hala nola, informazioaren erauzketa, laburpenen sorkuntza, itzulpen automatikoa

Horretaz gain, puntuazioaren erabilera jorratu da hizkuntzalaritza konputazionalaren ikuspegitik. Makinak hizkuntzaren ulermen osoa lor dezan, komak duen garrantzia aztertu da, batez ere. Hala, euskarako koma-zuzentzaile automatiko bat garatu da ikasketa automatikoko teknikak baliatuz. Horretarako, aurrez sortutako kate- eta perpaus-identifikatzaileek ematen duten informazioa erabili da. Koma-zuzentzaile hau XUXENg euskarako estilo- eta gramatika-zuzentzailean txertatu nahi da. Gainera, baliagarria izango da euskarako analizatzaile eta desanbiguatzaile sintaktikoak hobetzeko, eta baita ahotsaren ezagutza sistemetan integratzeko ere.

Tesi osoa eta aurkezpena Ixa taldeko argitalpenen orritik jaso daitezke. Pasa den uztailaren 27an aurkeztu izan da, eta zuzendariak Iñaki Alegria eta Arantza Diaz de Ilarraza izan dira.