Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.¬† Gure 25. urteurrena ospatzeko beste modu gehigarri bat ūüėČ
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen ‚Äúhiztegi semantikoa‚ÄĚ edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain ‚ÄĒhitzen adierak eta adiera horien definizioak eta adibideak‚ÄĒ kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: ‚Äúgizakiaren eskua edo oina bukatzen den bost zatietako bakoitza‚ÄĚ da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako ‚Äúhiztegi semantiko‚ÄĚ baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

NewsReader proiektuko kideek irabazi dute Enlighten Your Research lehiaketa

NewsReader proiektukoek, tartean IXA taldekoak ere badira, EYR4 lehiaketa irabazi dute! Albiste-jario handi-handiak automatikoki aztertzeko Enlighten Your Research (EYR4) lehiaketaren 4. edizioa izan da. Sariarekin batera hiru opari egiten ditu Amsterdam-eko Unibertsitateak: 25.000‚ā¨, hodeiko konputagailu potente bat erabiltzeko baimena eta horretarako aholkularitza.

ZORIONAK German, Aitor, Eneko, Itziar, Egoitz, Piek eta proiektuko beste kide guztiei!

Honela esan du epai-mahaiak:¬†‚ÄôLan honek harantzago eraman ditu eskuragarri ditugun azpiegituren mugak, datu handizko jarioak analizatzeko bide berritzaile bat erabilita. Bide berri bat albisteak prozesatzeko.’

Newsreader proiektuaren proposamenaren izena ‚ÄôRecording history in large news streams‚Äė izan da. Eta hau izan da bere helburua: “Egunero milaka albiste publikatzen dira, batzuk gertakari berriak aurkezteko eta beste batzuk lehenago argitaratutakoak eguneratzeko. Egungo teknologiarekin ezinezkoa da informazio guzti hori gordetzea eta prozesatzea. Proiektu honen helburua arkitektura hoberena garatzea da, ahal den arinen eta ahal den albiste kopuru handiena prozesatuko duena, eta egun Hizkuntzaren Prozesamenduaren arloan eskura dauzkagun tratamendu semantikorako teknika aurreratuenak baliatuko dituena.”.

Ikus blog honetako aurreko albiste hauek:

TC3 aldizkarian argitaratu dugu Berbatek proiektuko uzta

TC·_2013_BerbatekTranslation: Computation, Corpora, Cognition (TC3) aldizkari berriak itzulpengintzako lanak argitaratzen ditu modu elektronikoan eta atzipen libreko filosofiarekin.

TC3 aldizkari honek argitaratu berri du gure artikulu bat non ETORTEK deialdiko Berbatek proiektuan sortu genituen demoak deskribatzen ditugun. Proiektuaren garapenean darabilgun filosofia ere azaltzen dugu artikuluan.

Hiru demo hauek prestatu eta aurkeztu genituen prentsaurreko batean:

Artikulua TC3 aldizkariko ale berezi batean atera da:
Vol 3, No 1 (2013): Special Issue on Language Technologies for a Multilingual Europe
Hau da: Europa eleaniztunarentzako Hizkuntza Teknologiak.

Beraz… ondo kokatuta dago gure artikulu hori ūüôā

The BerbaTek project for Basque: Promoting a less-resourced language via language technology for translation, content management and learning
Translation: Computation, Corpora, Cognition (TC3) journal. Vol 3, No 1, pp: 119-135 (2013). http://www.t-c3.org/index.php/t-c3/article/view/24/34

Eman eta zabal zazu

 

 

Koldo Mitxelena saria Arantxa Otegiri.

III_Koldo_Mitxelena_ArantxaEuskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten atzo Arantxa Otegi Ixakideari Ikasketa Teknikoen jakintza-arloan. Sari-banaketa atzo izan zen, urtarrilak 17,  Bilboko Bizkaia aretoan.

Arantxa Otegiren tesiaren helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, ahaidetasun semantikoko hainbat metodo erabiliz.

Tesi horren azalpentxo bat ikus dezakezu blog honetan lehengo urteko albiste batean.
Tesi-txosten osoa ere ikus dezakezu hemen.

ZORIONAK Arantxa!
Zorionak zuzendariei! (Eneko Agirre eta Xabier Arregi)

Hitzaldia. Martha Palmer: Azaleko semantikaz haraindia. (2012/10/08)

Semantika konputazionalean gero eta ohikoagoak bihurtzen zaizkigu testuetako hitzen esanahien eta rol semantikoen etiketatzaileak. Eta hortik aurrera zer? Adibidez zer egin liteke aditzen predikatu-argumentu egiturak edukiko bagenitu? VerbNet baliabidearen sorkuntzan eragile handia izan den Martha Palmer irakasleak horretaz hitzaldi bat emango du HAP masterraren barruan datorren astelehenean, urriak 8.

Gaia: Beyond Shallow Semantics   (Azaleko semantikaz haraindia).
Hizlaria: Martha Palmer.  Department of Linguistics, University of Colorado (AEB)
Eguna: Urriaren 8an, astelehena
Ordua: 16:00-19:00
Tokia:  3.2 aretoa. Informatika Fakultatea

Laburpena
Shallow semantic analyzers, such as semantic role labelers and sense taggers, are increasing in accuracy and becoming commonplace.
However, they only provide limited and local representations of words and individual predicate-argument structures. This talk will address some of the current opportunities and challenges in producing deeper, richer representations of coherent eventualities. Available resources, such as VerbNet, that can assist in this process will also be discussed, as well as some of their limitations.

Hizlaria: Martha Palmer.

She is a Full Professor at the University of Colorado with joint appointments in Linguistics and Computer Science and is an Institute of Cognitive Science Faculty Fellow. She recently won a Boulder Faculty Assembly 2010 Research Award. Her research has been focused on trying to capture elements of the meanings of words that can comprise automatic representations of complex sentences and documents. Supervised machine learning techniques rely on vast amounts of annotated training data so she and her students are engaged in providing data with word sense tags and semantic role labels for English, Chinese, Arabic, Hindi, and Urdu, funded by DARPA and NSF. They also train automatic sense taggers and semantic role labelers, and extract bilingual lexicons from parallel corpora.

A more recent focus is the application of these methods to biomedical journal articles and clinical notes, funded by NIH. She is a co-editor for the Journal of Natural Language Engineering and for LiLT, Linguistic Issues in Language Technology, and on the CLJ Editorial Board. She is a past President of the Association for Computational Linguistics, past Chair of SIGLEX and SIGHAN, and was the Director of the 2011 Linguistics Institute held in Boulder, Colorado.

 

Lexiko-semantika: bi biltzar eta lehiaketa bat

Eneko Agirre Ixa-kidea,  SIGLEX interes-taldeko koordinatzailea izanda, semantikarekin lotuta dauden hainbat biltzar eta lehiaketatan antolatzaile-lanetan ibili da aspaldi honetan, hona oraintsu plazaratu diren hiru ekinbide:

Lexiko-semantikaz eta semantika konputatzionalaz arituko den *SEM biltzarra (First Joint Conference on Lexical and computational semantics: *SEM), elkarrekin antolatuko dute ACL ospetsuko SIGLEX eta  SIGSEM interes-taldeek.  Ekainaren 7 eta 8an Kanadako Montreal-en egingo da Ipar Amerikako hizkuntzalaritza konputazionaleko eta hizkuntza-teknologien erakundeak antolatuko duen biltzar orokorrrari lotuta (NAACL HLT). Eneko antolatzaile nagusia da biltzar honetan.

Supporting Users’ Exploration of Digital Libraries nazioarteko workshopa, Txipren 2012ko irailaren 27 egindo dena, eta International Conference on Theory and Practice of Digital Libraries (TPDL) kongresuaren barruan antolatu dena. Eneko eta Ixako Arantxa Otegi batzorde antolatzailearen partaide dira.

SemEval-2012 ebaluazio semantikoen lehiaketa orokorraren barruan eginkizun bat definitu da testuen arteko antzekotasun semantikoa lantzeko. Goian aipatu den *SEM biltzarrean eginkizun horretaz ere hitz egingo da. Eneko eta Ixako Aitor Gonzalez aritu dira antolatzaile lanetan. Ikusi SemEval-2012 eta SemEval-2012 Task 6: A Pilot on Semantic Textual Similarity.

Lexiko-semantikaren erabilera informazio-berreskurapenean

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza.  Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
Pasa den martxoan Informatika Fakultatean Arantxa Otegik irakurri duen tesiaren helburua IBaren ikerketan urrats bat egitea izan da, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz.

Izenburua: “Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak“.
Zuzendariak: Eneko Agirre eta Xabier Arregi
Tesi-txostena: helbide honetan lortu daiteke.

Laburpena:

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.

IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.

IBaren hastapenetatik gaur arte parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Tesi-lan honetan hizkuntzaren prozesamenduaren (HP) bidez arazo hau arintzerik ba ote den aztertu da.

Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egiten dugu HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzen dugu, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko ditugun. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen dugu kasu bakoitzerako. Are gehiago, erabiliko dugun hedapen-teknikak kontsulta eta dokumentuak itzultzeko balio duenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen direla erakutsiko dugu.

Hiru datu-multzotan egindako esperimentu eta analisiek erakusten dute tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio dutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.

Robot-bertsolariaren lehen plaza

(Argazkia: Berria / Jon Orbe / Argazki Press)

Apirilaren 18an egin zuten Galtxagorri eta Tartalo robotek euren lehen plaza, EHU-ko Gipuzkoako Campuseko gelategiko portxetan. Andoni Ega√Īa, Felix Zubia, Maialen Velarde eta Oier Lakuntza bertsolariak lagun hartuta, ordu erdi pasatxoko bertso-saioa egin zuten.

Euren lehen plaza izanik, egin zituzten akatsak robotek (ez urduritasunak eraginda, jakina!), baina sortutako ikusminari ere ondo baino hobeto erantzun zioten.

Hiru ikerkuntza talderen arteko elkarlanetik sortu da robot-bertsolaria:

  • Batetik, robotika-lanak daude, Robotika eta Sistema Autonomoen taldeak gorputza jarri dio makina bertsolariari. Honela, robota gai da aginduak jaso eta¬† bere ingurunean mugitzeko: mikrofonora hurbildu, heldu, jiratu, atzera itzuli eta antzeko mugimenduak eginez. Aurrera begirako helburua, gizaki eta roboten arteko elkarrekintza garatzea litzateke: komunikazioa hizkuntza naturalean gauzatuz, sentsoreak erabiliz ustekabeko gertaeren aurrean erantzuteko, eta bertsoaren komunikazio ekintzan eragina duen gorputz espresioan arreta handiagoa jarriz, besteak beste.
  • Bestetik, Aholab ikerkuntza taldearen lana dago. Talde honek ahotsaren sorkuntzan hainbat urtetan egindako lanari esker jarri ahal izan dugu kantari robota. Horretarako, lehenik eta behin, abestu behar duen bertsoa eta haren egitura musikala azaldu behar zaizkio ordenagailuari, hala nola, silaba¬† bakoitzaren nota eta
    hauen iraupena. Bertsoaren testua pasatzen zaio Aholab-en garatutako
    ahoTTS programari, eta silaba bakoitzaren iraupena finkatzen da, silabak luzatu behar direnean fonema batzuk (bokalak) gehiago luzatuz eta beste batzuk (kontsonanteak) gutxiago. Ondoren, estatistikoki ezarri zaion pitch kurba (hitz egiterakoan erabiltzen ditugun musika-nota arruntak) aldatuko da, erabili nahi den doinuaren frekuentziak finkatuz. Hau egindakoan, nota berriak ezartzen zaizkio berbaldiari, Aholab ikerkuntza taldean garatutako Ahocoder programa erabilita.
  • Azkenik, IXA ikerkuntza taldean egindako lanari esker, hutsetik bertsoak sortzeko gai da robota (hala-moduzkoak badira ere), ikasketa automatikoko teknikak baliatuz. Etorkizunean hau hobetzeko lanean ari da IXA taldea. Era berean, zentzu handiagoko bertsoak sortzeko, beste bide batzuk jorratu dira: eskuragarri zeuden bertso multzo bat harturik abiapuntu gisa, hainbat bertsoalditako errima
    bereko puntuak uztartzen ditu ordenagailuak bertsoa osatzeko; gainera, puntu bakoitzean, zenbait hitz ordezkatu egiten ditu, jatorrizko hitzaren sinonimoak, antonimoak edo semantikoki nolabait erlazionatutako hitzak baliatuz. Ordezkapen hau egiteko, EuskalWordNet datu-basea darabil:
    euskararako sortutako ezagutza-base lexikal eleanitza, hau da, euskarazko hitzen zuhaitz semantiko moduko bat.

Hiru ikerkuntza talde hauek eskainitako baliabideak oinarri gisa hartuta, Manex Agirrezabal izan da proiektu honen garatzaile nagusia, Aitzol Astigarraren laguntzarekin.

Hona hemen, roboten lehen bertso-saioak sortutako ikusminaren hainbat adibide:

Hitzaldia. Daniele Pighin. Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.(2011/05/31)

Lluis Marquezekin UPCn lan egiten duen Daniele Pighin ikerlaria astebeteko bisitan dugu Donostian. Mintegi bat antolatu dugu bere ikerketa-lanaren berri jasotzeko.

Gaia: Automatic Projection of Semantic Structures: an Application to Pairwise Translation Ranking  (Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.)
Tokia: 3.2 gelan (batzar-gela ohia)
Hizlaria: Daniele Pighin
Eguna: Maiatzaren 31
Ordua: 11:30

Izenburua / Title
Automatic Projection of Semantic Structures: an Application to Pairwise Translation Ranking
(Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.)

Laburpena /Abstract
The ability to automatically assess the quality of translation hypotheses is a key requirement towards the development of accurate and dependable translation models. While it is largely agreed that proper transfer of predicate-argument structures from source to target is a very strong indicator of translation quality, especially in relation to adequacy, the incorporation of this kind of information in the Statistical Machine Translation (SMT) evaluation pipeline is still limited to few and isolated cases.

We present a model for the inclusion of semantic role annotations in the framework of confidence estimation for machine translation. The model has several interesting properties:

  1. it only requires a linguistic processor on the (generally well-formed) source side of the translation;
  2. it does not directly rely on properties of the translation model (hence, it can be applied beyond phrase-based systems);
  3. it is inherently extendable to cope with different kinds of sequential annotations, e.g., POS tags.

These features make it potentially appealing for system ranking, translation re-ranking and user feedback evaluation. Preliminary experiments in pairwise hypothesis ranking on five confidence estimation benchmarks show that the model has the potential to capture salient aspects of translation quality.