Bota galdera!

Elhuyar_Iñigo_Bota_galderaLabur eta argi azaldu du Elhuyar aldizkarian Iñigo Lopez ikasleak zer egiten duen HAP masterreko lan praktikoan. Testutxo bat hartuta, euskara irakasteko galderak automatikoki sortzen ditu horren gainean. Adibidez, testua hau bada:

Pizzak asko gustatzen zaizkit; horregatik, afaltzeko hori prestatuko dut.

Galdera hauek sortzen ditu:

Zer gustatzen zaio asko?
Zer egingo du?
Zer prestatuko du afaltzeko?

Pertsona batentzat erraza da galderak horrela sortzea, baina konputagailuentzat ez.
Gai horretan ari da Iñigo bere doktore-tesia lantzen.

Elhuyar aldizkarian idatzi du azalpen hori, umor-ikutu batekin gainera: Bota galdera!

Uzta oparoa Ekaia aldizkarian

Ekaia aldizkariko azken alea kalean eta sarean bietan dago honezkero.

Berri pozgarria da ikustea aldizkariaren 26. zenbaki honek tamaina handia hartu duela. Nonbait kalitatezko lan asko jaso eta argitaratu behar izan dute. Ikerkuntzako euskarazko argitalpenen osasun onaren erakusgarria izan daiteke hori.

Bestalde, berri oso pozgarria da ikustea Ixa taldearekin zerikusirik duten lau artikulu azaldu direla 26. zenbaki honetan. Ez bat eta ez bi, lau artikulu dira hauek:

  • Wikipedia eta itzulpen automatikoa: «harri batez bizpalau xori». Iñaki Alegria, Unai Cabezón, Unai Fernandez de Betoño, Gorka Labaka, Aingeru Mayor, Kepa Sarasola, Arkaitz Zubiaga  PDF
    OpenMT2 eta Euskal Wikipedia wikiproiektuaren barruan egindako ikerketari bukaera ematen dion deskribapen luzea da hau. Ingelesez liburu batean argitaratu dira emaitzak. Lehengo urtean Informatikari Euskaldunen Bilkuran euskaraz aurkeztu ziren emaitzak, baina Ekaiako artikulu honetan azalpen idatzi luzeagoa ematen dugu.
  • Euskararako koma-zuzentzaile automatiko baterantz. Bertol Arrieta, Iñaki Alegria, Arantza Diaz de Ilarraza PDF
    Bertol Arrieta irakaslearen tesitik eratorritako artikulua da. Koma puntuazio-marka ondo idazteko arauak aztertzen ditugu hor eta erabilera oker batzuk zuzentzeko aukerak proposatu ere.
  • Ikaste-domeinuaren sorkuntza erdiautomatikoa. Mikel Larrañaga, Angel Conde, Iñaki Calvo, Ana Arruarte, Jon A. Elorriaga PDF
    Artikulu hau ez da Ixa taldearena, Teknologian Oinarritutako Hezkuntzarako Tresnak arloan diharduen Galan taldearena da. Baina Mikel Larrañagak Ixa taldeko tresnak erabili ditu testu-liburuen “erradiografiak” egiteko, bere tesian.
  • Ingeniariak eta hizkuntzalaritza. J. R. Etxebarria PDF
    Ingeniariek historian zehar hizkuntzalaritzaren arloan eginiko ekarpenak deskribatzen dira, eta ondorio moduan bukatzen da artikulua Ingeniaritza Linguistikoari ongi etorria ematen. “Ingeniariek ekarpen propio handiak egin ditzaketela beren jakintza-arlotik, zuzenean baliabide teknologikoak hizkuntzalaritzan erabiliz eta integratuz, edota, aldi berean, ingeniaritza linguistikoaren garapenean lagunduz.”. Euskara lantzen ibili diren hainbat ingeniari aipatzen ditu (Txillardegi, Harluxet, Sagarna…), baina Joserra Etxebarriaren beraren izena falta da lista horretan. Bestalde, neskarik ez dago zerrendan, bat ere ez. Pena, eta eskerrak emakume ingeniari linguistiko ugari daukagula.

 

 

 

Mintegia: NewsReader proiektua (G. Rigau, 2014-03-19)

Gaia: NewReader proiektua
Hizlaria: German Rigau
Eguna: Martxoaren 19n, asteazkena
Ordua: 15:30 -16:30
Tokia:  3.2 gela. Informatika Fakultatea
Mintegi guztien egutegia

Laburpena

NewsReaderNewsReaderStorylinesGaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero.  NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan.

Ixa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015):

Bukatu da Ebaluatoia. Parte hartzea itzela izan da.

Ofizialki Ebaluatoia bukatu da (edo behintzat bere alde publikoa).
500 erabiltzaile inguruk hartu duzue parte eta 33.000 ebaluaziotik gora egin dira. Aurreikuspen guztiak gainditu dituen komunitate batekin egin dugu topo!
500 erabiltzaile eta 33.000 ebaluazio!

Ebaluatoia_33K_500user_gorrizAtzo egin genuen sariaren zozketa, 1549 zenbakia izan zen saritua. Itzulpengintza eta Interpretazioa Gradua ikasten duen Garazi Urraka-ri tokatu zaio. Zorionak.

ebaluatoia_1549Nire aldetik, eskerrak eman nahi dizkizuet zuen parte hartzeagatik, laguntzagatik eta pazientziagatik. Emaitzak… laster.
Eskerrik asko,

Nora Aranberri

Hitzaldia: Egitura Erretorikoaren Teoria (T. Pardo, 2014/02/27)

Hizlaria: Thiago Pardo

Irakaslea eta ikertzailea da Instituto de Ciências Matemáticas e de Computação (ICMC) Brasileko Universidade de São Paulon (USP)
Bere ikerkuntza-lerroak laburpen automatikoa, analisi diskurtsibo automatikoa, sinplifikazio automatikoa eta itzulpen automatikoa dira eta nabarmentzekoak dira bere ikerkuntzen ondorioz komunitate zientifikoari eskaini dizkion corpus aberastuak eta diskurtso-egitura aztertzeko tresnak.

Eguna: Otsailaren 27an, 2014, osteguna
Ordua: Arratsaldeko 3:30etan
Non
: Informatika Fakutatea, 3.1 gela
Izenburua:

“Rhetorical Structure Theory: relational discourse structure annotation”
/ Egitura Erretorikoaren Teoria: diskurtsoaren egitura erlazionalaren anotazioa

 Edukia:

Thiago A.S. Pardok dikurtsoa analizatzen duten hainbat tresna eraikitzen parte hartu du. Esperientzia horren berri emango digu. Besteak beste, hauek dira tresna horietako batzuk:

  • CSTNews interface – access to 50 clusters of news texts and their multidocument summaries, with texts annotated according to the Cross-document Structure Theory
  • CSTTool – a semi-automatic edition tool for annotating texts according to the Cross-document Structure Theory
  • DiZer 2.0 – an on-line version of DiZer, which is easily adaptable and portable to different text types/genres and languages
  • RSTeval – tool for discourse parsing evaluation, following Marcu (2000) evaluation method – the tool is able to compare RST trees (automatically or manually produced), producing precision and recall numbers
  • CorpusTCC - corpus of 100 Brazilian Portuguese scientific texts (from Computer Science domain – introduction sections of theses), marked by Marcu’s RSTTool (using this relation set), used for developing DiZer
  • RhetDB – Rhetorical Database – an edition environment for handling the rhetorical analyses produced by Daniel Marcu’s RSTTool; it offers several computational facilities for both computational and linguistic purposes. (this is an old version of the software; for better and more advanced features, use RST Toolkit above)

Hitzaldia: Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz (T. Pardo, 2014/02/28)

Hizlaria: Thiago Pardo

Irakaslea eta ikertzailea da Instituto de Ciências Matemáticas e de Computação (ICMC) Brasileko Universidade de São Paulon (USP) Bere ikerkuntza-lerroak laburpen automatikoa, analisi diskurtsibo automatikoa, sinplifikazio automatikoa eta itzulpen automatikoa dira eta nabarmentzekoak dira bere ikerkuntzen ondorioz komunitate zientifikoari eskaini dizkion corpus aberastuak eta diskurtso-egitura aztertzeko tresnak.

Eguna: Otsailaren 28an, 2014, ostirala
Ordua: Goizeko 10:30etan
Non: Informatika Fakutatea, 3.2 gela
Izenburua:

Text summarization using discourse knowledge. Text simplification and co-reference
/ Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz.

 Edukia:

Thiago A.S. Pardok diskurtsoaren egitura lantzeaz gain laburpen automatikoa egiten duten hainbat tresna ere eraikitzen parte hartu du. Esperientzia horren berri emango digu. Besteak beste, hauek dira tresna horietako batzuk:

  • Summarization extension to Google Chrome - extension for on-line news summarization, based on RSumm system
  • TextTiling for Portuguese – topical segmentation tool adapted to news texts in Brazilian Portuguese, based on the work of Hearst (1997)
  • CSTSumm – a multi-document summarizer based on CST information (see README.txt in the rar file)
  • CSTNews – a corpus with 50 clusters of news texts – in Portuguese – with their multi-document summaries, as well as several discourse and semantic annotations
  • TeMário 2006 – 150 news texts and the corresponding human summaries, which complement the original TeMário corpus, resulting in a corpus of 250 texts for summarization purposes
  • DMSumm – Discourse Modeling SUMMarizer
  • NeuralSumm – NEURAL network for SUMMarization (for scientific texts) – with tools for training the system with new data, if necessary
  • GistSumm – GIST SUMMarizer

Hitzaldia: Ele anitzetako aipamenen detekzioa koreferentziaren ebazpenerako (O. Uryupina, 2014/02/21)

Hizlariak: Olga Uryupina
Trentoko Unibertsitatea
Eguna: Otsailaren 21an, 2014, ostirala
Ordua: Arratsaldeko 12:00retan
Non
: Informatika Fakutatea, 3.2 gela

 

Izenburua:
Ele anitzetako aipamenen detekzioa koreferentziaren ebazpenerako.
/Multilingual Mention Detection for Coreference Resolution

 Edukia:

Accurate mention detection is a vital prerequisite for a variety of
Natural Language Processing tasks, in particular, for Relation
Extraction and Coreference Resolution. If a toolkit cannot extract
mentions reliably, it will obviously be unable to assign them to
relations or entities.

We propose a novel algorithm for multilingual mention detection: we
extract mentions from parse trees via kernel-based SVM learning. Our
approach allows for straightforward mention detection for any language
where (not necessary perfect) parsing resources are available, without
any complex language-specific rule engineering.  We also investigate
possibilities for incorporating automatically acquired mentions into
an end-to-end coreference resolution system. We evaluate our approach
on the Arabic and Chinese portions of the CoNLL-2012 dataset, showing
a significant improvement over the system with the baseline mention
detection.

Lan hau Alessandro Moschitti-ren lankidetzarekin garatu da.

Hitzaldia: BrainNet (Massimo Poesio, 2014/02/20)

Hizlariak: Massimo Poesio
Essex-eko Unibertsitatea
Eguna: Otsailaren 20an, 2014, osteguna
Ordua: Arratsaldeko 3:00retan
Non
: Informatika Fakutatea, 3.2 gela

 

Izenburua:
BrainNet: burmuin- eta corpus-datuak erabiltzen ezagutza kontzeptuala ikertzeko.
/ BrainNet: Using Brain (and Corpus) Data to Investigate Conceptual Knowledge. Edukia:

Existing electronic repositories of lexical and commonsense knowledge  such as ConceptNet, Cyc, FrameNet, and especially WordNet (Fellbaum, 1998), have had a dramatic and positive impact on Artificial Intelligence (AI) and Human Language Technology (HLT) research, making it possible to carry out the first large-scale  semantic analyses of text and some simple forms of inference. Nowadays there are few semantic interpretation systems that do not use WordNet. However, the widespread application of these resources has also highlighted their limitations. One example of problem often mentioned in the literature is that the taxonomy structure of WordNet, which plays a crucial role e.g., in the calculation of lexical distance metrics, is based in part on scientific taxonomies for specific domains (e.g., animals, plants), in part on linguistic intuitions.

The hypothesis underlying the BrainNet project is that the dramatic advances in our knowledge of concepts arising from interdisciplinary research of the last thirty years pave the way to the development of a lexical resource of a novel type that may overcome the limits just discussed: an electronic dictionary that directly mirrors the mental lexicon, modelled on the basis of recordings of brain activity using contemporary neuroimaging techniques (EEG, MEG and fMRI). The goal of the BrainNet project is to translate cutting-edge theories and methods from cognitive psychology, computational linguistics, and cognitive neuroscience into a new model for lexical-semantic representation and organization.

Lan hau lankide hauekin egin du:  Andrew Anderson, Brian Murphy, Yuqiao Gu, Marco Baroni, eta Yuan Tao

Ebaluatoia, ingelesetik euskarara itzultzen duten lehen prototipoak ebaluatzeko

Nora Aranberrik, Gorka Labakarekin elkarlanean, ingelesetik euskarara automatikoki itzultzen duten itzultzaile automatiko batzuk garatu ditu azken urtean. Marie Curie beka batekin egin du, ENEUS proiektuaren barruan.
Proiektuan lehenengo prototipo batzuk egin dira teknologia desberdinekin eta orain ebaluazio batekin bukatu behar da proiektu hori.
Ebaluatoia_interfazea2Horrelakoetan nazioartean moda-modan dago “ebaluatoiak” egitea. Programa egin duen taldetik kanpo dauden hainbat pertsonak egiten dute. Bakoitzak, bere ordenagailutik, esaldi sorta bat ebaluatzen du, esaldi bakoitza eta automatikoki lortutako itzulpen batzuk ikusita pertsonak erabakitzen du zein den hoberena.

Erdaretarako ebaluatoi asko egin dira. Batzuek diote euskaraz ebaluatoia ez dela ondo joango, euskararen mundua txikiegia dela, baina IXA taldean animatu gara ebaluatoi bat antolatzen eta erantzun ona jasotzea espero dugu. Ea egia den! Parte hartuko duzuen guztiok “egundoko zozketa” batean parte hartuko duzue :-)  Zozketa martxoaren 4an izango da.

Ingelesez dakizu? eta euskaraz?
Lagun iezaguzu euskara “teknologizatzen”!
Ebaluatoia otsailaren 14tik 25era, egon adi!

Zehaztasun gehiago 14tik aurrera. Zorte on!

Ebaluatoia2014

2013/14rako masterrak: HAP/LAP eta LCT Erasmus Mundus

EM LCT masterra

Beste berri oso on bat heldu zaigu udazken honetan IXA taldera: tramite guztiak gaindituta datorren ikasturtean eskaintza bikoitz eta sendoa zabalduko dugu master mailan:

ERNE: EMLCT master honetan beka eskatzeko epea urtarrilaren 12an bukatuko da.

HAP_diptiko_Irudia

HAP/LAP masterra

  • HAP/LAP EHUko masterra Euskaraz eta ingelesez emango da bietara:
    • Hizkuntzaren Azterketa eta Prozesamendua
    • Language Analysis and Processing.

    . Erasmus Munduseko masterrean emango dugun formazioa, kalitate berarekin eta ikasle gehiagorengana zabaltzeko aukera aprobetxatzeko, beste master honetan ere emango dugu paraleloan, kasu honetan Ixa taldea eta EHUren babesarekin.
    EHUn bekak eskatzeko epea lehengo urtean uztailaren 19an bukatu zen

Azken hamar urteko lanaren fruitua da eskaintza hau; hasieran HIZTEK masterra izan zen (2002-2006) eta azken urteetan HAP masterra (2006-2013). Gutxienez laurogei aditu sortu ditugu, eta hortik berrogei doktorego-tesi. Hizkuntza teknologian urrats garrantzitsuak egin ditugu Ixa Taldean. Bide horretan euskaraz ematen dugun formazioari tinko eutsi nahi diogu. Eta Erasmus Mundus babesaren pean ingelesez ere mundu mailan zabaldu nahi dugu ondo egiten dakiguna, master mailako ikasleak hezitzen. Mesedez, zabaldu mezu hau Hizkuntza-Teknologian ikasi nahiko luketen informatikariei edo hizkuntzariei: