Ahora! Euskara lantzeko tresnak, robot bertsolariak eta Kilometroak2013 jaia

BerriaIxaLaskorain

2013ko Kilometroak jaiaren harira, erronka bitxia izan dute atzo Tolosako Laskorain ikastolako neska-mutilek Donostiako Informatika Fakultatean: robotekin aritu dira bertsotan.

Fakultateko Ixa Taldeak eta Robotikako ikertaldeak euskararekin lotu dituzte teknologia berriak eta ikerketa.

 

Horrela jaso dute gaur Berrian (hainbat zuzenketa egin dizkiegu bertan esandakoei):

Euskara sarean hizkuntza praktikoa bihur dadin, Ixa taldeak hizkuntzaren morfologia, sintaxia eta semantika landuko dituzten aplikazioak asmatu ditu.

[…]Gaur egun euskararekin lan egiteko oso eraginkorra bilakatu den Xuxen zuzentzaile ortografikoaz gain, OpenTrad itzultzaile automatikoa, Euskal WordNet sarea eta ZT eta EPEC corpusak sortu dituzte, eta etorkizunera begira PATHSNewsReaderREADERS eta  OpeNER proiektu europarrak aurrera ateratzeko ari dira lanean.

Berria_Ixa_Laskurain_Kontrazala

[…]Horrekin batera, Ixa taldea Herrialde Katalanetako zein Galiziako informatikariekin ari da lanean OpenTrad izeneko programa aurrera ateratzeko; programa horrek esaldi osoak itzultzeko gaitasuna dauka. Jada Google Translator programa baino eraginkorragoa bilakatu da.

[…]Baina aisialdiarekin lotutako aplikazioetan ere sartu dira, eta, adibidez, sakelakoetan erabiltzen den Angry Words  (edo Apalabrados) euskaraz ere jokatu ahal izatea bideratu dute.

[…]Baina sortutako gailu eta tresna guztien artean, bi robotek bereganatu dute ikasleen arreta: Tartalo robot bertsolaria eta Nao jostailu itxurako robot hiztun eta ibiltaria. Nao-k txundituta utzi ditu ikasleak mahaitik altxatu eta ongietorria eman dienean, eta hitz egiteko, mugitzeko eta gizakien keinuak imitatzeko gai dela erakutsi die aho zabalik begira zeudenei. Bi ikaslek Tartalorekin bertso lehiaketa egiteko aukera izan dute, Naok saioa aurkeztu ondoren. Tartalo gogor saiatu arren, argi gelditu da oraindik hezur-haragizko bertsolariek robotek baino hobeto menderatzen dutela hizkuntza.

[…]Aitzol Astigarraga ikerlariak,  Robotikako taldekoak,  azaldu duenez, robot horiek soEITBkulturaIxa_Laskurain_Bertsoakrtzeko helburua gailuei komunikatzen irakastea da. «Tartalo-k eta Nao-k erakusten dute posible dela robotei hizkuntzaren logika erakustea pixkanaka». Robotika taldearen eta Ixa taldearen elkarlanaren helburua roboten autonomia handitzea eta komunikatzeko gaitasunak garatzea da, ondoren, medikuntzan edota irakaskuntzan lagungarri izateko. «Robotek ikertzen jarraitzeko aukera ematen digute, eta, beharbada, etorkizunean elkarrizketak izateko gai izango dira».

Ikusi  bideo hauek ere bai:

Hitzaldia. J. M. Torres: Laburpen automatikoa (2012/11/09)

Aste honetan bigarren hitzaldi bat izango dugu, ostiralean izango da.

Gaia: Resumen automático de documentos: Algoritmos y tendencias futuras.
(Dokumentuen lapurpen automatikoa: algoritmoak eta joerak)
Hizlaria: Juan Manuel Torres-Moreno
Avignon-eko Unibertsitateko LIA Informatika-Laborategiko ikerketa burua Hizkuntzaren prozesamendurako.
Eguna: azaroaren 9an, ostirala
Ordua: 16:00
Tokia:  3.2 aretoa. Informatika Fakultatea
Laburpena El Resumen automático de textos es una disciplina del procesamiento de lenguaje natural (PLN), cuyo objetivo es comprimir los registros textuales. Este proceso de compresión implica una pérdida de información. Determinar la relevancia de la información retenida es una de las principales dificultades del proceso. Este seminario ofrece una visión histórica de los diferentes enfoques, desde el trabajo de HP Luhn en 1958 a las últimas investigaciones en PLN. La evaluación de los resúmenes -y difícil problema abierto- también será expuesto en sus enfoques manuales y automáticos. Varias aplicaciones de resumen automático de documentos se presentarán, así como resúmenes de documentos especializados (química orgánica y  biomedicina). Se presentarán algoritmos de resumen mono y multidocumento, Resumen cross-lingüe y compresión automática de frases.

Hitzaldia. Adam Kilgarriff: Nola ezagutu zure corpus hori. (2012/11/07)

Gero eta errazago da norberak corpus bat biltzea, saretik jasotako hainbat testu bilduta, adibidez. Baina… nola jakin modu erraz batean zelakoa den bildu dugun testu guzti hori?
Zelan bereizi eskura ditugun beste testu-bilduma batzuetatik?
Adam Kilgarriff aditua da corpusen sorkuntzan eta azterketan.

Gaia: Getting to Know Your Corpus  (Nola ezagutu zure corpus hori)
Hizlaria: Adam Kilgarriff (Brightoneko Lexical Computing Ltd. enpresako zuzendaria)
Eguna: azaroaren 7an, asteazkena
Ordua: 16:00
Tokia:  3.2 aretoa. Informatika Fakultatea

Laburpena
Corpora are not easy to get a handle on. The usual way of getting to grips with text is to read it, but corpora are mostly too big to read (and not designed to be read). We show, with examples, how keyword lists (of one corpus vs: another) are a direct, practical and fascinating way to explore the characteristics of corpora, and of text types. Our method is to classify the top one hundred keywords of corpus1 vs: corpus2, and corpus2 vs: corpus1. This promptly reveals a range of contrasts between all the pairs of corpora we apply it to. We also present improved maths for keywords, and quantitative comparisons between corpora. All the methods discussed (and almost all of the corpora) are available in the Sketch Engine, a leading corpus query tool.

Hitzaldia. Martha Palmer: Azaleko semantikaz haraindia. (2012/10/08)

Semantika konputazionalean gero eta ohikoagoak bihurtzen zaizkigu testuetako hitzen esanahien eta rol semantikoen etiketatzaileak. Eta hortik aurrera zer? Adibidez zer egin liteke aditzen predikatu-argumentu egiturak edukiko bagenitu? VerbNet baliabidearen sorkuntzan eragile handia izan den Martha Palmer irakasleak horretaz hitzaldi bat emango du HAP masterraren barruan datorren astelehenean, urriak 8.

Gaia: Beyond Shallow Semantics   (Azaleko semantikaz haraindia).
Hizlaria: Martha Palmer.  Department of Linguistics, University of Colorado (AEB)
Eguna: Urriaren 8an, astelehena
Ordua: 16:00-19:00
Tokia:  3.2 aretoa. Informatika Fakultatea

Laburpena
Shallow semantic analyzers, such as semantic role labelers and sense taggers, are increasing in accuracy and becoming commonplace.
However, they only provide limited and local representations of words and individual predicate-argument structures. This talk will address some of the current opportunities and challenges in producing deeper, richer representations of coherent eventualities. Available resources, such as VerbNet, that can assist in this process will also be discussed, as well as some of their limitations.

Hizlaria: Martha Palmer.

She is a Full Professor at the University of Colorado with joint appointments in Linguistics and Computer Science and is an Institute of Cognitive Science Faculty Fellow. She recently won a Boulder Faculty Assembly 2010 Research Award. Her research has been focused on trying to capture elements of the meanings of words that can comprise automatic representations of complex sentences and documents. Supervised machine learning techniques rely on vast amounts of annotated training data so she and her students are engaged in providing data with word sense tags and semantic role labels for English, Chinese, Arabic, Hindi, and Urdu, funded by DARPA and NSF. They also train automatic sense taggers and semantic role labelers, and extract bilingual lexicons from parallel corpora.

A more recent focus is the application of these methods to biomedical journal articles and clinical notes, funded by NIH. She is a co-editor for the Journal of Natural Language Engineering and for LiLT, Linguistic Issues in Language Technology, and on the CLJ Editorial Board. She is a past President of the Association for Computational Linguistics, past Chair of SIGLEX and SIGHAN, and was the Director of the 2011 Linguistics Institute held in Boulder, Colorado.

 

Hitzaldia. Nicolai Erbs: Erauzketa eleanitza tamaina handiko baliabideetan (2012/02/24)

Ezagutzaren erauzketa eleanitza tamaina handiko baliabideetan eremu berria da Hizkuntza Teknologian. Gure taldea ildo horretan dabil lanean Kyoto proiektu europarra abiatu zenetik, eta azkenaldian Paths proiektuan ere bete betean. Alemaniako Darmstadt unibertsitatetik bisitan (otsailetik ekainera) etorri zaigun Nicolai Erbs doktoregaiak horretaz hitz egingo digu: Nola erauzi automatikoki ezagutza tamaina handiko baliabideetatik.

Gaia: Multilingual acquisition of large scale knowledge resources.
(Erauzketa eleanitza tamaina handiko ezagutza-baliabidetan).
Tokia:  3.2 aretoa. Informatika Fakultatea
Hizlaria:
Nicolai Erbs.
Technical University of Darmstadt (Germany)
Eguna: Otsailaren 24an
Ordua: 15:00-16:00

Laburpena

A vast amount of content is produced by many users every day, but due to the lack of  structure, their contribution is often ignored by other users. This talk presents approaches such as keyphrase extraction and link discovery, enabling automatic structure generation for texts, thus making them more readable.

However, the major challenge of disambiguating word senses is not tackled. Solving this challenge could improve the proposed approaches significantly. Especially for the task of link discovery, named entity disambiguation is a fundamental issue.

The talk introduces Wikipedia as a valuable knowledge repository, for it is full of named entities. Basically all famous – and not quite as famous – people have their own Wikipedia article, which are heavily interconnected (e.g. two actors participated in the same movie). These interconnection is represented in Wikipedia articles as links and can be used as input for graph-based named entity disambiguation systems.

Atro Voutilainen-en hitzaldia. Zuhaitz-bankua finlandierarako.(2011/06/08)

Finlandieraren prozesamendua betidanik izan da erreferentzia sendoa IXA taldearentzat. Horrela, euskararen analizatzaile morfologikoa eta analizatzaile sintaktikoa egin genituenean Finlandian sortutako “bi mailako formalismoarekin” eta “murriztapen-gramatikekin” landu genituen, haien urratsei jarraituz.
Zuhaitz-bankuak, edo treebank ere deituak, dira hurrengo urratsa, alegia, sintaktikoki etiketatutako corpusak. Ezinbesteko tresnak dira sintaxia tresna estatistikoekin landu ahal izateko. Euskararako EPEC corpusa (Euskararen Prozesamendurako Erreferentzia Corpusa) sortu dugu, Ancora proiektuaren bitartez kontsultatu daitekeena.

Atro Voutilainen berriro dator bisitan Euskal Herrira eta kontatuko digu nola sortu duten finlandierarako zuhaitz-bankua.

Gaia: Building a dependency treebank and other LRs for Finnish.
(Dependentziazko zuhaitz-bankua eta beste baliabide linguistiko batzuk finlandierarako eraikitzen.)
Tokia
: 3.2 gelan (batzar-gela ohia)
Hizlaria: Atro Voutilainen (University of Helsinki)
Eguna: Ekainaren 8an
Ordua: 11:30

Building a dependency treebank and other LRs for Finnish

  • Research infrastructure FIN-CLARIN
    • LR web service for R&D
    • corpora, language models, software, open source
    • FIN-CLARIN project
  • FinnTreeBank
    • user needs
    • grammar definition corpus
    • a parsebank with dependency syntactic annotation
  • Tagging and dependency parsing
    • Finnish
    • linguistic modelling
    • tools, technologies
    • modelling methods: experiments, comparisons

Ekainaren 7an eta 9an ere gure artean egongo da. Horregatik, Atrorekin hitz egin nahi duen edonork, Koldo Gojenolari abisatu mesedez, denbora antolatu ahal izateko.

Hitzaldia. Daniele Pighin. Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.(2011/05/31)

Lluis Marquezekin UPCn lan egiten duen Daniele Pighin ikerlaria astebeteko bisitan dugu Donostian. Mintegi bat antolatu dugu bere ikerketa-lanaren berri jasotzeko.

Gaia: Automatic Projection of Semantic Structures: an Application to Pairwise Translation Ranking  (Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.)
Tokia: 3.2 gelan (batzar-gela ohia)
Hizlaria: Daniele Pighin
Eguna: Maiatzaren 31
Ordua: 11:30

Izenburua / Title
Automatic Projection of Semantic Structures: an Application to Pairwise Translation Ranking
(Rol semantikoen erabilera itzulpenen kalitatea neurtzerakoan.)

Laburpena /Abstract
The ability to automatically assess the quality of translation hypotheses is a key requirement towards the development of accurate and dependable translation models. While it is largely agreed that proper transfer of predicate-argument structures from source to target is a very strong indicator of translation quality, especially in relation to adequacy, the incorporation of this kind of information in the Statistical Machine Translation (SMT) evaluation pipeline is still limited to few and isolated cases.

We present a model for the inclusion of semantic role annotations in the framework of confidence estimation for machine translation. The model has several interesting properties:

  1. it only requires a linguistic processor on the (generally well-formed) source side of the translation;
  2. it does not directly rely on properties of the translation model (hence, it can be applied beyond phrase-based systems);
  3. it is inherently extendable to cope with different kinds of sequential annotations, e.g., POS tags.

These features make it potentially appealing for system ranking, translation re-ranking and user feedback evaluation. Preliminary experiments in pairwise hypothesis ranking on five confidence estimation benchmarks show that the model has the potential to capture salient aspects of translation quality.

Hitzaldia. Lluís Màrquez. Ebaluazioa itzulpen automatikoan: Hizkuntz oinarriko neurrien konbinaziorantz(2011/05/10)


Gaia: “Ebaluazioa itzulpen automatikoan: Hizkuntz oinarriko neurrien konbinaziorantz /
Hizlaria
: Lluís Màrquez NLPRG, TALP
Technical University of Catalonia, UPC
Udara arte gurekin izango dugu Lluis Marquez, OPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere.
Tokia: Informatika Fakultateko Batzar Aretoa
Eguna: Maiatzaren 10.an
Ordua: 15:30


Laburpena:
Automatic evaluation plays a very important role in the development andcomparison of machine translation systems. In this talk we will overview the current trend of using linguistically-guided evaluation measures based on several linguistic layers and their combination.
Also, we will talk about confidence estimation measures, a particular subset of measures to assess output quality without the need of reference translations. Finally, we will overview the role of evaluation measures within the FAUST European project (Feedback Analysis for User Adaptive Statistical Translation; http://www.faust-fp7.eu/), focusing on the usage of user feedback to guide the combination of measures.

Bilaketaz haruntzago: ezagutza biomedikoa lortzen hizkuntzaren prozesaketaren bidez (Karin Verspoor, 2011/03/18)


Gaia:
“Beyond Search: enabling biomedical knowledge discovery through natural language processing”
“Bilaketaz haruntzago: ezagutza biomedikoa lortzen hizkuntzaren prozesaketaren bidez”
Hizlaria
:
Karin Verspoor Research Assistant
Professor Professor Larry Hunter‘s research lab,
Center for Computational Pharmacology
,
University of Colorado Denver
Tokia
: Informatika Fakultateko 3.1 mintegia
Eguna
: Martxoaren 18a (2011/03/18)
Ordua: 15:30