Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Hitzaldia: Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz (T. Pardo, 2014/02/28)

Hizlaria: Thiago Pardo

Irakaslea eta ikertzailea da Instituto de Ciências Matemáticas e de Computação (ICMC) Brasileko Universidade de São Paulon (USP) Bere ikerkuntza-lerroak laburpen automatikoa, analisi diskurtsibo automatikoa, sinplifikazio automatikoa eta itzulpen automatikoa dira eta nabarmentzekoak dira bere ikerkuntzen ondorioz komunitate zientifikoari eskaini dizkion corpus aberastuak eta diskurtso-egitura aztertzeko tresnak.

Eguna: Otsailaren 28an, 2014, ostirala
Ordua: Goizeko 10:30etan
Non: Informatika Fakutatea, 3.2 gela
Izenburua:

Text summarization using discourse knowledge. Text simplification and co-reference
/ Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz.

 Edukia:

Thiago A.S. Pardok diskurtsoaren egitura lantzeaz gain laburpen automatikoa egiten duten hainbat tresna ere eraikitzen parte hartu du. Esperientzia horren berri emango digu. Besteak beste, hauek dira tresna horietako batzuk:

  • Summarization extension to Google Chrome – extension for on-line news summarization, based on RSumm system
  • TextTiling for Portuguese – topical segmentation tool adapted to news texts in Brazilian Portuguese, based on the work of Hearst (1997)
  • CSTSumm – a multi-document summarizer based on CST information (see README.txt in the rar file)
  • CSTNews – a corpus with 50 clusters of news texts – in Portuguese – with their multi-document summaries, as well as several discourse and semantic annotations
  • TeMário 2006 – 150 news texts and the corresponding human summaries, which complement the original TeMário corpus, resulting in a corpus of 250 texts for summarization purposes
  • DMSumm – Discourse Modeling SUMMarizer
  • NeuralSumm – NEURAL network for SUMMarization (for scientific texts) – with tools for training the system with new data, if necessary
  • GistSumm – GIST SUMMarizer

Hitzaldia: Ele anitzetako aipamenen detekzioa koreferentziaren ebazpenerako (O. Uryupina, 2014/02/21)

Hizlariak: Olga Uryupina
Trentoko Unibertsitatea
Eguna: Otsailaren 21an, 2014, ostirala
Ordua: Arratsaldeko 12:00retan
Non
: Informatika Fakutatea, 3.2 gela

 

Izenburua:
Ele anitzetako aipamenen detekzioa koreferentziaren ebazpenerako.
/Multilingual Mention Detection for Coreference Resolution

 Edukia:

Accurate mention detection is a vital prerequisite for a variety of
Natural Language Processing tasks, in particular, for Relation
Extraction and Coreference Resolution. If a toolkit cannot extract
mentions reliably, it will obviously be unable to assign them to
relations or entities.

We propose a novel algorithm for multilingual mention detection: we
extract mentions from parse trees via kernel-based SVM learning. Our
approach allows for straightforward mention detection for any language
where (not necessary perfect) parsing resources are available, without
any complex language-specific rule engineering.  We also investigate
possibilities for incorporating automatically acquired mentions into
an end-to-end coreference resolution system. We evaluate our approach
on the Arabic and Chinese portions of the CoNLL-2012 dataset, showing
a significant improvement over the system with the baseline mention
detection.

Lan hau Alessandro Moschitti-ren lankidetzarekin garatu da.