Hitzaldia: Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz (T. Pardo, 2014/02/28)

Hizlaria: Thiago Pardo

Irakaslea eta ikertzailea da Instituto de Ciências Matemáticas e de Computação (ICMC) Brasileko Universidade de São Paulon (USP) Bere ikerkuntza-lerroak laburpen automatikoa, analisi diskurtsibo automatikoa, sinplifikazio automatikoa eta itzulpen automatikoa dira eta nabarmentzekoak dira bere ikerkuntzen ondorioz komunitate zientifikoari eskaini dizkion corpus aberastuak eta diskurtso-egitura aztertzeko tresnak.

Eguna: Otsailaren 28an, 2014, ostirala
Ordua: Goizeko 10:30etan
Non: Informatika Fakutatea, 3.2 gela
Izenburua:

Text summarization using discourse knowledge. Text simplification and co-reference
/ Laburpen automatikoa diskurtsoaren ezagutza, testu-sinplikazioa eta korreferentzia erabiliz.

 Edukia:

Thiago A.S. Pardok diskurtsoaren egitura lantzeaz gain laburpen automatikoa egiten duten hainbat tresna ere eraikitzen parte hartu du. Esperientzia horren berri emango digu. Besteak beste, hauek dira tresna horietako batzuk:

  • Summarization extension to Google Chrome – extension for on-line news summarization, based on RSumm system
  • TextTiling for Portuguese – topical segmentation tool adapted to news texts in Brazilian Portuguese, based on the work of Hearst (1997)
  • CSTSumm – a multi-document summarizer based on CST information (see README.txt in the rar file)
  • CSTNews – a corpus with 50 clusters of news texts – in Portuguese – with their multi-document summaries, as well as several discourse and semantic annotations
  • TeMário 2006 – 150 news texts and the corresponding human summaries, which complement the original TeMário corpus, resulting in a corpus of 250 texts for summarization purposes
  • DMSumm – Discourse Modeling SUMMarizer
  • NeuralSumm – NEURAL network for SUMMarization (for scientific texts) – with tools for training the system with new data, if necessary
  • GistSumm – GIST SUMMarizer

Hitzaldia. J. M. Torres: Laburpen automatikoa (2012/11/09)

Aste honetan bigarren hitzaldi bat izango dugu, ostiralean izango da.

Gaia: Resumen automático de documentos: Algoritmos y tendencias futuras.
(Dokumentuen lapurpen automatikoa: algoritmoak eta joerak)
Hizlaria: Juan Manuel Torres-Moreno
Avignon-eko Unibertsitateko LIA Informatika-Laborategiko ikerketa burua Hizkuntzaren prozesamendurako.
Eguna: azaroaren 9an, ostirala
Ordua: 16:00
Tokia:  3.2 aretoa. Informatika Fakultatea
Laburpena El Resumen automático de textos es una disciplina del procesamiento de lenguaje natural (PLN), cuyo objetivo es comprimir los registros textuales. Este proceso de compresión implica una pérdida de información. Determinar la relevancia de la información retenida es una de las principales dificultades del proceso. Este seminario ofrece una visión histórica de los diferentes enfoques, desde el trabajo de HP Luhn en 1958 a las últimas investigaciones en PLN. La evaluación de los resúmenes -y difícil problema abierto- también será expuesto en sus enfoques manuales y automáticos. Varias aplicaciones de resumen automático de documentos se presentarán, así como resúmenes de documentos especializados (química orgánica y  biomedicina). Se presentarán algoritmos de resumen mono y multidocumento, Resumen cross-lingüe y compresión automática de frases.

Mintegia: Testuinguruaren garrantzia laburpen automatikoan (W. Bosma, 2010-10-22)

Gaia: Contextual salience in query-based summarization
Tokia: 2.2 mintegia
Hizlaria: Wauter Bosma (Vrieje Universiteit Amsterdam)Eguna: Urriaren 22a
Ordua: 15:00

Amsterdameko Unibertsitate Libretik etorri zaigu bisitan Wauter Bosma ikerlaria. Hilebetez ibiliko da gurekin lanean, gu ere partaide garen Kyoto proiektuan lankidea dugu Wauter.

Laburpena:
Bere ikerlerro nagusia laburpena automatikoa da. Eta horretaz hitz egingo du bihar asteartean. Berak teknika berri bat garatu du laburpenak grafuen bidez automatikoki lortzeko, beti ere testuinguruan azaltzen diren kontzeptuen arteko harremanak asimilatzeko asmoz.

Summary:
Discourse theories claim that text gets meaning in context. Most summarization systems do not take advantage of this. They assess the relevance of each passage individually rather than modeling the way context affects the relevance of passages. In order to model relations in text, I developed a framework for graph-based summarization, so that the passages can be viewed in a broader context. The result is a summarization system which is more in line with discourse theory but still fully automatic. I evaluated the content selection performance of an implementation of the framework in different configurations.  The system significantly outperforms a competitive baseline (and participant systems) on the DUC 2005 evaluation set.