Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)

Ingalaterrako Sussex Unibertsitateko John Carroll irakaslea gurekin izango da uztailaren 9tik 11ra (egitaraua behean ikusi).

Hizkuntza prozesatzeko analisi sintaktikoa izaten da pausorik garrantzitsuenetariko bat, perpausaren osagai nagusiak zeintzuk diren (izen-sintagma, aditz-sintagma…) eta beraien arteko erlazioak ezagutzeko (subjektu, objektu…). Ingelesa izan da gehien landu den hizkuntza, eta gaur egunean lau dira analizatzaile hoberenak:
   a)    Ezagutza linguistikoan oinarritutakoak.
               Connexor eta Xerox
   b)    Estatistikan oinarritutako sistemak
                Collins eta Charniak

Egungo erronka  handiena da ezagutza linguistikoa eta estatistikoa konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

Egitaraua:
Lekua: Informatika Fakultateko batzar aretoan.
Uztailaren 9/10, 15:30-17:30:
Ikastaroa: NLP and parsing.

  1.techniques for shallow parsing: treebanks, linguistic grammars,  
  2.Disambiguation.
  3.parser evaluation
  4.high precision parsing
  5.efficient deep parsing
  6.robust parsing and shallow semantics

Uztailaren 11, 11:30-13:00:
Hitzaldia: Text categorization for improved priors of word meaning.

Distributions of the senses of words are often highly skewed. This fact is exploited by word sense disambiguation (WSD) systems which back off to the predominant (most frequent) sense of a word when contextual clues are not strong enough. The topic domain of a document has a strong influence on the sense distribution of words.
Unfortunately, it is not feasible to produce large manually sense-annotated corpora for every domain of interest. Previous experiments have shown that unsupervised estimation of the predominant sense of certain words using corpora whose domain has been determined by hand outperforms estimates based on domain-independent text for a subset of words and even outperforms the estimates based on counting occurrences in an annotated corpus.
In this talk I will address the question of whether it is possible to _automatically_ produce domain-specific corpora which could be used to acquire predominant senses appropriate for specific domains.

Mintegia: Hizkuntzarteko Informazio-Berreskurapena (2007-III-22)

Gero eta informazio gehiago dugu eskura testu modura. Sarritan, baina, informazio hori beste hizkuntza batean idatzita dago, eta zailago egiten zaigu hortik informazio interesgarria ateratzea, eskuratzea. Hizkuntza teknologian  ahaleginak egiten ari dira zailtasun horiek gainditzeko, eta hortik sortu da  Hizkuntzarteko Informazio-Berreskurapena atala (Cross Lingual Information Retrieval edo CLIR).

Ixa taldeak, Madrileko Hezkuntza Ministerioan lortu duen “KNOW: Desarrollo de tecnologías multilingües a gran escala para la comprensión del lenguaje” proiektuaren barruan, Hizkuntzarteko Informazio-Berreskurapena sistemen (CLIR) eta hizkuntzaren ulermenaren arteko harremanaz arituko den mintegi bat antolatu du. Bertan UNED unibertsitateko Julio Gonzalo irakaslea ere izango da.

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>).
Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo
943 005 172,

Eguna:    Martxoaren 22a, osteguna
Tokia:     Gradu-Aretoa (Donostiako Informatika Fakultatea)
Programa:

10:00 Question/Answering in IXA (Xabier Arregi – IXA Taldea)
10:30 MEANING for IR/CLIR (German Rigau – IXA Taldea)
11:00 Coffee
11:30 CLEF-Semeval task on WSD and IR/CLIR (Eneko Agirre –  IXA Taldea)
12:00 Recent developments in IR/CLIR (Julio Gonzalo – UNED)
13:30 Lunch
15:30 Discussion

    • what does IR need from NLP and specially language understanding(NLU)
    • what can NLP and specially language understanding offer to IR
    • new areas of IR where NLP/NLU could be interesting

16:30 end