Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2008/05/08 19:15:10.286 GMT+2

Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara

Galdera-erantzutea (Question Answering, QA) arloko sistemak oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema berean konbinatu behar baitira bi azpiarloko teknikak: Informazio Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa automatikoa (Natural Language Processing, NLP).

QAko sistemari lengoaia naturalezko galderak egiten zaizkio (kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).

Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da martxan.  Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan, egun edonon onartzen diren ebaluazio-neurriak eta ebaluazio-eskakizunak  ezarri ditu-eta. Hala ere, hasierako TREC QA lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen inondik ere azaltzen.

2003. urtean CLEF foroa (Cross Language Evaluation Forum)  hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta hizkuntzen arteko QA sistemetarako: Multilingual Question Answering at CLEF. Geroago, adar berri horretako azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak gero eta hobeak.

2008ko lehiaketan euskara ere izango da hizkuntza aztergaien artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera, espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta portugesa. Euskara bi modutan izango da aztergai: 

  • Proba batean euskaraz idatzitako testuetan bilatu beharko dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo dira.
  • Beste proba batean galderak euskaraz egingo dira, eta erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz dauden testuetan.
Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira (lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira, baina lehenengo proban bakarrik.

Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute parte hartzaileen balorazioak denen artean komentatzeko.

Ea lehiaketa honek laguntzen duen arlo honetan euskararekin ere aurrera egiten.

-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait 
    Q: Who was called the “Iron-Chancellor”?         A: Otto von Bismarck.
    Q: What year was Martin Luther King murdered?    A: 1968.
    Q: Which town was  Mozart born in?               A: Salzburg.

b) Definizio-galderak (%15):
    Q: Who is Robert Altmann?                        A: Film maker.
    Q: What is the Knesset?                          A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
    Q: Name all the airports in London, England.     A: Gatwick, Stansted, Heathrow, Luton and City.
    Q: Name the last three American Presidents.      A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)

Nork: ixa.2008/05/08 19:15:10.286 GMT+2
Etiketak: ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

Idatzi artikulu bat





The CAPTCHA image

Irudian agertzen diren letrak idatzi beheko kutxan. Spammerrei aurre egiteko CAPTCHA metodoa da hau Captchas.net zerbitzuari esker



bisitari