Euskararen sintaxia analizatzen lehiatuko dira munduko hainbat sistema informatiko

Aurtengo CONLL (Conference on Computational Natural Language Learning) konferentzian sistema asko lehiatuko dira munduko hainbat hizkuntzen sintaxia analizatzeko. Hizkuntza horien artean txinatarra, txekiera, arabiera, katalana eta euskara egongo dira, besteak beste.

CONLL konferentziaren helburua lengoaia naturalaren prozesamenduko metodo edo programa berriak sortzea da, beti ere ikasketa automatikoaren bidez. Ikasketa automatikoan   gehienetan metodo estatistikoak erabiltzen dira. Urtero gai bat hartzen da horrelako sistema berriak probatzeko, eta 2006 eta 2007 urteetan hizkuntza askoren analisi sintaktikoa aukeratu da horretarako.

Sistema horiek eskuz markatutako treebankbatetik jasotzen dute informazioa. Treebank esaten zio hainbat eta hainbat esaldi  sintaktikoki analizatuta dituen fitxategiari. Esaldien analisi sintaktiko horiek dependentzia edo mendekotasunen bidez adierazten dira. Adibidez, “umeak ogi handi bat jan du goizean” esaldian dependentzia hauek lortuko genituzke:

  •     Subjektu(ume, jan)
  •     Objektu(ogi, jan)
  •     Modifikatzaile(handi, ogi)
  •     Determinatzaile(bat, ogi)
  •     Modifikatzaile(goizean, jan).

Dependentzia bakoitza honelakoa da: erlazioa(modifikatzailea, burua). Informazio hori da lengoaiaren prozesamendurako sistema askok erabili ohi dutena: itzulpen automatikoan, galdera-erantzuna sistemetan, …

Treebank horretatik abiatuta programa automatikoak sortzen dituzte ikasketa automatikorako metodoek; adibidez: analizatzaile sintaktiko berri bat bere barruan gramatikarik ez duena. Ondoren, lortutako programa horiek beste testu batzuen gainean probatuko dira, esaldi berrien gainean, ebaluatzeko sistema bakoitzaren ahalmena neurtzeko.

Oraingo CONLL lehiaketa honetan, euskararen kasuan, sistemen ikasketarako 50.000 hitzeko (3.000 esaldi inguru) corpusa erabiliko da, eta azken ebaluaziorako 5.000 hitzeko beste testu bat. Esaldi guzti horiek EPEC corpusetik (Euskararen Prozesamendurako  Erreferentziazko Corpusa) hartu dira.

Iruzkinak (1)

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude