Rodrigo Agerrik irabazi du CAPITEL@IberLEF2020 txapelketako NERC atalean

Rodrigo Agerri Ixakideak CAPITEL@IberLEF2020 lehiaketara aurkeztu dituen hiru sistemak lehenengo hiru postuetan sailkatu dira gaztelaniazko artikulu periodistikoetan agertzen diren entitate-izenak biltzeko eta sailkatzeko atalean. (Sub-task 1: Named Entity Reconition and Classification in Spanish News Articles).

Rodrigo Agerrirekin batera German Rigau, Ander Barrena eta Jon Ander Campos ere aritu dira talde-lanean.
Zorionak Rodrigori eta lan-talde osoari!

Hizkuntza Teknologia garatzeko PlanTL planaren esparruan, gaztelaniaren akademiak (RAE) eta Ekonomia Ministerioko Sustapen Digitaleko Estatu Idazkaritzak (SEAD) akordio bat sinatu zuten gaztelaniazko albisteekin corpus linguistiko idatzi bat garatzeko, espainieraren hizkuntza-baliabideen azpiegitura handitzeko. Corpus horren izena CAPITEL da (Corpus del Plan de Impulso a las Tecnologías del Lenguaje, Hizkuntzaren Teknologiak Sustatzeko Planaren Corpusa), eta hainbat komunikabide-hornitzailerekin egindako hitzarmenei esker, gaur egungo albisteak dituzten hainbat artikuluk osatzen dute. CAPITELek hiru etiketatze maila ditu: morfosintaktikoa (lema eta dependentzia unibertsalen moduko ezaugarriekin), sintaktikoa (Universal Dependencies v2 jarraituta) eta entitate izendunena.

CAPITEL corpusaren azpimultzo baten etiketatze linguistikoa egin da, etiketatze-automatikoa geroago eskuz zuzenduta. Eskuzko berrikuspena hizkuntzalari graduatuek egin dute, CAPITEL corpuserako berariaz sortutako Etiketatzeko Jarraibideak erabiliz. Izendatutako entitateen corpus zuzenduak milioi bat hitz inguru hartzen ditu, eta etiketatze sintaktikoarenak 250.000 gutxi gorabehera.

Corpusaren tamaina eta etiketatzeen izaera direla eta, CAPITEL@IberLEF2020 aterkiaren barruan IberLEF lehiaketan bi azpiataza proposatu zituzten:

  1.  Izendatutako entitateak biltzea eta sailkatzea  (honetan irabazi du Ixa Taldeak)
  2.  Dependentzia unibertsalaren azterketa.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude