Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia.

Hizkuntza-ingeniaritzan corpusak ezinbesteko langai dira  hainbat tresna egiteko eta ebaluatzeko; are funtsezkoagoak dira metodo estatistikoak eta ikasketa automatikoa aplikatu ahal izateko.

Nazioarteko hizkuntza nagusiek 100 milioi hitzeko corpus nazionalak dituzte (Corpus Survey). Euskarak eduki badauzka zenbait corpus, baina oraindik nazioarteko tamaina
eta corpus nazionala, etiketatua noski, eginkizun dugu.

Behar hori asetu nahian hiru baliabide aurkeztu dituzte atzo (Prospektiba, Sustatu). Lehenengoa ZT corpusa da.  8 milioi hitzeko corpus egituratua eta linguistikoki etiketatua da, automatikoki prozesatua, zientzia eta teknologiaren alorreko 1990-2002 bitarteko hainbat obrekin sortua, 1,6 milioi hitz eskuz berrikusita eta zuzenduta dituena. Erabili  hemen.

Baina ZT corpusa bera bezain inportanteak dira bera eratzeko erabili diren metodologia eta tresnak. Corpusak nola etiketatu? Zein informaziorekin? Zein formatorekin? Zein tresnak behar dira behar ditugun corpus erraldoiak eratu eta erabiltzeko?

  • CORPUSGILE tresna berriak testu-bilketa kudeatzeko eta testuen egitura etiketatzeko kudeaketa egiteko tresna lagungarria da (XML eta TEI estandarren arabera).
  • EULIA  tresna berriak testuen etiketatze linguistikoa kudeatuko du.  Corpuseko hitz orok zenbait informazio linguistiko ditu erantsita,  hala nola: hitzaren lema eta  kategoria lexikala (% 100 zuzen, eskuz desanbiguatutako atalean, eta automatikoki esleitutakoa, gainerakoan); hitzak duen kasua eta betetzen duen funtzio sintaktikoa (automatikoki esleituak); hitz anitzeko unitateen kasuan, unitate hauen egitura ere. Etiketatze linguistiko automatikoa egindakoan, emaitzak eskuz lantzeko aukera dago.

Beraz, abiapuntuan badauzkagu zenbait tresna eta zenbait corpus:

Orduan… ea EUSKARAREN CORPUS NAZIONALA eraikitzeko gauza garen!
Arloan gabiltzan eragile guztien artean. Euskarak behar du.

Iruzkinak (2)

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude