Oraingoan ere hizkuntza baliabideak sailkatzeko beste modu bat ikusiko dugu. Izan ere, modu desberdinak daude, aurretik ikusi dugunez. Jarraian ELRAren (Hizkuntza Baliabideen Erakunde Europarra) sailkapenean oinarrituko gara.
Hizkuntza baliabideak lau multzo nagusitan banatzen dituzte:
1. Hizketa bidezko hizkuntza baliabideak
- a. Telefono-grabaketak. Atal honetan biltzen diren datu-baseak
telefono edo mikrofono bidez egindako hizketa-grabaketekin osatu dira.
Egoera desberdinetan grabatutako hizketa baliabideak daude Europako
zein beste herrialde batzuetako hainbat hizkuntzatan, esate baterako, SpeechDat proiektuaren markoan sortutako datu-baseak.
- b. Mikrofono-grabaketak. Sail honetan jasotako datu-baseak
mikrofono bidez egindako grabaketekin osatu dira, adibidez, BABEL
proiektuaren datu-basearen markoan sortutako datu-baseak.
- c. Igorritako baliabideak. Atal honetako datu-baseak irrati,
telebista edota Interneteko hots-grabaketek osatzen dituzte, hala nola,
Italian duten emititutako albisteen corpusa (Italian Broadcast News
Corpus).
- d. Hizketarekin erlazionatutako baliabideak. Sail honetan
ahozkatzeko zein fonetika lexikoiak aurki ditzakegu, besteak beste,
BDLEX, PHONOLEX eta MHATLEX datu-baseak.[Euskaraz, adibidez, fonatari.org dugu]
2. Idatzizko hizkuntza baliabideak
- a.Corpusak. Elebakarrak edo eleanitzak izan daitezke, eta
anotazioak izan ditzakete. Atal honetan topa ditzakegun baliabideetako
batzuk dira, esate baterako, MULTEXT proiektuaren markoan garatutako
corpusa, frantseseko berba zientifikoen corpusa, arabiarrez
argitaratutako egunkarietako corpusa, etab.
- b.Lexikoi elebakarrak. Sail honetan hiztegi mota desberdinak
daude, adibidez, frantseseko aditzen hiztegia, berba japoniarrak
biltzen dituen hiztegia...
- c. Lexikoi eleanitzak. Hiztegi edota lexikoi elebi zein eleanitzak daude atal honetan, hala nola, EuroWordNet datu-baseak.
3. Hizkuntza baliabide terminologikoak.
- Hemen datu-base terminologiko elebakar, elebidun eta eleanitzak
dira baliogarriak. Eguneroko hizkuntzatik urrun dauden berba
espezializatuak dituzten eremuak biltzen dituzte, esate baterako,
automobilen ingurukoak, hizkuntzalaritza, finantzak, etab. hainbat
hizkuntzatan.[Euskaraz UZEI dugu.]
4. Multimedia hizkuntza baliabideak.
- Hemengo baliabideak modu desberdinak erabiliz osatu dira,
hizketarena barne. Adibide bat M2VTS proiektuaren markoan osatutako
datu-basea da.
Iturria: ELRA Catalogue of Language Resources
Idatzi artikulu bat