Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2007/01/26 13:05:51.635 GMT+1

ELRAk sailkatutako hizkuntza baliabideak

Oraingoan ere hizkuntza baliabideak sailkatzeko beste modu bat ikusiko dugu. Izan ere, modu desberdinak daude, aurretik ikusi dugunez. Jarraian ELRAren (Hizkuntza Baliabideen Erakunde Europarra) sailkapenean oinarrituko gara.

Hizkuntza baliabideak lau multzo nagusitan banatzen dituzte:

1. Hizketa bidezko hizkuntza baliabideak

    a. Telefono-grabaketak. Atal honetan biltzen diren datu-baseak telefono edo mikrofono bidez egindako hizketa-grabaketekin osatu dira. Egoera desberdinetan grabatutako hizketa baliabideak daude Europako zein beste herrialde batzuetako hainbat hizkuntzatan, esate baterako, SpeechDat proiektuaren markoan sortutako datu-baseak.
    b. Mikrofono-grabaketak. Sail honetan jasotako datu-baseak mikrofono bidez egindako grabaketekin osatu dira, adibidez, BABEL proiektuaren datu-basearen markoan sortutako datu-baseak.
    c. Igorritako baliabideak. Atal honetako datu-baseak irrati, telebista edota Interneteko hots-grabaketek osatzen dituzte, hala nola, Italian duten emititutako albisteen corpusa (Italian Broadcast News Corpus).
    d. Hizketarekin erlazionatutako baliabideak. Sail honetan ahozkatzeko zein fonetika lexikoiak aurki ditzakegu, besteak beste, BDLEX, PHONOLEX eta MHATLEX datu-baseak.[Euskaraz, adibidez, fonatari.org dugu]

2. Idatzizko hizkuntza baliabideak

    a.Corpusak. Elebakarrak edo eleanitzak izan daitezke, eta anotazioak izan ditzakete. Atal honetan topa ditzakegun baliabideetako batzuk dira, esate baterako, MULTEXT proiektuaren markoan garatutako corpusa, frantseseko berba zientifikoen corpusa, arabiarrez argitaratutako egunkarietako corpusa, etab.
    b.Lexikoi elebakarrak. Sail honetan hiztegi mota desberdinak daude, adibidez, frantseseko aditzen hiztegia, berba japoniarrak biltzen dituen hiztegia...
    c. Lexikoi eleanitzak. Hiztegi edota lexikoi elebi zein eleanitzak daude atal honetan, hala nola, EuroWordNet datu-baseak.

3. Hizkuntza baliabide terminologikoak.

    Hemen datu-base terminologiko elebakar, elebidun eta eleanitzak dira baliogarriak. Eguneroko hizkuntzatik urrun dauden berba espezializatuak dituzten eremuak biltzen dituzte, esate baterako, automobilen ingurukoak, hizkuntzalaritza, finantzak, etab. hainbat hizkuntzatan.[Euskaraz UZEI dugu.]

4. Multimedia hizkuntza baliabideak.

    Hemengo baliabideak modu desberdinak erabiliz osatu dira, hizketarena barne. Adibide bat M2VTS proiektuaren markoan osatutako datu-basea da.

Iturria: ELRA Catalogue of Language Resources

Nork: Janire.2007/01/26 13:05:51.635 GMT+1
Etiketak: hizkuntza_baliabideak | Permalink | Erantzunak (0) | Errenferentziak: (0)

Idatzi artikulu bat





The CAPTCHA image

Irudian agertzen diren letrak idatzi beheko kutxan. Spammerrei aurre egiteko CAPTCHA metodoa da hau Captchas.net zerbitzuari esker



bisitari