Hizkuntza ofiziala izatearen garrantzia

Europako Batzordeak bere itzulpenen corpusa liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko.

Horren berri jaso da Enpresa Digitala-n eta Sustatu-n.

Baina euskara ez dago 23 hizkuntza ofizial horien artean.
Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.

Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.

Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da Europarl corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan).
Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.

Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo.
Baina… euskara?

Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.

Baina … oso inportantea da HIZKUNTZA OFIZIALA izatea.