Wikipedia oso baliabide interesgarria da hizkuntzaren prozesamendurako. Testu egituratua da eta metadatu asko barneratzen ditu. Baina oinarrizko estatistikak-eta lortu nahi badituzu komenigarria da testu-formatu hutsean edukitzea. Ixa Taldeko zenbait lanetan Euskal Wikipediaren testu bertsio bat lortu behar izan dugu eta orain bertsio hori Ixa Taldearen baliabideen artean jarri dugu edonork bertatik jaitsi ahal izateko moduan:
Euskarazko Wikipediaren esportazioa (2016ko apirilak 7ko bertsioa)
Oharrak:
- Lizentzia, noski, Wikipediak duen lizentzia bera da: CC BY-SA
- Bertsio labur bat ere eskaintzen dugu, esperimentu txikiak egiteko praktikoagoa izan daitekeena: http://ixa2.si.ehu.es/wikipedia_eu_txt/wiki_eu_labur.txt.bz2
- Formatu garbiketarako Perl script bat erabili dugu (wikipedia_to_raw_text.pl). Hori ere banatzen dugu, eskaripean.

