Xuxen, Kimmo Koskeniemmi eta FSMLNP2012

XUXEN zuzentzaile ortografikoak laguntza paregabea eskaintzen dio erabiltzaileari testuaren kalitatea hobetzeko eta euskara batuaren forma estandarrekin ohitzen joateko apurka-apurka. Horrela, esan dezakegu euskararen estandarizazio-prozesuaren aliatu indartsua dela XUXEN programa.

 

Programaren erabilera guztiz hedatuta dago gaur egun, erabiltzaile kopuruaren aldetik eta aplikazio informatikoen aldetik:

1) Dohainik jaitsi daiteke www.euskara.euskadi.net webgunetik,
2) 1998z geroztik Microsoft Officeko banaketa ofizial guztiek barruan daukate.
3) www.euskara.euskadi.net webgunetik egin diren deskargak 20.000 baino gehiago izan dira.
4) OpenOffice-rako deskargak 7.000 baino gehiago izan ziren 2010. urtean.
5) Firefoxerako deskargak 134.000 baino gehiago izan dira 2007tik.
6) Eta posible da beste edozein aplikaziorekin ere erabiltzea www.xuxen.com zerbitzarira jotzen badugu.

Koskeniemmi Donostian 1990ean (Euskaldunon Egunkaria)

Baina espainiera, frantsesa edo ingeleserako zuzentzaileak baino dezente konplexuagoa da XUXEN, hitz posibleak askoz gehiago direlako, eta ondorioz, hitzen analisi morfologikoa egin behar delako. 1989an horretarako balio zuen programa propio eta konplexu bat  sortu behar izan genuen. Baina hori ez zatekeen posible izan sei urte lehenago Kimmo Koskeniemmi irakasle finlandiarrak Two Level Morphology metodologia asmatu izan ez balu. Finlandieraren morfologia lantzeko asmatu zuen Koskeniemmik metodo hori, baina laster frogatu zen euskararako, ingeleserako eta beste hainbat hizkuntzatarako ere balio zuela. Geroago, urteak pasata birritan birprogramatu behar izan dugu gure zuzentzailea Karttunen, Beesley (www.fsmbook.com) eta Mans Hulden (code.google.com/p/foma) ikertzaileek asmatutako teknika berriak aplikatzeko.

Kimmo Koskeniemmi Donostiara ekarri genuen hitzaldi bat ematera 1991ean, eta berriro etorriko da datorren astean antolatu dugun nazioarteko biltzar batera: 10th edition of the International Workshop on Finite State Methods and Natural Language Processing 2012 – FSMNLP 2012.

Hori aprobetxatuz, eta jakinda irailean jubilatuko dela, pertsonalki eskertuko ahal izango diogu omenalditxo batekin morfologia konputazionalean egin zuen ekarpena, hain zuzen, euskararen prozesamendu automatikorako hain garrantzitsua izan zaiguna. ESKERRIK ASKO KIMMO!

Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez.


Zuzentzaile ortografiko automatikoa tresna lagungarria da zalantzarik gabe. Halako tresna batek aztergai duen aztertzeko unitatea hitz soltea izaten da. Testuen zuzenketa automatiko sakonagoa egin ahal izateko sintaxia ere kontuan hartu behar izaten da, eta halakoetan, esaldi luze-luzeak izan ohi direnez, esaldi horien sintaxia lantzeko esaldia “zati” txikiagoetan banatzea izan ohi da lehen pausoa: sintagmak eta perpausak identifikatzea, alegia.Bertol Arrieta Kortajarena Ixakideak bere tesian Ikasketa Automatikoko teknikak aztertu eta erabiltzea izan du helburu, euskararen sintaxian eta zuzenketa automatikoan bi urrats aurrera egiteko.

Hau da tesiaren izenburu osoa:
Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez: euskarako  kateen eta perpausen identifikazioa eta bere erabilera koma-zuzentzaile batean.

Hala, euskarako kate- eta perpaus-identifikatzaile automatikoak sortu dira, ikasketa automatikoko teknikak hizkuntzaren ezagutzan oinarritutakoekin uztartuz. Modu honetan, testu bat emanda, makina gai da testu horretako sintagmak, perpausak eta esaldiak modu automatikoan identifikatzeko. Tresna hauek oso baliagarriak dira analisi sintaktiko automatiko osoa edo sakona bideratzeko, eta baita Hizkuntzaren Prozesamenduko hainbat arloetan aurrerapausoak egiteko ere: hala nola, informazioaren erauzketa, laburpenen sorkuntza, itzulpen automatikoa

Horretaz gain, puntuazioaren erabilera jorratu da hizkuntzalaritza konputazionalaren ikuspegitik. Makinak hizkuntzaren ulermen osoa lor dezan, komak duen garrantzia aztertu da, batez ere. Hala, euskarako koma-zuzentzaile automatiko bat garatu da ikasketa automatikoko teknikak baliatuz. Horretarako, aurrez sortutako kate- eta perpaus-identifikatzaileek ematen duten informazioa erabili da. Koma-zuzentzaile hau XUXENg euskarako estilo- eta gramatika-zuzentzailean txertatu nahi da. Gainera, baliagarria izango da euskarako analizatzaile eta desanbiguatzaile sintaktikoak hobetzeko, eta baita ahotsaren ezagutza sistemetan integratzeko ere.

Tesi osoa eta aurkezpena Ixa taldeko argitalpenen orritik jaso daitezke. Pasa den uztailaren 27an aurkeztu izan da, eta zuzendariak Iñaki Alegria eta Arantza Diaz de Ilarraza izan dira.