Mintegia: Kitxuaren prozesamendurako lehen hurbilketa (2012/11/15)

Bada ia urtebete Ixa Taldea ea Cuscoko UNSAAC unibertsitateko Juan Cruz ikertzailearen artean kitxuaren prozesamenduari ekiteko lanean hasi ginela.  Euskara eta kitxua  biak baliabide gutxiko hizkuntzak direnez eta morfologia antzekoa dutenez, euskara normalizatzeko eta bere erabilera errazteko azken 20 urtetan hemen egin ditugun tresnak eta aplikazioak baliagarri izan daitezke kitxuaren kasuan ere. Madrileko “Ministerio de Asuntos exteriores y Cooperación”-en proiektu bat izan dugu 2012 urtean: Lehen urratsak Quechua-ren prozesaketa automatikoan. Corpus, morfologia eta lexikoa. Proiektu horren barruan Kepa, Xabier eta Olatz Cuscon egon gara urtean zehar, eta irailetik hona bisitan dauzkagu Hugo Quispe  eta Richard Castro. Hugo datu base lexikal bat garatzen ari da kitxuarako, eta Richard hizketa sortzeko beste sistema bat eraiki du Bilboko Aholab laborategian. Richard-ek datorren astean Iberspeech2012 kongresuan demo bat aurkeztuko du hizketa sortzeko eginda zeukaten beren lehen sistemarekin. Osteguneko mintegi-saioan proiektu honen barruan egin dena azalduko dugu.

Richard eta Hugo Aholab laborategian

Gaia: Kitxuaren prozesamendurako lehen hurbilketa
(Primera aproximación al procesamiento automático del Quechua)
Hizlaria: Hugo Quispe, Richard Castro (UNSAAC unibertsitatea),
Olatz Arregi,  Xabier Artola eta  Kepa Sarasola (Ixa Taldea)
Eguna: azaroaren 15ean, osteguna
Ordua: 16:00-17:00
Tokia:  3.2 aretoa. Informatika Fakultatea


Laburpena:
El Quechua o “Runasimipi” como lengua oriunda de la cultura Inca en el Perú, es una familia de lenguas en Latinoamérica. La situación actual de la lengua, por factores como la occidentalización entre otros, ha hecho que el quechua sea una lengua vulnerable, en vías de extinción.

Un grupo de profesores e investigadores del grupo IXA de la UPV/EHU, en conjunto con la UNSAAC en Cusco, Perú, estamos realizando un trabajo para sentar las bases de lo que pretende ser el centro de ingeniería lingüística de Cusco. Se trata de desarrollar los primeros recursos básicos y herramientas para al procesamiento automático del quechua. Los temas en los que estamos trabajando son: recopilación de un corpus textual, una base de datos léxica para la lengua quechua (BDLQ) y futuras herramientas derivadas de la misma, uso de la herramienta FOMA en el análisis morfológico y creación de un TTS como herramientas básicas para el tratamiento de la lengua.

De esta manera, se ha consolidado las bases de apoyo y trabajo en equipo entre las dos universidades, en bien de una lengua en situación crítica.

Cuscoko taldea 2012ko urtarrilean

Xuxen, Kimmo Koskeniemmi eta FSMLNP2012

XUXEN zuzentzaile ortografikoak laguntza paregabea eskaintzen dio erabiltzaileari testuaren kalitatea hobetzeko eta euskara batuaren forma estandarrekin ohitzen joateko apurka-apurka. Horrela, esan dezakegu euskararen estandarizazio-prozesuaren aliatu indartsua dela XUXEN programa.

 

Programaren erabilera guztiz hedatuta dago gaur egun, erabiltzaile kopuruaren aldetik eta aplikazio informatikoen aldetik:

1) Dohainik jaitsi daiteke www.euskara.euskadi.net webgunetik,
2) 1998z geroztik Microsoft Officeko banaketa ofizial guztiek barruan daukate.
3) www.euskara.euskadi.net webgunetik egin diren deskargak 20.000 baino gehiago izan dira.
4) OpenOffice-rako deskargak 7.000 baino gehiago izan ziren 2010. urtean.
5) Firefoxerako deskargak 134.000 baino gehiago izan dira 2007tik.
6) Eta posible da beste edozein aplikaziorekin ere erabiltzea www.xuxen.com zerbitzarira jotzen badugu.

Koskeniemmi Donostian 1990ean (Euskaldunon Egunkaria)

Baina espainiera, frantsesa edo ingeleserako zuzentzaileak baino dezente konplexuagoa da XUXEN, hitz posibleak askoz gehiago direlako, eta ondorioz, hitzen analisi morfologikoa egin behar delako. 1989an horretarako balio zuen programa propio eta konplexu bat  sortu behar izan genuen. Baina hori ez zatekeen posible izan sei urte lehenago Kimmo Koskeniemmi irakasle finlandiarrak Two Level Morphology metodologia asmatu izan ez balu. Finlandieraren morfologia lantzeko asmatu zuen Koskeniemmik metodo hori, baina laster frogatu zen euskararako, ingeleserako eta beste hainbat hizkuntzatarako ere balio zuela. Geroago, urteak pasata birritan birprogramatu behar izan dugu gure zuzentzailea Karttunen, Beesley (www.fsmbook.com) eta Mans Hulden (code.google.com/p/foma) ikertzaileek asmatutako teknika berriak aplikatzeko.

Kimmo Koskeniemmi Donostiara ekarri genuen hitzaldi bat ematera 1991ean, eta berriro etorriko da datorren astean antolatu dugun nazioarteko biltzar batera: 10th edition of the International Workshop on Finite State Methods and Natural Language Processing 2012 – FSMNLP 2012.

Hori aprobetxatuz, eta jakinda irailean jubilatuko dela, pertsonalki eskertuko ahal izango diogu omenalditxo batekin morfologia konputazionalean egin zuen ekarpena, hain zuzen, euskararen prozesamendu automatikorako hain garrantzitsua izan zaiguna. ESKERRIK ASKO KIMMO!

Santiago de Cubako Centro de Lingüística Aplicada-k 40 urte

Iñaki Alegria izan da Ixa taldearen ordezkaria Santiago de Cubako Centro de Lingüística Aplicada-k (CLA) aurten antolatu duen XII Simposium-ean. 10 orduko ikastaro bat eman du
Iñakik morfologiako tresnak erraz inplementatzeko oso baliagarria den Foma tresnaz

Oraintxe bete berri ditu Centro de Lingüística Aplicada horrek 40 urte. Zorionak!

CLA ikergunearen 40. urteurrena izan dela-eta argazkiko eskultura bidali digute IXA taldekoei opari moduan, gure lankidetza ospatzeko edo.

Eskerrik asko. Eta zorionak Eloinari, Julio Viteliori, Leonel-i eta ikergune hori sortu eta animatzen duten ikerlari horiei guztiei!

IXA taldea lankidetzan aritu izan da azken 10 urteetan CLA ikergunearekin.

Hortik atera da, adibidez, lehengo urtean argitaratu zen Cubako Diccionario Básico Escolar (DBE) hiztegiaren hirugarren edizioa. Hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabili zen.

Berri hau ingelesez / English version of this new

Ikastaroa: Automaten inplementazio azkarra eta librea (Mans Hulden)

Helsinkiko Unibertsitatetik datorren Mans Hulden ikerlari finlandiarra gurekin egongo da maiatza bitartean. Mans-ek automatekin eta transduktoreekin lan egiten duen Foma tresna garatu du. Foma konpiladore, programazio-lengoaia eta C liburutegi batekin osatuta dago. Formatu berezi batean erregela multzo bat idatziz gero, erregela horiek egoera finituetako transduktore eta autometara itzultzen ditu. Oso-oso inplementazio eraginkorrak lortzen ditu eta software librea da.

Xuxen zuzentzailea Foma tresnarekin lantzen ari gara. Gaur egun Xuxenen erregelak eta lexikoak XFST programarekin inplementatuta daude, baina XFST ez da software librea. Xuxen zuzentzailea Fomarekin birdefinituko bagenu, banaketa libreko programetan ere bere osotasunean integratu genezake. Hortik doa gure motibazioa Foma aztertzeko. Baina egoera finitutako beste edozein aplikazio mota guztietarako ere  interesgarria da.

Mans-ek urtarrilean Fomari buruzko ikastaro bat emango du eta, noski, gonbidatuta zaude bertara joateko:

Egunak: urtarrilaren 11, 12, eta 13a
Ordutegia: 9:30-12:30
Lekua: Informatika Fakultatea

Bitartean, pasa den maiatzean LREC2010 kongresurako Mans-ek eta Iñaki Alegriak prestatu zuten tutorialaren materiala ikus dezakezu.

Morfologia eta sintaxiko ariketak Internet bidez

Interneten hitzen analisi morfologiko eta esaldien analisi sintaktikoa automatikoki egiteko aukerak badira: Morfeus eta Freeling adibidez. Institutuko ikasleentzat sintaxia eta morfologia ordenagailuarekin lantzea erakargarria izan daiteke. Agian ikasle batzuek dagoeneko erabiltzen dute bide hau etxeko lanak egiteko, irakasleek jakin gabe. Azaroaren 5ean UEUko ikastaro batean aukera horietako batzuk aurkeztuko ditugu. Ea bide batez parte-hartzaile guztion artean oinarrizko ariketa bilduma eztabaidatu eta sortzen dugun.

Hona hemen adibide batzuk:

Ancorako corpusetan esaldi hau analizatu: Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ancora-EPEC-EU

Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin: Amagoiaren lagunak Galizian egiten du lan.
Morfeus

Freeling analizatzailean: Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)
Freeling

Ikastaroaren eguna
AZAROAREN 5a.

Ordutegia: 9:30/13:30 – 15:00/19:00

Irakasleak:
Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea.
Kepa Sarasola, doktorea Informatikan eta UEUko kidea.

Informazio gehiago eta izena emateko aukera: www.ueu.org