Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea

Horixe da Larraitz Uria-k aurkeztu berri duen tesiaren gaia. Zuzendariak Igone Zabala eta Montse Maritxalar izan dira. Larraitz ikertzailea dugu IXA taldean eta Baionako Unibertsitateko IKER taldean ere bai.

Euskarazko erroreak eta desbideratzeak aztertzen ditugu bi ikerketa‑alorretan ekarpenak egiteko: erroreen tratamendu automatikoaren alorrean, euskararako ortografia‑, gramatika- eta estilo-zuzentzailea edota aldaki dialektalen markatzailea bezalako tresnak garatzea dugu helburu; ordenagailuz lagundutako hizkuntzen i(ra)kaskuntzaren alorrean, berriz, hizkuntzaren i(ra)kaskuntza prozesua bideratzen laguntzeko baliabideak prestatzea da gure xedeetako bat.

Alor bi horietan, batean zein bestean, erabiltzaileen beharrei erantzuteko gai diren laguntza‑tresna eraginkorrak garatu ahal izateko, ezinbestekoa da euskaraz egiten diren erroreen eta desbideratzeen analisi sakona egitea, gure hizkuntza‑komunitateak bizi duen egoera soziolinguistikoa kontuan hartuta.

Testuinguru honetan, erroreak eta desbideratzeak bereizten ditugu. Erroretzat hartzen ditugu arau linguistikoak betetzen ez dituzten egiturak, edozein kasutan gaizki egongo direnak. Desbideratze esaten diegu, berriz, gramatikaren ikuspuntutik zuzenak izan arren, testuinguru edota egoera jakin batean egokiak ez diren egiturei: behin eta berriz errepikatzen diren hitzei/egiturei edota testuinguru komunikatibo jakin baterako desegokiak diren baliabideei (adibidez, baliabide dialektalak erabiltzea euskara batua erabili behar den testuinguruetan, edota alderantziz) (Karrajuan ohar bat egin duten ildo horren inguruan).

Tesi-lan honetan, euskarazko erroreen azterketa eta prozesamendua bideratzeko hainbat irizpide finkatu ditugu eta lan-ingurune oso bat eratu dugu erroreen eta desbideratzeen analisirako ezinbestekoak diren baliabideekin: corpusak (hizkuntza‑ikasleen edota hiztun arrunten testu-bildumak), adibide erroredunak corpusetan etiketatzeko EtikErro deritzon editorea, erroreen eta desbideratzeen sailkapen bat eta etiketatutako adibideak gordetzeko bi datu-base: erroreak eta ikasleak. Erroreak datu‑basean erroreen eta desbideratzeen adibideak biltegiratzen ditugu, adibide bakoitza automatikoki tratatzeko beharrezkoa den informazio linguistikoarekin eta teknikoarekin batera; Ikasleak datu‑basean, berriz, hizkuntza‑ikasleek egindako erroreen eta desbideratzeen adibideak gordetzen ditugu, adibideei dagokien informazio linguistikoarekin eta psikolinguistikoarekin batera. Informazio hori guztia da helburu ditugun tresna informatikoak garatzeko oinarria.

Errore mota guztien analisia aldi berean egitea ezinezkoa zaigunez, tesi‑lan honetan determinatzaile-erroreak izan ditugu aztergai eta determinatzaile-errore batzuk automatikoki detektatzeko erregelak egin ditugu. Erregela horiek euskararako garatzen ari garen XUXENg gramatika‑zuzentzailean integratuko dira.

Zuzenketaren ildoan sortu zen hasieran Xuxen eta azkenaldian XuxenIV  barruan banatzen den Ortografia-, gramatika- eta estilo-zuzentzailea.

Zorionak Larraitz!

Jaso hemendik tesiaren txosten osoa.
Jo hona Larraitzen artikulu zientifikoak jasotzeko.

Beste zenbait esteka: erabili.com, eurekalert, karrajua, bizkaie, basqueresearch, redorbit, uztaro.

Saroi: Errore sintaktikoak detektatzeko sistema

Maite Oronoz Antxardoki doktorea da lehengo urtarriletik.
Bere doktore-tesian hainbat errore sintaktiko detektatzeko sistemak garatu ditu. Horien artean komunztadura-erroreak detektatzeko Saroi sistema.
Saroi tresna orokorra da, erroreen tratamendua egiteko ez ezik, analisi-zuhaitzetako egituren gaineko kontsultak egiteko eta zuhaitz horietan egitura linguistikoak bilatzeko balio duena.

Ikus dezakezu berria Sustatu-n, Basque Research-en, Erabili-n, EITB-n, Herri Irratia-n, Gaur8-n edo EHU-n.
Entzun dezakezu ere Euskadi Irratiko Norteko Ferrokarrila-n egin diote 20 minutuko elkarrizketa atsegina.

Hitzaldia: Analizatzaile automatikoa espainiera eta ingelesezko testuetarako

Kataluniako Unibertsitate Politeknikoko (UPC) Luis Padró irakasleak espainiera eta ingelesezko esaldiak automatikoki analizatzen dituen Freeling aplikazioari hitz egingo du.
Gogora ezazu Freeling  software librea dela eta Ixa taldeak sortu duen Matxin itzultzaile automatikoak Freeling erabiltzen duela.

Lluis Padró Freeling aplikazioaren arduraduna da, bere ikertzaile nagusia.

Non: Informatika Fakultateko Batzarretako Gelan  (3. solairuan)
Eguna: 2009-ekaina-5
Ordua:  11:30

Laburpena:

FreeLing es una libreria de código libre para el procesado lingüístico de textos. Sus funcionalidades abarcan desde el análisis morfológico hasta el análisis de dependencias, incluyendo numerosos módulos de procesamiento (detección y clasificación de nombres propios, fechas, números, cantidades, locuciones, etc) necesarios en cualquier aplicación que procese textos de dominio no restringido, como por ejemplo la web.
En este seminario se presentará la estructura interna de FreeLing, sus principales componentes, y la estructura de datos que manipulan.  El objetivo es facilitar la comprensión del sistema a quien necesite usarlo, ya sea como analizador independiente, ya sea como libreria de análisis integrada en una aplicación de PLN.

Morfologia eta sintaxiko ariketak Internet bidez

Interneten hitzen analisi morfologiko eta esaldien analisi sintaktikoa automatikoki egiteko aukerak badira: Morfeus eta Freeling adibidez. Institutuko ikasleentzat sintaxia eta morfologia ordenagailuarekin lantzea erakargarria izan daiteke. Agian ikasle batzuek dagoeneko erabiltzen dute bide hau etxeko lanak egiteko, irakasleek jakin gabe. Azaroaren 5ean UEUko ikastaro batean aukera horietako batzuk aurkeztuko ditugu. Ea bide batez parte-hartzaile guztion artean oinarrizko ariketa bilduma eztabaidatu eta sortzen dugun.

Hona hemen adibide batzuk:

Ancorako corpusetan esaldi hau analizatu: Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ancora-EPEC-EU

Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin: Amagoiaren lagunak Galizian egiten du lan.
Morfeus

Freeling analizatzailean: Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)
Freeling

Ikastaroaren eguna
AZAROAREN 5a.

Ordutegia: 9:30/13:30 – 15:00/19:00

Irakasleak:
Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea.
Kepa Sarasola, doktorea Informatikan eta UEUko kidea.

Informazio gehiago eta izena emateko aukera: www.ueu.org

Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?

Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko, eta ondoko lista prestatu dugu. Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzekogauza den) eta erantzun-denbora ere kontuan hartu beharko dira.

Guztiz libreak:

* MaltparserGuztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke, noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.

* Stanford ParserEmaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik, baina azken hilebetetan hobekuntza nabarmena jaso du. Guztiz librea (GNU GPL).

* NLTK Natural Language ToolKitHizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da. Python lengoaia erabili da programatzeko.

Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:

* RASPEgungo erronka  handiena da ezagutza linguistikoa eta estatistikoakonbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuzJohn Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

* Bikel Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins eta Charniak.Bikel-ek egin zuen berrinplementazioa java lengoaiaz, eta orain Bikelen parser hori erabiltzen da.

Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:

* Connexor Ezagutza linguistikoan oinarritutakoa.* XeroxEzagutza linguistikoan oinarritutakoa.