Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2010/07/01 18:43:34.421 GMT+2

Udako ikastaroa: Hizkuntzen kudeaketa mundu global batean

EHUko Udako Ikastaroen barruan LANGUNE elkarte berriak ikastaro bat antolatu du hizkuntzen teknologiak dakartzan aukerak zabaltzeko asmoz. Izenburua hau da:"Hizkuntzen kudeaketa mundu global batean".

Irailaren 1etik 3ra izango da, eta bigarren egunean Ixa taldeko Iñaki Alegriak ponentzia bat aurkeztuko du: “Nola lagun zaitzake teknologiak hizkuntzarekin borrokan diharduzunean?”
Hizkuntzen industriaren sektorean honoko agente hauek biltzen dira behinik behin: itzulpengintzaren esparru guztiak (testuen itzulpengintza, lokalizazioa, bikoizketa, interpretazioa, etab.), hizkuntzen irakaskuntza, edukien alorra (informazioaren kudeaketa, lexikografia eta terminologia, edukien industria, etab.) eta teknologia linguistikoa (itzulpen automatikoa, e-learning sistemak, idazteko tresnak, dokumentu eleanitzen prozesamendua, etab.)

Matrikula

EGITARAUA

Irailak 1
9:00etan Dokumentazio banaketa
9:15etan “La gestión del multilingüismo en la Unión Europea”
               JOSEP BONET. Europako Batzordea.  Luxenburgo.
10:30etan Etenaldia
10:45etan “Edizioaren mundua erronka teknologikoaren aurrean”
             ANDONI SAGARNA. Euskalgintza Elkarlanean Fundazioa. Donostia.
12:00etan Etenaldia
12:15etan “Nola lagun zaitzake teknologiak hizkuntzarekin borrokan diharduzunean?”
             IÑAKI ALEGRIA. Ixa taldea. Informatika Fakultatea. Donostia. UPV/EHU.
13:30etan Laburpen saioa / Bibliografiari buruzko saioa

Irailak 2
9:15etan “Nolako merkatua du hizkuntzaren industriak”
            JOSU WALIÑO. LANGUNE. Donostia.
10:30etan Etenaldia
10:45etan “Zertan lagun zaitzake teknologiak bikoizketa hobeak egiten?”
             NAIARA AZPEITIA. REC. Donostia.
12:00etan Etenaldia
12:15etan “Hizkuntzen irakaskuntza autoikaskuntza sistemen bidez. Non gauden eta norantz joan beharko genuke”
            ENTZI ZUBIRI. Didaktiker Fundazioa. Bilbo.
13:30etan Laburpen saioa / Bibliografiari buruzko saioa
16:30etan Mahai ingurua: “Itzulpengintza eta teknologia. Zertan aldatuko da itzultzailearen lana?”
           BEGO MONTORIO. EIZIE. Donostia.
           RITXI LIZARTZA. Mara-mara taldea. Donostia.
           GOTZON EGIA. Gipuzkoako Foru Aldundia. Donostia.
           ENEKO OREGI. IZO. Gasteiz.

Irailak 3
9:15etan “Hiztegigintza eta hizkuntzaren prozesamendua, bidelagun”
            ANTTON GURRUTXAGA. Elhuyar Fundazioa. Usurbil.
10:30etan Etenaldia
10:45etan “Informazio eleanitzaren ustiapena. Zertan ari dira auzokoak?”
             XABIER GARCIA DE KORTAZAR. Tekniker. Eibar.
12:00etan Etenaldia
12:15etan “Baliabide teknologikoak ikasgelan Ikastolen esperientziatik”
             JOSUNE GEREKA. Ikastolen Elkartea. Donostia.
13:30etan Laburpen saioa / Bibliografiari buruzko saioa

Nork: IXA taldea.2010/07/01 18:43:34.421 GMT+2
Etiketak: ikastaroak hizkuntza-teknologia | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/06/28 18:25:50.332 GMT+2

Laponiako samiera hizkuntza eta euskara lankidetzan aztertzen

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlaria, Ixa taldearekin lanean ari da udaberri honetan Donostian (apiriletik uztailera arte). Bere bisita NILS mugikortasun proiektuarekin finantzatzen da.

Baina... zergatik landu batera samiera eta euskara?
Zer ikertzen dugu elkarrekin?
Linda
Zergatik lan egiten dugu hain bitxia den hizkuntza-bikote horrekin?
Horra arrazoi batzuk:
  • Biak dira hizkuntza "txikiak",
  • Biek baliabide mugatuak dituzte hizkuntza-teknologiari ekiteko. (Samieraren egoera, baina, are mugatuagoa da gaur egun).
  • Samieraren eta euskararen morfologiak oso aberatsak direnez, biek ala biek tresna berezien beharra dute, hala nola transduktore morfologikoak eta analisi/desambiguaziorako moduluak. Hizkuntza teknologian hoberen kokatuta dauden hizkuntza gehienek (ingelesa, espainiera edo frantsesa, esate baterako) ez dute horrelako tresnarik behar beren oinarrizko azpiegitura sortu ahal izateko.
  • Hainbat kontu morfosintaktikotan bide paraleloak garatu dituzte bi hizkuntzok. Adibidez: postposizio eta funtzio sintaktikoak, baita beroriek sortzen dituzten anbiguotasun morfosintaktikoak ere.

Testuinguru horretan gaudela ildo hauetan ari gara ikertzen elkarrekin :
  • Ezaugarri semantikoen erabilera sintaxi-desanbiguaziorako Murriztapen Gramatiketan (Constraint Grammar).
  • Ezaugarri semantikoen erabilera itzulpen automatikoan transferentzia lexikalean eta transferentzia sintaktikoan.
  • Aditz-azpikategorizazioaren erabilera desanbiguazio sintaktikoan.
  • Aditz-azpikategorizazioaren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Oraindik gure analizatzaile sintaktikoak ez daude hizkuntza nagusienen mailan. Sami eta euskara elkarrekin landuz hizkuntza teknologiarako ditugun oraingo tresna morfosintaktikoak hobetu nahi ditugu. Gainera aditz-azpikategorizazioaren erabilera oso baliagarria izan daiteke itzulpen automatikoan edo galderak erantzuteko sistemetan.
Bestalde, Linda hasi da euskaraz berba egiten, poliki baina badoa. Guk ere laponierazko hitz batzuk ikasi ditugu. Hori ere lankidetzarako eta trukerako bidea baita. ;-)
Samiera Wikipediako "Samiera"

Linda_IXA

Nork: Ixa Taldea.2010/06/28 18:25:50.332 GMT+2
Etiketak: | Permalink | Erantzunak (1) | Erreferentziak: (0)

2010/06/18 17:22:13.349 GMT+2

Hizkuntzaren Azterketa eta Prozesamendua. Master ofiziala 2010-2011

2001. urtetik gabiltza hizkuntzalariak eta informatikariak formatzen hizkuntzaren teknologian lan egin eta iker dezaten. 60 profesional edota ikerlari trebatu ditugu orain arte.
Hizkuntzaren azterketa eta prozesamendua Master ofiziala berriro jartzen dugu martxan datorren ikasturterako.

Zer da Hizkuntza Teknologia? Begiratu,  begiratu Interneteko orri hauetan:

  • Anhitz zientzia-aditu birtuala.

  • Galdera-erantzunak hizkuntza librean: Galdetu "How far is Bilbao from London?"

  • Aholab: irakurketa automatikoa euskaraz

  • Nuance: Hizketaren tratamendu automatikoa.

  • news.google.com: Bildu eta sailkatu berriak automatikoki. Nola egiten dute berri-bilduma hori etengabe automatikoki eguneratuta mantentzeko?

  • Opentrad-Matxin eta Google Translate itzultzaile automatikoak. Euskara ere erabiltzen dute.

  • Laburpen automatikoa. Ikusi duzu Word testu-prozesadoreko "Autosummarize" tresna?

  • yourdictionary.com: 900 hiztegi kontsultagarri ingeleserako, 300 espainierarako, 9 euskararako

  • hiztegia.net: 50 hiztegi euskararako

  • ZT eta beste corpus batzuk: nola erabiltzen dira gaur egun euskarazko hitzak?

Baina... nola dabiltza aplikazio horiek?
Informatikaria edo ingeniaria bazara... Zein dira oinarrizko tresna informatikoak hor barruan? Nola integratu daitezke aplikazio hauek beste aplikaziotan edo webean?

Filologo edo hizkuntzalaria bazara... Zelan erabiltzen da ezagutza linguistikoa hor barruan? Lexikoa, gramatika, adierak? Zelan egiten dira automatikoki aplikazio horietan beharrezkoak diren analisi morfologikoa, sintaktikoa eta semantikoa?

Eusko Jaurlaritzak 2002. urtetik Infoingeniaritza linguistikoa aukeratu du bere ikerkuntza-lerro estrategikoren artean. Lerro honetan ikerketa eta garapena landuko duten ikertzaile berriak behar dira (informatikariak eta hizkuntzalariak). Arloko enpresek profesionalak behar dituzte.

Hizkuntza Teknologiaren mundu honetan sartu nahi duzu gure eskutik?
Jo guregana informazio zehatzago lortzeko: Hizkuntzaren azterketa eta prozesamendua

Nork: ixa.2010/06/18 17:22:13.349 GMT+2
Etiketak: | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/06/14 20:33:27.411 GMT+2

CLARIN proiektuaren bilera Euskal Herriko agenteekin

Ixa Taldeak CLARIN proiektuaren bilera bat antolatu du  n  ekainaren 8an Donostian.  CLARIN proiektuaren helburua hizkuntza-baliabide konputazionalak zabaltzea da giza zientzietako ikerketetan erabiliak izan daitezen.
CLARIN

 Bileraren helburuak bi izan dira: 
  • Alde batetik, CLARIN proiektuaren zehaztasunak proiektuko arduradunen eskutik zuzenean jasotzea Euskal Herrian.
    Horregatik izan dugu gure artean
    Steven Krauwer Utrecht-eko Institute of Linguistics zentroko ikertzailea eta CLARIN proiektuaren koordinatzailea. Eta horregatik izan dugu gure artean Pompeu Fabra Unibertsitateko Nuria Bel irakaslea, bera baita CLARIN proiektuko arduraduna estatu mailan.

  • Eta beste alde batetik, Euskal Herrian hizkuntzaren azterketa eta prozesamenduan aritzen garen taldeon lanak aurkeztea.

Bileran parte hartu dute Eusko Jaurlaritzako Hizkuntza Politikako zuzendaria den Lourdes Auzmendik, Begoña Muruaga zuzendariordeak, eta Araceli Díaz de Lezanak. Ikusle gisa  parte hartu dute  proiektuaren berri zehatzagoa izateko eta euskarak marko horretan egin dezakeen ekarpena neurtzeko.

Egitaraua hau izan da (egindako aurkezpen guztien fitxategiak hemendik eskuratu daitezke):

10:00etan, Steven Krauwer (CLARIN proiektua eta Utrecht Institute of Linguistic)

10:30etan, Nuria Bel (Pompeu Fabra Unibertsitatea). 

11:00etan, Atsedenaldia

11:30etatik -13:00etara Hemengo taldeen aurkezpenak (I)

  • Miriam Urkia. Euskaltzaindia
  • Miren Azkarate. Euskara institutua. UPV/EHU
  • Mikel Santesteban.  Gogo Elebiduna. UPV/EHU
  • Antton Gurrutxaga eta  Iñaki San Vicente.  Elhuyar I+G

13:00etan: Luncha

14:00etatik-15:00etara Hemengo taldeen aurkezpenak (2. saioa)

  • Igone Zabala. Euskal Filologia saila. UPV/EHU
  • Ibon Aizpurua. Eleka.
  • Jon Sánchez. Aholab. UPV/EHU.
  • Kepa Sarasola. IXA Group. UPV/EHU

15:00-15:30: Jardunaldiaren ondorioak. Arantza Diaz de Ilarraza

CLARIN meeting Donostia10

Argi geratu da egun euskararako ditugun baliabide eta tresnak baliagarriak direla CLARIN proiekturako, baita Europa mailan sortzen ari diren antzeko proiektuetarako ere. Horrela adierazi dute Stephen Krawer eta Nuria Bell  arduradunek.

Parte hartzaileek zuzenean ezagutu dituzte proiektuaren arduradunak eta horiekin itunak sinatu ahal izango dituzte hemendik aurrera.

Gure ustetan CLARIN proiektua interesgarria da, Europako hainbat estatuk bermatua da eta, etorkizunari begira, baliagarria euskararen baliabideak zabaltzeko eta homologatzeko..

Nork: Ixa Taldea..2010/06/14 20:33:27.411 GMT+2
Etiketak: clarin hizkuntza-baliabideak | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/06/08 07:31:18.519 GMT+2

Hitzaldia: Example Based Machine Translation (Andy Way)

HITZALDIA:  
"Example Based Machine Translation"
"Adibideetan oinarritutako Itzulpen Automatikoa"

HIZLARIA: Andy Way.
  
Dublin-eko DCU unibertsitateko irakaslea
  
EAMTko Batzorde Exekutiboko Presidentea
   (European Association for Machine Translation)


EGUNA: ekainak 11 (16:00-18:00)
LEKUA: Informatika Fakultateko 3.17 gelan
       (3. solairuan)

GARDENKIAK
- EBMT
- European Projects on MT
LABURPENA
- A brief introduction to EBMT,
- Issues for EBMT over the years,
and the extent to which they have since been addressed (possibly in other paradigms)
- Recent open-source EBMT releases.
Europako Batzordeak Itzulpen Automatikoari buruz egun finantzatzen dituen proiektuak

Nork: Ixa taldea.2010/06/08 07:31:18.519 GMT+2
Etiketak: automatikoa itzulpen | Permalink | Erantzunak (1) | Erreferentziak: (0)

2010/05/07 13:00:16.609 GMT+2

Hitzen adiera-desanbiguazioa biomedikuntzako testuetan

Mark Stevenson irakaslea da Sheffield Unibertsitatean, eta bertako  Natural Language Processing group ikertaldeko kidea.

Datorren astean Donostian izango da Ixa Taldea bisitatzen, eta ostiralean hitzaldi bat emango du, blog honetan berriki azaldu diren bi gai uztartuz:
Hitzaldia: Disambiguation of Biomedical Text
Non: Informatika Fakultateko 3.17 gelan (3. solairuan)
Eguna: 2010-maiatza-14
Ordua: 16:00
Laburpena:
Like text in other domains, biomedical documents contain a range of terms with more than one possible meaning. These ambiguities form a significant obstacle to the automatic processing of these texts. Previous approaches to resolving this problem have made use of a variety of knowledge sources including the context in which the ambiguous term is used and domain-specific resources (such as UMLS). We compare a range of knowledge sources which have been
previously used and introduce a novel one: MeSH terms. The best performance is obtained using linguistic features in combination with MeSH terms. Performance exceeds previously reported results on a standard test set.

Our approach is supervised and therefore relies on annotated training examples. A novel  approach to automatically acquiring additional training data, based on the relevance feedback technique from Information Retrieval, is  presented. Applying this method to generate additional training examples is shown to lead to a further increase in performance.

Nork: ixa.2010/05/07 13:00:16.609 GMT+2
Etiketak: hitzen testuak biomedikuntzako adiera-desanbiguazioa | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/04/28 13:03:49.338 GMT+2

Europeana v1.0 sarean sartzera gonbidatu dute IXA taldea

Europeana.eu  Europan zehar barreiatutako kultura-ondarean artelanak bilatzeko eta ikusteko  webgunea da.

Europeana version 1.0 bi urte t'erdiko proiektua da, Europeana.eu prototipoa martxan jarriko duena. Aurten bertan bertsio berri bat egingo du, funzionalitate berri batekin eta objektu digitalen kopurua 10 milioitara igoaz.
Europeana.eu  webgune berezia da. Europan zehar barreiatutako kultura-ondarean (22 museo nagusi, 23 liburutegi, artxiboak...) artelanak bilatzeko eta ikusteko  balio du. Inspirazioa eta ideia berriak lantzeko tokia da, heuren hitzen arabera. Europako Batzordeak eta estatuek finanzatzen dute, eta orain bertan 6 miloi eduki digital biltzen ditu.
  • Irudiak - koadroak, pinturak, mapak, museoetako edukien argazkiak
  • Testuak - liburuak, berri paperak, gutunak
  • Soinuak - musika eta ahotsa
  • Bideoak - pelikulak, telebistarako berriak, programak
Obra horietako batzuk oso ospetsuak dira, beste batzuk, ordea, Europako museo, liburutegi edo bildumetan "ezkutatuta" egon dira orain arte.  Europeana-ri esker guzti horiek ezagunagoak izango dira.

IXA taldea gonbidatu dute lan taldeetan parte hartzera, informazioaren atzipeneko teknologiaren inguruan aholkatzeko, beste 20 unibertsitaterekin batera.



Nork: ixa taldea. Eneko Agirre.2010/04/28 13:03:49.338 GMT+2
Etiketak: informazio-bilaketa kultura-ondarea europeana | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/04/23 17:31:10.930 GMT+2

Hitzen adiera-desanbiguazioa domeinu konkretuetan.

Hitzen adiera-desanbiguazioa (HAD), ataza moduan, hitz polisemiko bat testuinguru baten hartu eta hor erabili nahi izan den adiera zein den automatikoki zehaztea da.
Oier Lopez de Lacalle-ren tesi-lanaren helburua, ikasketa automatikoko hainbat metodo esku artean izanik, HADen ikerketan urrats bat egitea izan da: datu-sakabanaketa eta, batik bat, domeinuaren arazoei aurre egiteko proposamen bat plazaratu du.
Kaletik zoazela hor ikusten duzu “Abierto mañana y tarde / Goiz eta berandu irekita” dioen kartela,  edo egoitza baten sartzean “2. Planta” dioen horma-irudi baten alboan “2. Landarea” dioen bestea. Nork ez daki barnetegitik datozen lagun kuadrila baten txistea; tabernariari: “3 beltz eta 2 noski, mesedez”. Edota askoz frikiagoa den  (gaztelerara itzuli behar duzue) “if, if, between, between”. Adibide “serio” horietan erraz ikus daiteke zerk huts egiten duen: Hitzaren interpretazioa ez da zuzena. Beste modu teknikoago baten esanda, itzulpenean hitzaren adiera ez da zuzen aukeratu. Argi dago beraz, hitzaren adiera zuzen desanbiguatzea berez motibatuta dagoen zerbait dela. Semantikaren barruko ikerketa-ildo oso bat da.

Antzekoak eta beste motibazio batzuk hartuta, gai honetan burutu dut nire tesia. Tesiaren laburpenean sartu aurretik pare bat gauza esan nahiko nuke: Batetik, tesia osorik helbide honetan. Bestetik, Hitzaren Adiera-Desanbiguaziori (HAD) buruz  asko ikastea nahi baduzue jo liburu honetara: “Word Sense Disambiguation. Algorithms and Applications”, tesi zuzendari izan dudan Eneko Agirre eta Philips Edmonds-ek editatua.

Adimen artifizial osorako bidean giltzarri da, eta zehazkiago Hizkuntza Naturalaren Ulermenerako beharrezkoa den ataza bat da. Hizkuntza naturala lanabes duten hainbat aplikazioetan erabilgarria eta beharrezkoa dela defendatzen dute Hizkuntzaren Azterketa eta Prozesamenduaren barruan dauden ikertzaile askok. Erraz nabari baitaiteke Itzulpen Automatikorako  onurak zein izan daitezkeen (lexiko hautapena), ala Informazio-Erauzketan eragin ditzakeen aurrerapenak (ea hitz baten erabilera esanguratsua den ala ez).

Hala ere, hitzaren adiera automatikoki zehazteak zailtasun ugari dakar. Esanguratsuenen artean ikasketa automatiko gainbegiraturako datuen falta eta sakabanaketa edota domeinu aldaketek sortzen dituzten eraginkortasun-galera larriak aipa ditzakegu.

Datuen sakabanaketa eta domeinu-aldaketaren arazo horiek ardatz hartuta murgildu ginen ikerketan. Tesi-lan honen helburua ikasketa automatiko hainbat metodo esku artean izanik datu-sakabanaketa eta, batik bat, domeinuaren arazoei aurre egiteko proposamen bat plazaratzea izan da. Horretarako, ikasketarako ezaugarriak maneiatzen dituzten modu berriak proposatu ditugu informazioa irudikatzeko.
Aljebraren ikuspegitik Balio Singularretan Deskonposatzen duen teknikan oinarritu gara informazioa modu trinko baten maneiatzeko eta hitz-adieren eredu hobeak lortzeko.

Lortutako ezaugarri berriak hainbat domeinutan erabili ditugu (domeinu orokorra, kiroletako domeinua eta finantzei buruzkoa), eta domeinura egokitzeko bi aukera nagusi definitu: Modu gainbegiratua (ikasketa prozesuan domeinu orokorreko eta konkretuko adibideak ditugu) eta erdi-gainbegiratua (ikasketarako domeinu orokorrekoak izanik, domeinu konkretuko adibide ez-etiketatuak ditugunean). Esperimentuak aurrera eramateko ezagunak diren ikasketa automatikoko algoritmoak erabili ditugu (k-NN eta SVM metodoak, besteak beste).
Burututako esperimentuek ezaugarri hauen eraginkortasuna erakutsi digute domeinu berri baten aurrean gaudenean. Beste modu batera esanda, sistema trinko eta egokitu ahal direnak sortzeko gai izan gara. Lehenengo aldiz HAD barruan sistema bat egokitzea lortu da.

Horrez gain, tesiari beste buelta bat eman asmoz, ezagutza-baseetan oinarritutako metodoekin emaitza bikainak lortu ditugu, uste baino erabilgarriagoak direla erakutsiz: A priori baten sistema kaskarragoak izan arren, egoera batzuetan gainbegiratuak direnak  (e.g. SVM, k-NN) baino eraginkorragoak izan daitezke.

Jo hona Oierren artikulu zientifikoak jasotzeko.

Nork: ixa. Oier Lopez de Lacalle.2010/04/23 17:31:10.930 GMT+2
Etiketak: hitzen-adiera-desanbiguazioa word-sense-disambiguation | Permalink | Erantzunak (0) | Erreferentziak: (1)

2010/04/16 21:03:56.148 GMT+2

Euskarazko erroreen eta desbideratzeen analisirako lan-ingurunea

Horixe da Larraitz Uria-k aurkeztu berri duen tesiaren gaia. Zuzendariak Igone Zabala eta Montse Maritxalar izan dira. Larraitz ikertzailea dugu IXA taldean eta Baionako Unibertsitateko IKER taldean ere bai.

Euskarazko erroreak eta desbideratzeak aztertzen ditugu bi ikerketa‑alorretan ekarpenak egiteko: erroreen tratamendu automatikoaren alorrean, euskararako ortografia‑, gramatika- eta estilo-zuzentzailea edota aldaki dialektalen markatzailea bezalako tresnak garatzea dugu helburu; ordenagailuz lagundutako hizkuntzen i(ra)kaskuntzaren alorrean, berriz, hizkuntzaren i(ra)kaskuntza prozesua bideratzen laguntzeko baliabideak prestatzea da gure xedeetako bat.

Alor bi horietan, batean zein bestean, erabiltzaileen beharrei erantzuteko gai diren laguntza‑tresna eraginkorrak garatu ahal izateko, ezinbestekoa da euskaraz egiten diren erroreen eta desbideratzeen analisi sakona egitea, gure hizkuntza‑komunitateak bizi duen egoera soziolinguistikoa kontuan hartuta.

Testuinguru honetan, erroreak eta desbideratzeak bereizten ditugu. Erroretzat hartzen ditugu arau linguistikoak betetzen ez dituzten egiturak, edozein kasutan gaizki egongo direnak. Desbideratze esaten diegu, berriz, gramatikaren ikuspuntutik zuzenak izan arren, testuinguru edota egoera jakin batean egokiak ez diren egiturei: behin eta berriz errepikatzen diren hitzei/egiturei edota testuinguru komunikatibo jakin baterako desegokiak diren baliabideei (adibidez, baliabide dialektalak erabiltzea euskara batua erabili behar den testuinguruetan, edota alderantziz) (Karrajuan ohar bat egin duten ildo horren inguruan).

Tesi-lan honetan, euskarazko erroreen azterketa eta prozesamendua bideratzeko hainbat irizpide finkatu ditugu eta lan-ingurune oso bat eratu dugu erroreen eta desbideratzeen analisirako ezinbestekoak diren baliabideekin: corpusak (hizkuntza‑ikasleen edota hiztun arrunten testu-bildumak), adibide erroredunak corpusetan etiketatzeko EtikErro deritzon editorea, erroreen eta desbideratzeen sailkapen bat eta etiketatutako adibideak gordetzeko bi datu-base: erroreak eta ikasleak. Erroreak datu‑basean erroreen eta desbideratzeen adibideak biltegiratzen ditugu, adibide bakoitza automatikoki tratatzeko beharrezkoa den informazio linguistikoarekin eta teknikoarekin batera; Ikasleak datu‑basean, berriz, hizkuntza‑ikasleek egindako erroreen eta desbideratzeen adibideak gordetzen ditugu, adibideei dagokien informazio linguistikoarekin eta psikolinguistikoarekin batera. Informazio hori guztia da helburu ditugun tresna informatikoak garatzeko oinarria.

Errore mota guztien analisia aldi berean egitea ezinezkoa zaigunez, tesi‑lan honetan determinatzaile-erroreak izan ditugu aztergai eta determinatzaile-errore batzuk automatikoki detektatzeko erregelak egin ditugu. Erregela horiek euskararako garatzen ari garen XUXENg gramatika‑zuzentzailean integratuko dira.

Zuzenketaren ildoan sortu zen hasieran Xuxen eta azkenaldian XuxenIV  barruan banatzen den Ortografia-, gramatika- eta estilo-zuzentzailea.

     Zorionak Larraitz!

Jaso hemendik tesiaren txosten osoa.
Jo hona Larraitzen artikulu zientifikoak jasotzeko.

Beste zenbait esteka: erabili.com, eurekalert, karrajua, bizkaie, basqueresearch, redorbit, uztaro.

Nork: Ixa Taldea. Larraitz Uria.2010/04/16 21:03:56.148 GMT+2
Etiketak: errore sintaktikoak | Permalink | Erantzunak (0) | Erreferentziak: (0)

2010/03/31 10:35:33.758 GMT+2

XML teknologiaren erabilera hiztegigintzan: Diccionario Básico Escolar

Santiago de Cubako Centro de Lingüística Aplicada-k (CLA) eta IXA taldeak lankidetzan egindako Diccionario Básico Escolar (DBE) delakoaren hirugarren edizioa izan da libururik salduenetakoa Habanako Feria Internacional del Libro-n, aurten.
DBE30 paperean
IXA taldean CLAkoekin lankidetzan ari gara duela ia hamar urte, eta DBEren garapenean egin dugu lan beraiekin, besteak beste. Hiztegia garai bateko RTF formatutik XMLratu egin zen lehenbizi, inprimatzeko helburua soilik zuen hiztegi batetik abiatu eta benetako datu-base lexikografiko bat eratuz. Horrela sortu ziren hiztegiaren lehen edizioa CDan (Kubako eskoletan doan banatu zena) zein on-line, bigarren edizioa (paperean, CDan zein on-line) eta aurtengo ferian arrakasta handikoa suertatu den hirugarren edizio hau (paperean, 50.000 aleko tirada izan duena, eta on-line ere jarri dena). Hiztegian 10.557 sarrera daude, 19.374 adiera eta 811 irudi.

DBE30 on-line
Esan bezala, hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko leXkit izeneko ingurunea erabiltzen da hiztegiaren edizioa eta mantentzea egiteko. leXkit ere IXA taldean garatua da, Berkeley DB XML datu-base natiboa erabiltzen du informazioa gordetzeko, eta era askotako hiztegiak editatzeko erabil daiteke. On-line bertsioa nahiz inprimatzeko behar den PDFa zuzenean sortzen dira XMLtik, XSLT (XSL-FO) teknologia erabiliz.

Hemen kontsulta daiteke DBEren hirugarren bertsioa.

Nork: Xabier Artola eta Kepa Sarasola. Ixa Taldea..2010/03/31 10:35:33.758 GMT+2
Etiketak: xml hizkuntza-teknologia xslt lexkit dbe xml_datu-base_natiboak xsl-fo lexikografia_konputazionala | Permalink | Erantzunak (0) | Erreferentziak: (0)

bisitari