XML teknologiaren erabilera hiztegigintzan: Diccionario Básico Escolar

 

Santiago de Cubako Centro de Lingüística Aplicada-k (CLA) eta IXA taldeak lankidetzan egindako Diccionario Básico Escolar (DBE) delakoaren hirugarren edizioa izan da libururik salduenetakoa Habanako Feria Internacional del Libro-n, aurten.
DBE30 paperean

IXA taldean CLAkoekin lankidetzan ari gara duela ia hamar urte, eta DBEren garapenean egin dugu lan beraiekin, besteak beste. Hiztegia garai bateko RTF formatutik XMLratu egin zen lehenbizi, inprimatzeko helburua soilik zuen hiztegi batetik abiatu eta benetako datu-base lexikografiko bat eratuz. Horrela sortu ziren hiztegiaren lehen edizioa CDan (Kubako eskoletan doan banatu zena) zein on-line, bigarren edizioa (paperean, CDan zein on-line) eta aurtengo ferian arrakasta handikoa suertatu den hirugarren edizio hau (paperean, 50.000 aleko tirada izan duena, eta on-line ere jarri dena). Hiztegian 10.557 sarrera daude, 19.374 adiera eta 811 irudi.

DBE30 on-line

Esan bezala, hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko leXkit izeneko ingurunea erabiltzen da hiztegiaren edizioa eta mantentzea egiteko. leXkit ere IXA taldean garatua da, Berkeley DB XML datu-base natiboa erabiltzen du informazioa gordetzeko, eta era askotako hiztegiak editatzeko erabil daiteke. On-line bertsioa nahiz inprimatzeko behar den PDFa zuzenean sortzen dira XMLtik, XSLT (XSL-FO) teknologia erabiliz.

Hemen kontsulta daiteke DBEren hirugarren bertsioa.

Eneko Ixakidea Googlek gonbidatuta Zurich-en bisitan

Eneko IXA taldeko Eneko Agirre Google-en Zurich-eko ikerketa zentroan izan da, Google-ek ikerkuntza jardunaldi batzuetara gonbidatuta. Eneko lehenago ere egon da Google-en, baina kasu hartan Californiako Mountain View-n duten gune nagusian izan zen, hitzaldi gonbidatu bat ematen. Izan ere Google-eko ikerlari batzuekin elkarlanean aritu izan da.

Google Zurich
Europa, Ekialde Hurbil eta Afrikako 60 ikerlari inbitatu ditu Google-ek otsaileko mintegi honetan parte hartzeko. Google-ek unibertsitateetan egiten den ikerkuntzaren berri izan nahi du, eta unibertsitateetako ikerlariei kontatu nahi die zeintzuk diren bere ikerkuntza helburuak. Hemen dago 2009ko bilerako laburpen bat.

Eneko nahiko harrituta gelditu da Google-en unibertsitateekiko hurbilpenarekin. Nahiko modu irekian kontatu dute zeintzuk diren bere ikerketa gaiak, eta zeintzuk diren arazo irekiak.  Beren interesa hizkuntza-teknologiako hainbat alorretan kokatzen da: itzulpen automatikoan, hizketaren tratamendua eta informazio erauzketa.  Gainera Google-ek ikasle eta ikerlariei diru-laguntzak ematen die, baita ikasleak eta ikerlarientzat egonaldiak antolatu ere.

Google-ek bere lana proiektuetan oinarritzen du, unibertsitateko ikerlarien antzera. Proiektu horiek goitik edo behetik sortu daitezke, eta dena ondo badoa bilatzailean bertan probatzen dute, bilatzailearen bezero kopuru txiki bat proiektu horretako software berrira bideratuz. Horrela zuzenean neurtu dezakete proiektu berriak bilaketak hobetu dituen ala ez, erabiltzaileen portaera erreala aztertuz. Google-eko ingeniariak doktore, master eta graduatuen artean banatzen dira, herenetan banatuta. 10.000 izanda, atera kontuak zenbat ikerlari dauden!

Gai horietaz aparte, badago zer kontatu Google bisitatu ondoren. Mountain View-n duten gune nagusian Ikerlariek behar duten guztia dute bulegotik ez daitezen atera:  ile  apaindegia, gimmasioa,  erlajatzeko txokoak, kafe-makinak (benetako espresoa!), eta edozein langilek 60 metro baino gertuago ditu edari eta pikatzeko janaria doan. Izan ere hainbat jatetxe dituzte, tartean bat euskal erakoa (amerikar-euskal erakoa esan beharko 🙂 Google-eko gune horri campusa deitzen diote, eta egia esan jende gaztez gainezka egona, bai badirudiela unibertsitate bateko campusa. Sustatu-n ere inoiz aipatu dira horrelakoak.  Zurich-eko edifizioa kanpotik grisagoa eta txikiago da, 600 langile besterik ez. Barruan ordea friki batek diseinatutako haurtzaindegi baten antza du: pisu bakoitza gai baten inguruan dago eginda, klasikoa (dvd-bat duen beko sua barne!),  tropikala (landaraz betetako erlaxazio gela), ura (ixilean dagoen gela, hormetan arrainez inguratua), etab. Hemen irudiak.

Informatikako ikasleren batek Google-en egonaldi bat egin nahiko balu, jarri dadila  Enekorekin kontaktuan.

Hizkuntza-teknologiaren erabilera medikuntzan.

Sidneyko Unibertsitateko Jon Patrick irakasleak hizkuntza teknologiak osasun arloan nola aplikatzen dituen azalduko digu hitzaldi batean datorren ostiralean. Medikuntzan, batez ere, informazio-bilaketan eta galderei erantzuteko sistema automatikoetan aritzen da.
Jon Patrick

Jon Patrick irakasleak, besteak beste, informatikako bi alor hauek uztartzen ditu:
Datu-baseak, eta hizkuntzaren tratamendu automatikoa.

Baina informatikatik kanpo ere aritzen da: Azkue hiztegian euskarazko hitzen erroak ikertu zituen orain dela urte batzuk. Euskaraz ere moldatzen da Jon.
Non: Informatika Fakultateko 3.17 gelan (3. solairuan)
Eguna: 2010-otsaila-12
Ordua: 16:00

Laburpena:

NLP systems for use in medical applications bring new problems notconsidered by classical methods. Broadly speaking medical texts have three genres: published papers, clinical reports, clinical notes.
Information Extraction (IE) and Questions Answering (AQ) are the most common needs for NLP by clinical staf. Published papers are amenable to classical methods apart from needing coverage for many specialised terms. Clinical reports bring new problems due to the use of a specialised clinical terms, highly stylised content for scores, weights and measures and to a lesser degree a specialised grammatical structure. Clinical notes have these problems but many more, such as acronyms, neologisms, personal abbreviations, a high level of spelling errors due to mistyping and second language speakers, poor grammatical structure, multiple authors of the one document.
It is important to overcome these limitations in the text as they represent a large proportion of the content, up to 30%, and to reach the ultimate processing objective of achieving very high accuracy, say 95+% for information extraction, given that people’s lives depend on decisions made at the bedside using our tools.
We have designed a software architecture to tackle these problems whereby incrementally new knowledge discovered about the text is immediately fedback into the knowledge resources of the language processing system, so that it is continually improved at each phase of the processing.

CLA’09 workshopeko sari bi Anhitz prototipoari!

Urriaren 12tik 14ra Poloniako Mrągowo herrian izandako CLA’09  (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz sistemak bi sari eraman zituen: informazio-bilaketako aplikaziorik onena eta workshop guztiko aplikaziorik onena.

AnHitz proiektua hizkuntza-, ahots- eta ikus- teknologien inguruko  ETORTEK ikerketa estrategikoko proiektua da. 2006-2008 urteen artean aritu gara VICOMTech, Elhuyar Fundazioa, Aholab Taldea, Robotiker eta IXA Taldea arlo horietan ikertzen . Proiektuaren amaieran demostrazioko aplikazio bat muntatu genuen, AnHitz izenekoa hau ere, teknologia ezberdin horien integrazioaren ahalmenen erakusle. Elhuyar Fundazioko Igor Leturiak izan zen.
 
AnHitz euskaraz hitz egiten duen 3D avatar bat da, eta zientzia eta teknologian aditua. Gai horien inguruko galderak erantzun ditzake, edo gai horietako termino bilaketa eleanitza egin eta emaitzak automatikoki euskarara itzuli. IXA Taldekoak batez ere galderak erantzuteko sisteman eta itzulpen automatikoan aritu izan gara.

AnHitz sistemaren elkarrizketen transkribapena duzu hemen: Ingelesezko “azpitituluekin” edo Gaztelaniazko “azpitituluekin”

Sariaren harira bi esteka:

Bestalde, aurretik ere zenbait komunikabidetan  izan da Anhitz-en berri urtean zehar:

Euskaraz
Ingelesez
Gaztelaniaz

Saroi: Errore sintaktikoak detektatzeko sistema

Maite Oronoz Antxardoki doktorea da lehengo urtarriletik.
Bere doktore-tesian hainbat errore sintaktiko detektatzeko sistemak garatu ditu. Horien artean komunztadura-erroreak detektatzeko Saroi sistema.
Saroi tresna orokorra da, erroreen tratamendua egiteko ez ezik, analisi-zuhaitzetako egituren gaineko kontsultak egiteko eta zuhaitz horietan egitura linguistikoak bilatzeko balio duena.

Ikus dezakezu berria Sustatu-n, Basque Research-en, Erabili-n, EITB-n, Herri Irratia-n, Gaur8-n edo EHU-n.
Entzun dezakezu ere Euskadi Irratiko Norteko Ferrokarrila-n egin diote 20 minutuko elkarrizketa atsegina.

SEPLN kongresua eta hiru workshop Donostian

 

Sociedad Española para el Procesamiento del Lenguaje Natural erakundearen (SEPLN)  XXV. kongresua Donostian egingo dugu aste honetan, 2009ko irailaren 8, 9 eta 10ean, Miramar Jauregian.

SEPLN-ren XXV. kongresuaz gain hiru workshop antolatzen ditugu horren inguruan, astelehenean edo ostegunean:

SEPLN erakundea Donostian jaio zen 1984an, EHUko ikerlari-talde baten eskutik. SEPLNren kongresua Donostian izan zen 1990ean, eta horregatik berriro dator Donostiara XXV. urtemugan. Kongresuaren helburu nagusia Lengoaia Naturalaren Prozesamenduan (LNP) egindako azken ikerketa eta garapenak aurkeztea da, komunitate zientifikoari zein inguruko enpresei. 150 parte-hartzaileek 36 aurkezpen zientifiko, 8 proiektu eta produkturen 11 demostrazio ikusi ahal izango dituzte. Bilkura honek ordenagailuen bidezko lengoaiaren prozesamendua aurreratzen jarraitzea ahalbidetuko gaudelakoan gaude.


KYOTO proiektu europarra: Wiki aurreratuen bila

EHUko IXA taldeak parte hartzen du KYOTO proiektu europarrean, eta aurreko astean proiektuko bilera bat antolatu du Donostian. Proiektuaren helburua hitzak definitzeko wiki moduko tresna aurreratu bat definitzea da. Wiki definizio berri horiek ez dira izango pertsonentzat bakarrik, ordenadoreak ere erabili ahal izango ditu, definitutako kontzeptuei buruz dokumentuetan eta Interneten bilaketa sakonagoak egin ahal izateko, hain zuzen ere. Proiektua 2008tik 2011ra garatzekoa da,  Europako Batasunaren finantziazioa du (STREP programako 2 milioi €) eta Taiwaneko eta Japoniako gobernuen laguntza ere badu.

Proiektuaren motibazioa

Mundu modernoko arazo globalei soluzioak modu globalean asmatu ahal izateko, funtsezkoa da informazioa eta komunikazioa hainbat hizkuntzatan erabili ahal izatea. Horrela pertsona guztiek eta kultura desberdin guztiek informazioa beren hizkuntzaz lortzeko bidea izango dute. 

Proiektuaren helburua.

KYOTO proiektuaren barruan prototipo bat eraiki nahi da, pertsonei eta kultur-komunitateei beren hitzak eta terminoak modu globalean definitzeko aukera emango diena, Wiki plataforma batean eta beste hizkuntzetako hitz baliokideekin lotura zuzena izango dituena. Gainera informazio guzti hori ordenagailuak ere erabili ahal izateko moduan gorde nahi da, horrela ordenagailua ere gai izango da testuetako hainbat zehaztasun edo gertakari ulertu ahal izateko. Oraingo Wikipediak testu soila erabiltzen du ezagutza zabaltzeko, KYOTO proiektuak, aldiz, ezagutza hori modu jasoagoan adierazi nahi du, horrela testuetan agertzen diren kontzeptu horien deskribapenak ordenagailuak ere detektatu ahal izan ditzan. Prototipoa WWF erakunde ekologista ezagunarekin egingo da elkarlanean, ingurumeneko gaien inguruan.

Adibidez, ingurumenari buruz aritzean erabiltzen den oinatz (footprint) hitza modu beretsuan definituko da hizkuntza guztietan (pertsona edo talde batek bizitzeko behar duen lur-azaleraren kalkulua, kontsumitzen dituen baliabide natural eta energetikoetan, eta sortzen dituen hondakinetan oinarrituta egiten dena), eta gainera finkatuko da ze informazio behar da oinatz bat kalkulatzeko). Eta definizio horrekin posible izango da oinatzei buruzko informazioak automatikoki bilatzea hainbat dokumentutan edo webgunetan, eta areago, erabiltzaileak eskatu ahal izango du modu errazean bere ingurumenaren informazioari buruz bilatzeko. 

Teknologia: Wordnet-ak eta Kybot-ak

Hizkuntzatik independentea den sistema eraikitzen ari da, jakintza-arlo zehatz baten barruan (ingurumena, ekologia), zazpi hizkuntzetako wordnet-etara lotzen den ontologia baten bitartez.
Hizkuntza bakoitzerako, euskara barne,  testu-meatzarien bidez (Kybot) testuko informazioaren erauzketa zein kontzeptu lexikalizatuen identifikazioa burutzen da. Hizkuntza bakoitzeko lexemak ontologiarekin lotuz hizkuntzen arteko termino baliokideen itzulpena bideratzen da. Wiki bidezko azpiegitura erabiltzen da, hizkuntzen eta kulturen artean eremu zabaleko ezagutza-partekatzea lortzeko. Horrela semantika mailako elkarreragingarritasuna lortzen da eta ontologian oinarritutako inferentzia eta arrazoiketa egin daitezke. Wiki ingurunea dela medio, erabiltzaileek
adostu dezakete kontzeptu interesgarrien esanahia eta berauek partekatu; gainera, sistema irekia izango denez erabiltzaileek, ingeniaritzari zein hizkuntzari buruzko trebetasun berezirik gabe garatu eta eguneratu ahal izango dute sistema hau.
KYOTO arkitektura

Proiektuaren erronka nagusiak

– Terminoen eta kontzeptuen meatze automatikoa, sakontasun semantiko nahikoarekin
– Hizkuntza eta kultura desberdinetako terminoen arteko estekak sortzeko  ezagutza nahikoa lortzea
– Terminoak eta kontzeptuak datu-basetan eta ontologietan biltegiratzea
– Datu-baseetako terminoak eta ontologietan dagozkien definizioak gertaerak erauzteko erabilgarriak izatea (hizkuntza desberdinetako testu-biltegietan),  kalitate eta sakontasun egokiko informazioa lortuz
– Gertaeren eta bestelako informazioen interpretazioa berdina izan beharko da hizkuntza desberdinetarako

Partaideak

  • Vrije Universiteit, Amsterdam (Holanda)
  • Consiglio Nazionale delle Ricerche Italia
  • Berlin-Brandenburg Academy of Sciences and Humantities (Alemania)
  • Euskal Herriko Unibertsitatea
  • Academia Sinica (Taiwan)
  • National Institute of Information and Communications Technology (Japonia)
  • Irion Technologies B.V. (Holanda)
  • Synthema (Italia)
  • World Wide Life Foundation (Holanda)
  • Masaryk University (Txekia)

Beste ikerlari ospetsuen artean WordNeteko sortzaile Christiane Fellbaum, EuroWordNeteko lider Piek Vossen eta Meaning proiektuko koordinatzaile German Rigau daude.

Pasa den ostegun eta ostiraleko bileran proiektuko 22 ikerlari bildu ginen. Proiektua aurrera dabil.

Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa? Ikuspegi historiko bat.

HITZALDIA:”Why is Statistical Machine Translation so hard to understand? A Historical Perspective""Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa?"
HIZLARIA: Andy Way.
  
Dublin-eko DCU unibertsitateko irakaslea
EAMTko Batzorde Exekutiboko Presidentea
(European Association for Machine Translation)

Ikus 2007ko elkarrizketak Basque Research-en eta ZientziaNet-en

EGUNA: ekainak 12 (11:30-13:00)
LEKUA: Donostiako Campuseko Gelategiko balio anitzeko gelan
(2. solairua)
Kokapen planoa

Hitzaldia: Analizatzaile automatikoa espainiera eta ingelesezko testuetarako

Kataluniako Unibertsitate Politeknikoko (UPC) Luis Padró irakasleak espainiera eta ingelesezko esaldiak automatikoki analizatzen dituen Freeling aplikazioari hitz egingo du.
Gogora ezazu Freeling  software librea dela eta Ixa taldeak sortu duen Matxin itzultzaile automatikoak Freeling erabiltzen duela.

Lluis Padró Freeling aplikazioaren arduraduna da, bere ikertzaile nagusia.

Non: Informatika Fakultateko Batzarretako Gelan  (3. solairuan)
Eguna: 2009-ekaina-5
Ordua:  11:30

Laburpena:

FreeLing es una libreria de código libre para el procesado lingüístico de textos. Sus funcionalidades abarcan desde el análisis morfológico hasta el análisis de dependencias, incluyendo numerosos módulos de procesamiento (detección y clasificación de nombres propios, fechas, números, cantidades, locuciones, etc) necesarios en cualquier aplicación que procese textos de dominio no restringido, como por ejemplo la web.
En este seminario se presentará la estructura interna de FreeLing, sus principales componentes, y la estructura de datos que manipulan.  El objetivo es facilitar la comprensión del sistema a quien necesite usarlo, ya sea como analizador independiente, ya sea como libreria de análisis integrada en una aplicación de PLN.

EAMTko artikulu onenarentzako Springer saria IXA taldeari!

Europako Itzulpen Automatikoaren Elkartearen (EAMT) kongresuan artikulu onenarentzako Springer Saria eman digute IXA taldekooi. Hau poza!

EAMTaward

EAMT09 Kongresua Bartzelonan izan da maiatzaren 14 eta 15ean. Aurtengoan gai nagusia hau izan da: “Itzulpena Europako hizkuntzen artean, bereziki hiztun komunitate txikiak eta baliabide digital mugatuak dituzten hizkuntzetarako“.
IXA taldearen artikulua gai horren barruan bete-betean sartzen zenez, espainieraren preposizioak (eta kasu gramatikalak ere) itzultzeko teknika berria asmatu denez, eta gainera emaitza ederrak aurkezten zirenez, aukera ezin hobea izan dugu horrelako sari preziatu bat lortzeko.

Kongresura 54 artikulu bidali ziren munduko 24 estatutik. Hortik 22 artikulu onartu gabe geratu ziren, 18 onartu ziren poster moduan, eta beste 14ak artikuluaren aurkezpen publiko egiteko. Eta 14 horien artean aukeratu dute sariduna. Artikulu osoa IXA taldeko web orritik jaitsi daiteke, baina saiatu gara hemen ondoan azalpen sinplifikatu bat ematen:

Beste hainbat hizkuntzarekin gertatzen den bezala, zailtasun handiak aurkitzen ditu Matxin itzulpen sistemak erdarazko preposizio bat euskarara zuzen itzultzeko. Adibidez: Nola itzuli “de” preposizioa? Zaila da, aukerak gutxienez lau dira:

  • -ko:
    el tejado DE mi casa / nire etxeKO teilatua
  • -ren:
    el tejado DE Miren / MirenEN teilatua
  • -tik:
    vengo de casa / etxeTIK nator
  • marra bat:
    leche DE vaca / behi-esnea

Gure ikerketan hiru teknika landu ditugu preposizioak itzultzeko,

  1. Eskuz egindako erregelak. Adibidez: bizidunekin DE proposizioa itzuli -REN genitiboarekin, aldiz bizigabeekin -KO genitiboarekin itzuli.

  2. Corpusean (testu erraldoietan) kontatu dugu aditz bakoitza kasu-konbinaziorekin zenbatetan azaltzen da. Horrela erdarako esaldi bat itzuli behar dugunean esaldiko aditza euskarara itzuli eta euskarazko aditzaren kasu konbinazio ohikoena aukeratzen dugu erdarazko esaldiko preposizio guztien itzulpenekin bat datorrena.

  3. Hirugarren teknika antzekoa da, baina esaldietan kontatzen ditugun konbinazioak ez dira esaldiko kasu guztiena, (aditz, kasu, izen) hirukoteen maiztasunak baizik, hau da zenbatetan azaltzen den aditz bakoitza, kasu bakoitzarekin eta kasu horren barruan dagoen izen bakoitzarekin. Askoz gauza gehiago kontatu behar da azken aukera honekin! Zailagoa da datu nahikoak lortzea corpusetik!

Itzultzeko teknika klasikoa (erregelak) eta corpusean oinarritutakoak (estatistika) uztartu ditugu. Emaitzak onak izan dira. Pena, beti ezin izan dira hiru teknikak erabili, corpusean datu nahikorik ez zegoelako edo; baina, hala ere, Matxin hobexeago dabil hiru teknika hauek bata bestearen atzetik erabilita. Ederto!

Zorionak egileei: Eneko Agirre, Aitxiber Atutxa, Gorka Labaka, Mikel Lersundi, Aingeru Mayor and Kepa Sarasola!

Azterketa honen oinarrian askoren lana dago: corpusa bildu, izan sintagmak bereizteko analizatzaile morfosintaktikoa, corpusa analizatu, aditzen azpikategorizazioak definitu, EuskalWordnet osatu, bertatik bizidunak eta bizigabeak zein diren bereiztu, makinak mantendu, kontuak eraman…Beti gabiltza berrerabiltzen!

Beraz, zorionak IXA taldeko guztiei!