2009/06/16 17:33:17.635 GMT+2

EHUko IXA taldeak parte hartzen du KYOTO proiektu europarrean, eta aurreko astean proiektuko bilera bat antolatu du Donostian. Proiektuaren helburua hitzak definitzeko wiki moduko tresna aurreratu bat definitzea da. Wiki definizio berri horiek ez dira izango pertsonentzat bakarrik, ordenadoreak ere erabili ahal izango ditu, definitutako kontzeptuei buruz dokumentuetan eta Interneten bilaketa sakonagoak egin ahal izateko, hain zuzen ere. Proiektua 2008tik 2011ra garatzekoa da, Europako Batasunaren finantziazioa du (STREP programako 2 milioi €) eta Taiwaneko eta Japoniako gobernuen laguntza ere badu.
Proiektuaren motibazioa
Mundu modernoko arazo globalei soluzioak modu globalean asmatu ahal izateko, funtsezkoa da informazioa eta komunikazioa hainbat hizkuntzatan erabili ahal izatea. Horrela pertsona guztiek eta kultura desberdin guztiek informazioa beren hizkuntzaz lortzeko bidea izango dute.
Proiektuaren helburua.
KYOTO proiektuaren barruan prototipo bat eraiki nahi da, pertsonei eta kultur-komunitateei beren hitzak eta terminoak modu globalean definitzeko aukera emango diena, Wiki plataforma batean eta beste hizkuntzetako hitz baliokideekin lotura zuzena izango dituena. Gainera informazio guzti hori ordenagailuak ere erabili ahal izateko moduan gorde nahi da, horrela ordenagailua ere gai izango da testuetako hainbat zehaztasun edo gertakari ulertu ahal izateko. Oraingo Wikipediak testu soila erabiltzen du ezagutza zabaltzeko, KYOTO proiektuak, aldiz, ezagutza hori modu jasoagoan adierazi nahi du, horrela testuetan agertzen diren kontzeptu horien deskribapenak ordenagailuak ere detektatu ahal izan ditzan. Prototipoa WWF erakunde ekologista ezagunarekin egingo da elkarlanean, ingurumeneko gaien inguruan.

Adibidez, ingurumenari buruz aritzean erabiltzen den
oinatz (
footprint) hitza modu beretsuan definituko da hizkuntza guztietan (
pertsona edo talde batek bizitzeko behar duen lur-azaleraren kalkulua, kontsumitzen dituen baliabide natural eta energetikoetan, eta sortzen dituen hondakinetan oinarrituta egiten dena), eta gainera finkatuko da ze informazio behar da
oinatz bat kalkulatzeko). Eta definizio horrekin posible izango da oinatzei buruzko informazioak automatikoki bilatzea hainbat dokumentutan edo webgunetan, eta areago, erabiltzaileak eskatu ahal izango du modu errazean bere ingurumenaren informazioari buruz bilatzeko.
Teknologia: Wordnet-ak eta Kybot-ak
Hizkuntzatik independentea den sistema eraikitzen ari da, jakintza-arlo zehatz baten barruan (ingurumena, ekologia), zazpi hizkuntzetako
wordnet-etara lotzen den ontologia baten bitartez.
Hizkuntza bakoitzerako, euskara barne, testu-meatzarien bidez (Kybot) testuko informazioaren erauzketa zein kontzeptu lexikalizatuen identifikazioa burutzen da. Hizkuntza bakoitzeko lexemak ontologiarekin lotuz hizkuntzen arteko termino baliokideen itzulpena bideratzen da. Wiki bidezko azpiegitura erabiltzen da, hizkuntzen eta kulturen artean eremu zabaleko ezagutza-partekatzea lortzeko. Horrela semantika mailako elkarreragingarritasuna lortzen da eta ontologian oinarritutako inferentzia eta arrazoiketa egin daitezke. Wiki ingurunea dela medio, erabiltzaileek
adostu dezakete kontzeptu interesgarrien esanahia eta berauek partekatu; gainera, sistema irekia izango denez erabiltzaileek, ingeniaritzari zein hizkuntzari buruzko trebetasun berezirik gabe garatu eta eguneratu ahal izango dute sistema hau.

Proiektuaren erronka nagusiak
– Terminoen eta kontzeptuen meatze automatikoa, sakontasun semantiko nahikoarekin
– Hizkuntza eta kultura desberdinetako terminoen arteko estekak sortzeko ezagutza nahikoa lortzea
– Terminoak eta kontzeptuak datu-basetan eta ontologietan biltegiratzea
– Datu-baseetako terminoak eta ontologietan dagozkien definizioak gertaerak erauzteko erabilgarriak izatea (hizkuntza desberdinetako testu-biltegietan), kalitate eta sakontasun egokiko informazioa lortuz
– Gertaeren eta bestelako informazioen interpretazioa berdina izan beharko da hizkuntza desberdinetarako
Partaideak
- Vrije Universiteit, Amsterdam (Holanda)
- Consiglio Nazionale delle Ricerche Italia
- Berlin-Brandenburg Academy of Sciences and Humantities (Alemania)
- Euskal Herriko Unibertsitatea
- Academia Sinica (Taiwan)
- National Institute of Information and Communications Technology (Japonia)
- Irion Technologies B.V. (Holanda)
- Synthema (Italia)
- World Wide Life Foundation (Holanda)
- Masaryk University (Txekia)
Beste ikerlari ospetsuen artean WordNeteko sortzaile
Christiane Fellbaum, EuroWordNeteko lider
Piek Vossen eta Meaning proiektuko koordinatzaile
German Rigau daude.
Pasa den ostegun eta ostiraleko bileran proiektuko 22 ikerlari bildu ginen. Proiektua aurrera dabil.
Nork: IXA taldea.2009/06/16 17:33:17.635 GMT+2
Etiketak:
wiki
hizkuntza-teknologia
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2009/06/04 13:49:12.195 GMT+2
HITZALDIA:
"Why is Statistical Machine Translation so hard to
understand? A Historical Perspective"
"Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa?"
HIZLARIA: Andy Way.
Dublin-eko DCU unibertsitateko
EAMTko Batzorde Exekutiboko Presidentea
(European
Association for Machine Translation)
Ikus 2007ko elkarrizketak Basque
Research-en eta ZientziaNet-en

EGUNA: ekainak 12 (11:30-13:00)
LEKUA: Donostiako Campuseko Gelategiko balio anitzeko gelan
(2. solairua) Kokapen
planoaLABURPENA:
In this paper, we track the nature of the language used by the authorsof SMT papers over the years, and note a remarkable shift in appeal tothe mainstream community as SMT itself became more attractive. Inaddition, we provide anecdotal evidence from some of the main players inthe field who were actually there when the original SMT papers werepresented, as well as the reaction from Peter Brown, the head of the IBMSMT group, to the recollections of these protagonists. In so doing, weconjecture as to the reasons why well-qualified people in our field witha wealth of background knowledge nevertheless find SMT extremely hard tounderstand to this day.
Nork: ixa.2009/06/04 13:49:12.195 GMT+2
Etiketak:
ht-sintaxi
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2009/06/04 11:43:28.703 GMT+2
Kataluniako Unibertsitate Politeknikoko (UPC)
Luis Padró irakasleak espainiera eta ingelesezko esaldiak automatikoki analizatzen dituen
Freeling aplikazioari hitz egingo du.
Gogora ezazu Freeling software librea dela eta Ixa taldeak sortu duen Matxin itzultzaile automatikoak Freeling erabiltzen duela.

Lluis Padró
Freeling aplikazioaren arduraduna da, bere ikertzaile nagusia.
Non: Informatika Fakultateko Batzarretako Gelan (3. solairuan)
Eguna: 2009-ekaina-5
Ordua: 11:30
Laburpena:
FreeLing es una libreria de código libre para el procesado lingüístico
de textos. Sus funcionalidades abarcan desde el análisis morfológico
hasta el análisis de dependencias, incluyendo numerosos módulos de procesamiento (detección y clasificación de nombres propios, fechas, números, cantidades, locuciones, etc) necesarios en cualquier aplicación que procese textos de dominio no restringido, como por
ejemplo la web.
En este seminario se presentará la estructura interna de FreeLing, sus
principales componentes, y la estructura de datos que manipulan. El
objetivo es facilitar la comprensión del sistema a quien necesite
usarlo, ya sea como analizador independiente, ya sea como libreria de análisis integrada en una aplicación de PLN.
Nork: ixa.2009/06/04 11:43:28.703 GMT+2
Etiketak:
ht-sintaxi
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2009/05/22 18:17:36.707 GMT+2
Europako Itzulpen Automatikoaren
Elkartearen (EAMT)
kongresuan artikulu onenarentzako Springer Saria
eman digute
IXA taldekooi. Hau poza!
EAMT09 Kongresua Bartzelonan izan da
maiatzaren 14 eta 15ean. Aurtengoan gai nagusia hau izan da:
“Itzulpena Europako hizkuntzen artean, bereziki hiztun komunitate
txikiak eta baliabide digital mugatuak dituzten hizkuntzetarako".
IXA taldearen artikulua gai
horren barruan bete-betean sartzen zenez, espainieraren preposizioak
(eta kasu gramatikalak ere) itzultzeko teknika berria asmatu denez,
eta gainera emaitza ederrak aurkezten zirenez, aukera ezin hobea izan
dugu horrelako sari preziatu bat lortzeko.
Kongresura
54 artikulu bidali ziren munduko 24 estatutik. Hortik 22 artikulu
onartu gabe geratu ziren, 18 onartu ziren poster moduan, eta beste
14ak artikuluaren aurkezpen publiko egiteko. Eta 14 horien artean aukeratu dute sariduna.
Artikulu osoa IXA taldeko web orritik jaitsi daiteke, baina saiatu gara hemen ondoan azalpen sinplifikatu bat ematen:
Beste hainbat hizkuntzarekin gertatzen den bezala, zailtasun
handiak aurkitzen ditu Matxin itzulpen sistemak erdarazko preposizio
bat euskarara zuzen itzultzeko. Adibidez: Nola itzuli "de"
preposizioa? Zaila da, aukerak gutxienez lau dira:
- -ko:
el tejado DE mi casa / nire etxeKO teilatua
- -ren:
el tejado DE Miren / MirenEN teilatua
- -tik:
vengo de casa / etxeTIK nator
- marra
bat: leche DE vaca / behi-esnea
Gure
ikerketan hiru teknika landu ditugu preposizioak itzultzeko,
Eskuz
egindako erregelak. Adibidez: bizidunekin DE proposizioa itzuli -REN
genitiboarekin, aldiz bizigabeekin -KO genitiboarekin itzuli.
Corpusean
(testu erraldoietan) kontatu dugu aditz bakoitza
kasu-konbinaziorekin zenbatetan azaltzen da. Horrela erdarako esaldi
bat itzuli behar dugunean esaldiko aditza euskarara itzuli eta
euskarazko aditzaren kasu konbinazio ohikoena aukeratzen dugu
erdarazko esaldiko preposizio guztien itzulpenekin bat datorrena.
Hirugarren
teknika antzekoa da, baina esaldietan kontatzen ditugun konbinazioak
ez dira esaldiko kasu guztiena, (aditz, kasu, izen) hirukoteen
maiztasunak baizik, hau da zenbatetan azaltzen den aditz bakoitza,
kasu bakoitzarekin eta kasu horren barruan dagoen izen
bakoitzarekin. Askoz gauza gehiago kontatu behar da azken aukera
honekin! Zailagoa da datu nahikoak lortzea corpusetik!
Itzultzeko teknika klasikoa (erregelak) eta corpusean oinarritutakoak (estatistika) uztartu ditugu. Emaitzak
onak izan dira. Pena, beti ezin izan dira hiru teknikak erabili, corpusean datu
nahikorik ez zegoelako edo; baina, hala ere, Matxin hobexeago dabil
hiru teknika hauek bata bestearen atzetik erabilita. Ederto!
Zorionak
egileei: Eneko Agirre, Aitxiber Atutxa, Gorka Labaka, Mikel Lersundi,
Aingeru Mayor and Kepa Sarasola!
Azterketa
honen oinarrian askoren lana dago: corpusa bildu, izan sintagmak
bereizteko analizatzaile morfosintaktikoa, corpusa analizatu, aditzen
azpikategorizazioak definitu, EuskalWordnet osatu, bertatik bizidunak
eta bizigabeak zein diren bereiztu, makinak mantendu, kontuak
eraman...Beti
gabiltza berrerabiltzen!
Beraz,
zorionak IXA taldeko guztiei!
Nork: ixa.2009/05/22 18:17:36.707 GMT+2
Etiketak:
itzulpen_automatikoa
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2009/02/05 18:28:01.027 GMT+1
Google-k apostu garbia egiten du hizkuntza-teknologia erabiltzearen alde.
Bideo interesante honetan azkenaldian plazaratu dituen bi zerbitzuen berri ematen dute. Bideoan elkarrizketa bat azaltzen da Googleko ikerlari ospetsu pare batekin:
M. Cohen eta
F. Och.
Google411 telefono mugikorretarako zerbitzua da,
Google Maps kontsultatzeko da eta hizketa bidez erabil daiteke, ingelesez.
Hau da AEBko telefonoa: 1-800-466-4411 edo 1-800-Goog411
Ikusi demo bat
bideo horren 18:30 minututik aurrera.
Google Translate zerbitzuak itzulpen-zerbitzua ematen du.
Beste hizkuntza batean testu bat edo webgune bat ulertzeko tresna oso lagungarria da. Eta itzulpen bat egin behar baduzu, espainieratik ingelesera adibidez, abiapuntu "onargarria" emango dizu, posteditatu egin beharko duzu, baina zerotik abiatuz baino errazago egingo zaizu, baietz!
Cross Language Search ere egiten du Goggle-k. Interneteko bilaketa itzuliak dira horiek. Adibidez, esan bilatzeko "curación de verrugas" espainieraz eta bilatzeko ingelesez. Esango dizu "Healing of warts" bilatuko duela. Erakutsiko dizkizu hitz horiekin aurkitu dituen ingelesezko orriak, eta alboan erakutsiko dizkizu orri horiexek baina espainieraz. Saiatu bilatzen "Casas rurales en Lapurdi" ere, espainiera eta frantzesa jarrita.
Itzulpen mota bi horien adibideak
bideoko 2:50 minutuan aurkituko dituzu.
Oinarri teknologikoaz ere hitz egiten dute. bi zutabe nagusi dira hor:corpus handiak eta estatistika. Azken urteetan ingeleserako 3 biloi hitz bildu dituztela! (ingelesez 3 triloi esaten dute baina). Azken urteetako konputazio-ahalmena asko handitu denez, datu andana horiek gorde eta prosesatzea posiblea dela.
Etorkizunerako ikerketa-lerroak aipatzen dituzte bukaeran: kalitate handiago lortze aldera corpus handiagoak, konputazio-baliabide gehiago eta hitzetan ezaugarri linguistikoak markatzea beharko direla diote.
Ondorioz zer? Ba... hizkuntzaren teknologiaren aplikazioak gero eta lagungarriagoak direla.
Bukatzeko, ikusiko zenuten euskara ez dela inondik agertzen.
Google-entzat oraindik ez gara interesgarriak
Oraindik badugu zeregina bertakoek ;-)
Nork: ixa.2009/02/05 18:28:01.027 GMT+1
Etiketak:
hizketaren-tratamendua
ht-aplikazioak
itzulpen-automatikoa
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/11/14 17:02:45.922 GMT+1
HAP masterrak antolatu du
hitzaldi bat azaroaren 24rako, astelehena.
Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz. Titulua eta edukia hauek izango dira:
Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala:
Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala: liburutegi digitalak sare sozialean
Rafael Carrasco fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna.
Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik, neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.
Inbitatuta zaude.
Nork: ixa.2008/11/14 17:02:45.922 GMT+1
Etiketak:
ht-aplikazioak
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/11/13 12:17:25.143 GMT+1
Atzo banatu ziren
ALBAYZIN-08 sariak Bilbon egiten ari diren
Hizketa-Teknologiako V. Jardunaldietan. Albayzin-08 itzulpen automatikoko sistema estatistikoak ebaluatzeko markoa da. Marko horren barruan, aurten espainieratik euskarara itzulpenak egiteko txapelketa egin da. Lehian 12 sistema ibili dira, hiru unibertsitatetik bidaliak: Kataluniako Unibertsitateko Politeknikoa
(UPC, TALP-AVIVAVOZ), Universitat Politècnica de València (
UPV-PRHLT) eta Euskal Herriko Unibertsitatea
(EHU, Ixa taldea).
EHUko Ixa taldeko kidea den Gorka Labakaren sistemak irabazi du.
ZORIONAK GORKA!
Nork: ixa.2008/11/13 12:17:25.143 GMT+1
Etiketak:
mt_itzulpen_automatikoa
mt-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/10/28 11:44:40.789 GMT+1
Interneten hitzen analisi morfologiko eta esaldien analisi sintaktikoa automatikoki egiteko aukerak badira:
Morfeus eta
Freeling adibidez. Institutuko ikasleentzat sintaxia eta morfologia ordenagailuarekin lantzea erakargarria izan daiteke. Agian ikasle batzuek dagoeneko erabiltzen dute bide hau etxeko lanak egiteko, irakasleek jakin gabe. Azaroaren 5ean UEUko ikastaro batean aukera horietako batzuk aurkeztuko ditugu. Ea bide batez parte-hartzaile guztion artean oinarrizko ariketa bilduma eztabaidatu eta sortzen dugun.
Hona hemen adibide batzuk:
Ancorako corpusetan esaldi hau analizatu:
Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin:
Amagoiaren lagunak Galizian egiten du lan.
Freeling analizatzailean:
Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)

Ikastaroaren eguna
AZAROAREN 5a.
Ordutegia: 9:30/13:30 - 15:00/19:00
Irakasleak:
Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea.
Kepa Sarasola, doktorea Informatikan eta UEUko kidea.
Informazio gehiago eta izena emateko aukera: www.ueu.org
Nork: ixa.2008/10/28 11:44:40.789 GMT+1
Etiketak:
ht-morfologia
ht-tresnak
ht-sintaxia
| Permalink
| Erantzunak (1)
| Errenferentziak: (0)
2008/10/17 21:06:07.128 GMT+2
Elhuyar-eko
Hizkuntza-Zerbitzuak sailekoek
SEPLN 2008 kongresuaren laburpena egin dute.
SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural)
XXIV. kongresu hori irailean izan da Madrilen.
Atal bakoitzean nabaritu dena aipatzen dute eta Elhuyarrekoek eurek kongresuan aurkeztu duten
AzerHitz proiektuko
ikerketaren azken emaitzak ere azaltzen dituzte.
AzerHitz terminologia-erauzketaren alorrean kokatzen da.
Corpus konparagarrietatik lexiko elebiduna erauzteko teknikak lantzen
dira ikerketa horretan, metodo probabilistikoak bektoreetan eta horien
arteko distantzietan oinarritutako metodoekin alderatuz. Metodo probabilistikoek hobekuntza bat ekarri omen diete
aurreko lanarekin alderatuta (aurtengo LREC-2008 kongresuan aurkeztu dutena).
SEPLN-2009 Donostian izango da, eta XXV. saioa izango da . Honezgero hasi gara Ixa taldean antolaketarekin. Bai, noski, eurek dioten bezala guk ere espero dugu Elhuyar han izango dela.
Eta ongi etorria
beren blogari. Hizkuntza-teknologiako berriak dakartzala eta, gure blogeko esteken artean sartu dugu.
Nork: Kepa Sarasola. Ixa Taldea.2008/10/17 21:06:07.128 GMT+2
Etiketak:
ht-biltzarrak
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/07/10 12:06:55.372 GMT+2
Azkenean bai! Interneteko bilatzaileetan nabaritzen ari da
hizkuntza-teknologia erabiltzen hasi dela. Oraintsu arte Google-k eta beste bilatzaileetan hitz soila izan da oinarria, karaktere-sekuentzia hutsa. Azken hilabeteetan hasi dira azaltzen gauza berriak.
Sei puntu aipa ditzakegu nazioartekoan:
Elebila ere multzo honetan sar dezakegu, hitzetatik harantzago baitoa bere bilaketetan euskarazko guneetan.
Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude.
Azken asteetan, baina, gaia pil-pilean egon da Microsoft-ek
Powerset (sarearen analisi sintaktikoa egiten ari zen bilatzailea)
erosi omen duelako.
Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.
Nork: ixa (Eneko Agirre eta Kepa Sarasola).2008/07/10 12:06:55.372 GMT+2
Etiketak:
ht-informazioaren
bilaketa
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
Hurrengoak