Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2009/12/17 19:03:30.802 GMT+1

Matxin itzultzaileak beste bi urrats egin ditu

Eleka enpresak Matxin programa itzultzailean bi hobekuntza egin ditu IXA taldea eta Elhuyar Fundazioaren laguntzarekin.

Alde batetik, gaztelaniatik euskararako itzultzailea hobetu da. Hau da, aste honetan aurkeztutakoa 2006an aurkeztu zen prototipoaren bertsio berritua da, eta itzulpenen kalitatean nabarmen hobetu da.
Itzulpena ez da perfektua, jakina, emaitza ezin da argitaratu bere horretan, baina ulergarri izatera ailegatzen ari da esaldi askotan. Perfektua ez, inola ere ez, baina ulergarria ahal da honako hau?
"Euskara gehiengo sindikala osatzen duten sindikatuek Martxelo Otamendirekin haren elkartasuna erakusten dute, Xabier Oleaga, Iñaki Uria, Txema Auzmendi eta Joan Mari Torrealdai, espainiar Espainiako Auzitegi nazionalagatik epaituak. Iraganaren saioaren atzean, epaiketa urtarrilean berriro hartuko da."
Hauxe zen jatorrizko testua gaurko egunkari batean:
Los sindicatos que conforman la mayoría sindical vasca muestran su solidaridad con Martxelo Otamendi, Xabier Oleaga, Iñaki Uria, Txema Auzmendi y Joan Mari Torrealdai, juzgados por la Audiencia Nacional española. Tras la sesión de ayer, el juicio se retomará en enero.
Beste alde batetik, euskaratik gaztelaniarako Matxin itzultzailearen lehen prototipoa sortu da.

Bi itzultzaileak www.opentrad.com web-orrian erabil daitezke doan. Gainera, Matxin itzultzailea Opentrad kode irekiko sistemaren barruan dago, eta horixe da gaztelania-euskara sistemaren balio erantsi garrantzitsuena.

Hona hemen hobekuntzaren adibide batzuk:

Erdaraz: La ordenanza municipal de viviendas tasadas fue aprobada.
Itzulpen zaharra: udal-ordenantza etxebizitza tasatu onartu zuten .
Itzulpena orain: Etxebizitza tasatuen udal-ordenantza onartu zuten.

Erdaraz: La asociación pelotazale busca un patrocinador para financiar sus actos.
Itzulpen zaharra: elkarteak bilaketa pelotazaletzen du babesle bat haren ekitaldiak finantzatzeko.
Itzulpena orain: Elkarte pelotazaleak babesle bat bilatzen du haren ekitaldiak finantzatzeko.

Erdaraz: Las fuertes rachas derribaron algunos árboles sobre varias carreteras.
Itzulpen zaharra: bolada gogorrek zuhaitz lurrera bota zuten zenbait errepideren gainetik.
Itzulpena orain: Bolada gogorrek zuhaitzen batzuk lurrera bota zuten zenbait errepideren gainetik.

Nork: ixa.2009/12/17 19:03:30.802 GMT+1
Etiketak: | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/10/26 14:57:26.927 GMT+1

CLA'09 workshopeko sari bi Anhitz prototipoari!

Urriaren 12tik 14ra Poloniako Mrągowo herrian izandako CLA’09 (Computational Linguistics – Applications) nazioarteko workshop-ean AnHitz sistemak bi sari eraman zituen: informazio-bilaketako aplikaziorik onena eta workshop guztiko aplikaziorik onena.


AnHitz proiektua hizkuntza-, ahots- eta ikus- teknologien inguruko ETORTEK ikerketa estrategikoko proiektua da. 2006-2008 urteen artean aritu gara VICOMTech, Elhuyar Fundazioa, Aholab Taldea, Robotiker eta IXA Taldea arlo horietan ikertzen . Proiektuaren amaieran demostrazioko aplikazio bat muntatu genuen, AnHitz izenekoa hau ere, teknologia ezberdin horien integrazioaren ahalmenen erakusle. Elhuyar Fundazioko Igor Leturiak izan zen
 
AnHitz euskaraz hitz egiten duen 3D avatar bat da, eta zientzia eta teknologian aditua. Gai horien inguruko galderak erantzun ditzake, edo gai horietako termino bilaketa eleanitza egin eta emaitzak automatikoki euskarara itzuli. IXA Taldekoak batez ere galderak erantzuteko sisteman eta itzulpen automatikoan aritu izan gara.
AnHitz sistemaren elkarrizketen transkribapena duzu hemen: Ingelesezko "azpitituluekin" edo Gaztelaniazko "azpitituluekin"

Sariaren harira bi esteka:
Bestalde, aurretik ere zenbait komunikabidetan  izan da Anhitz-en berri urtean zehar:
    Euskaraz

Nork: Ixa Taldea.2009/10/26 14:57:26.927 GMT+1
Etiketak: hizkuntza-teknologiak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/09/21 14:54:57.540 GMT+2

Saroi: Errore sintaktikoak detektatzeko sistema

Maite Oronoz Antxardoki doktorea da lehengo urtarriletik.
Bere doktore-tesian hainbat errore sintaktiko detektatzeko sistemak garatu ditu. Horien artean komunztadura-erroreak detektatzeko Saroi sistema.
Saroi tresna orokorra da, erroreen tratamendua egiteko ez ezik, analisi-zuhaitzetako egituren gaineko kontsultak egiteko eta zuhaitz horietan egitura linguistikoak bilatzeko balio duena.

Ikus dezakezu berria Sustatu-n, Basque Research-en, Erabili-n, EITB-n, Herri Irratia-n, Gaur8-n edo EHU-n.
Entzun dezakezu ere Euskadi Irratiko Norteko Ferrokarrila-n egin diote 20 minutuko elkarrizketa atsegina.


Nork: ixa.2009/09/21 14:54:57.540 GMT+2
Etiketak: hizkuntza-teknologiak sintaxi | Permalink | Erantzunak (1) | Errenferentziak: (0)

2009/09/05 08:56:30.735 GMT+2

SEPLN kongresua eta hiru workshop Donostian

Sociedad Española para el Procesamiento del Lenguaje Natural erakundearen (SEPLN)  XXV. kongresua Donostian egingo dugu aste honetan, 2009ko irailaren 8, 9 eta 10ean, Miramar Jauregian.


SEPLN-ren XXV. kongresuaz gain hiru workshop antolatzen ditugu horren inguruan, astelehenean edo ostegunean:

SEPLN erakundea Donostian jaio zen 1984an, EHUko ikerlari-talde baten eskutik. SEPLNren kongresua Donostian izan zen 1990ean, eta horregatik berriro dator Donostiara XXV. urtemugan. Kongresuaren helburu nagusia Lengoaia Naturalaren Prozesamenduan (LNP) egindako azken ikerketa eta garapenak aurkeztea da, komunitate zientifikoari zein inguruko enpresei. 150 parte-hartzaileek 36 aurkezpen zientifiko, 8 proiektu eta produkturen 11 demostrazio ikusi ahal izango dituzte. Bilkura honek ordenagailuen bidezko lengoaiaren prozesamendua aurreratzen jarraitzea ahalbidetuko gaudelakoan gaude.


Nork: ixa.2009/09/05 08:56:30.735 GMT+2
Etiketak: kongresu hizkuntza-teknologiak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/06/16 17:33:17.635 GMT+2

KYOTO proiektu europarra: Wiki aurreratuen bila

EHUko IXA taldeak parte hartzen du KYOTO proiektu europarrean, eta aurreko astean proiektuko bilera bat antolatu du Donostian. Proiektuaren helburua hitzak definitzeko wiki moduko tresna aurreratu bat definitzea da. Wiki definizio berri horiek ez dira izango pertsonentzat bakarrik, ordenadoreak ere erabili ahal izango ditu, definitutako kontzeptuei buruz dokumentuetan eta Interneten bilaketa sakonagoak egin ahal izateko, hain zuzen ere. Proiektua 2008tik 2011ra garatzekoa da,  Europako Batasunaren finantziazioa du (STREP programako 2 milioi €) eta Taiwaneko eta Japoniako gobernuen laguntza ere badu.

Proiektuaren motibazioa

Mundu modernoko arazo globalei soluzioak modu globalean asmatu ahal izateko, funtsezkoa da informazioa eta komunikazioa hainbat hizkuntzatan erabili ahal izatea. Horrela pertsona guztiek eta kultura desberdin guztiek informazioa beren hizkuntzaz lortzeko bidea izango dute. 

Proiektuaren helburua.

KYOTO proiektuaren barruan prototipo bat eraiki nahi da, pertsonei eta kultur-komunitateei beren hitzak eta terminoak modu globalean definitzeko aukera emango diena, Wiki plataforma batean eta beste hizkuntzetako hitz baliokideekin lotura zuzena izango dituena. Gainera informazio guzti hori ordenagailuak ere erabili ahal izateko moduan gorde nahi da, horrela ordenagailua ere gai izango da testuetako hainbat zehaztasun edo gertakari ulertu ahal izateko. Oraingo Wikipediak testu soila erabiltzen du ezagutza zabaltzeko, KYOTO proiektuak, aldiz, ezagutza hori modu jasoagoan adierazi nahi du, horrela testuetan agertzen diren kontzeptu horien deskribapenak ordenagailuak ere detektatu ahal izan ditzan. Prototipoa WWF erakunde ekologista ezagunarekin egingo da elkarlanean, ingurumeneko gaien inguruan.

Adibidez, ingurumenari buruz aritzean erabiltzen den oinatz (footprint) hitza modu beretsuan definituko da hizkuntza guztietan (pertsona edo talde batek bizitzeko behar duen lur-azaleraren kalkulua, kontsumitzen dituen baliabide natural eta energetikoetan, eta sortzen dituen hondakinetan oinarrituta egiten dena), eta gainera finkatuko da ze informazio behar da oinatz bat kalkulatzeko). Eta definizio horrekin posible izango da oinatzei buruzko informazioak automatikoki bilatzea hainbat dokumentutan edo webgunetan, eta areago, erabiltzaileak eskatu ahal izango du modu errazean bere ingurumenaren informazioari buruz bilatzeko. 

Teknologia: Wordnet-ak eta Kybot-ak

Hizkuntzatik independentea den sistema eraikitzen ari da, jakintza-arlo zehatz baten barruan (ingurumena, ekologia), zazpi hizkuntzetako wordnet-etara lotzen den ontologia baten bitartez.
Hizkuntza bakoitzerako, euskara barne,  testu-meatzarien bidez (Kybot) testuko informazioaren erauzketa zein kontzeptu lexikalizatuen identifikazioa burutzen da. Hizkuntza bakoitzeko lexemak ontologiarekin lotuz hizkuntzen arteko termino baliokideen itzulpena bideratzen da. Wiki bidezko azpiegitura erabiltzen da, hizkuntzen eta kulturen artean eremu zabaleko ezagutza-partekatzea lortzeko. Horrela semantika mailako elkarreragingarritasuna lortzen da eta ontologian oinarritutako inferentzia eta arrazoiketa egin daitezke. Wiki ingurunea dela medio, erabiltzaileek
adostu dezakete kontzeptu interesgarrien esanahia eta berauek partekatu; gainera, sistema irekia izango denez erabiltzaileek, ingeniaritzari zein hizkuntzari buruzko trebetasun berezirik gabe garatu eta eguneratu ahal izango dute sistema hau.
KYOTO arkitektura

Proiektuaren erronka nagusiak

– Terminoen eta kontzeptuen meatze automatikoa, sakontasun semantiko nahikoarekin
– Hizkuntza eta kultura desberdinetako terminoen arteko estekak sortzeko  ezagutza nahikoa lortzea
– Terminoak eta kontzeptuak datu-basetan eta ontologietan biltegiratzea
– Datu-baseetako terminoak eta ontologietan dagozkien definizioak gertaerak erauzteko erabilgarriak izatea (hizkuntza desberdinetako testu-biltegietan),  kalitate eta sakontasun egokiko informazioa lortuz
– Gertaeren eta bestelako informazioen interpretazioa berdina izan beharko da hizkuntza desberdinetarako

Partaideak

  • Vrije Universiteit, Amsterdam (Holanda)
  • Consiglio Nazionale delle Ricerche Italia
  • Berlin-Brandenburg Academy of Sciences and Humantities (Alemania)
  • Euskal Herriko Unibertsitatea
  • Academia Sinica (Taiwan)
  • National Institute of Information and Communications Technology (Japonia)
  • Irion Technologies B.V. (Holanda)
  • Synthema (Italia)
  • World Wide Life Foundation (Holanda)
  • Masaryk University (Txekia)
Beste ikerlari ospetsuen artean WordNeteko sortzaile Christiane Fellbaum, EuroWordNeteko lider Piek Vossen eta Meaning proiektuko koordinatzaile German Rigau daude.

Pasa den ostegun eta ostiraleko bileran proiektuko 22 ikerlari bildu ginen. Proiektua aurrera dabil.

Nork: IXA taldea.2009/06/16 17:33:17.635 GMT+2
Etiketak: wiki hizkuntza-teknologiak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/06/04 13:49:12.195 GMT+2

Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa? Ikuspegi historiko bat.

HITZALDIA:  
"Why is Statistical Machine Translation so hard to
understand?
A Historical Perspective"
"Zergatik da ulergaitza Itzulpen Automatiko Estatistikoa?"

HIZLARIA: Andy Way.
  
Dublin-eko DCU unibertsitateko
  
EAMTko Batzorde Exekutiboko Presidentea
   (European Association for Machine Translation)

   Ikus 2007ko elkarrizketak Basque Research-en eta ZientziaNet-en


EGUNA: ekainak 12 (11:30-13:00)
LEKUA: Donostiako Campuseko Gelategiko balio anitzeko gelan  (2. solairua)
Kokapen planoa
LABURPENA

Nork: ixa.2009/06/04 13:49:12.195 GMT+2
Etiketak: itzulpen_automatiko hizkuntza-teknologiak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/06/04 11:43:28.703 GMT+2

Hitzaldia: Analizatzaile automatikoa espainiera eta ingelesezko testuetarako

Kataluniako Unibertsitate Politeknikoko (UPC) Luis Padró irakasleak espainiera eta ingelesezko esaldiak automatikoki analizatzen dituen Freeling aplikazioari hitz egingo du.
Gogora ezazu Freeling  software librea dela eta Ixa taldeak sortu duen Matxin itzultzaile automatikoak Freeling erabiltzen duela.



Lluis Padró Freeling aplikazioaren arduraduna da, bere ikertzaile nagusia.

Non: Informatika Fakultateko Batzarretako Gelan  (3. solairuan)
Eguna: 2009-ekaina-5
Ordua:  11:30
Laburpena:
FreeLing es una libreria de código libre para el procesado lingüístico  de textos. Sus funcionalidades abarcan desde el análisis morfológico  hasta el análisis de dependencias, incluyendo numerosos módulos de procesamiento (detección y clasificación de nombres propios, fechas, números, cantidades, locuciones, etc) necesarios en cualquier aplicación que procese textos de dominio no restringido, como por
ejemplo la web.

En este seminario se presentará la estructura interna de FreeLing, sus  principales componentes, y la estructura de datos que manipulan.  El  objetivo es facilitar la comprensión del sistema a quien necesite
usarlo, ya sea como analizador independiente, ya sea como libreria de análisis integrada en una aplicación de PLN.

Nork: ixa.2009/06/04 11:43:28.703 GMT+2
Etiketak: hizkuntza-teknologiak sintaxi | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/05/22 18:17:36.707 GMT+2

EAMTko artikulu onenarentzako Springer saria IXA taldeari!

Europako Itzulpen Automatikoaren Elkartearen (EAMT) kongresuan artikulu onenarentzako Springer Saria eman digute IXA taldekooi. Hau poza!
EAMTaward

EAMT09 Kongresua Bartzelonan izan da maiatzaren 14 eta 15ean. Aurtengoan gai nagusia hau izan da: “Itzulpena Europako hizkuntzen artean, bereziki hiztun komunitate txikiak eta baliabide digital mugatuak dituzten hizkuntzetarako". IXA taldearen artikulua gai horren barruan bete-betean sartzen zenez, espainieraren preposizioak (eta kasu gramatikalak ere) itzultzeko teknika berria asmatu denez, eta gainera emaitza ederrak aurkezten zirenez, aukera ezin hobea izan dugu horrelako sari preziatu bat lortzeko.

Kongresura 54 artikulu bidali ziren munduko 24 estatutik. Hortik 22 artikulu onartu gabe geratu ziren, 18 onartu ziren poster moduan, eta beste 14ak artikuluaren aurkezpen publiko egiteko. Eta 14 horien artean aukeratu dute sariduna.

Artikulu osoa IXA taldeko web orritik jaitsi daiteke, baina saiatu gara hemen ondoan azalpen sinplifikatu bat ematen:

Beste hainbat hizkuntzarekin gertatzen den bezala, zailtasun handiak aurkitzen ditu Matxin itzulpen sistemak erdarazko preposizio bat euskarara zuzen itzultzeko. Adibidez: Nola itzuli "de" preposizioa? Zaila da, aukerak gutxienez lau dira:

  • -ko: el tejado DE mi casa / nire etxeKO teilatua
  • -ren: el tejado DE Miren / MirenEN teilatua
  • -tik: vengo de casa / etxeTIK nator
  • marra bat: leche DE vaca / behi-esnea

Gure ikerketan hiru teknika landu ditugu preposizioak itzultzeko,

  1. Eskuz egindako erregelak. Adibidez: bizidunekin DE proposizioa itzuli -REN genitiboarekin, aldiz bizigabeekin -KO genitiboarekin itzuli.

  2. Corpusean (testu erraldoietan) kontatu dugu aditz bakoitza kasu-konbinaziorekin zenbatetan azaltzen da. Horrela erdarako esaldi bat itzuli behar dugunean esaldiko aditza euskarara itzuli eta euskarazko aditzaren kasu konbinazio ohikoena aukeratzen dugu erdarazko esaldiko preposizio guztien itzulpenekin bat datorrena.

  3. Hirugarren teknika antzekoa da, baina esaldietan kontatzen ditugun konbinazioak ez dira esaldiko kasu guztiena, (aditz, kasu, izen) hirukoteen maiztasunak baizik, hau da zenbatetan azaltzen den aditz bakoitza, kasu bakoitzarekin eta kasu horren barruan dagoen izen bakoitzarekin. Askoz gauza gehiago kontatu behar da azken aukera honekin! Zailagoa da datu nahikoak lortzea corpusetik!

Itzultzeko teknika klasikoa (erregelak) eta corpusean oinarritutakoak (estatistika) uztartu ditugu. Emaitzak onak izan dira. Pena, beti ezin izan dira hiru teknikak erabili, corpusean datu nahikorik ez zegoelako edo; baina, hala ere, Matxin hobexeago dabil hiru teknika hauek bata bestearen atzetik erabilita. Ederto!

Zorionak egileei: Eneko Agirre, Aitxiber Atutxa, Gorka Labaka, Mikel Lersundi, Aingeru Mayor and Kepa Sarasola!

Azterketa honen oinarrian askoren lana dago: corpusa bildu, izan sintagmak bereizteko analizatzaile morfosintaktikoa, corpusa analizatu, aditzen azpikategorizazioak definitu, EuskalWordnet osatu, bertatik bizidunak eta bizigabeak zein diren bereiztu, makinak mantendu, kontuak eraman...Beti gabiltza berrerabiltzen!

Beraz, zorionak IXA taldeko guztiei!

Nork: ixa.2009/05/22 18:17:36.707 GMT+2
Etiketak: itzulpen_automatiko hizkuntza-teknologiak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2009/02/05 18:28:01.027 GMT+1

Google-en hizketa-ezagutza eta itzulpen automatikoa (bideo bat)

Google-k apostu garbia egiten du hizkuntza-teknologia erabiltzearen alde. Bideo interesante honetan azkenaldian plazaratu dituen bi zerbitzuen berri ematen dute. Bideoan elkarrizketa bat azaltzen da Googleko ikerlari ospetsu pare batekin: M. Cohen eta F. Och.

Google411 telefono mugikorretarako zerbitzua da,
Google Maps kontsultatzeko da eta hizketa bidez erabil daiteke, ingelesez.
Hau da AEBko telefonoa: 1-800-466-4411 edo 1-800-Goog411
Ikusi demo bat bideo horren 18:30 minututik aurrera.

Google Translate zerbitzuak itzulpen-zerbitzua ematen du.
Beste hizkuntza batean testu bat edo webgune bat ulertzeko tresna oso lagungarria da. Eta itzulpen bat egin behar baduzu, espainieratik ingelesera adibidez, abiapuntu "onargarria" emango dizu, posteditatu egin beharko duzu, baina zerotik abiatuz baino errazago egingo zaizu, baietz!
Cross Language Search ere egiten du Goggle-k. Interneteko bilaketa itzuliak dira horiek. Adibidez, esan bilatzeko "curación de verrugas" espainieraz eta bilatzeko ingelesez. Esango dizu "Healing of warts" bilatuko duela. Erakutsiko dizkizu hitz horiekin aurkitu dituen ingelesezko orriak, eta alboan erakutsiko dizkizu orri horiexek baina espainieraz. Saiatu bilatzen "Casas rurales en Lapurdi" ere, espainiera eta frantzesa jarrita.
Itzulpen mota bi horien adibideak bideoko 2:50 minutuan aurkituko dituzu.

Oinarri teknologikoaz ere hitz egiten dute. bi zutabe nagusi dira hor:corpus handiak eta estatistika. Azken urteetan ingeleserako 3 biloi hitz bildu dituztela! (ingelesez 3 triloi esaten dute baina). Azken urteetako konputazio-ahalmena asko handitu denez, datu andana horiek gorde eta prosesatzea posiblea dela.

Etorkizunerako ikerketa-lerroak aipatzen dituzte bukaeran: kalitate handiago lortze aldera corpus handiagoak, konputazio-baliabide gehiago eta hitzetan ezaugarri linguistikoak markatzea beharko direla diote.

Ondorioz zer? Ba... hizkuntzaren teknologiaren aplikazioak gero eta lagungarriagoak direla.

Bukatzeko, ikusiko zenuten euskara ez dela inondik agertzen.
Google-entzat oraindik ez gara interesgarriak
Oraindik badugu zeregina bertakoek ;-)

Nork: ixa.2009/02/05 18:28:01.027 GMT+1
Etiketak: hizketaren-tratamendu hizkuntza-teknologiak ht-aplikazioak itzulpen_automatikoa | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/11/14 17:02:45.922 GMT+1

Hitzaldia: Interneteko liburutegi digitalak. (Rafael Carrasco 2009-XI-24)

HAP masterrak antolatu du hitzaldi bat  azaroaren 24rako, astelehena.
Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz.  Titulua eta edukia hauek izango dira:

Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala: Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala:  liburutegi digitalak sare sozialean

Rafael Carrasco fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna. Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik,  neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.

Inbitatuta zaude.

Nork: ixa.2008/11/14 17:02:45.922 GMT+1
Etiketak: hizkuntza-teknologiak ht-aplikazioak liburutegi_digitalak | Permalink | Erantzunak (2) | Errenferentziak: (0)

bisitari