Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Elkarrizketa Uxoa Iñurrieta-rekin unibertsitatea.net-en

Uxoa Iñurrieta gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Uxoak hau aurrikusten du: “Oso zaila izango da esaldi konplexuenak ere zuzen-zuzen itzuliko dituen tresnarik lortzea”

Uxoa tesia egiten ari da HAP-LAP programaren barruan. Hona hemen elkarrizketako galdera eta erantzun pare bat:

Konbitzul datu-basea daukazu esku artean; zer da?
Konbitzul datu-baseak izen+aditz motako konbinazioei eta haien itzulpenari buruzko informazioa jasotzen du. Hizkuntzaren prozesamenduari begira sortua da, eta baliagarria da hainbat aplikazio informatikotarako, itzultzaile automatikoetarako, kasu. Edo hala espero dugu, behintzat!

Zein da bere aplikazio praktikoa? Zertarako balia daiteke datu-base hau?
Demagun, adibidez, itzultzaile automatiko batek “adarra jo” esapidea gaztelaniara itzultzea nahi dugula. Ordenagailuak, guk informaziorik eman ezean, bi hitz horiek irakurri eta “tocar/pegar el cuerno” bezalako zerbait sortuko luke, ez bailuke jakingo benetako esanahia zein den. Bada, Konbitzulen sartzen ari garen datuek horrelakoak hobeto itzultzeko balioko dute.

Ikastaroa: Hizkuntz ingeniaritzako aplikazioak (9 ECTS, ostiraletan)

UPV/EHUko IXA Taldean ikastaro hau antolatu dugu arlo honetan interesa duten guztientzat. Ez da Masterra bezain sakona, masterreko modulu bakar bat da, baina lehenengo ideia bat hartzeko balio dezake. Gustatzen bazaizu hurrengo urtean master osoa egin 😉

Internet eta telefono inteligenteen erabilera masiboak areagotu egin dute hizkuntzaren tratamendu automatikoaren beharra; interesatzen zaigun informazioa ondo aukeratzeko tratamendu linguistiko lagungarria ezinbestekoa baita. Gaur egun hainbat aplikazio dago hizkuntzaren tratamendu automatikorako. Adibidez:

  • IBM-Watson: telebistako Jeopardy programan galderak erantzuten pertsonei irabazi zien programa.
  • Euskarara itzultzeko Matxin (Elhuyar-Ixa) eta Itzultzailea (Eusko Jaurlaritza)
  • Mitzuli aplikazioa android telefonorako (Masterreko ikasle batek egin duena)

Horrelako gaiak interesekoak badituzu, “Hizkuntz ingeniaritzaren arloko aplikazioak” ikastaroak gai hauetan murgiltzen lagunduko dizu.

Ikastaroaren datak: ostiralero, otsailaren 12tik ekainaren 10era arte,
Matrikulazio-epea:  
Urtarrilaren 8tik aurrera
Idazkaritza: amaia.lorenzo@ehu.eus / ana.endemano@ehu.eus
Informazio teknikoa: montse.maritxalar@ehu.eus
Diptikoa: Informazio orokorra (euskaraz) Mesedez, zabaldu zure inguruan.

HAP_ikas_osgarri2016-1

HAP_ikas_osagarri_2016_2

Xuxen5: harrera oso ona 4000 deskargarekin

Xuxen%_Artola_tolosaldeko Elkarrizketa bat egin diote Ixakidea den Xabier Artola ikerlariari  Toloasaldeko Ataria aldzkarian, besteak beste Xuxen5 programaren bertsio berriaz aritu izan dira. Azalpen sakonak azaldu dira hor: adibidez hauek:

“Orokorrean jendeak Worden atzean dagoen zuzentzailea Xuxen dela uste du, baina ez da horrela. Microsoftek eginiko euskarazko zuzentzaile «kaxkar» bat da. Xuxen norberak bere ordenagailuan edukitzeko norberak instalatu behar du xuxen.eus webgunetik.”

“Aipatzekoa da Elhuyarrek, azken bertsio honetan, bere baliabide propioak erabili behar izan dituela proiektua aurrera ateratzeko, ez baitugu diru laguntzarik jaso. Eusko Jaurlaritzak diruz lagundu izan ditu gure proiektu batzuk baina oraingo hau ez.”

Pertsona batek ezin ditu milioika albiste irakurri, NewsReader-ek bai

Itziar_Aldabe_HitzaElkarrizketa bat egin diote Ixakidea den Itziar Aldabe ikerlariari Goierriko Hitza aldzkarian, besteak beste euskarak teknologian duen egoeraz eta berak lantzen duen  News Reader proiektu europarraz aritu dira:

Euskarak zer moduzko egoera du teknologia berrietan?

Normalean baliabideak behar dira. Ixa horregatik sortu zen, duela 27 urte. […] Euskara hor dago, eta ingelesarekin konparatzen bada, gauza batzuetan ez dago maila berean, baina beste gauza batzuetan bai.

Hizkuntza gutxituen artean, zer moduzko tokian dago euskara?

Ondo dago kokatuta, Ixa taldeari eta beste erakunde batzuei esker, Elhuyarri adibidez. Hizkuntza gutxituen artetik esango nuke, ondoena posizionatuta dagoena dela. Hemen urteak daramatzate baliabideak sortzen edo biltzen.

[…]

Euskararekin zer ikusirik ez duen Europako beste proiektu batean ere ari zara lanean.

Bai, News Reader proiektua da. Beste bi unibertsitaterekin eta hiru enpresekin ari gara lanean. Proiektu europarra da. Helburu nagusia finantza eta ekonomiako erabakiak hartzen laguntzeko gertaeren antzematea eta egituratzea burutzea da.NewsReaderAdibideren bat jar dezakezu?

Pentsa, enpresa bateko kargudun batek erabaki bat hartu behar duela; adibidez, beste enpresa bat erosi, bai ala ez erabaki behar duela. Enpresa horri bu- ruzko informazioa egunkari eta iturri desberdinetatik jaso daiteke. Informazio hori gainera hizkuntza desberdinetan egongo da. Baina pertsona batek ezin ditu milioika albiste irakurri. Gu, informazio horren guztiaren kronologia eta laburpena egingo duen tresna bat sortzen ari gara. Informazio guztia automatikoki prozesatzeko edo irakurtzeko gai den eta modu kronologiko batean zer gertatzen ari den modu bisualean agertuko duen tresna.

Zein hizkuntzatarako ari zarete tresna hori prestatzen?

Lau hizkuntzatarako ari gara lanean: ingelesa, gaztelera, italiera eta nederlandera, proiektuaren liderra bertakoa delako.

 

Ongi etorri, Xuxen 5

Egun on, denoi:

Duela hogei urte baino gehiago Xuxen plazaratu genuenean, ez genuen uste izan duen oihartzuna izango zuenik euskal gizartean. Baina bistan da Xuxen ezinbesteko tresna bihurtu dela, ordenagailua erabiliz euskaraz idazten duen ororentzat.

Hogei urte luze joan dira, beraz, estreinako Xuxen hura, Macintosh ordenagailuetarako bertsioa −hiru hazbete eta erdiko disketeetan−, kaleratu genuenetik. Gogoan dut lankide batzuekin kanpoan nintzela aurkezpen publikoa egin zen egunean, eta telegrama bidali genuela zorionak emanez (lekutan geratu dira telegramak gaur egun!); oker ez banago, oraindik ere gordeta behar du telegrama horrek, Ixa taldeko kideren baten bulegoko tiraderan. Denbora joan da, beraz, eta denbora horretan zehar aurrera egin du Xuxenek, hainbat bertsio izan ditu, plataforma eta testu-prozesadore desberdinetarako prestatu da, Euskaldunon Egunkariarekin batera ere banatu izan da, milaka deskarga izan ditu Jaurlaritzaren euskadi.net webgunetik… Xuxen ikasle zein irakasleek erabiltzen dute, idazle nahiz itzultzaileek, kazetariek…, euskaraz zuzen eta arauak betez idatzi nahi duen edonork, hitz batean esanda. Xuxen ezagutzen ez duenik ez da euskaraz idazten dutenen artean.

Harrokeriarik gabe, baina harrotasunez, esan dezakegu Xuxen laguntza handikoa izan dela azken bi hamarkada hauetan, euskara idatziaren normalizazioan, Euskaltzaindiaren hiztegi-arauak kaleratu eta gutxira normaltasunez onartuak eta erabiliak izan zitezen. Euskaltzaindiaren arauen artean aipatzen ahal dira zenbait mugarri, 1970eko hamarkadatik hona: aditz batua eta izen-adjektiboen deklinabidea, erakusleena, lehen ortografia-arauak (h-dun hitzen zerrendak, esate baterako), maileguak egokitzeko arauak, leku-, erakunde- eta hizkuntza-izenak… baina, bat aipatzekotan, eta lexikoari dagokionez, Hiztegi Batuaren argitaratzea aipatu beharko genuke. Hiztegi hori izan da, lehen argitalpenetik hona, Euskaltzaindiak baliatu duen tresna nagusia lexiko estandarra finkatuz eta hedatuz joateko. Hiztegi Batua 2000. urtean argitaratu zen lehenbiziko aldiz, eta Xuxenen 2.3 bertsioa zegoen kalean ordurako. Harrezkero, Hiztegi Batuak hainbat edizio eta Xuxenek hainbat bertsio izan dituzte, eta elkarren bidelagun izan dira.

Xuxenen atzean ikerkuntza dago. Elhuyarrek eta UPV/EHUko Ixa Taldeak hizkuntzaren tratamendu automatikoaren arloan egiten dute ikerketa, eta euskararen tratamendua dute ardatz: hor daude, besteak beste, oinarrizko tresna eta baliabideak, hainbat eta hainbat aplikaziotan euskara presente egotea, webean kontsultagarri dauden corpus eta hiztegiak… bertako eta nazioarteko kongresu eta aldizkarietan egindako argitalpenak. Ixa Taldeak mantentzen ditu Xuxenen oinarri den hiztegia −EDBL, hau da, Euskararen Datu-Base Lexikala− eta Xuxenen motorra; izan ere, euskarazko zuzentzailea ez baita hiztegi huts batean oinarritzen, segmentatzaile morfologikoa behar baitu hitz bat zuzen idatzita dagoen ala ez erabakitzeko. Aipatutako datu-basea hizkuntza prozesatzeko lan guztietan erabiltzen da, etengabe eguneratzen da, etengabe zuzendu eta aberasten da; eta Xuxenen bertsio berri hau prestatzeko, Elhuyarren hiztegiekin ere erkatu da, eta esan behar da erkatze horretatik eratorri diren zuzentze-aberasteak garrantzi handikoak izan direla. Gaur egun, Euskaltzaindiak Hiztegi Batuaren bidez emandako arau eta gomendio guztiek dute beren isla EDBLn, eta Euskaltzaindiak plazaratu ahala gauzatzen dira arau horiek datu-basean. Beraz, EDBL egunean mantentzen da beti, eta handik sortzen da zuzentzaileak behar duen lexikoa, zuzentzaileak behar duen formatuan.

Azpimarra gorriez gain azpimarra berdeak ere hor izango ditu erabiltzaileak hemendik aurrera, testu “xuxenagoak” idaztean lagungarri. Gorriak zentzu kritikoz hartu behar diren bezalaxe −gehien-gehienetan gure akatsen berri ematen badigute ere, ez baita ahaztu behar ortografia-zuzentzaileek testua hitzez hitz aztertu ohi dutela, eta, beraz, litekeena dela negatibo faltsuak izatea noizean behin−, berdeen aurrean are zuhurrago jokatu behar du erabiltzaileak, eta Xuxenek proposatutakoari men egin behar zaion edo bestela jokatzea komeni den, kasuan kasuan erabaki beharko du. Azpimarra berdeen bitartez, izan ere, bi eratako oharrak helaraziko baitzaizkio erabiltzaileari: hitz estandarrak izan arren, Euskaltzaindiak lehenetsiak ez direnean, Euskaltzaindiak hobetsitakoen −gomendatuen− berri emango zaio azpimarra berde horien bitartez; eta ohiko zenbait akats gramatikalen berri emateko ere baliatuko dira. Esan beharrik ez dago, laguntza gramatikal hori gehiago da euskara ikasten ari den edo gramatika menderatzen ez duenarentzat, euskaraz ongi eta txukun idazten duenarentzat baino; halakoak beti izango ditu eskura, noski, konfigurazio-aukerak, akats gramatikalen detekzioa gaitu edo desgaitzeko.

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai). Eneko Bidegainek, berriz, “garbi erran omen die ikasleei ez duela onartuko Xuxenek pasatzen utziko ez lituzkeen hutsez betetako idazlanik” −eta ez da bakarra, bakarra ez denez, hori egiten, irakasleon artean−. Artikulu berean dio “kazetari batek ez lukeela artikulurik bukatutzat jo behar, Xuxen pasatu gabe”; eta “idazle bati ere komeni zaiola zuzentzaile ortografikoaren laguntzarekin lan egitea, argitaletxeari zuzenketen fasean alferrikako lana aurrezteko, eta argitaletxeko zuzentzailearen lana zuzenketa sakonago eta zorrotzagora bideratzeko”.

Bukatzeko, esan, hitzak eta adjektiboak erlatibizatuz, betiere, Xuxen Xuxen dela, orain arte bezala aurrerantzean ere, beti bezain eskura izango dugun zuzentzaile ortografiko, lexiko eta gramatikala, gaur egun idazteko ditugun tresna eta aplikazioetan instalatu eta erabili ahal izango dugun laguntza.

Eta Anduri beste hitz batzuk ebatsiko dizkiot, kazetariari emandako erantzunetik, Xuxenekin ei duen gorroto-amodiozko harremanaz galde egin diolarik: “Xuxeni esker, orain ateratzen den literatura guztia, eta liburuak, eta artikuluak, Xuxen sortu aurretik baino txukunago, zuzenago ateratzen dira. Beraz, chapeau Xuxeni”, esaten du Lertxundik, eta “ongi etorri, Xuxen 5” esanez amaituko dut nik. Besterik ez, eskerrik asko.

Xabier Artola Zubillaga.
Usurbil, 2015eko azaroaren 10a.

Mintegia: Zuhaitz-banku unibertsala (K.Gojenola, 2015/10/20)

Hizlaria:  Koldo Gojenola
Ordua: 15:00-16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Izenburua:  “Zuhaitz-banku unibertsala / Universal Treebank

2008. urtetik hona, hizkuntza desberdinetan garatutako zuhaitz-bankuek etiketatze eredu estandarra jarraitzeko hainbat saiakera egin dira (Standford Dependencies, Clear, Google UD, Standford UD, Hamlet). 2014tik aurrera Standford UDetan oinarritutako Universal Dependencies, “de facto”zko estandarra bihurtu da. Gure zuhaitz-bankua UDetara bihurtzen hasi gara, eta lehenengo bertsio bat atzigarri dago jada. Eman diren urratsak eta egoera azalduko ditugu mintegi honetan.

Hitzaldia: Gaelikorako Teknologiaren egoera (T. Lynn, 2015/10/13)

Hizlaria:  Teresa Lynn ADAPT Centre, School of Computing, Dublin City University
Eguna: Urriaren 13an, asteartean
Ordua: 15:00-16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

Hitzaldiaren izenburua:  “Gaelikorako Hizkuntza-Teknologiaren egoera  / Overview of the current status of Irish language technology”

Teresa Lynn ikertzaileak Euskal Herriko zentro batzuk bisitatuko ditu datorren astean, horien artean Ixa taldea. Euskararako hizkuntza teknologia nola garatu den aztertu nahi dute Gaelikoa lantzeko proiektu estrategiko bat definitu baino lehen. Dublin-eko DCU inibertsitatea eta Trinity College dira proiektu horren arduradunak. Bisita hori aprobetxatuz, eskatu diogu aurkezpen bat eskatu diogu gaelikoak egun hizkuntza-teknologian duen egoera azaltzeko.

Eloína Miyares lankide kubatarra hil zaigu

Eloína_f0040405

Eloína Miyares Bermúdez. (Argazkia: Ecored)

Santiago de Cubako Centro de Lingüística Apli­cada (CLA) zentroko  sortzaileetako bat izan zen Eloína Miyares Bermúdez irakaslea uztailaren 26an hil zaigu gaixotasun luze baten ondorioz.

Ixa taldetik agur eta ohore.
Geratzen zaizkigu zure ekarpenak:

IXA taldea lankidetzan aritu izan da azken 14 urteetan CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar (DBE) hiztegi hori (digitala eta paperezkoa). Hiztegia XMLz kodetuta dago, eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen da.

Agur Eloína

Eskaintzen ditugun masterrak eta itzulpengintzako graduondokoa

Ixa Taldeak bi master eta graduondoko bat eskaintzen ditu datorren ikasturterako.
Ingeniarientzat, filologo-linguistentzat eta itzultzaileentzat dira.
Orain da matrikulatzeko garaia:
HAP-LAP_Bideo_collage

Bideoa: HAP-LAP masterreko protagonisten iritzia