CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak

Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Elkarrizketa Uxoa Iñurrieta-rekin unibertsitatea.net-en

Uxoa Iñurrieta gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Uxoak hau aurrikusten du: “Oso zaila izango da esaldi konplexuenak ere zuzen-zuzen itzuliko dituen tresnarik lortzea”

Uxoa tesia egiten ari da HAP-LAP programaren barruan. Hona hemen elkarrizketako galdera eta erantzun pare bat:

Konbitzul datu-basea daukazu esku artean; zer da?
Konbitzul datu-baseak izen+aditz motako konbinazioei eta haien itzulpenari buruzko informazioa jasotzen du. Hizkuntzaren prozesamenduari begira sortua da, eta baliagarria da hainbat aplikazio informatikotarako, itzultzaile automatikoetarako, kasu. Edo hala espero dugu, behintzat!

Zein da bere aplikazio praktikoa? Zertarako balia daiteke datu-base hau?
Demagun, adibidez, itzultzaile automatiko batek “adarra jo” esapidea gaztelaniara itzultzea nahi dugula. Ordenagailuak, guk informaziorik eman ezean, bi hitz horiek irakurri eta “tocar/pegar el cuerno” bezalako zerbait sortuko luke, ez bailuke jakingo benetako esanahia zein den. Bada, Konbitzulen sartzen ari garen datuek horrelakoak hobeto itzultzeko balioko dute.

Ikastaroa: Hizkuntz ingeniaritzako aplikazioak (9 ECTS, ostiraletan)

UPV/EHUko IXA Taldean ikastaro hau antolatu dugu arlo honetan interesa duten guztientzat. Ez da Masterra bezain sakona, masterreko modulu bakar bat da, baina lehenengo ideia bat hartzeko balio dezake. Gustatzen bazaizu hurrengo urtean master osoa egin 😉

Internet eta telefono inteligenteen erabilera masiboak areagotu egin dute hizkuntzaren tratamendu automatikoaren beharra; interesatzen zaigun informazioa ondo aukeratzeko tratamendu linguistiko lagungarria ezinbestekoa baita. Gaur egun hainbat aplikazio dago hizkuntzaren tratamendu automatikorako. Adibidez:

  • IBM-Watson: telebistako Jeopardy programan galderak erantzuten pertsonei irabazi zien programa.
  • Euskarara itzultzeko Matxin (Elhuyar-Ixa) eta Itzultzailea (Eusko Jaurlaritza)
  • Mitzuli aplikazioa android telefonorako (Masterreko ikasle batek egin duena)

Horrelako gaiak interesekoak badituzu, “Hizkuntz ingeniaritzaren arloko aplikazioak” ikastaroak gai hauetan murgiltzen lagunduko dizu.

Ikastaroaren datak: ostiralero, otsailaren 12tik ekainaren 10era arte,
Matrikulazio-epea:  
Urtarrilaren 8tik aurrera
Idazkaritza: amaia.lorenzo@ehu.eus / ana.endemano@ehu.eus
Informazio teknikoa: montse.maritxalar@ehu.eus
Diptikoa: Informazio orokorra (euskaraz) Mesedez, zabaldu zure inguruan.

HAP_ikas_osgarri2016-1

HAP_ikas_osagarri_2016_2

Xuxen5: harrera oso ona 4000 deskargarekin

Xuxen%_Artola_tolosaldeko Elkarrizketa bat egin diote Ixakidea den Xabier Artola ikerlariari  Toloasaldeko Ataria aldzkarian, besteak beste Xuxen5 programaren bertsio berriaz aritu izan dira. Azalpen sakonak azaldu dira hor: adibidez hauek:

“Orokorrean jendeak Worden atzean dagoen zuzentzailea Xuxen dela uste du, baina ez da horrela. Microsoftek eginiko euskarazko zuzentzaile «kaxkar» bat da. Xuxen norberak bere ordenagailuan edukitzeko norberak instalatu behar du xuxen.eus webgunetik.”

“Aipatzekoa da Elhuyarrek, azken bertsio honetan, bere baliabide propioak erabili behar izan dituela proiektua aurrera ateratzeko, ez baitugu diru laguntzarik jaso. Eusko Jaurlaritzak diruz lagundu izan ditu gure proiektu batzuk baina oraingo hau ez.”

Komunikabideetako beste albiste batzuk:

Pertsona batek ezin ditu milioika albiste irakurri, NewsReader-ek bai

Itziar_Aldabe_HitzaElkarrizketa bat egin diote Ixakidea den Itziar Aldabe ikerlariari Goierriko Hitza aldzkarian, besteak beste euskarak teknologian duen egoeraz eta berak lantzen duen  News Reader proiektu europarraz aritu dira:

Euskarak zer moduzko egoera du teknologia berrietan?

Normalean baliabideak behar dira. Ixa horregatik sortu zen, duela 27 urte. […] Euskara hor dago, eta ingelesarekin konparatzen bada, gauza batzuetan ez dago maila berean, baina beste gauza batzuetan bai.

Hizkuntza gutxituen artean, zer moduzko tokian dago euskara?

Ondo dago kokatuta, Ixa taldeari eta beste erakunde batzuei esker, Elhuyarri adibidez. Hizkuntza gutxituen artetik esango nuke, ondoena posizionatuta dagoena dela. Hemen urteak daramatzate baliabideak sortzen edo biltzen.

[…]

Euskararekin zer ikusirik ez duen Europako beste proiektu batean ere ari zara lanean.

Bai, News Reader proiektua da. Beste bi unibertsitaterekin eta hiru enpresekin ari gara lanean. Proiektu europarra da. Helburu nagusia finantza eta ekonomiako erabakiak hartzen laguntzeko gertaeren antzematea eta egituratzea burutzea da.NewsReaderAdibideren bat jar dezakezu?

Pentsa, enpresa bateko kargudun batek erabaki bat hartu behar duela; adibidez, beste enpresa bat erosi, bai ala ez erabaki behar duela. Enpresa horri bu- ruzko informazioa egunkari eta iturri desberdinetatik jaso daiteke. Informazio hori gainera hizkuntza desberdinetan egongo da. Baina pertsona batek ezin ditu milioika albiste irakurri. Gu, informazio horren guztiaren kronologia eta laburpena egingo duen tresna bat sortzen ari gara. Informazio guztia automatikoki prozesatzeko edo irakurtzeko gai den eta modu kronologiko batean zer gertatzen ari den modu bisualean agertuko duen tresna.

Zein hizkuntzatarako ari zarete tresna hori prestatzen?

Lau hizkuntzatarako ari gara lanean: ingelesa, gaztelera, italiera eta nederlandera, proiektuaren liderra bertakoa delako.

 

Ongi etorri, Xuxen 5

Egun on, denoi:

Duela hogei urte baino gehiago Xuxen plazaratu genuenean, ez genuen uste izan duen oihartzuna izango zuenik euskal gizartean. Baina bistan da Xuxen ezinbesteko tresna bihurtu dela, ordenagailua erabiliz euskaraz idazten duen ororentzat.

Hogei urte luze joan dira, beraz, estreinako Xuxen hura, Macintosh ordenagailuetarako bertsioa −hiru hazbete eta erdiko disketeetan−, kaleratu genuenetik. Gogoan dut lankide batzuekin kanpoan nintzela aurkezpen publikoa egin zen egunean, eta telegrama bidali genuela zorionak emanez (lekutan geratu dira telegramak gaur egun!); oker ez banago, oraindik ere gordeta behar du telegrama horrek, Ixa taldeko kideren baten bulegoko tiraderan. Denbora joan da, beraz, eta denbora horretan zehar aurrera egin du Xuxenek, hainbat bertsio izan ditu, plataforma eta testu-prozesadore desberdinetarako prestatu da, Euskaldunon Egunkariarekin batera ere banatu izan da, milaka deskarga izan ditu Jaurlaritzaren euskadi.net webgunetik… Xuxen ikasle zein irakasleek erabiltzen dute, idazle nahiz itzultzaileek, kazetariek…, euskaraz zuzen eta arauak betez idatzi nahi duen edonork, hitz batean esanda. Xuxen ezagutzen ez duenik ez da euskaraz idazten dutenen artean.

Harrokeriarik gabe, baina harrotasunez, esan dezakegu Xuxen laguntza handikoa izan dela azken bi hamarkada hauetan, euskara idatziaren normalizazioan, Euskaltzaindiaren hiztegi-arauak kaleratu eta gutxira normaltasunez onartuak eta erabiliak izan zitezen. Euskaltzaindiaren arauen artean aipatzen ahal dira zenbait mugarri, 1970eko hamarkadatik hona: aditz batua eta izen-adjektiboen deklinabidea, erakusleena, lehen ortografia-arauak (h-dun hitzen zerrendak, esate baterako), maileguak egokitzeko arauak, leku-, erakunde- eta hizkuntza-izenak… baina, bat aipatzekotan, eta lexikoari dagokionez, Hiztegi Batuaren argitaratzea aipatu beharko genuke. Hiztegi hori izan da, lehen argitalpenetik hona, Euskaltzaindiak baliatu duen tresna nagusia lexiko estandarra finkatuz eta hedatuz joateko. Hiztegi Batua 2000. urtean argitaratu zen lehenbiziko aldiz, eta Xuxenen 2.3 bertsioa zegoen kalean ordurako. Harrezkero, Hiztegi Batuak hainbat edizio eta Xuxenek hainbat bertsio izan dituzte, eta elkarren bidelagun izan dira.

Xuxenen atzean ikerkuntza dago. Elhuyarrek eta UPV/EHUko Ixa Taldeak hizkuntzaren tratamendu automatikoaren arloan egiten dute ikerketa, eta euskararen tratamendua dute ardatz: hor daude, besteak beste, oinarrizko tresna eta baliabideak, hainbat eta hainbat aplikaziotan euskara presente egotea, webean kontsultagarri dauden corpus eta hiztegiak… bertako eta nazioarteko kongresu eta aldizkarietan egindako argitalpenak. Ixa Taldeak mantentzen ditu Xuxenen oinarri den hiztegia −EDBL, hau da, Euskararen Datu-Base Lexikala− eta Xuxenen motorra; izan ere, euskarazko zuzentzailea ez baita hiztegi huts batean oinarritzen, segmentatzaile morfologikoa behar baitu hitz bat zuzen idatzita dagoen ala ez erabakitzeko. Aipatutako datu-basea hizkuntza prozesatzeko lan guztietan erabiltzen da, etengabe eguneratzen da, etengabe zuzendu eta aberasten da; eta Xuxenen bertsio berri hau prestatzeko, Elhuyarren hiztegiekin ere erkatu da, eta esan behar da erkatze horretatik eratorri diren zuzentze-aberasteak garrantzi handikoak izan direla. Gaur egun, Euskaltzaindiak Hiztegi Batuaren bidez emandako arau eta gomendio guztiek dute beren isla EDBLn, eta Euskaltzaindiak plazaratu ahala gauzatzen dira arau horiek datu-basean. Beraz, EDBL egunean mantentzen da beti, eta handik sortzen da zuzentzaileak behar duen lexikoa, zuzentzaileak behar duen formatuan.

Azpimarra gorriez gain azpimarra berdeak ere hor izango ditu erabiltzaileak hemendik aurrera, testu “xuxenagoak” idaztean lagungarri. Gorriak zentzu kritikoz hartu behar diren bezalaxe −gehien-gehienetan gure akatsen berri ematen badigute ere, ez baita ahaztu behar ortografia-zuzentzaileek testua hitzez hitz aztertu ohi dutela, eta, beraz, litekeena dela negatibo faltsuak izatea noizean behin−, berdeen aurrean are zuhurrago jokatu behar du erabiltzaileak, eta Xuxenek proposatutakoari men egin behar zaion edo bestela jokatzea komeni den, kasuan kasuan erabaki beharko du. Azpimarra berdeen bitartez, izan ere, bi eratako oharrak helaraziko baitzaizkio erabiltzaileari: hitz estandarrak izan arren, Euskaltzaindiak lehenetsiak ez direnean, Euskaltzaindiak hobetsitakoen −gomendatuen− berri emango zaio azpimarra berde horien bitartez; eta ohiko zenbait akats gramatikalen berri emateko ere baliatuko dira. Esan beharrik ez dago, laguntza gramatikal hori gehiago da euskara ikasten ari den edo gramatika menderatzen ez duenarentzat, euskaraz ongi eta txukun idazten duenarentzat baino; halakoak beti izango ditu eskura, noski, konfigurazio-aukerak, akats gramatikalen detekzioa gaitu edo desgaitzeko.

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai). Eneko Bidegainek, berriz, “garbi erran omen die ikasleei ez duela onartuko Xuxenek pasatzen utziko ez lituzkeen hutsez betetako idazlanik” −eta ez da bakarra, bakarra ez denez, hori egiten, irakasleon artean−. Artikulu berean dio “kazetari batek ez lukeela artikulurik bukatutzat jo behar, Xuxen pasatu gabe”; eta “idazle bati ere komeni zaiola zuzentzaile ortografikoaren laguntzarekin lan egitea, argitaletxeari zuzenketen fasean alferrikako lana aurrezteko, eta argitaletxeko zuzentzailearen lana zuzenketa sakonago eta zorrotzagora bideratzeko”.

Bukatzeko, esan, hitzak eta adjektiboak erlatibizatuz, betiere, Xuxen Xuxen dela, orain arte bezala aurrerantzean ere, beti bezain eskura izango dugun zuzentzaile ortografiko, lexiko eta gramatikala, gaur egun idazteko ditugun tresna eta aplikazioetan instalatu eta erabili ahal izango dugun laguntza.

Eta Anduri beste hitz batzuk ebatsiko dizkiot, kazetariari emandako erantzunetik, Xuxenekin ei duen gorroto-amodiozko harremanaz galde egin diolarik: “Xuxeni esker, orain ateratzen den literatura guztia, eta liburuak, eta artikuluak, Xuxen sortu aurretik baino txukunago, zuzenago ateratzen dira. Beraz, chapeau Xuxeni”, esaten du Lertxundik, eta “ongi etorri, Xuxen 5” esanez amaituko dut nik. Besterik ez, eskerrik asko.

Xabier Artola Zubillaga.
Usurbil, 2015eko azaroaren 10a.

Mintegia: Zuhaitz-banku unibertsala (K.Gojenola, 2015/10/20)

Hizlaria:  Koldo Gojenola
Ordua: 15:00-16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Izenburua:  “Zuhaitz-banku unibertsala / Universal Treebank

2008. urtetik hona, hizkuntza desberdinetan garatutako zuhaitz-bankuek etiketatze eredu estandarra jarraitzeko hainbat saiakera egin dira (Standford Dependencies, Clear, Google UD, Standford UD, Hamlet). 2014tik aurrera Standford UDetan oinarritutako Universal Dependencies, “de facto”zko estandarra bihurtu da. Gure zuhaitz-bankua UDetara bihurtzen hasi gara, eta lehenengo bertsio bat atzigarri dago jada. Eman diren urratsak eta egoera azalduko ditugu mintegi honetan.