Minority SafePack: Sinatu zenuen?

Europa mailako FUEN elkarteak (Europar Nazionalitateen Batasun Federala) milioi bat sinadura lortu nahi ditu, Europako erakundeei kultura eta hizkuntza gutxituak babesteko lege bat lortu nahi du.

Minority SafePack kanpainan gutxienez zazpi estatukoak diren milioi bat sinadura lortu behar dira, gero eskaera hori Europako Parlamentura bidali ahal izateko.

Irailean hasi zen ekimena, eta apirilaren 2an bukatuko da, bi aste baino ez dira falta. Orain arte 849.888 sinadura bildu dira, 28 estaturen zehar. 150.000 baino ez dira falta.  Oraindik ez duzu sinatu? Zure sinadura behar da…


Hemen sina dezakezu (minority-safepack.eu)


Ez gara gutxi, Europan 60 milioi gara komunitate gutxituetan bizi garen herritarrak, baina hizkuntza-eskubideen babesa estatu bakoitzaren araberakoa da; hizkuntza gutxitu guztiei babesa emango dien Europa mailako lege orokorrik ez dago-eta.

Elkarte askok eskatu du sinatzeko: EiTB, Enbata, Bagera, Irutxulo…..

Eskaerak 11 proposamen jasotzen ditu alor hauetan: hezkuntza, kultura, ikus-entzunezkoak, Internet, ordezkaritza erakundeetan….Adibidez, eskaera aurrera egingo balu:

  • Europar Batasunak bermatuko luke EiTBren emanaldiak EAEtik kanpo hedatzea, Nafarroara eta Iparraldera iristeko arazorik gabe.
  • […] Hizkuntz dibertsitatea lantzeko zentroak antolatuko lirateke informazioa, jakintza eta adituak bildu eta gero zabaltzeko.
  • […] Aldaketa demografikoaren eragina aztertzeko, mugaz besteko garapen ekonomiko eta soziala.

Matxin itzultzailea Wikipedian integratuta

Urtebeteko lana izan da, luzeak izan dira tramiteak. Baina lortu dugu: Matxin  integratuta dago Wikipediarekin, artikuluak errazago itzuli ahal izateko, espainieratik euskarara.

Ez da itzulpen perfektua baina lagungarria da wikizaleontzat. Esaterako kategoriak itzultzen ditu automatikoki, baita estekak, irudiak edo erreferentziak ere. Postedizioan aritu behar da dezente, bai, batez ere esaldi luzeekin; baina orokorrean lana dezente errazten du.

Elhuyarrek kudeatzen duen API batekin erabiltzen da Matxin, irudi honetan ikusten den bezala:

Matxin “Third party MT service” moduan integratu da Wikimedian.

Matxin erabiliz sortuko diren itzulpenen testuak, eta erabiltzaileak egingo duen postedizioaren emaitzak publikoak izango dira. Edonork erabili ahal izango ditu itzultzailea hobetzeko. Wikipediaren filosofia horixe delako: datu eta kode irekiak erabiltzea. Datu eta kode irekiak erabiltzen direnean hobekuntzak azkarrago egin daitezke. Euskarara itzultzeko, badira beste itzultzaile batzuk, baina irekiak ez direnez beste horiek ezin dira integratu Wikipedian. Matxin bai 🙂

Euskal Wikilarien Elkarteak albiste bat atera du bere blogean eta hor azaltzen du Matxin nola erabil daitekeen: Matxin itzultzaile automatikoa integratu dute Wikipedian.

 

Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’

Science aldizkariak albiste moduan jaso du aste honetan Mikel Artetxe, Eneko Agirre and Gorka Labaka gure lankideek urrian argitaratu zuten ikerketa bat: Artificial intelligence goes bilingual—without a dictionary

Ixakideen ikerketa deskribatzen duen Science aldizkariko albistea.

Hiru Ixakide horiek urriaren 30ean argitaratu zuten Unsupervised Neural Machine Translation artikulua, New York Unibertsitateko Kyunghyun Cho ikerlari ospetsuarekin lankidetzan.

Biharamunean, kasualitatez, Facebook-eko G. Lample ikerlariak oso antzeko ikuspuntua duen beste artikulu bat argitaratu zuen (Unsupervised Machine Translation Using Monolingual Corpora Only). Kasualitate horrek arreta handia ekarri du ikerketa bide berri honetara. Bi artikuluak, gainera, elkarren osagarri izan daitezke. Artikulu horiek argitaratu aurreko bertsioak dira oraindik baina, ICLR 2018 bilkuran aukeztuak izateko bidali dira orain.
Hauek dira Science aldizkarian Matthew Hutson freelance kazetariak idatzi dituen esaldi batzuk:

[…] artikulu bi hauek erakusten dute neurona-sareek testu paralelorik gabe ere ikas dezaketela itzulpenak egiten —eta horrela aurrerapen harrigarri honek erabilgarri bihurtuko lizkiguke beste hainbat hizkuntzatako dokumentu.

[…] “Imajinatu pertsona bati ematen dizkiozula liburu mordo bat txineraz eta liburu mordo bat arabieraz —gai diferenteak bi hizkuntzatan— eta pertsona horrek txineratik arabiera itzultzen ikasi nahi duela. Ezinezkoa dirudi, ez da?” horixe dio artikuluko lehen egileak, Mikel Artetxe, Euskal Herriko Unibertsitateko (UPV/EHU) informatikaria Donostian. “Baina guk konputagailua hori egin dezakeela frogatu dugu.”

[…]  “Hau hasiera baino ez da,” ohartzen du Artetxeren idazkide izan den Eneko Agirre-k. “Guk ikerketarako bide bat zabaldu dugu, eta oraindik ez dakigu noraino heldu daitekeen.”

[…] Artetxek dio harrigarria dela bere metodoa eta Lample-rena hain antzekoak izatea —egun bakar bateko tartearekin baino ez zuten igo arXiv biltegira—. “Baina aldi berean itzela ere bada. Horrek esan nahi baitu hurbilketa berri hau norabide egokian doala.”

Zorionak Mikel, Eneko, Gorka and Kyunghyun. Aurrera!

Hizkuntzaren Prozesamendua ikasgaiko praktika ikusgarri bat

Informatika Ingeniaritzako Hizkuntzaren Prozesamendua ikasgaian (HP) aurtengo ikasleek hainbat lan praktiko interesgarri garatu dituzte. Horien artean, Pello Arrue ikasleak Uztarria Azpeitiko aldizkaria aztertu du. 2001tik 2017ra arteko artikulu guztiak (17.034) batu ditu eta bi ikuspuntutatik aztertu ditu. Alde batetik, agertzen diren entitate izendun guztiak erauzi ditu (pertsonak, tokiak, erakundeak…). Eta bestetik, aurkitutako entitateak aldizkariaren gaien arabera sailkatu ditu. Hau da, IXA taldeak sortu duen Ixa-pipes tresna erabili du hasieran testu horiek masiboki analizatzeko, eta gero kontatu ditu entitate izendun bakoitzaren errepikapenak aldizkariko sail bakoitzean.
Esate baterako, irudian 16 urteotan gehien aipatu diren kirolariak ikus daitezke http://www.estadistikakazpeitia.pe.hu/perKirolak.php
Beste kontsulta batzuk egin ditzakezu. Saia zaitez!

LAN BIKAINA, PELLO!


Hizkuntzaren Prozesamendua ikasgaiaren helburu nagusia giza-lengoaiak (hizkuntzak) ordenagailu bidez tratatzeko dauden teknikak eta aplikazioak ezagutzea eta aplikatzea da. Hizkuntz industrien barruan kokatzen diren aplikazioen artean honakoak sartzen dira: Testuen edizioa, Informazioa bilatzea, informazioa erauztea, ezagutzaren kudeaketa, itzulpen automatikoa, lengoaia naturaleko interfazeak edo ahozko hizkuntzaren tratamendua.

Osasuna eta hizkuntza (Bilbo hiria Irratia, 2017/06/27)

BilboHiriaIrratia_Maite_Osasuna eta hizkuntza jardunaldiak egin dira ekainaren 27 eta 28an EHUko udako ikastaroen barruan. Osasungintza euskaratzen dabilen komunitatea batu egin da Bizkaia aretoan. Bilbo Hiria irratiak 11 grabazio argitaratu ditu jardunaldien inguruan. Grabazio batean Olatz Perez de Viñaspre eta Maite Oronoz ixakideak azaldu dira. Beraien arabera, osasun arloan euskaraz aritu nahi badugu, ezinbestekoa da terminologia finkatzea. Osasun langilearengana hurbildu eta “tengo rotura del tendón del músculo esplenio del cuello” esan ordez “lepoko esplenio giharraren tendoia hautsia dut” esateko gai bagara, euskararen normalizazio prozesuan aurrerapauso izugarria egina izango dugu. Horretan dihardute Olatzek eta Maitek. Terminologia itzulpen automatikoan garatu ostean orain testuak automatikoki itzultzeko ikerketan murgilduta daude.

Entzun irrati-programa hemen

Igone Zabala Ixakidearekin ere hitz egin dute EHUren ekarpena euskarako terminologia teknikoaren garapenaz. Ehunduz programako koordinatzailea da bera. Euskararen gaineko ikerketa aplikatua dute xede nagusi, baina beste hizkuntza batzuetan ikertzen eta produktuak garatzen ere aritzen dira. Terminologi teknologia ehunduz programa azaldu du. Entzun Igone Zabalaren hitzak hemen:

 

Beste esteka batzuk:

 

HITZ BESTE: Ez adiorik, Xuxen-zale amorratu hori

Ez_adiorik_LertsundiTamalez, bukatu zaigu HITZ BESTE zutabea eguneroko Berria-n.
15 urte euskara garatzen, idazketa txukunaren dibulgazio egiten.
Zutabe hori izan da gure Xuxen-i buruz ohar, txalo eta artikulu gehiago sortu dituena, Xuxen letren kronikara ekarri izan duena.ESKERRIK ASKO Anjel!Adibide moduan, Hitz beste-ko ale adierazgarri bat:

Ixa xuxen

Hogeita bost urte xuxen edo, gutxienez, ixa xuxen idatzi behar genuela tematu zirenetik: ez dute meritu makala guztiz despejatu ezin dugun xuxen idaztearen ixa inkognita argitzeko tema.

Baina gaizki hasi naiz: despejatuk Xuxenen txibato gorria piztu dit. Txibatok ere bai. Honaino heldu haiz, amigo!

Ez ditut zuzenduko. Eskola zaharreko honek gaztelaniaz ikasi zuen inkognitak despejatzen —ahaztu ere bai hizkuntzen beharrik gabe— eta zaharrez nagi naiz inkognitak askatu egiten direla ikasten hasteko. Txibato hitzari dagokionez, oso erro gaizto bihurriak hartuak ditu gure hizkeran, hain erraz baztertzeko. Biak gordeko ditut, bada. Nire aukera da. Xuxenek abisua eman dit. Eta askatasuna. Erratuko banintz, kulpa ez luke, Axularren hartan bezala, Xuxenek, baldarrontzi honek baizik.

Ixa xuxen ibiltzeko makuluak eutsiko ahal dio beste hogeita bost urtez bideari eta bertan topa dezala Euskalerria Irratia albistea eman dezan.

OHARRAK (Post scriptum)
Xuxen ez da, jakina, Ixak hogeita bost urteetan egindako lan bakarra (Ixarik gabe, euskarak ez luke gaur duen tokia informatikaren plazan) baina Xuxen da Ixaren bandera ontzia, edo niri hala iruditzen zait behintzat. Orain hamar urte zutabe honekin hasi nintzenetik Xuxenekin bizi izan dudan harreman sentimentalarengatik izango da.

Eta horri aipamena eginez honela idazten zuen gozo Xabier Artolak gure blog honetan:

“Andere zorroztzat” hartzen du Xuxen Juan Luis Zabala idazleak, hala irakurri izan diogu artikuluren batean. “On Xuxen” esan izan dionik ere bada, haren autoritatea azpimarratuz. “Ene bihotzeko Xuxen, kuttuna, maitea” esaten dio Andu Lertxundik, eta “Xuxenek gorriztatu gabe txalotzen dizkion hitzak” izan ditu mintzagai inoiz; edo haren “txibato gorria” pizten diotenak, txibato bera ere horien tartekotzat aipatuz (bidenabar, esan diezaiogun Anduri, txibatoak ez diola hemendik aurrera txibato hitza azpimarratuko, horregatik behintzat egon litekeela lasai).

Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

Zer da hizkuntzalaritza konputazionala? (K.Sarasola, Zientzia Kaiera)

Zientzia Kaiera (2017-01-20): Zer da hizkuntzaren prozesamendua?

UPV/EHUko “Kultura Zientifikoa” Katedrak gure ikertaldeko kidea den Kepa Sarasolarekin bideo bat grabatu du Hizkuntzalaritza Konputazionala zer den azaltzeko.

Hau da bideo albistea: “Hizkuntzalaritza konputazionalarekin lengoaiak errazago erabiltzeko tresnak garatzen ditugu“.

Gaiari buruz gehiago jakin nahi duenarentzat:

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Hizkuntza txikien jaia Kolonbiako bakealdian

kolonbia11Hizkuntza txikiak ikusezinak izaten dira gure mundu globalean, baina noizbait aukera izaten da horien berri izateko. Hori izan da orain Kolonbiako bake-prozesuarekin gertatu dena.

Gatazkari Bukaera Emateko Akordioa 44  hizkuntzatan, indigenak eta afroak, eskaintzen du Kolonbiako Kultura Ministerioak. Hizkuntza horien artean: awáa, ingera, kreolera, cofana, wayuunaikia, namtrika, nasa edo kurripakoa.  El acuerdo de Paz se habla en lenguas nativas webgune ofizialean testua deskargatu ahal duzu forma idatzia duten 38 hizkuntzatarako, eta audioa ahozko forma bakarrik duten beste 9 hizkuntzetarako. Ez daude guztiak baina, gehiago ere badira, irakurri Wikipediako Kolonbia artikuluan:

“Kolonbian 65 mintzaira indigena existitzen dira, 1991an konstituzioaren bidez lehenengo aldiz ofizialki onartu zituztenak. Gaur egun biztanleen %3ak indigenak dira, eta horietatik 800.000-850.000 hiztun propioak dira.”

kolonbiaueuHizkuntza-teknologiak lana errazten du horrelako erronketan, eta euskararen kasuan ere bai, noski. Horixe sinisten dugu IXA taldean eta horregatik antolatzen dugu UEU eta EHUrekin batera Itzulpengintza eta Teknologia on-line ikastaroa. Itzulpen zalea zara? Teknologia berriekin kuxkuxeroa? Animatzen zara? Azken aukera aste honetan.

Artikulu interesgarria Kolonbiako kontu honi buruz:

Ana Marcos-en artikulua ElPaísen

Ana Marcos-en artikulua ElPaísen