Minority SafePack: Sinatu zenuen?

Europa mailako FUEN elkarteak (Europar Nazionalitateen Batasun Federala) milioi bat sinadura lortu nahi ditu, Europako erakundeei kultura eta hizkuntza gutxituak babesteko lege bat lortu nahi du.

Minority SafePack kanpainan gutxienez zazpi estatukoak diren milioi bat sinadura lortu behar dira, gero eskaera hori Europako Parlamentura bidali ahal izateko.

Irailean hasi zen ekimena, eta apirilaren 2an bukatuko da, bi aste baino ez dira falta. Orain arte 849.888 sinadura bildu dira, 28 estaturen zehar. 150.000 baino ez dira falta.  Oraindik ez duzu sinatu? Zure sinadura behar da…


Hemen sina dezakezu (minority-safepack.eu)


Ez gara gutxi, Europan 60 milioi gara komunitate gutxituetan bizi garen herritarrak, baina hizkuntza-eskubideen babesa estatu bakoitzaren araberakoa da; hizkuntza gutxitu guztiei babesa emango dien Europa mailako lege orokorrik ez dago-eta.

Elkarte askok eskatu du sinatzeko: EiTB, Enbata, Bagera, Irutxulo…..

Eskaerak 11 proposamen jasotzen ditu alor hauetan: hezkuntza, kultura, ikus-entzunezkoak, Internet, ordezkaritza erakundeetan….Adibidez, eskaera aurrera egingo balu:

  • Europar Batasunak bermatuko luke EiTBren emanaldiak EAEtik kanpo hedatzea, Nafarroara eta Iparraldera iristeko arazorik gabe.
  • […] Hizkuntz dibertsitatea lantzeko zentroak antolatuko lirateke informazioa, jakintza eta adituak bildu eta gero zabaltzeko.
  • […] Aldaketa demografikoaren eragina aztertzeko, mugaz besteko garapen ekonomiko eta soziala.

Lan-poltsak eta udako praktikak IXA ikerkuntza taldean

An Overview Of Artificial Intelligence
In The Event Industry

Informatikako graduko edo master bateko ikaslea zara?
Kuxkuxero gai hauetan?

  • big data, deep learning
  • hizkuntzaren prozesamendua
  • aplikazioen garapena (zerbitzariak, clusterrak, GPUak,… )

Gurekin aritu nahi? Orduan…
eskatu lan-poltsa bat IXA ikerketa taldean
… martxoaren 22a baino lehen,
… bidali zure CVa (ixa.administratzailea@ehu.eus)

Gradurako zein masterreko lan-poltsak eskaintzen ditugu, baita udako lanak ere.

 

Mintegia: Itzulpen automatiko ez-gainbegiratua (Mikel Artetxe, 2018-02-27)

Noiz: asteartean, otsailak 27, 15:00etan
Non: 3.2 gelan.
Hizlaria: Mikel Artetxe
Izenburua:  Itzulpen automatiko ez-gainbegiratua.
Laburpena:

Mintegian aurkeztuko dudan tesiak eleaniztasuna eta datu-urritasuna uztartzen ditu. Aurkezpen honetan azken urtean itzulpen automatiko ez-gainbegiratuaren inguruan eginiko lana azalduko dut, eta etorkizuneko ikerketa-lerroak eztabaidatu

Matxin itzultzailea Wikipedian integratuta

Urtebeteko lana izan da, luzeak izan dira tramiteak. Baina lortu dugu: Matxin  integratuta dago Wikipediarekin, artikuluak errazago itzuli ahal izateko, espainieratik euskarara.

Ez da itzulpen perfektua baina lagungarria da wikizaleontzat. Esaterako kategoriak itzultzen ditu automatikoki, baita estekak, irudiak edo erreferentziak ere. Postedizioan aritu behar da dezente, bai, batez ere esaldi luzeekin; baina orokorrean lana dezente errazten du.

Elhuyarrek kudeatzen duen API batekin erabiltzen da Matxin, irudi honetan ikusten den bezala:

Matxin “Third party MT service” moduan integratu da Wikimedian.

Matxin erabiliz sortuko diren itzulpenen testuak, eta erabiltzaileak egingo duen postedizioaren emaitzak publikoak izango dira. Edonork erabili ahal izango ditu itzultzailea hobetzeko. Wikipediaren filosofia horixe delako: datu eta kode irekiak erabiltzea. Datu eta kode irekiak erabiltzen direnean hobekuntzak azkarrago egin daitezke. Euskarara itzultzeko, badira beste itzultzaile batzuk, baina irekiak ez direnez beste horiek ezin dira integratu Wikipedian. Matxin bai 🙂

Euskal Wikilarien Elkarteak albiste bat atera du bere blogean eta hor azaltzen du Matxin nola erabil daitekeen: Matxin itzultzaile automatikoa integratu dute Wikipedian.

 

Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk

Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak. Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun? Espezifikazioa: datuak eta emaitzak? Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa?
  • Hauek dira aplikazio adibide batzuk: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat txio bildu eta horiek aztertzea izan daiteke. Txio horietako testua analizatuta, jakin nahi dugu ea gehiago diren iritzi negatibodunak eta positibodunak. Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daiteke, adibidez:

Interesa baduzu, ikasle hori, gauza ederrak egin daitezke ikasgai honetan 😉


Bada beste hautazko ikasgai bat antzekoa dena: Hizkuntzalaritza aplikatua. Biek zerikusirik dute hizkuntzarekin. baina Hizkuntzalaritza aplikatua ikasgaian hizkuntza lantzen da gehiago. Hizkuntza lantzeko dauden informatika-aplikazioak ere begiratzen dira, baina erabiltzailearen ikuspuntutik gehiago, euskaraz hobeto idazteko trebetasuna lortzeko asmoz, ez programa horiek barrutik nola eginda dauden ulertzeko. Ikasgai biak diferenteak dira eta elkarren osagarriak izan daitezke.

Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan (iñigo Jauregi, 2017-12-19)

Gaia: Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan
Hizlaria:
Inigo Jauregi-k Telekomunikazioen Ingenieritza gradua atera zuen Nafarroako Unibertsitatean (Tecnum) 2016an. CEITen aritu zen gero bi urtez ikerketa laguntzaile lanetan.
2016ko abuztuaz geroztik Capital Markets Cooperative Research Centre-en (CMCRC) ari da lanean hikzuntzaren prozesamendua osasun sektorean aplikatzen.
2017tik tesia egiten dabil University of Technology Sydney-n (UTS). Bere ikerketaren gai nagusiak ikasketa automatikoa eta hizkuntzaren prozesamendua dira.
Eguna: abenduaren 19an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

Osasun sektorean egunero sortzen den informazio kopurua oso handia da eta, gainera, informazio horren zati handi bat testu hutsa izaten da. Bi gai lantzen ditut, bat unibertsitateari lotuta eta bestea enpresa pribatu baterako proiektu bati lotua:

  • Lehenengoa, farmako, medikamentu marka, gaixotasun, prozedura eta beste zenbait osasun domeinuko izenen ezagutze automatikoan datza (health-domain named-entity recognition). Horretarako, B-LSTM-CRF izeneko sare neuronala erabili dut.
  • Bigarren ikerketa praktikoagoa da. Enpresa honek mugikorreko app baten bitartez bakoitzaren osasunerako coaching zerbitzu pertsonalizatu bat eskaintzen du munduan zehar, 24h erabilgarri dagoen chat baten bitartez. Helburua erabiltzaileen mezuen kopuru handi bati automatikoki erantzungo dien chatbot bat sortzea da.

Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak hitzen benetako erabilerari buruzko informazioa eskuratzeko. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; esaterako, ea erreferentziatu aditza maiz erabiltzen den ala ez.

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu beharko du.

Zorionez, Euskaltzaindiak bakarrik ez, denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez, oso kontsulta erabilgarriak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke… hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: bortitz, suabe, ahul...
Praktikoa da, ez da?

 

Corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’

Science aldizkariak albiste moduan jaso du aste honetan Mikel Artetxe, Eneko Agirre and Gorka Labaka gure lankideek urrian argitaratu zuten ikerketa bat: Artificial intelligence goes bilingual—without a dictionary

Ixakideen ikerketa deskribatzen duen Science aldizkariko albistea.

Hiru Ixakide horiek urriaren 30ean argitaratu zuten Unsupervised Neural Machine Translation artikulua, New York Unibertsitateko Kyunghyun Cho ikerlari ospetsuarekin lankidetzan.

Biharamunean, kasualitatez, Facebook-eko G. Lample ikerlariak oso antzeko ikuspuntua duen beste artikulu bat argitaratu zuen (Unsupervised Machine Translation Using Monolingual Corpora Only). Kasualitate horrek arreta handia ekarri du ikerketa bide berri honetara. Bi artikuluak, gainera, elkarren osagarri izan daitezke. Artikulu horiek argitaratu aurreko bertsioak dira oraindik baina, ICLR 2018 bilkuran aukeztuak izateko bidali dira orain.
Hauek dira Science aldizkarian Matthew Hutson freelance kazetariak idatzi dituen esaldi batzuk:

[…] artikulu bi hauek erakusten dute neurona-sareek testu paralelorik gabe ere ikas dezaketela itzulpenak egiten —eta horrela aurrerapen harrigarri honek erabilgarri bihurtuko lizkiguke beste hainbat hizkuntzatako dokumentu.

[…] “Imajinatu pertsona bati ematen dizkiozula liburu mordo bat txineraz eta liburu mordo bat arabieraz —gai diferenteak bi hizkuntzatan— eta pertsona horrek txineratik arabiera itzultzen ikasi nahi duela. Ezinezkoa dirudi, ez da?” horixe dio artikuluko lehen egileak, Mikel Artetxe, Euskal Herriko Unibertsitateko (UPV/EHU) informatikaria Donostian. “Baina guk konputagailua hori egin dezakeela frogatu dugu.”

[…]  “Hau hasiera baino ez da,” ohartzen du Artetxeren idazkide izan den Eneko Agirre-k. “Guk ikerketarako bide bat zabaldu dugu, eta oraindik ez dakigu noraino heldu daitekeen.”

[…] Artetxek dio harrigarria dela bere metodoa eta Lample-rena hain antzekoak izatea —egun bakar bateko tartearekin baino ez zuten igo arXiv biltegira—. “Baina aldi berean itzela ere bada. Horrek esan nahi baitu hurbilketa berri hau norabide egokian doala.”

Zorionak Mikel, Eneko, Gorka and Kyunghyun. Aurrera!

Ikastaroa neguan: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)

Ondoko ikastaro osagarriari buruzko informazioa helarazten dizuegu IXA taldetik.
Ikastaroa ingelesez izango da. Masterreko modulua da. Gustatzen bazaizu hurrengo urtean master osoa egin 😉

GAIA: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)
//
Deep Learning for Natural Language Processing

Hitzen esanahiak grafikoki. Google saria Eneko Agirreri.

Hizkuntza: Ingelesa
Ikastaroaren datak:
12 saio dira; otsailaren 5-8, 19-22, 26-28 eta martxoaren 1a
Ordutegia:
17:30 – 20:00
Matrikulazio-epea:  abenduaren 24ra arte.
Ikasle kopurua: 20 (kurrikulumaren arabera aukeratuko dira)
Izena ematea: bidali CVa amaia.lorenzo@ehu.eus and e.agirre@ehu.eus
Baldintzak:
eskarmentua oinarrizko programazioarekin, informatikako gradua eta Python ezagutzea. Aljebra edo kalkuluaren oinarrizko kontzeptuak ere beharrezkoak dira.
Prezioa: 180€
Irakasleak:Eneko Agirre eta Oier Lopez de Lacalle

[EN]
https://ixa.eus/ikastaroa_deep_learning
Deep Learning for Natural Language Processing

    Course open to anyone, see details and pre-requisite information below.

Irudia: Roelof Pieters

    Deep Learning neural network models have been successfully applied to natural language processing, and are now changing radically how we interact with machines (Siri, Amazon Alexa, Google Home, Skype translator, Google Translate, or the Google search engine). These models are able to infer a continuous representation for words and sentences, instead of using hand-engineered features as in other machine learning approaches. The seminar will introduce the main deep learning models used in natural language processing, allowing the attendees to gain hands-on understanding and implementation of them in Tensorflow.

Edukiak

Introduction to machine learning and NLP with Tensorflow, Deep learning, Word embeddings, Language modeling and recurrent neural networks, Convolutional neural networks, Attention mechanisms