‘Gramatika sinesgaitza denean’, Linda Wiechetek-en tesia eta agurra

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlariak tesia defendatu du maiatzean, Ixa taldean oso ondo ezagutzen dugu, 2010ean gurean egin zuen egonaldi bat eta geroago ere harremanetan ibili gara murriztapen-gramatikak eta aditz-azpikategorizazioa direla-eta, eta horren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Euskara ere ikasi zuen gurekin 🙂
Tesiaren ale bat bidali digu orain Lindak:
Valency and semantic categories in North Sámi syntactic analysis and
error detection.
Eta tesiko sarrerako hitz gozo hauek ekarri ditugu hona:
“I would like to thank the members of Basque language technology group IXA at Euskal Herriko Unibertsitatea, who were extremely welcoming and helpful (Kepa Sarasola and Amaia Lorenzo were great with all the administrative work and the application process, and Ruben Urizar lent me his bike), and who were ready to discuss exciting things within Constraint Grammar (Jose Mari Arriola), valency/semantic role annotation (Ainara Estarrona and Izaskun Aldezabal), and dependency annotation (Maxux Aranzabe) with me.
I really enjoyed our lunches with the people from Korta, and no one ever complained when I asked tons of questions about Basque grammar, history and culture 🙂 Eskerrik asko denei! Zorte ederra izan nuen zuekin euskera ikasteko abagunea izan nuenean. Eskerrik asko Antiguoko AEKko jendeei, hargatik! Not only did Basque morpho-syntax let me see North Sámi grammar in a different light, it also made me excited again about the immense variation in thinking (and expressing these thoughts in language) in this world.”

CORPUS HISTORIKOEN PROZESAKETA (Jardunaldi irekia, 2018-06-11)

Corpus historikoak biltzea, etiketatzea, aztertzea eta kontsultagarri jartzea nahitaezkoa da hizkuntzaren eta kulturaren eboluzioa modu kuantitatiboan ikertu ahal izatea. Hizkuntzalaritza, historia eta teknologia arloen arteko lankidetza beharrezkoa da aipatutako prozesuak arrakastatsuak izango badira.

Nazioartean hainbat proiektu ari dira egiten ildo horretan eta jardunaldi honetan esperientzia horietako batzuk azalduko dira. Euskal Herrian ere hainbat proiektu daude martxan baina modu atomizatuan.

Noiz: 2018ko ekainaren 11, goizeko 11.00etan (Ada Lovelace aretoa)
Non: EHUko Informatika Fakultatea, Manuel Lardizabal 1, 20018 Donostia (mapa)
Hizkuntza: ingelesa
Programa:

11.00-11.30: Ricardo Etxepare: BIM project, Basque in the making
(
Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa)

11.30-12.15: Martin Reynaert: Text-Induced Corpus Clean-up: current state-of-the-art

12.15-13.00: Eckhard Bick: Automatic Grammatical Annotation of Historical Brazilian Portuguese

Babesleak: UPPA  –  UPV/EHU  –  Clarin.

 

Mintegia: Itzulpen automatikoko proiektuak, TADEEP eta MODELA (Gorka Labaka, 2018-03-27)

Noiz: asteartean, martxoak 27, 15:00etan
Non: 3.2 gelan.
Hizlaria: Gorka Labaka
Izenburua:  Itzulpen automatikoko proiektuak, TADEEP eta MODELA
Laburpena:

Mintegi honetan, azken urtean martxan izan ditugun itzulpen automatikoari buruz izandako proiektuetan (Tadeep eta Modela) egindako lanen berri emango da. Bi proiektuak itzulpena automatiko neuronalaren ingurukoak dira, eta, batez ere, euskara-gaztelera hizkuntza bikotea landu da. Bertan, oinarrizko NMT sistema bat entrenatzeaz gain, horren gaineko zenbait moldaketak landu ditugu. Lan horietatik, euskarazko testuen segmentazio aukera desberdinak, eta karaktereetan oinarritutako sistema azalduko dira aurkezpen honetan.  Ikusi demoa

Minority SafePack: Sinatu zenuen?

Europa mailako FUEN elkarteak (Europar Nazionalitateen Batasun Federala) milioi bat sinadura lortu nahi ditu, Europako erakundeei kultura eta hizkuntza gutxituak babesteko lege bat lortu nahi du.

Minority SafePack kanpainan gutxienez zazpi estatukoak diren milioi bat sinadura lortu behar dira, gero eskaera hori Europako Parlamentura bidali ahal izateko.

Irailean hasi zen ekimena, eta apirilaren 2an bukatuko da, bi aste baino ez dira falta. Orain arte 849.888 sinadura bildu dira, 28 estaturen zehar. 150.000 baino ez dira falta.  Oraindik ez duzu sinatu? Zure sinadura behar da…


Hemen sina dezakezu (minority-safepack.eu)


Ez gara gutxi, Europan 60 milioi gara komunitate gutxituetan bizi garen herritarrak, baina hizkuntza-eskubideen babesa estatu bakoitzaren araberakoa da; hizkuntza gutxitu guztiei babesa emango dien Europa mailako lege orokorrik ez dago-eta.

Elkarte askok eskatu du sinatzeko: EiTB, Enbata, Bagera, Irutxulo…..

Eskaerak 11 proposamen jasotzen ditu alor hauetan: hezkuntza, kultura, ikus-entzunezkoak, Internet, ordezkaritza erakundeetan….Adibidez, eskaera aurrera egingo balu:

  • Europar Batasunak bermatuko luke EiTBren emanaldiak EAEtik kanpo hedatzea, Nafarroara eta Iparraldera iristeko arazorik gabe.
  • […] Hizkuntz dibertsitatea lantzeko zentroak antolatuko lirateke informazioa, jakintza eta adituak bildu eta gero zabaltzeko.
  • […] Aldaketa demografikoaren eragina aztertzeko, mugaz besteko garapen ekonomiko eta soziala.

Lan-poltsak eta udako praktikak IXA ikerkuntza taldean

An Overview Of Artificial Intelligence
In The Event Industry

Informatikako graduko edo master bateko ikaslea zara?
Kuxkuxero gai hauetan?

  • big data, deep learning
  • hizkuntzaren prozesamendua
  • aplikazioen garapena (zerbitzariak, clusterrak, GPUak,… )

Gurekin aritu nahi? Orduan…
eskatu lan-poltsa bat IXA ikerketa taldean
… martxoaren 22a baino lehen,
… bidali zure CVa (ixa.administratzailea@ehu.eus)

Gradurako zein masterreko lan-poltsak eskaintzen ditugu, baita udako lanak ere.

 

Mintegia: Itzulpen automatiko ez-gainbegiratua (Mikel Artetxe, 2018-02-27)

Noiz: asteartean, otsailak 27, 15:00etan
Non: 3.2 gelan.
Hizlaria: Mikel Artetxe
Izenburua:  Itzulpen automatiko ez-gainbegiratua.
Laburpena:

Mintegian aurkeztuko dudan tesiak eleaniztasuna eta datu-urritasuna uztartzen ditu. Aurkezpen honetan azken urtean itzulpen automatiko ez-gainbegiratuaren inguruan eginiko lana azalduko dut, eta etorkizuneko ikerketa-lerroak eztabaidatu

Matxin itzultzailea Wikipedian integratuta

Urtebeteko lana izan da, luzeak izan dira tramiteak. Baina lortu dugu: Matxin  integratuta dago Wikipediarekin, artikuluak errazago itzuli ahal izateko, espainieratik euskarara.

Ez da itzulpen perfektua baina lagungarria da wikizaleontzat. Esaterako kategoriak itzultzen ditu automatikoki, baita estekak, irudiak edo erreferentziak ere. Postedizioan aritu behar da dezente, bai, batez ere esaldi luzeekin; baina orokorrean lana dezente errazten du.

Elhuyarrek kudeatzen duen API batekin erabiltzen da Matxin, irudi honetan ikusten den bezala:

Matxin “Third party MT service” moduan integratu da Wikimedian.

Matxin erabiliz sortuko diren itzulpenen testuak, eta erabiltzaileak egingo duen postedizioaren emaitzak publikoak izango dira. Edonork erabili ahal izango ditu itzultzailea hobetzeko. Wikipediaren filosofia horixe delako: datu eta kode irekiak erabiltzea. Datu eta kode irekiak erabiltzen direnean hobekuntzak azkarrago egin daitezke. Euskarara itzultzeko, badira beste itzultzaile batzuk, baina irekiak ez direnez beste horiek ezin dira integratu Wikipedian. Matxin bai 🙂

Euskal Wikilarien Elkarteak albiste bat atera du bere blogean eta hor azaltzen du Matxin nola erabil daitekeen: Matxin itzultzaile automatikoa integratu dute Wikipedian.

 

Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk

Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak. Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun? Espezifikazioa: datuak eta emaitzak? Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa?
  • Hauek dira aplikazio adibide batzuk: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat txio bildu eta horiek aztertzea izan daiteke. Txio horietako testua analizatuta, jakin nahi dugu ea gehiago diren iritzi negatibodunak eta positibodunak. Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daiteke, adibidez:

Interesa baduzu, ikasle hori, gauza ederrak egin daitezke ikasgai honetan 😉


Bada beste hautazko ikasgai bat antzekoa dena: Hizkuntzalaritza aplikatua. Biek zerikusirik dute hizkuntzarekin. baina Hizkuntzalaritza aplikatua ikasgaian hizkuntza lantzen da gehiago. Hizkuntza lantzeko dauden informatika-aplikazioak ere begiratzen dira, baina erabiltzailearen ikuspuntutik gehiago, euskaraz hobeto idazteko trebetasuna lortzeko asmoz, ez programa horiek barrutik nola eginda dauden ulertzeko. Ikasgai biak diferenteak dira eta elkarren osagarriak izan daitezke.

Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan (iñigo Jauregi, 2017-12-19)

Gaia: Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan
Hizlaria:
Inigo Jauregi-k Telekomunikazioen Ingenieritza gradua atera zuen Nafarroako Unibertsitatean (Tecnum) 2016an. CEITen aritu zen gero bi urtez ikerketa laguntzaile lanetan.
2016ko abuztuaz geroztik Capital Markets Cooperative Research Centre-en (CMCRC) ari da lanean hikzuntzaren prozesamendua osasun sektorean aplikatzen.
2017tik tesia egiten dabil University of Technology Sydney-n (UTS). Bere ikerketaren gai nagusiak ikasketa automatikoa eta hizkuntzaren prozesamendua dira.
Eguna: abenduaren 19an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

Osasun sektorean egunero sortzen den informazio kopurua oso handia da eta, gainera, informazio horren zati handi bat testu hutsa izaten da. Bi gai lantzen ditut, bat unibertsitateari lotuta eta bestea enpresa pribatu baterako proiektu bati lotua:

  • Lehenengoa, farmako, medikamentu marka, gaixotasun, prozedura eta beste zenbait osasun domeinuko izenen ezagutze automatikoan datza (health-domain named-entity recognition). Horretarako, B-LSTM-CRF izeneko sare neuronala erabili dut.
  • Bigarren ikerketa praktikoagoa da. Enpresa honek mugikorreko app baten bitartez bakoitzaren osasunerako coaching zerbitzu pertsonalizatu bat eskaintzen du munduan zehar, 24h erabilgarri dagoen chat baten bitartez. Helburua erabiltzaileen mezuen kopuru handi bati automatikoki erantzungo dien chatbot bat sortzea da.

Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak hitzen benetako erabilerari buruzko informazioa eskuratzeko. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; esaterako, ea erreferentziatu aditza maiz erabiltzen den ala ez.

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu beharko du.

Zorionez, Euskaltzaindiak bakarrik ez, denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez, oso kontsulta erabilgarriak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke… hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: bortitz, suabe, ahul...
Praktikoa da, ez da?

 

Corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira: