HAP/LAP masterreko tesiak (2018-09-25)

Hizkuntzaren Azterketa eta Prozesamendua HAP-LAP masterrean sei master-tesi aurkeztuko dira asteartean, irailak 25. Ekainean beste lau master-tesi aurkeztu ziren.

15:00
Multilingual Word Embeddings and Their Utility In Cross‐lingual Learning
Ikaslea/Student: Kulmizev, Artur
Zuzendariak/Supervisors: Eneko Agirre, Gertjan Van Noord

15:45
Neural Natural Language Generation with Unstructured Contextual Information
Ikaslea/Student: Gete Ugarte, Harritxu
Zuzendariak/Supervisors:Thierry Etchegoyhen, Oier Lopez de Lacalle

16:30
Automating the Anonymisation of Textual Corpora
Ikaslea/Student:Garcia Sardiña, Laura
Zuzendariak/Supervisors:Arantza del Pozo, Izaskun Aldezabal

17:15
Itzulpen automatikoaren kalitate estimaziorako bi tresnen konparaketa: Quest++ eta sare neuronal bidezko hurbilketa
Ikaslea/Student:Garcia Sardiña, Laura
Zuzendariak/Supervisors: Gorka Labaka, Ilaki Alegria

18:00
Analysis, overview and Creation of an Arabic LVCSR
Ikaslea/Student: Puerto Gonzalez, Aratz
Zuzendariak/Supervisors: Eva Navas, Aitor Álvarez

18:45
Efficient Extraction of Parallel Corpora from Wikipedia
Ikaslea/Student: Rubio Astigarraga, Jon
Zuzendariak/Supervisors: Thierry Etchegoyhen, Gorka Labaka

Europako parlamentuak onartu du txostena: Hizkuntzen Berdintasuna Era Digitalean (2018-09-11)

Baliabide gutxiko hizkuntzentzat lagungarri izan daitekeen txosten bat onartu du Europako Parlamentuak asteartean:
Hizkuntzen berdintasuna garai digitalean (Language Equality in the Digital Age)
Galeseko Jill Evans parlamentariaren iniziatiba izan da. Botazioa gehiengo handiz irabazi zuen txostenak: 592 parlamentarik alde, 45ek kontra eta 44 abstentzio.
ZORIONAK!

Jill Evans parlamentariak hau esan du:

  • “Oso pozik nago, Europako Parlamentuak bat dator nire ikuspegiarekin, neurriak hartu behar dira digitalizazioan Europako hizkuntzen arten dagoen aldea murrizteko”
  • “Europako hiritarrak mundu digitala bere hizkuntzan erabiltzeko aukera izan behar du, hizkuntza minoritarioak barne. Hori lortzeko inbertsioa eta lidergoa beharko da Europar Batasunaren aldetik.”
  • “Europar Batasunarentzat aukera itzela da hau hizkuntzen berdintasunerako konpromisoa erakusteko, Europako hizkuntza guztietako hiztunentzat, galesa barne”

Irailaren 27ko bilkura Bruselan

Txostenak eskaera hauek egiten dizkio EBri:

  • hizkuntza-teknologia sustatzeko azpiegitura instituzionalak hobetzeko
  • ikerketa-politika berriak sortzeko, Europan hizkuntza-teknologiaren erabilera zabaltzeko
  • hezkuntza-politikak erabiltzeko, era digitalean hizkuntzen arteko berdintasuna ziurtatzeko
  • enpresek eta administrazioek hizkuntza-teknologiak hobeto erabil dezaten laguntza emateko

Jill Evans parlamentariaren iniziatiba izan da, baina urtarrilean lehen zirriborroa osatzen lagundu zioten gure taldearen ezagun batzuek katalana aztertzen duen Maite Melero-k, Galesa aztertzen duen Delith Prys-ek, eta euskara aztertzen duten Iñaki Irazabalbeitia eta Kepa Sarasola-k.

Irailaren 27an Language equality in the digital age jardunaldia izango da Europako Parlamentuan. Parlamentariei azalduko zaie hizkuntza teknologia zer den baita Europako hizkuntzei eskaintzen dizkien aukera teknologikoak ere. Jill Evans, Maite Melero, Delith Prys eta Montse Maritxalar Ixakidea bertan izango dira (Ikus programa).

Onartu den txostena jaso

Onartu dena ez da lege bat, baina Europako Parlamentuak egin duen txostena  erreferentzia orientatzaile bihurtu da Europa osoan. Orain arte ez zegoen baliabide gutxiko hizkuntzak teknologikoki babesteko lege edo adierazpenik. Hizkuntzak teknologikoki lantzeko erabaki guztiak gobernu lokalen eskuetan geratzen ziren. Administrazio lokalek arazorik gabe baztertu zitzaketen hizkuntza horiek, tratamendu konputazionalari irtenbidea eman gabe. Orain onartu dena ez da lege bat, ez; baina Europak markatu duen erreferentzia bat den heinean aurrerapauso bat izan da.

Informatika eta formazio transbertsala (M. Oronoz, GAUR8, 2018-09-08)

Informatikak lagun “transbertsal” asko ditu: hizkuntzalaritza, filologia, itzulpengintza, matematika, zuzenbidea, osasungintza, irakaskuntza, aisialdia, bideo-jokoak, industria4.0…
Horrela idatzi du Maite Oronoz Ixakideak GAUR8 aldizkariko Informatika eta formazio transbertsala” artikulua. Horra artikulu pasarte bat:

Zeharkako trebakuntzarekin lotura duen adibide bat ikusi dugu dagoeneko. Hizkuntzaren tratamendu automatikoan aritzen diren hizkuntzalariek, chatbot-etan erabiltzen den hizkuntza azter edo sor dezakete, itzulpen automatikoaren garapen eta hobekuntzan lan egin dezakete edo sare sozialetan erabiltzen den hizkuntza azter dezakete sentimenduak identifikatzeko, besteak beste. Hizkuntza oinarrian duten tresna horietan guztietan, ikasketa automatikoan edo programazioan aritzen diren filologoak guztiz beharrezkoak ditugu.
[…]

Argi dago, nire ustez, gure ingurune digitalizatuak trebakuntza profil aberatsak eskatzen dituela. Lan-munduak gero eta gehiago eskatzen ditu algoritmo, teknika informatiko eta datu mota ezberdinetan hainbat alorretan eta hainbat hizkuntzatan lan egingo duten emakume eta gizonak.

Zenbat hitz desberdin ezagutzen ditu Xuxen 5.1-ek?

EDBL datu-base lexikaletik ateratzen du Xuxenek euskarazko hitzen berri.
Eta zenbat hitz jaso dira hortik 2018ko Xuxen 5.1 azken bertsioan?
Hau da, zenbat hitz daude euskaraz? (formalki: zenbat lema eta morfema?)

Gaur egun guztira 125.074 sarrera daude EDBL datu-basean. Honela banatu daitezke:

Kategoriaz:

  • 104.116 hiztegi-sarrera
  • 355 morfema ez-independente
  • 20.599 forma flexionatu

 


Estandartasunaz:

  • 118.493 unitate estandar
  • 6.581 unitate ez-estandar

 

 


Hitz anitzeko unitate lexikalak:

  • 2.209 hitz anitzeko unitate lexikal
  • 122.865 zuriunerik gabeko sarrera

HAP/LAP masterreko tesiak (2018-06-26)

Ekainean lau master tesi aurkeztu dira Hizkuntzaren Azterketa eta Prozesamendua masterrean

15:00
Noisy Speech Recognition using Kaldi and Neural Architectures
(Hizketa zaratatsuaren ezagutza Kaldi eta Neurona- arkitekturak erabilita)
Ikaslea/Student: Ander González Docasal
Zuzendariak/Supervisors: Vassilis Tsiaras, George P. Kafentzis, Yannis Stylianou

15:45
Unsupervised Methods to Predict Example Difficulty in Word Sense Annotation
(Hitzen adiera etiketatzeko zailtasunak aurrikusteko metodo ez-gainbegiratuak)
Ikaslea/Student: Cristina Aceta Moreno
Zuzendariak/Supervisors: Oier Lopez de Lacalle, Eneko Agirre, Izaskun Aldezabal

16:30
To post‐edit or to translate… That is the question.
A case study of a recommender system for Quality Estimation of Machine Translation based on linguistic feature
(Posteditatu edo itzuli?… Horra hor auzia.
Ezaugarri linguistikoetan oinarrituta Itzulpen Automatikoaren kalitatea aurreikusten duen sistema aholkulari baten kasu-azterketa)
Ikaslea/Student: Ona de Gilbert Bonet
Zuzendaria/Supervisor: Nora Aranberri

17:15
Basque‐to‐Spanish and Spanish‐to‐Basque Machine Translation for the health domain
(Osasungintzarako itzulpen sistema, euskara-espainiera eta gaztelania-euskara)
Ikaslea/Student: Xabier Soto García
Zuzendariak/Supervisors: Gorka Labaka, Olatz Perez de Viñaspre
Zuzendarikidea/Co‐advisor: Maite Oronoz

Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018)

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun?  Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu.  Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira : – )
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idfKleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

  • Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
  • Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
  • Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
  • Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
  • Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
  • Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
  • Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen  HPko ariketak
  • Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
  • Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
  • Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.

Xuxen5.1 (gure zuzentzailearen bertsio berria)

Xuxen 5.1, zuzentzailearen bertsio berria, kaleratu duguElhuyar-ekin bi berrikuntzarekin: Word 2016rekin bateragarria da eta Euskaltzaindia eta Elhuyar hiztegietako azken hizkuntza-irizpide aldaketak txertatzea.

Zuzentzailea programa hauetan erabil daiteke: Word, Power Point, Outlook, LibreOffice, OpenOffice, nabigatzaileekin (Firefox, Chrome eta Internet Explorer), Adobe InDesign eta Hunspell.

Xuxen 5.1 doakoa da, eta xuxen.eus webgunetik eskuratu daiteke.

Hitzaldia: Kareliera, nola ikertu gertuko hizkuntzen arteko aldaketak (I. Moshnikov, 2018-06-19)

Noiz: asteartean, ekainak 19, 15:00etan
Non: 3.2 gelan.
Hizlaria: Ilia MoshnikovKarelian Institute (Joensuu)
Izenburua: 

Kareliera hizkuntzaren aldakuntzak //
Variants of the active past participle in the Border Karelian dialects: how to study variation between closely related  languages?

Laburpena:
Hilibetez gurean dabilen Ilia Moshnikov irakasle finlandiarrak kareliera hizkuntza aztertzen du.Nola indartu hizkuntza hori? Karelieraren Wikipedia landu…
Zelan ikertu oso getu dauden hizkuntzen arteko aldakuntzak?
Zehatzago: zein dira lehenaldiko partizipio aktiboaren aldakuntzak mugaren inguruko kareliera-dialektoen artean?

 

‘Gramatika sinesgaitza denean’, Linda Wiechetek-en tesia eta agurra

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlariak tesia defendatu du maiatzean, Ixa taldean oso ondo ezagutzen dugu, 2010ean gurean egin zuen egonaldi bat eta geroago ere harremanetan ibili gara murriztapen-gramatikak eta aditz-azpikategorizazioa direla-eta, eta horren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Euskara ere ikasi zuen gurekin : – )
Tesiaren ale bat bidali digu orain Lindak:
Valency and semantic categories in North Sámi syntactic analysis and
error detection.
Eta tesiko sarrerako hitz gozo hauek ekarri ditugu hona:
“I would like to thank the members of Basque language technology group IXA at Euskal Herriko Unibertsitatea, who were extremely welcoming and helpful (Kepa Sarasola and Amaia Lorenzo were great with all the administrative work and the application process, and Ruben Urizar lent me his bike), and who were ready to discuss exciting things within Constraint Grammar (Jose Mari Arriola), valency/semantic role annotation (Ainara Estarrona and Izaskun Aldezabal), and dependency annotation (Maxux Aranzabe) with me.
I really enjoyed our lunches with the people from Korta, and no one ever complained when I asked tons of questions about Basque grammar, history and culture : ) Eskerrik asko denei! Zorte ederra izan nuen zuekin euskera ikasteko abagunea izan nuenean. Eskerrik asko Antiguoko AEKko jendeei, hargatik! Not only did Basque morpho-syntax let me see North Sámi grammar in a different light, it also made me excited again about the immense variation in thinking (and expressing these thoughts in language) in this world.”

CORPUS HISTORIKOEN PROZESAKETA (Jardunaldi irekia, 2018-06-11)

Corpus historikoak biltzea, etiketatzea, aztertzea eta kontsultagarri jartzea nahitaezkoa da hizkuntzaren eta kulturaren eboluzioa modu kuantitatiboan ikertu ahal izatea. Hizkuntzalaritza, historia eta teknologia arloen arteko lankidetza beharrezkoa da aipatutako prozesuak arrakastatsuak izango badira.

Nazioartean hainbat proiektu ari dira egiten ildo horretan eta jardunaldi honetan esperientzia horietako batzuk azalduko dira. Euskal Herrian ere hainbat proiektu daude martxan baina modu atomizatuan.

Noiz: 2018ko ekainaren 11, goizeko 11.00etan (Ada Lovelace aretoa)
Non: EHUko Informatika Fakultatea, Manuel Lardizabal 1, 20018 Donostia (mapa)
Hizkuntza: ingelesa
Programa:

11.00-11.30: Ricardo Etxepare: BIM project, Basque in the making
(
Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa)

11.30-12.15: Martin Reynaert: Text-Induced Corpus Clean-up: current state-of-the-art

12.15-13.00: Eckhard Bick: Automatic Grammatical Annotation of Historical Brazilian Portuguese

Babesleak: UPPA  –  UPV/EHU  –  Clarin.