Zenbat hitz desberdin ezagutzen ditu Xuxen 5.1-ek?

EDBL datu-base lexikaletik ateratzen du Xuxenek euskarazko hitzen berri.
Eta zenbat hitz jaso dira hortik 2018ko Xuxen 5.1 azken bertsioan?
Hau da, zenbat hitz daude euskaraz? (formalki: zenbat lema eta morfema?)

Gaur egun guztira 125.074 sarrera daude EDBL datu-basean. Honela banatu daitezke:

Kategoriaz:

  • 104.116 hiztegi-sarrera
  • 355 morfema ez-independente
  • 20.599 forma flexionatu

 


Estandartasunaz:

  • 118.493 unitate estandar
  • 6.581 unitate ez-estandar

 

 


Hitz anitzeko unitate lexikalak:

  • 2.209 hitz anitzeko unitate lexikal
  • 122.865 zuriunerik gabeko sarrera

HAP/LAP masterreko tesiak (2018-06-26)

Ekainean lau master tesi aurkeztu dira Hizkuntzaren Azterketa eta Prozesamendua masterrean

15:00
Noisy Speech Recognition using Kaldi and Neural Architectures
(Hizketa zaratatsuaren ezagutza Kaldi eta Neurona- arkitekturak erabilita)
Ikaslea/Student: Ander González Docasal
Zuzendariak/Supervisors: Vassilis Tsiaras, George P. Kafentzis, Yannis Stylianou

15:45
Unsupervised Methods to Predict Example Difficulty in Word Sense Annotation
(Hitzen adiera etiketatzeko zailtasunak aurrikusteko metodo ez-gainbegiratuak)
Ikaslea/Student: Cristina Aceta Moreno
Zuzendariak/Supervisors: Oier Lopez de Lacalle, Eneko Agirre, Izaskun Aldezabal

16:30
To post‐edit or to translate… That is the question.
A case study of a recommender system for Quality Estimation of Machine Translation based on linguistic feature
(Posteditatu edo itzuli?… Horra hor auzia.
Ezaugarri linguistikoetan oinarrituta Itzulpen Automatikoaren kalitatea aurreikusten duen sistema aholkulari baten kasu-azterketa)
Ikaslea/Student: Ona de Gilbert Bonet
Zuzendaria/Supervisor: Nora Aranberri

17:15
Basque‐to‐Spanish and Spanish‐to‐Basque Machine Translation for the health domain
(Osasungintzarako itzulpen sistema, euskara-espainiera eta gaztelania-euskara)
Ikaslea/Student: Xabier Soto García
Zuzendariak/Supervisors: Gorka Labaka, Olatz Perez de Viñaspre
Zuzendarikidea/Co‐advisor: Maite Oronoz

Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018)

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun?  Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu.  Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira : – )
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idfKleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

  • Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
  • Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
  • Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
  • Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
  • Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
  • Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
  • Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen  HPko ariketak
  • Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
  • Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
  • Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.

Xuxen5.1 (gure zuzentzailearen bertsio berria)

Xuxen 5.1, zuzentzailearen bertsio berria, kaleratu duguElhuyar-ekin bi berrikuntzarekin: Word 2016rekin bateragarria da eta Euskaltzaindia eta Elhuyar hiztegietako azken hizkuntza-irizpide aldaketak txertatzea.

Zuzentzailea programa hauetan erabil daiteke: Word, Power Point, Outlook, LibreOffice, OpenOffice, nabigatzaileekin (Firefox, Chrome eta Internet Explorer), Adobe InDesign eta Hunspell.

Xuxen 5.1 doakoa da, eta xuxen.eus webgunetik eskuratu daiteke.

Hitzaldia: Kareliera, nola ikertu gertuko hizkuntzen arteko aldaketak (I. Moshnikov, 2018-06-19)

Noiz: asteartean, ekainak 19, 15:00etan
Non: 3.2 gelan.
Hizlaria: Ilia MoshnikovKarelian Institute (Joensuu)
Izenburua: 

Kareliera hizkuntzaren aldakuntzak //
Variants of the active past participle in the Border Karelian dialects: how to study variation between closely related  languages?

Laburpena:
Hilibetez gurean dabilen Ilia Moshnikov irakasle finlandiarrak kareliera hizkuntza aztertzen du.Nola indartu hizkuntza hori? Karelieraren Wikipedia landu…
Zelan ikertu oso getu dauden hizkuntzen arteko aldakuntzak?
Zehatzago: zein dira lehenaldiko partizipio aktiboaren aldakuntzak mugaren inguruko kareliera-dialektoen artean?

 

‘Gramatika sinesgaitza denean’, Linda Wiechetek-en tesia eta agurra

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlariak tesia defendatu du maiatzean, Ixa taldean oso ondo ezagutzen dugu, 2010ean gurean egin zuen egonaldi bat eta geroago ere harremanetan ibili gara murriztapen-gramatikak eta aditz-azpikategorizazioa direla-eta, eta horren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Euskara ere ikasi zuen gurekin : – )
Tesiaren ale bat bidali digu orain Lindak:
Valency and semantic categories in North Sámi syntactic analysis and
error detection.
Eta tesiko sarrerako hitz gozo hauek ekarri ditugu hona:
“I would like to thank the members of Basque language technology group IXA at Euskal Herriko Unibertsitatea, who were extremely welcoming and helpful (Kepa Sarasola and Amaia Lorenzo were great with all the administrative work and the application process, and Ruben Urizar lent me his bike), and who were ready to discuss exciting things within Constraint Grammar (Jose Mari Arriola), valency/semantic role annotation (Ainara Estarrona and Izaskun Aldezabal), and dependency annotation (Maxux Aranzabe) with me.
I really enjoyed our lunches with the people from Korta, and no one ever complained when I asked tons of questions about Basque grammar, history and culture : ) Eskerrik asko denei! Zorte ederra izan nuen zuekin euskera ikasteko abagunea izan nuenean. Eskerrik asko Antiguoko AEKko jendeei, hargatik! Not only did Basque morpho-syntax let me see North Sámi grammar in a different light, it also made me excited again about the immense variation in thinking (and expressing these thoughts in language) in this world.”

CORPUS HISTORIKOEN PROZESAKETA (Jardunaldi irekia, 2018-06-11)

Corpus historikoak biltzea, etiketatzea, aztertzea eta kontsultagarri jartzea nahitaezkoa da hizkuntzaren eta kulturaren eboluzioa modu kuantitatiboan ikertu ahal izatea. Hizkuntzalaritza, historia eta teknologia arloen arteko lankidetza beharrezkoa da aipatutako prozesuak arrakastatsuak izango badira.

Nazioartean hainbat proiektu ari dira egiten ildo horretan eta jardunaldi honetan esperientzia horietako batzuk azalduko dira. Euskal Herrian ere hainbat proiektu daude martxan baina modu atomizatuan.

Noiz: 2018ko ekainaren 11, goizeko 11.00etan (Ada Lovelace aretoa)
Non: EHUko Informatika Fakultatea, Manuel Lardizabal 1, 20018 Donostia (mapa)
Hizkuntza: ingelesa
Programa:

11.00-11.30: Ricardo Etxepare: BIM project, Basque in the making
(
Sintaktikoki Etiketatutako Euskarazko Corpus Historikoa)

11.30-12.15: Martin Reynaert: Text-Induced Corpus Clean-up: current state-of-the-art

12.15-13.00: Eckhard Bick: Automatic Grammatical Annotation of Historical Brazilian Portuguese

Babesleak: UPPA  –  UPV/EHU  –  Clarin.

 

Mintegia: Itzulpen automatikoko proiektuak, TADEEP eta MODELA (Gorka Labaka, 2018-03-27)

Noiz: asteartean, martxoak 27, 15:00etan
Non: 3.2 gelan.
Hizlaria: Gorka Labaka
Izenburua:  Itzulpen automatikoko proiektuak, TADEEP eta MODELA
Laburpena:

Mintegi honetan, azken urtean martxan izan ditugun itzulpen automatikoari buruz izandako proiektuetan (Tadeep eta Modela) egindako lanen berri emango da. Bi proiektuak itzulpena automatiko neuronalaren ingurukoak dira, eta, batez ere, euskara-gaztelera hizkuntza bikotea landu da. Bertan, oinarrizko NMT sistema bat entrenatzeaz gain, horren gaineko zenbait moldaketak landu ditugu. Lan horiek 2018an martxan jarri den LINGUATEC proiektu berrian ere integratzen ari gara. Lan horietatik, euskarazko testuen segmentazio aukera desberdinak, eta karaktereetan oinarritutako sistema azalduko dira aurkezpen honetan.  Ikusi demoa

Minority SafePack: Sinatu zenuen?

Europa mailako FUEN elkarteak (Europar Nazionalitateen Batasun Federala) milioi bat sinadura lortu nahi ditu, Europako erakundeei kultura eta hizkuntza gutxituak babesteko lege bat lortu nahi du.

Minority SafePack kanpainan gutxienez zazpi estatukoak diren milioi bat sinadura lortu behar dira, gero eskaera hori Europako Parlamentura bidali ahal izateko.

Irailean hasi zen ekimena, eta apirilaren 2an bukatuko da, bi aste baino ez dira falta. Orain arte 849.888 sinadura bildu dira, 28 estaturen zehar. 150.000 baino ez dira falta.  Oraindik ez duzu sinatu? Zure sinadura behar da…


Hemen sina dezakezu (minority-safepack.eu)


Ez gara gutxi, Europan 60 milioi gara komunitate gutxituetan bizi garen herritarrak, baina hizkuntza-eskubideen babesa estatu bakoitzaren araberakoa da; hizkuntza gutxitu guztiei babesa emango dien Europa mailako lege orokorrik ez dago-eta.

Elkarte askok eskatu du sinatzeko: EiTB, Enbata, Bagera, Irutxulo…..

Eskaerak 11 proposamen jasotzen ditu alor hauetan: hezkuntza, kultura, ikus-entzunezkoak, Internet, ordezkaritza erakundeetan….Adibidez, eskaera aurrera egingo balu:

  • Europar Batasunak bermatuko luke EiTBren emanaldiak EAEtik kanpo hedatzea, Nafarroara eta Iparraldera iristeko arazorik gabe.
  • […] Hizkuntz dibertsitatea lantzeko zentroak antolatuko lirateke informazioa, jakintza eta adituak bildu eta gero zabaltzeko.
  • […] Aldaketa demografikoaren eragina aztertzeko, mugaz besteko garapen ekonomiko eta soziala.

Lan-poltsak eta udako praktikak IXA ikerkuntza taldean

An Overview Of Artificial Intelligence
In The Event Industry

Informatikako graduko edo master bateko ikaslea zara?
Kuxkuxero gai hauetan?

  • big data, deep learning
  • hizkuntzaren prozesamendua
  • aplikazioen garapena (zerbitzariak, clusterrak, GPUak,… )

Gurekin aritu nahi? Orduan…
eskatu lan-poltsa bat IXA ikerketa taldean
… martxoaren 22a baino lehen,
… bidali zure CVa (ixa.administratzailea@ehu.eus)

Gradurako zein masterreko lan-poltsak eskaintzen ditugu, baita udako lanak ere.