HAP/LAP masterreko tesiak (2018-09-25)

Hizkuntzaren Azterketa eta Prozesamendua HAP-LAP masterrean sei master-tesi aurkeztuko dira asteartean, irailak 25. Ekainean beste lau master-tesi aurkeztu ziren.

15:00
Multilingual Word Embeddings and Their Utility In Cross‐lingual Learning
Ikaslea/Student: Kulmizev, Artur
Zuzendariak/Supervisors: Eneko Agirre, Gertjan Van Noord

15:45
Neural Natural Language Generation with Unstructured Contextual Information
Ikaslea/Student: Gete Ugarte, Harritxu
Zuzendariak/Supervisors:Thierry Etchegoyhen, Oier Lopez de Lacalle

16:30
Automating the Anonymisation of Textual Corpora
Ikaslea/Student:Garcia Sardiña, Laura
Zuzendariak/Supervisors:Arantza del Pozo, Izaskun Aldezabal

17:15
Itzulpen automatikoaren kalitate estimaziorako bi tresnen konparaketa: Quest++ eta sare neuronal bidezko hurbilketa
Ikaslea/Student:Garcia Sardiña, Laura
Zuzendariak/Supervisors: Gorka Labaka, Ilaki Alegria

18:00
Analysis, overview and Creation of an Arabic LVCSR
Ikaslea/Student: Puerto Gonzalez, Aratz
Zuzendariak/Supervisors: Eva Navas, Aitor Álvarez

18:45
Efficient Extraction of Parallel Corpora from Wikipedia
Ikaslea/Student: Rubio Astigarraga, Jon
Zuzendariak/Supervisors: Thierry Etchegoyhen, Gorka Labaka

HAP/LAP masterreko tesiak (2018-06-26)

Ekainean lau master tesi aurkeztu dira Hizkuntzaren Azterketa eta Prozesamendua masterrean

15:00
Noisy Speech Recognition using Kaldi and Neural Architectures
(Hizketa zaratatsuaren ezagutza Kaldi eta Neurona- arkitekturak erabilita)
Ikaslea/Student: Ander González Docasal
Zuzendariak/Supervisors: Vassilis Tsiaras, George P. Kafentzis, Yannis Stylianou

15:45
Unsupervised Methods to Predict Example Difficulty in Word Sense Annotation
(Hitzen adiera etiketatzeko zailtasunak aurrikusteko metodo ez-gainbegiratuak)
Ikaslea/Student: Cristina Aceta Moreno
Zuzendariak/Supervisors: Oier Lopez de Lacalle, Eneko Agirre, Izaskun Aldezabal

16:30
To post‐edit or to translate… That is the question.
A case study of a recommender system for Quality Estimation of Machine Translation based on linguistic feature
(Posteditatu edo itzuli?… Horra hor auzia.
Ezaugarri linguistikoetan oinarrituta Itzulpen Automatikoaren kalitatea aurreikusten duen sistema aholkulari baten kasu-azterketa)
Ikaslea/Student: Ona de Gilbert Bonet
Zuzendaria/Supervisor: Nora Aranberri

17:15
Basque‐to‐Spanish and Spanish‐to‐Basque Machine Translation for the health domain
(Osasungintzarako itzulpen sistema, euskara-espainiera eta gaztelania-euskara)
Ikaslea/Student: Xabier Soto García
Zuzendariak/Supervisors: Gorka Labaka, Olatz Perez de Viñaspre
Zuzendarikidea/Co‐advisor: Maite Oronoz

‘Gramatika sinesgaitza denean’, Linda Wiechetek-en tesia eta agurra

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlariak tesia defendatu du maiatzean, Ixa taldean oso ondo ezagutzen dugu, 2010ean gurean egin zuen egonaldi bat eta geroago ere harremanetan ibili gara murriztapen-gramatikak eta aditz-azpikategorizazioa direla-eta, eta horren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Euskara ere ikasi zuen gurekin : – )
Tesiaren ale bat bidali digu orain Lindak:
Valency and semantic categories in North Sámi syntactic analysis and
error detection.
Eta tesiko sarrerako hitz gozo hauek ekarri ditugu hona:
“I would like to thank the members of Basque language technology group IXA at Euskal Herriko Unibertsitatea, who were extremely welcoming and helpful (Kepa Sarasola and Amaia Lorenzo were great with all the administrative work and the application process, and Ruben Urizar lent me his bike), and who were ready to discuss exciting things within Constraint Grammar (Jose Mari Arriola), valency/semantic role annotation (Ainara Estarrona and Izaskun Aldezabal), and dependency annotation (Maxux Aranzabe) with me.
I really enjoyed our lunches with the people from Korta, and no one ever complained when I asked tons of questions about Basque grammar, history and culture : ) Eskerrik asko denei! Zorte ederra izan nuen zuekin euskera ikasteko abagunea izan nuenean. Eskerrik asko Antiguoko AEKko jendeei, hargatik! Not only did Basque morpho-syntax let me see North Sámi grammar in a different light, it also made me excited again about the immense variation in thinking (and expressing these thoughts in language) in this world.”

Tesia: Korreferentzia-ebazpena euskarazko testuetan (Ander Soraluze, 2017-07-12)

Tesiaren titulua: Korreferentzia-ebazpena euskarazko testuetan
Non: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 12, asteazkena
Ordua: 11:00etan
Egilea: Ander Soraluze Irureta
Zuzendariak: Olatz Arregi Uriarte / Patxi Xabier Arregi Iparragirre
Hizkuntza: Euskara-Ingelesa
Ikerketaren motibazioa, galderak:

Nazio Batuen Erakundea izan zen bitartekari eta hark hartu zuen prozesuaren ardura

Esaldi hori ulertu nahi badugu, jakin behar dugu “Nazio Batuen Erakundea“,  “bitartekari” eta “hark” testu-zatiek, hirurek, erakunde berari egiten diotela aipamena, erreferentziakide direla, korreferentzia egiteko hiru modu diferente direla. Zelan asmatu hori automatikoki? Zelan jakin testu-zatitxo bat noiz den erreferentzia bat eta ze kontzepturi egiten dion erreferentzia? Euskarazko testuetan, espainieraz edo ingelesezkoetan berdin berdin egin daiteke? Edo diferente egin behar da?

Tesia: CLIR teknikak baliabide urriko hizkuntzetarako (Xabier Saralegi, 2017-07-11)

Tesiaren titulua:  CLIR Teknikak Baliabide Urriko Hizkuntzetarako
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 11, asteartea
Ordua: 11:30etan
Egilea: Xabier Saralegi Urizar
Zuzendariak: Eneko Agirre Bengoa eta Iñaki Alegria Loinaz
Hizkuntza: Euskara
Ikerketaren motibazioa, galderak:

Testuinguru eleaniztunak ugariak dira mundu osoan. Europako biztanleen erdiak, adibidez, eleaniztunak dira. Programa bilatzaile elebakar klasikoak ez dira eraginkorrak horrelako eszenatokietan non erabiltzaileak eleaniztunak izaten diren eta testuzko informazioa hizkuntza ezberdinetan kodetuta egoten den. Tesi honetan hizkuntza arteko bilatzaileak (Cross Lingual Information Retrieval edo CLIR) garatzeko teknika berriak landu ditugu. Arreta, baliabide urriko hizkuntzetarako egokiak diren tekniketan jarri dugu, honelako hizkuntzak baitira testuinguru eleaniztun gehienetan aurkitzen ditugunak.

Tesia: Integrazioa hizkuntzaren prozesamendua (Zuhaitz Beloki, 2017-07-10)

Tesiaren titulua:  Integrazioa hizkuntzaren prozesamendua
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 10, astelehena
Ordua: 12:00etan
Egilea: Zuhaitz Beloki Leitza
Zuzendariak: Xabier Artola eta Aitor Soroa doktoreak
Hizkuntza: Euskara

Ikerketaren motibazioa, galderak:

Hizkuntzaren prozesamendua prozesu konplexua da. Informatikan horrelakoetan zailtasuna hainbat modulutan banatzen da. Baina nola konpartitu informazioa modulu guzti horien artean? Nola integratu informazio mota desberdinak? Nola errepresentatu informazioa modulu guztien lana integratu ahal izateko?
AWA anotazio-eskema ahaltsua eta NAF anotazio-eskema praktikoa garatu dira tesi honetan, edozein anotazio-eskemaren arteko elkarreragingarritasunean oinarrizko pausoak definitu dira, eta testu-dokumentu kopuru erraldoien prozesaketa eskalagarria gauzatzeko sistema bat diseinatu eta garatu da.

Tesia: Bertso-neurketa automatikoa (Manex Agirrezabal, 2017-06-19)

Tesiaren titulua:  Automatic Scansion Of Poetry (Bertso-neurketa automatikoa)
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 12:00etan
Egilea: Manex Agirrezabal Zabaleta
Zuzendariak: Iñaki Alegria Loinaz eta Mans Hulden doktoreak
Hizkuntza: Ingelesa

Ikerketaren motibazioa, galderak:

  • Zer jakin behar dugu bertso idatzi baten neurria eta erritmoa automatikoki analizatzeko?
    Zelan detektatu dezakegu?
  • Ezagutza linguistikoa erabiltzeak lagundu dezake poesia automatikoki analizatzeko?
    Ingeleserako lortutako metodoa baliagarria izango da espainierarako?
    Euskararako?
  • Posible al da bertso baten neurria analizatzea batere ezagutza linguistikorik erabili gabe?
    Horrelako analisi batean lortuko diren emaitzak interpretagarriak izango dira?

Manex_tesiko_irudia

Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.

IKERGAZTE sari bat Begoña Altunari

Giza Zientziak eta Artea alorrean egindako aurkezpen onenari saria irabazi zuen Begoña Altuna ixakideak IKERGAZTE Kongresuan Iruñean pasa den ostiralean Artikulua Kongresuko artikulu bilduman irakur dezakezu 127. orrialdean.

Bego_Altuna_Saria_Ikergazte2017

Begoñaren tesian euskarazko testuetan zer kontatzen den erauzi nahi dute, informazio faktuala jasotzen dute. Horrelakoetan ezeztapen bat agertzen denean lana dezente zailtzen da. Horixe da Begoñak ikertu duena. Beste hizkuntzetarako lanak ikertu, euskaraz ezeztapena nola gauzatzen den aztertu eta euskarazko ezeztapen-informazio hori kodetzeko eskema bat sortu du.

ZORIONAK Begoñari eta bere zuzendariak diren Arantzari eta Maxuxi!

Bego_Altuna_saria_Ikergazte2017

IKERGAZTE kongresuko aktetan 127. orrialdean aurkituko duzu artikulua

Uxoa-rentzat #txiotesia3 sari bat

Uxoa Iñurrieta Ixakideak irabazi du #txiotesia3 txapelketako sari bat, ekarpen ulergarrienaren saria izan da berea. ZORIONAK!
Irakurri behean Uxoaren 6 txioak:
txiotesia3_saria_2016

1 Izen+aditz konbinazioen itzulpena: azterketa linguistikoa eta tratamendu konputazionala

2 Izen+aditz konbinazio batzuk Unitate Fraseologikoak (UF) dira: konbinazio osoari begiratu behar zaio esanahia ondo ulertzeko

  • 3 Normalean ez dira hitzez hitz itzultzen, baina asko ez daude hiztegietan, eta denek ez dituzte gramatika-arauak jarraitzen

  • 4 Matxin itzultzaile automatikoari, oinarrian gramatika-arauak eta hiztegiak dituenez, UFak oso nahasgarri gertatzen zaizkio

    5 Bi erronka nagusi: gaztelaniazko UFak identifikatzea eta euskarara zuzen itzultzea. Konbitzul datu-basea lagungarria da bietan

    6 Konbitzulen jasotako UFei, ordainei eta informazio linguistikoari esker, Matxinek gero eta hobeto itzuliko ditu UFak

Ixa Taldeko beste bost tesitxiolari izan dira