Tesia: Bertso-neurketa automatikoa (Manex Agirrezabal, 2017-06-19)

Tesiaren titulua:  Automatic Scansion Of Poetry (Bertso-neurketa automatikoa)
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 12:00etan
Egilea: Manex Agirrezabal Zabaleta
Zuzendariak: Iñaki Alegria Loinaz eta Mans Hulden doktoreak
Hizkuntza: Ingelesa

Ikerketaren motibazioa, galderak:

  • Zer jakin behar dugu bertso idatzi baten neurria eta erritmoa automatikoki analizatzeko?
    Zelan detektatu dezakegu?
  • Ezagutza linguistikoa erabiltzeak lagundu dezake poesia automatikoki analizatzeko?
    Ingeleserako lortutako metodoa baliagarria izango da espainierarako?
    Euskararako?
  • Posible al da bertso baten neurria analizatzea batere ezagutza linguistikorik erabili gabe?
    Horrelako analisi batean lortuko diren emaitzak interpretagarriak izango dira?

Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.

IKERGAZTE sari bat Begoña Altunari

Giza Zientziak eta Artea alorrean egindako aurkezpen onenari saria irabazi zuen Begoña Altuna ixakideak IKERGAZTE Kongresuan Iruñean pasa den ostiralean Artikulua Kongresuko artikulu bilduman irakur dezakezu 127. orrialdean.

Bego_Altuna_Saria_Ikergazte2017

Begoñaren tesian euskarazko testuetan zer kontatzen den erauzi nahi dute, informazio faktuala jasotzen dute. Horrelakoetan ezeztapen bat agertzen denean lana dezente zailtzen da. Horixe da Begoñak ikertu duena. Beste hizkuntzetarako lanak ikertu, euskaraz ezeztapena nola gauzatzen den aztertu eta euskarazko ezeztapen-informazio hori kodetzeko eskema bat sortu du.

ZORIONAK Begoñari eta bere zuzendariak diren Arantzari eta Maxuxi!

Bego_Altuna_saria_Ikergazte2017

IKERGAZTE kongresuko aktetan 127. orrialdean aurkituko duzu artikulua

Uxoa-rentzat #txiotesia3 sari bat

Uxoa Iñurrieta Ixakideak irabazi du #txiotesia3 txapelketako sari bat, ekarpen ulergarrienaren saria izan da berea. ZORIONAK!
Irakurri behean Uxoaren 6 txioak:
txiotesia3_saria_2016

1 Izen+aditz konbinazioen itzulpena: azterketa linguistikoa eta tratamendu konputazionala

2 Izen+aditz konbinazio batzuk Unitate Fraseologikoak (UF) dira: konbinazio osoari begiratu behar zaio esanahia ondo ulertzeko

  • 3 Normalean ez dira hitzez hitz itzultzen, baina asko ez daude hiztegietan, eta denek ez dituzte gramatika-arauak jarraitzen

  • 4 Matxin itzultzaile automatikoari, oinarrian gramatika-arauak eta hiztegiak dituenez, UFak oso nahasgarri gertatzen zaizkio

    5 Bi erronka nagusi: gaztelaniazko UFak identifikatzea eta euskarara zuzen itzultzea. Konbitzul datu-basea lagungarria da bietan

    6 Konbitzulen jasotako UFei, ordainei eta informazio linguistikoari esker, Matxinek gero eta hobeto itzuliko ditu UFak

Ixa Taldeko beste bost tesitxiolari izan dira

 

#txiotesia3. Hizkuntza-teknologia arloko tesiak

Azaroaren 22an Unibertsitatea.net atariak antolatu duen #txiotesia3 ekimenean gutxienez 6 izan dira hizkuntza teknologiaren inguruko tesiak. Guztira 52 ikertzailek parte hartu zuten, aurreko edizioan baino %13 gehiago.
Sari banaketa abenduaren 1ean izango da Donostiako Garoa liburu dendan, bertan  unibertsitatea.net atariaren 10. urteurrena ospatu eta mahai-inguru bat ere izango da.

Hauek dira Hizkuntza-Teknologiako txio-tesilariak:


Uxoa Iñurrieta barrezka Matxinekin (Wolfram deuna)

wofram11uxoa_matxin_umorea_bergaraAtzo, Uxoa Iñurrietak parte hartu zuen Wolfram deuna 2016 umorezko saioan. Ikusi behean Teknopolis programako albistea (Uxoarena: 2’10”).

Bai, itzultzaile automatikoen esaldiak barregarri xamarrak izaten dira batzuetan. Horrelako adibide batzuekin bere tesi-lanaren motibazioa erakutsi zigun.

 

Errore horietako batzuk konpontzearren tesian egiten ari dena ikusi nahi baduzu…

Hitzaldia: Modernitaterako balio zuen euskarak? (A. Farwell, 2016-10-11)

Aritz Farwell (Arg.: Mikel Mtz. de Trespuentes)

Jo-ta-fuego gabiltza IXA taldean euskara murgiltzen teknologia berrietan, baina orain dela 100 urte uste zabaldua zen euskara baserrirako eta familiarako bakarrik balio zuela.
Horixe izan da Aritz Farwell-en aurten defenditu duen tesiaren gaia. Asteartean laburpen bat eskainiko digu.

Gaia: Modernitaterako balio du euskarak? Orain dela 100 urteko ikuspegia
Hizlaria:
Aritz Farwell Castillo Los Angeleseko Pitzer Collegen Historian lizentziatu ondoren, University of Chicagon egin zuen masterra. Duela hamar urte Euskal Herrira heldu zen doktoregoa egitera. 2016ko otsailaren 3an defendatu zuen UPV/EHUko Gizarte eta Komunikazio Zientzien Fakultatean ‘Borne Before the Moone: A Social and Political History of Basque at the Dawn of the Twentieth Century‘ tesia.
Eguna: urriaren 11an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:

Ikerlariaren arabera, gizartearen gehiengoak iritzi hauek partekatzen zituzten euskararen inguruan: “besteak beste, iraganeko erlikia bat bezala ikusten zen, zabartua zegoena, desagertzeko mehatxua gainean zuena, gutxietsia, bizitza publikotik at, linguistikoki irla bat, euskal herritarren jatorrizko hizkuntza eta beheko klasearen hizkuntza”. Horiek guztiak, hala ere, Farwellen esanetan, pertzepzioak ziren, tesian zehar azaltzen den bezala, esate baterako, “euskara ez baitzegoen eremu publikotik erabat baztertua”.

HAP/LAP masterreko lau tesiren defentsa

Eguna: irailaren 27a     Lekua: Ada Lovelace aretoa

15:30
Universal Dependencies for Buryat.
Egilea: Elena Badmaeva
Tutoreak: Koldo Gojenola , Gosse Bouma

16:15
LexSynSimpleText, a lexical and syntactic simplifier: first steps.
Egilea: Maria Eguimendia
Tutoreak: Arantza Diaz de Ilarraza and Gosse Bouma

17:00
Data Sparsity in Highly Inflected Languages: The Case of Morphosyntactic Tagging in Polish.
Egilea: Michael Ustaszewski
Tutoreak: Rodrigo Agerri and German Rigau

17:45
Multilingual Central Repository version 3.0: improving a very large lexical knowledge base.
Egilea: Daniel Parera Perez
Tutoreak: German Rigau Claramunt

Bideoa: HAP/LAP master-tesia (Mikel Artetxe)

Mikel Artetxe-k maiatzaren 17an aurkeztu zuen bere master tesia HAP-LAP Masterrean

Lan sakon horretan aztertu du Itzulpen Automatikoa hobetzeko nola txertatu hitzen adierazpen distribuzionala (word embedding) eta ikasketa automatikoa.

Orain EHUtb-n ikus dezakezu aurkezpen osoa.

HAP_LAP_artetxeTBDistributional Semantics and Machine Learning for Statistical Machine Translation
Egilea: Mikel Artetxe Zurutuza
Tutoreak: Eneko Agirre eta Gorka Labaka

HAP/LAP masterra Master-tesien defentsak

Eguna : maiatzaren 17a
Lekua: Ada Lovelace aretoa

11:00
Adverse Drug Reaction event extraction on Electronic Health Records written in Spanish.
Egilea: Sara Santiso González
Tutoreak: Alicia Pérez eta Arantza Casillas
Epaimahaia: Eva Navas, Montse Maritxalar Arantza Casillas

11:45
Distributional Semantics and Machine Learning for Statistical Machine Translation
Egilea: Mikel Artetxe Zurutuza
Tutoreak: Eneko Agirre eta Gorka Labaka
Epaimahaia: Eva Navas, Montse Maritxalar, Gorka Labaka