Hizkuntzaren Prozesamendua ikasgaiko praktika ikusgarri bat

Informatika Ingeniaritzako Hizkuntzaren Prozesamendua ikasgaian (HP) aurtengo ikasleek hainbat lan praktiko interesgarri garatu dituzte. Horien artean, Pello Arrue ikasleak Uztarria Azpeitiko aldizkaria aztertu du. 2001tik 2017ra arteko artikulu guztiak (17.034) batu ditu eta bi ikuspuntutatik aztertu ditu. Alde batetik, agertzen diren entitate izendun guztiak erauzi ditu (pertsonak, tokiak, erakundeak…). Eta bestetik, aurkitutako entitateak aldizkariaren gaien arabera sailkatu ditu. Hau da, IXA taldeak sortu duen Ixa-pipes tresna erabili du hasieran testu horiek masiboki analizatzeko, eta gero kontatu ditu entitate izendun bakoitzaren errepikapenak aldizkariko sail bakoitzean.
Esate baterako, irudian 16 urteotan gehien aipatu diren kirolariak ikus daitezke http://www.estadistikakazpeitia.pe.hu/perKirolak.php
Beste kontsulta batzuk egin ditzakezu. Saia zaitez!

LAN BIKAINA, PELLO!


Hizkuntzaren Prozesamendua ikasgaiaren helburu nagusia giza-lengoaiak (hizkuntzak) ordenagailu bidez tratatzeko dauden teknikak eta aplikazioak ezagutzea eta aplikatzea da. Hizkuntz industrien barruan kokatzen diren aplikazioen artean honakoak sartzen dira: Testuen edizioa, Informazioa bilatzea, informazioa erauztea, ezagutzaren kudeaketa, itzulpen automatikoa, lengoaia naturaleko interfazeak edo ahozko hizkuntzaren tratamendua.

Tesia: Korreferentzia-ebazpena euskarazko testuetan (Ander Soraluze, 2017-07-12)

Tesiaren titulua: Korreferentzia-ebazpena euskarazko testuetan
Non: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 12, asteazkena
Ordua: 11:00etan
Egilea: Ander Soraluze Irureta
Zuzendariak: Olatz Arregi Uriarte / Patxi Xabier Arregi Iparragirre
Hizkuntza: Euskara-Ingelesa
Ikerketaren motibazioa, galderak:

Nazio Batuen Erakundea izan zen bitartekari eta hark hartu zuen prozesuaren ardura

Esaldi hori ulertu nahi badugu, jakin behar dugu “Nazio Batuen Erakundea“,  “bitartekari” eta “hark” testu-zatiek, hirurek, erakunde berari egiten diotela aipamena, erreferentziakide direla, korreferentzia egiteko hiru modu diferente direla. Zelan asmatu hori automatikoki? Zelan jakin testu-zatitxo bat noiz den erreferentzia bat eta ze kontzepturi egiten dion erreferentzia? Euskarazko testuetan, espainieraz edo ingelesezkoetan berdin berdin egin daiteke? Edo diferente egin behar da?

Tesia: CLIR teknikak baliabide urriko hizkuntzetarako (Xabier Saralegi, 2017-07-11)

Tesiaren titulua:  CLIR Teknikak Baliabide Urriko Hizkuntzetarako
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 11, asteartea
Ordua: 11:30etan
Egilea: Xabier Saralegi Urizar
Zuzendariak: Eneko Agirre Bengoa eta Iñaki Alegria Loinaz
Hizkuntza: Euskara
Ikerketaren motibazioa, galderak:

Testuinguru eleaniztunak ugariak dira mundu osoan. Europako biztanleen erdiak, adibidez, eleaniztunak dira. Programa bilatzaile elebakar klasikoak ez dira eraginkorrak horrelako eszenatokietan non erabiltzaileak eleaniztunak izaten diren eta testuzko informazioa hizkuntza ezberdinetan kodetuta egoten den. Tesi honetan hizkuntza arteko bilatzaileak (Cross Lingual Information Retrieval edo CLIR) garatzeko teknika berriak landu ditugu. Arreta, baliabide urriko hizkuntzetarako egokiak diren tekniketan jarri dugu, honelako hizkuntzak baitira testuinguru eleaniztun gehienetan aurkitzen ditugunak.

Tesia: Integrazioa hizkuntzaren prozesamendua (Zuhaitz Beloki, 2017-07-10)

Tesiaren titulua:  Integrazioa hizkuntzaren prozesamendua
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailak 10, astelehena
Ordua: 12:00etan
Egilea: Zuhaitz Beloki Leitza
Zuzendariak: Xabier Artola eta Aitor Soroa doktoreak
Hizkuntza: Euskara

Ikerketaren motibazioa, galderak:

Hizkuntzaren prozesamendua prozesu konplexua da. Informatikan horrelakoetan zailtasuna hainbat modulutan banatzen da. Baina nola konpartitu informazioa modulu guzti horien artean? Nola integratu informazio mota desberdinak? Nola errepresentatu informazioa modulu guztien lana integratu ahal izateko?
AWA anotazio-eskema ahaltsua eta NAF anotazio-eskema praktikoa garatu dira tesi honetan, edozein anotazio-eskemaren arteko elkarreragingarritasunean oinarrizko pausoak definitu dira, eta testu-dokumentu kopuru erraldoien prozesaketa eskalagarria gauzatzeko sistema bat diseinatu eta garatu da.

Osasuna eta hizkuntza (Bilbo hiria Irratia, 2017/06/27)

BilboHiriaIrratia_Maite_Osasuna eta hizkuntza jardunaldiak egin dira ekainaren 27 eta 28an EHUko udako ikastaroen barruan. Osasungintza euskaratzen dabilen komunitatea batu egin da Bizkaia aretoan. Bilbo Hiria irratiak 11 grabazio argitaratu ditu jardunaldien inguruan. Grabazio batean Olatz Perez de Viñaspre eta Maite Oronoz ixakideak azaldu dira. Beraien arabera, osasun arloan euskaraz aritu nahi badugu, ezinbestekoa da terminologia finkatzea. Osasun langilearengana hurbildu eta “tengo rotura del tendón del músculo esplenio del cuello” esan ordez “lepoko esplenio giharraren tendoia hautsia dut” esateko gai bagara, euskararen normalizazio prozesuan aurrerapauso izugarria egina izango dugu. Horretan dihardute Olatzek eta Maitek. Terminologia itzulpen automatikoan garatu ostean orain testuak automatikoki itzultzeko ikerketan murgilduta daude.

Entzun irrati-programa hemen

Igone Zabala Ixakidearekin ere hitz egin dute EHUren ekarpena euskarako terminologia teknikoaren garapenaz. Ehunduz programako koordinatzailea da bera. Euskararen gaineko ikerketa aplikatua dute xede nagusi, baina beste hizkuntza batzuetan ikertzen eta produktuak garatzen ere aritzen dira. Terminologi teknologia ehunduz programa azaldu du. Entzun Igone Zabalaren hitzak hemen:

 

Beste esteka batzuk:

 

Tesia: Bertso-neurketa automatikoa (Manex Agirrezabal, 2017-06-19)

Tesiaren titulua:  Automatic Scansion Of Poetry (Bertso-neurketa automatikoa)
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 12:00etan
Egilea: Manex Agirrezabal Zabaleta
Zuzendariak: Iñaki Alegria Loinaz eta Mans Hulden doktoreak
Hizkuntza: Ingelesa

Ikerketaren motibazioa, galderak:

  • Zer jakin behar dugu bertso idatzi baten neurria eta erritmoa automatikoki analizatzeko?
    Zelan detektatu dezakegu?
  • Ezagutza linguistikoa erabiltzeak lagundu dezake poesia automatikoki analizatzeko?
    Ingeleserako lortutako metodoa baliagarria izango da espainierarako?
    Euskararako?
  • Posible al da bertso baten neurria analizatzea batere ezagutza linguistikorik erabili gabe?
    Horrelako analisi batean lortuko diren emaitzak interpretagarriak izango dira?

Manex_tesiko_irudia

Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.

Itzulpengintza automatiko neuronala. Jardunaldi irekia Kyunghyun Cho adituarekin (2017-05-29)

Itzulpengintza automatikoaren hirugarren belaunaldia garatzen ari da. Garai batean erregela linguistikoetan oinarritutako sistemak ziren nagusi (RBMT teknologia), azken hamarkadan, berriz, estatistikan oinarritutako sistemak gailentzen joan dira (SMT teknologia), eta azken bi urtetan neurona-sareetan oinarritutako sistemek hobekuntza kualitatiboak lortzen ari dira (NMT teknologia), teknologia hau ikergai nagusia bihurtuz itzulpengintza automatikoaren arloan. Jardunaldi honetan teknologia horren azken aurrerapenak aurkeztu nahi ditugu, euskararen gainean lortu ditugun emaitzak barne.

Modela_irudia11Testuingurua:

NMT teknologian ikertzea eta, are gehiago, erronka handia den euskararen itzulpen automatiko onargarrira iristea da Modela proiektuaren helburua. Modela proiektua Eusko Jaurlaritzak finantzatzen du eta honako erakundeak dira partaideak: Ametzagaiña, Elhuyar, ISEA, UPV/EHUko Ixa taldea eta Vicomtech/IK4.

Gonbidatua:

Jardunaldi honen gonbidatu nagusia Kyunghyun Cho (Center for Data Science, New York University), ikerlari ezaguna da. NMT arloan aditu erreferentziatuenetako bat da, Google saria jaso du gai horretan eta hizlari bikaina ere bada.

Noiz: 2017ko maiatzaren 29, goizeko 11.00etan
Non: EHUko Informatika Fakultatea, ManuelLardizabal 1, 20018 Donostia (mapa)
Hizkuntza: ingelesa
Programa:

11.00-11.15: Sarrera eta proiektuaren aurkezpena
11.15-12.30: NMT (Kyunghyun Cho)
12.30-13.15: Modela proiektuaren lehen emaitzak

Babesleak: Modela proiektua eta UPV/EHUko Gipuzkoako errektoreordetza

Biharamonean 15:00ean, maiatzak 30, HAP masterreko ikasleekin arituko da Kyunghyun Cho irakaslea.

Modela_irudia3

IKERGAZTE sari bat Begoña Altunari

Giza Zientziak eta Artea alorrean egindako aurkezpen onenari saria irabazi zuen Begoña Altuna ixakideak IKERGAZTE Kongresuan Iruñean pasa den ostiralean Artikulua Kongresuko artikulu bilduman irakur dezakezu 127. orrialdean.

Bego_Altuna_Saria_Ikergazte2017

Begoñaren tesian euskarazko testuetan zer kontatzen den erauzi nahi dute, informazio faktuala jasotzen dute. Horrelakoetan ezeztapen bat agertzen denean lana dezente zailtzen da. Horixe da Begoñak ikertu duena. Beste hizkuntzetarako lanak ikertu, euskaraz ezeztapena nola gauzatzen den aztertu eta euskarazko ezeztapen-informazio hori kodetzeko eskema bat sortu du.

ZORIONAK Begoñari eta bere zuzendariak diren Arantzari eta Maxuxi!

Bego_Altuna_saria_Ikergazte2017

IKERGAZTE kongresuko aktetan 127. orrialdean aurkituko duzu artikulua