Hemen zaude: Hasiera Ziztu bizian Olatz Perez de Viñaspre: “SNOMED CTk, medikuntza alorreko sare semantikoak, milioi bat termino inguru barnebiltzen ditu, guztiak eskuz euskaratzea lan oso neketsua da”

Dokumentuaren akzioak

Olatz Perez de Viñaspre: “SNOMED CTk, medikuntza alorreko sare semantikoak, milioi bat termino inguru barnebiltzen ditu, guztiak eskuz euskaratzea lan oso neketsua da”

2013/06/26 - Unibertsitatea.net
Olatz Perez de Viñaspre Sistemen Informatikan Ingeniari Teknikoa eta Informatikan Ingeniaria da eta IXA taldeak eskaintzen dituen Karrera Bukaerako Proiektu bati esker eman zituen Lengoaia Naturalen Prozesamenduan lehenengo urratsak.

SNOMED CT medikuntza inguruko terminologia euskaratu du, Olatz Perez de Viñaspre (1987/06/19) UEUkideak. UPV/EHUn Hizkuntzaren Azterketa eta Prozesamendua Masterra otsailean bukatu eta SNOMED CT sare semantikoa euskaratzeko aplikazioa tesia ere aurkeztu zuen. Sistemen Informatikan Ingeniaritza Teknikoa eta  Informatikan Ingeniaritza ikasketez gain, orain doktoretzan dabil buru belarri, lan eta lan. Baina, gaurkoan, bere masterreko tesiaz hitz egingo dugu. 

Nola hasi zinen edo nola aukeratu zenuen bide hau?

Sistemen Informatikan Ingeniaritza Teknikoa ikasten nenbilela, IXA taldeak eskaintzen dituen Karrera Bukaerako Proiektu bat aukeratu nuen, Maite Oronoz irakaslearen zuzendaritzapean. Proiektu honek Lengoaia Naturalen Prozesamenduan nire lehenengo urratsak emateko aukera eman zidan, galderak erantzuteko sistema batean (Ihardetsi) sintaxi-informazioaren erabilera eta ekarpena aztertuz. Asko gustatu zitzaidan lerro honi jarraipena eman nahi izan nion, eta horrela IXA taldearekin lan-poltsa batekin lanean hasi nintzen, gaur arte.

Zerrek bultzatuta hasi zinen masterrean?

Egia esanda, IXA taldean lanean hasi nintzenean Doktoretza egiteko aukera zabaldu zitzaidan, eta bide horri jarraituz emandako urrats bat gehiago izan da Masterra. Hizkuntzaren Azterketa eta Prozesamendua masterra Doktoretzan aurrera egiteko beharrezko ezagutza eta gaitasunak lortzen oso lagungarria izan da.

SNOMED CT sare semantikoa euskarazko lehen urratsak eman dituzue tesian, ezta?

"SNOMED CT sare semantikoa euskaratzeko aplikazioa" da Masterreko tesiaren izenburua, nahiz eta benetan horretarako lehen urratsak garatu ditugun, aplikazio osoaren diseinua egin dugu.

Zer jorratzen duzu tesian? Eta nolatan bururatu zitzaizun inguru honetan, osasunaren munduan, murgiltzea?

Gaur egun medikuntzaren alorrean dagoen terminologia eleanitz ulergarriena kontsideratzen den SNOMED CT euskaratzeko ahaleginetan gaude, itzulpen automatikoak eskaintzen dituen abantailak baliatuz. Izan ere SNOMED CTk milioi bat termino inguru barnebiltzen ditu, guztiak eskuz euskaratzea lan oso neketsua da. Horrela, guk euskarazko ordain hautagaiak proposatzen ditugu, gerora adituek zuzendu eta balioztatu beharko dituztenak.

Nire doktoretza zuzendariaren (Maite Oronoz) eskaintza izan zen osasun munduan murgiltzea. Berak denbora bat zeraman Lengoaia Naturalen Prozesamendua osasun arloan lantzen, eta niri ideia ona iruditu zitzaidan. Tamalez alor honetan ez ditugu euskarazko baliabide lexikal zabal eta bateratuak, eta horrela sortu zitzaigun SNOMED CT euskaratzeko proiektua.

Zein izan da tesiaren prozesua?

Lehenengo urratsa SNOMED CT sakonki aztertzea izan zen, bai Ingelesezko zein Gaztelaniazko bertsioak. Azterketa honen bidez, SNOMED CT euskaratzeko jatorrizko bertsioa aukeratu genuen (Ingelesa, sendoagoa baita) eta termino edota deskribapenen egiturak aztertu genituen. Horrela, euskaratzea egiteko algoritmo bat definitu genuen, termino edota deskribapenak euskaratzeko urrats ezberdinak ezarriz. Honetaz gain, SNOMED CTren euskaratze prozesuan beharrezko informazioa adierazteko eta egituratzeko formalismo bat egokitu genuen. Azkenik, definituriko algoritmoko lehenengo urratsa inplementatu genuen, hau da, SNOMED CTko terminoak hiztegi espezializatuetan bilatu eta hauen euskal ordainak jaso genituen. Honetaz gain, SNOMED CT eta Gaixotasunen Nazioarteko Sailkapenaren 10. bertsioaren (GNS-10) arteko mapaketa erabili dugu, euskarazko GNS-10ko terminoak SNOMED CTn gehitzeko.

Etorkizunean, tesian jorratu ezin izan dituzun terminologiarekin jarraituko duzu?

Bai, hala da, momentuz jarraitu egingo dugu. Une honetan algoritmoaren bigarren urratsa inplementatzen gabiltza: hitz bakarreko gaixotasunen terminoak medikuntzako eta biologiako aurrizki eta atzizkien bitartez euskaratzen. Hau da, hitzak aurrizki eta atzizkietan banatzen ditugu, eta gero zati bakoitzaren euskarazko ordainak elkartuz sortzen ditugu terminoak. Horrela, hiztegietan agertzen ez diren euskarazko terminoak sortzen ditugu. Aipatu beharra dago, lan honetarako eskuz aurrizki eta atzizkien ingelesetik euskararako baliokidetzak egin ditugula, 2.300 parekatze inguru lortuaz.

txiotesia,elkarrizketa

 

 

 

(txiotesia1, txiotesia3, txiotesia4)