Hemen zaude: Hasiera Ziztu bizian Ander Intxaurrondo: “Ikerketaren bidez mundua ezagutzen hasteko ateak irekitzen zaizkizu”

Dokumentuaren akzioak

Ander Intxaurrondo: “Ikerketaren bidez mundua ezagutzen hasteko ateak irekitzen zaizkizu”

2016/04/08 - Unibertsitatea.net
Ander Intxaurrondo Gonzalez de Langarika ikertzaile gasteiztarrak Informatika ingeniaritza ikasi ondoren, Hizkuntzaren Azterketa eta Prozesamendua graduondokoa hautatu zuen; eta master horrekin batera ekin zion bere ikerketa ibilbideari Euskal Herriko Unibertsitateko IXA taldearekin batera. Iaz egin zuen bere doktoretza lanaren defentsa, 2015eko maiatzean; hain zuzen, IkerGazte kongresua hasi zen egun berean: “Aurkezpena egin eta zuzenean joan nintzen Durangora”. Bertan jendarteratu zuen "Lurrikarei buruzko informazioa eskuratzen Twitter bidez" artikuluaren inguruan aritu gara.

Zer dela eta aukeratu zenuen gai hau?

Aurkeztutako lan honetan nire tesiaren azken urteetako lanaren oinarriak topatu ditzakegu. Ikerketa arlo honen helburua honakoa da: Twitterretik gertaera desberdinei buruzko informazio interesgarri asko topatu dezakegula frogatzea. Esperimentuetarako aukeratu genuen domeinua lurrikarena izan zen.

Ikerketa lanaren emaitza bezala gertaera erauzketa sistema bat garatu duzue eta berau lurrikaretan aplikatu: zer da sistema hori eta nola funtzionatzen du?

Gure sistema frogatarako bakarrik garatu genuen, ez da denbora errealeko sistema bat. Sistema honek, oinarri bezala, azken urteetako lurrikarei buruzko ezagutza-base bat dauka, eta lurrikara horiei buruzko hainbat txio. Lurrikarak bi sortatan banatu ditugu: entrenamendurako erabiliko dira batzuk, eta besteak konprobaketetarako.

Hasteko, sistemak entrenamendurako txioak aztertzen ditu, hitz bakoitzaren kategoria gramatikalak eskuratu, lematizatu, zein entitate mota den aztertu (pertsona, erakundea, lekua, zenbakia, epea,...), eta, azkenik, hitzak ezagutza-baseko zein informazio ematen duen zehaztu. Sistemak txio guztien egitura “ikasiko” du, “sailkatzaile” deitzen den programa baten bidez. Hau izango da sistemaren burmuina.

Behin burmuinak ikasi duela, gainontzeko txioak jasotzen ditu, hauek aztertu, eta informazioa zein den asmatzen saiatzen da. Amaitzeko, sistemak egindako iragarpenak ezagutza-basearekin ebaluatzen ditugu, ea asmatutako edukia zuzena den hala ez jakiteko.

Zergatik aukeratu dituzue lurrikarak?

Lurrikaren domeinua oso interesgarria da, baina gure arloan ez dago domeinu honekin ezer eginda. Orokorrean pertsona, erakunde eta tokiei buruzko informazioa erauzi ohi da, eta guk beste zerbaitekin probatu nahi genuen -hondamendi naturalen bat adibidez, monotoniatik aldentzeko-. Lurrikarak aukeratu genituen informazio kantitate handiak lortu ditzakegulako, hala nola lurrikara gertatu den lekua, magnitudea, eguna, ordua, hildako eta zauritu kopurua, eta erreplika kopurua, besteak beste. Guztira 20 argumentu desberdinei buruzko informazioa eskuratzeko gai gara.

Urruneko gainbegiraketara jo behar izan duzuela dio artikuluak, baina zer da urruneko gainbegiraketa?

Informazio erauzketako paradigma bat da urruneko gainbegiraketa. Azken urteetan oso modan jarri da. Teknika honek informazioa automatikoki etiketatzen du dokumentu-bilduma handietan, ezagutza-baseak oinarri bezala erabiliz.

Gehien erabiltzen den paradigma “ikasketa gainbegiratua” da. Paradigma honetan, dokumentuetako informazioa eskuz etiketatzen da, zehaztasuna eta kalitatea bermatuta edukitzeko. Sistema onenek paradigma hau aplikatzen dute. Zoritxarrez, etiketatze-prozesua oso garestia da, eta denbora asko behar da dokumentu gutxi batzuk etiketatzeko.

Urruneko gainbegiraketaren bidez, ordea, etiketatzea automatikoa da eta ordu gutxitan milaka dokumentu etiketatu daitezke. Hala ere, etiketatutako informazio asko zaratatsu izan ohi da. Emaitzak ez dira gainbegiratuak ematen dituenak bezain onak, eta asko ikertu beharra dugu oraindik hau hobetzeko. Nire tesian hobekuntza batzuk nola lortu ikertu dut.

Bestak beste, lurrikarei buruzko ezagutza base publiko bat da ikerketaren emaitza. Zer aurkituko dugu bertan eta zein da base honen ekarpena?

Ezagutza base hau ingelesezko Wikipediako infotauletan oinarrituta dago. Wikipedian, lurrikara baten orrialdean sartzen bazarete, eskuinaldean honi buruzko informazioa topatuko duzue, taula batean laburtuta. Taula horiek lurrikararen lekua, ordua, hildakoak eta beste hainbat informazio biltzen dute. Guk informazio hori bildu dugu gure esperimentuetarako, baina informazio asko falta da, edo ez da guztiz zehatza. Gure sistemak ezagutza-base hori osatzen laguntzen du.

Gainera, lan hau ez dago lurrikaretarako bakarrik pentsatuta. Nahi dugun domeinutan aplikatu daiteke; hondamendi natural desberdinetan, hegazkin istripuetan, eta abar. Horretarako behar duguna ondorengoa da: domeinu horri buruzko ezagutza-base bat, eta corpus bat. Corpus horretan ezagutza-basea osatzeko behar dugun informazioa topatuko dugu.

Twitter baliabide ona bilakatu da denbora errealean gertaera desberdinei buruko datuak lortzeko, batez ere, era azkarrean; hortaz, bestelako zer esparrutan aplika genezake zuen sistema?

Guk aplikatutako teknikak orokorrean berri-agentzien dokumentuetan aplikatzen dira; hortik kanpo ez da lan handirik egin. Twitter oraindik ez da asko erabiltzen, baina erabili daitekeela frogatu dugu. Alternatiba bezala elkarrizketak erabili ditzakegu, blogarien artikuluak, aldizkarietako kronikak, eta beste hainbat.

Gure sistema ez da denbora errealekoa, baina denbora errealean erabiltzeko potentzial handia dauka.

Zeintzuk dira zure ikerketaren ondorio nagusiak? Eta etorkizuneko ikerlerroak?

Nire ikerketa urruneko gainbegiraketan zentratu da, hainbat dokumentutatik erlazioak eta gertaerak honen bidez erauzteko asko erabiltzen dena. Paradigma honen bidez ez dira oso emaitza onak lortzen, baina potentzial handia dauka. Honek dituen zailtasun nagusiak aztertu ditut, eta hauei konponbideak bilatu. Zailtasun nagusienetako bat honek sortzen duen informazio zaratatsu kantitate handia da; hauek topatuz eta ezabatuz, sistemen eraginkortasuna asko hobetzen da. Horrez gain, ezagutza-baseetako informazioarekin bakarrik lan egiteko gai da, baina frogatu dugu ere oso antzekoa den informazioa erabiliz, eraginkortasuna are gehiago hobetzen dela. Gertaera konplexuei buruzko informazioa lortzeko egokia dela erakutsi dugu baita, domeinu guztietarako aplikatuz. Amaitzeko, ikusi dugu Twitter aproposa dela informazio kantitate handia eskuratzeko.

Aurretik aipatu bezala, lan honetan aurkeztutako sistema ez da denbora errealekoa; dena den, etorkizunerako denbora errealean aplikatzeko prestatu nahi genuke, eta honen eraginkortasuna ikertu, domeinu desberdinetan.

Gure lana ingelesezko dokumentuetan eta txioetan aplikatu dugu, eta urruneko gainbegiraketak baliabide gutxi dituen hizkuntzetan, euskaran adibidez, duen errendimendua aztertu nahiko genuke, hauek hobetzeko teknikak proposatzeko.

Zer da zuretzako ikertzaile gaztea izatea? Zer suposatzen du horrek?

Ikerketaren bidez, mundua ezagutzen hasteko ateak irekitzen zaizkizu. Mundua ikerlariz josita dago, eta guztion arteko elkarlana beharrezkoa da aurrera jarraitzeko. Nahi duzun gaia ikertzeko prestatzen ari zara, eta doktore bilakatu ondoren, bide honekin non eta zertan ikertzen jarraituko duzun erabakitzeko autonomia duzu. Norbere esku dago ea Euskal Herrian betiko ikertzen jarraitu, edo ikertzera beste leku batera joatea, nomada baten modura.

Ikerkuntza ez da lan samurra, emaitzak lortzeak denbora eskatzen du, eta askotan ez dira espero ditugunak. Frustrazioei aurre egiten ikasi behar da, emaitza txarrei aurre egin, eta dena eman hauek hobetu daitezen. Arrakastara iristeko porrot egin behar da aurretik. Helburuak lortu ondoren, barnean sentitzen dugun poztasun eta lasaitasunak ez dauka preziorik.

txiotesia,elkarrizketa