Hitzen adiera-desanbiguazioa domeinu konkretuetan.


Hitzen adiera-desanbiguazioa (HAD), ataza moduan, hitz polisemiko bat testuinguru baten hartu eta hor erabili nahi izan den adiera zein den automatikoki zehaztea da.
Oier Lopez de Lacalle-ren tesi-lanaren helburua, ikasketa automatikoko hainbat metodo esku artean izanik, HADen ikerketan urrats bat egitea izan da: datu-sakabanaketa eta, batik bat, domeinuaren arazoei aurre egiteko proposamen bat plazaratu du.

Kaletik zoazela hor ikusten duzu “Abierto mañana y tarde / Goiz eta berandu irekita” dioen kartela,  edo egoitza baten sartzean “2. Planta” dioen horma-irudi baten alboan “2. Landarea” dioen bestea. Nork ez daki barnetegitik datozen lagun kuadrila baten txistea; tabernariari: “3 beltz eta 2 noski, mesedez”. Edota askoz frikiagoa den  (gaztelerara itzuli behar duzue) “if, if, between, between”. Adibide “serio” horietan erraz ikus daiteke zerk huts egiten duen: Hitzaren interpretazioa ez da zuzena. Beste modu teknikoago baten esanda, itzulpenean hitzaren adiera ez da zuzen aukeratu. Argi dago beraz, hitzaren adiera zuzen desanbiguatzea berez motibatuta dagoen zerbait dela. Semantikaren barruko ikerketa-ildo oso bat da.

Antzekoak eta beste motibazio batzuk hartuta, gai honetan burutu dut nire tesia. Tesiaren laburpenean sartu aurretik pare bat gauza esan nahiko nuke: Batetik, tesia osorik helbide honetan. Bestetik, Hitzaren Adiera-Desanbiguaziori (HAD) buruz  asko ikastea nahi baduzue jo liburu honetara: “Word Sense Disambiguation. Algorithms and Applications”, tesi zuzendari izan dudan Eneko Agirre eta Philips Edmonds-ek editatua.

Adimen artifizial osorako bidean giltzarri da, eta zehazkiago Hizkuntza Naturalaren Ulermenerako beharrezkoa den ataza bat da. Hizkuntza naturala lanabes duten hainbat aplikazioetan erabilgarria eta beharrezkoa dela defendatzen dute Hizkuntzaren Azterketa eta Prozesamenduaren barruan dauden ikertzaile askok. Erraz nabari baitaiteke Itzulpen Automatikorako  onurak zein izan daitezkeen (lexiko hautapena), ala Informazio-Erauzketan eragin ditzakeen aurrerapenak (ea hitz baten erabilera esanguratsua den ala ez).

Hala ere, hitzaren adiera automatikoki zehazteak zailtasun ugari dakar. Esanguratsuenen artean ikasketa automatiko gainbegiraturako datuen falta eta sakabanaketa edota domeinu aldaketek sortzen dituzten eraginkortasun-galera larriak aipa ditzakegu.

Datuen sakabanaketa eta domeinu-aldaketaren arazo horiek ardatz hartuta murgildu ginen ikerketan. Tesi-lan honen helburua ikasketa automatiko hainbat metodo esku artean izanik datu-sakabanaketa eta, batik bat, domeinuaren arazoei aurre egiteko proposamen bat plazaratzea izan da. Horretarako, ikasketarako ezaugarriak maneiatzen dituzten modu berriak proposatu ditugu informazioa irudikatzeko.
Aljebraren ikuspegitik Balio Singularretan Deskonposatzen duen teknikan oinarritu gara informazioa modu trinko baten maneiatzeko eta hitz-adieren eredu hobeak lortzeko.

Lortutako ezaugarri berriak hainbat domeinutan erabili ditugu (domeinu orokorra, kiroletako domeinua eta finantzei buruzkoa), eta domeinura egokitzeko bi aukera nagusi definitu: Modu gainbegiratua (ikasketa prozesuan domeinu orokorreko eta konkretuko adibideak ditugu) eta erdi-gainbegiratua (ikasketarako domeinu orokorrekoak izanik, domeinu konkretuko adibide ez-etiketatuak ditugunean). Esperimentuak aurrera eramateko ezagunak diren ikasketa automatikoko algoritmoak erabili ditugu (k-NN eta SVM metodoak, besteak beste).
Burututako esperimentuek ezaugarri hauen eraginkortasuna erakutsi digute domeinu berri baten aurrean gaudenean. Beste modu batera esanda, sistema trinko eta egokitu ahal direnak sortzeko gai izan gara. Lehenengo aldiz HAD barruan sistema bat egokitzea lortu da.

Horrez gain, tesiari beste buelta bat eman asmoz, ezagutza-baseetan oinarritutako metodoekin emaitza bikainak lortu ditugu, uste baino erabilgarriagoak direla erakutsiz: A priori baten sistema kaskarragoak izan arren, egoera batzuetan gainbegiratuak direnak  (e.g. SVM, k-NN) baino eraginkorragoak izan daitezke.

Jo hona Oierren artikulu zientifikoak jasotzeko.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude