Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16)

Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. Dokumentu-bilatzaileak nola hobetu? Hori da gaia.- Eguna: urriaren 16a– Ordua: arratsaldeko 4etan– Gaiak: IR y NLP. Mineria de consultas (hitzaldiak gaztelaniaz izango dira)– Tokia: Donostiako Informatika Fakultateko gradu-aretoa

Ricardo Baeza-Yates

Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da gaur egun,baita Yahoo! Research Latin America zentrokoa ere. Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.Oso ikerlari famatua da Information Retrieval arloan.Bere argitalpenen artean aipagarria da Modern Information Retrieval liburu.

Dokumentuen berreskurapena (IR, Information Retrieval)

Aplikazio honen helburua hainbat eta hainbat dokumenturen artean bakar bat (edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana. Noski, adibide tipikoena Interneterako bilatzaileena da,  Google  eta Yahoo !esatebaterako. Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez denez, hainbat ekarpen izan  dira:

IR-ko programek barruan hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak aztertuta hitzekin indizeak sortzen dituena;  modulu bilatzailea, indizeak erabilita dokumentu interesgarriak azkar bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera ordenatzen dituen modulua. Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan:  dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,