Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. Dokumentu-bilatzaileak nola hobetu? Hori da gaia.- Eguna: urriaren 16a– Ordua: arratsaldeko 4etan– Gaiak: IR y NLP. Mineria de consultas (hitzaldiak gaztelaniaz izango dira)– Tokia: Donostiako Informatika Fakultateko gradu-aretoa
Ricardo Baeza-Yates
Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da gaur egun,baita Yahoo! Research Latin America zentrokoa ere. Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.Oso ikerlari famatua da Information Retrieval arloan.Bere argitalpenen artean aipagarria da Modern Information Retrieval liburu.
Dokumentuen berreskurapena (IR, Information Retrieval)
Aplikazio honen helburua hainbat eta hainbat dokumenturen artean bakar bat (edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana. Noski, adibide tipikoena Interneterako bilatzaileena da, Google eta Yahoo !esatebaterako. Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez denez, hainbat ekarpen izan dira:
-
Ametzagaina taldearen Kapsula softwarea,
-
Diana Teknologia enpresaren Xerka, eta IXA taldearen lematitzailea erabilita.
-
IXA taldearen lematizatzailea zenbait web gunetan integratu izan da:
Berria egunkariaren hemerotekan, ZientziaNet-en, Jalgi-n… - Urrian bertan plazaratuko da Elebila Interneteko bilatzaile berria euskarazko dokumentuetan bakarrik bilatuko dituena eta euskararen ezaugarriak kontuan hartuta.
IR-ko programek barruan hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak aztertuta hitzekin indizeak sortzen dituena; modulu bilatzailea, indizeak erabilita dokumentu interesgarriak azkar bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera ordenatzen dituen modulua. Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan: dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,