Googleko kontzeptu-hiztegi berritzailea, IXAren elkarlanaren fruitu

Google-koek  beren ikerketa-saileko blogean Wikipedia eleanitzean oinarritutako  baliabide oso interesgarri bat atera dute pasa den asteburuan. IXA taldeko Eneko Agirre-rekin izandako elkarlanaren ondorioz sortu da baliabide hori. Hitzak eta kontzeptuak lotzen dituen hiztegi berezi bat da. Bilaketetako emaitzak hobetze aldera bilaketan zehazten ditugun hitzen esanahiak (kontzeptuak) bereizteko oso erabilgarria izango da hiztegi berri hau. Hemendik deskargatu daiteke.

Albistearen hasiera Google-ren ikerketa-sailaren blogean

Orain dela lau urte Ixa taldeko blog honetako albiste batean poztu egiten ginen azkenean bilatzaileak hizkuntza-teknologia erabiltzen hasten zirelako. Ordura arte Google-ren eta beste bilatzaileetan hitz soila izan baitzen oinarria, karaktere-sekuentzia hutsa.

Bi urte geroago blogeko beste albiste batean IXA taldeko Eneko Agirre Google-ren Zurich-eko ikerketa zentroan izan zela genion, Google-k ikerkuntza jardunaldi batzuetara gonbidatuta.

Oraingoan, eta harreman horren fruitu gisa, 297 miloi (hitz, kontzeptu) bikote dituen “hiztegi” berri hori argitaratu dute. Non kontzeptu bakoitza Wikipediako artikulu bateko izenburua den, eta hitza Wikipedia barruan artikulu horri esteka bat egiteko erabili den testua. Gero zerrenda horiek hainbat modutan erabil daitezke, adibidez, hitzetatik kontzeptuetara edo kontzeptuetatik hitzetara. Zehaztasun gehiago nahi izanez gero jo Googleko blogeko albistera (laburra da eta nahiko ulergarri), ikusi LREC 2012 konferentzian aurkezten duten artikulua, edo irakurri datuekin batera datorren README fitxategia.

Baliabide ireki berri honekin aplikazio berritzaile asko sortu ahal izango dira laster. Adibidez, Google-k duela gutxi kaleratu duen Ezagutza-Grafoarekin zerikusi hertsia duela uste dugu. Ezagutza-grafo horrekin Google-ren egiten ditugun bilaketetan ohiko esteka zerrendaz gain, interesa dugun pertsona edo kontzeptuari buruzko datuak ere azalduko zaizkigu. Proba moduan, oraingoz bilatzailearen ingelesezko bertsioan bakarrik eskaintzen dute. Hemen adibidez Marie Curie-ri buruz galdetuz gero ikusiko genukeena:

Bilaketan izen anbiguo bat jarriz gero informazio ezberdina azalduko zaigu, Manhattanekin gertatzen den bezala (New York-eko hiria edo Woody Allen-en pelikula):