Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat 😉
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Koldo Mitxelena saria Arantxa Otegiri.

III_Koldo_Mitxelena_ArantxaEuskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten atzo Arantxa Otegi Ixakideari Ikasketa Teknikoen jakintza-arloan. Sari-banaketa atzo izan zen, urtarrilak 17,  Bilboko Bizkaia aretoan.

Arantxa Otegiren tesiaren helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, ahaidetasun semantikoko hainbat metodo erabiliz.

Tesi horren azalpentxo bat ikus dezakezu blog honetan lehengo urteko albiste batean.
Tesi-txosten osoa ere ikus dezakezu hemen.

ZORIONAK Arantxa!
Zorionak zuzendariei! (Eneko Agirre eta Xabier Arregi)

Googleko kontzeptu-hiztegi berritzailea, IXAren elkarlanaren fruitu

Google-koek  beren ikerketa-saileko blogean Wikipedia eleanitzean oinarritutako  baliabide oso interesgarri bat atera dute pasa den asteburuan. IXA taldeko Eneko Agirre-rekin izandako elkarlanaren ondorioz sortu da baliabide hori. Hitzak eta kontzeptuak lotzen dituen hiztegi berezi bat da. Bilaketetako emaitzak hobetze aldera bilaketan zehazten ditugun hitzen esanahiak (kontzeptuak) bereizteko oso erabilgarria izango da hiztegi berri hau. Hemendik deskargatu daiteke.

Albistearen hasiera Google-ren ikerketa-sailaren blogean

Orain dela lau urte Ixa taldeko blog honetako albiste batean poztu egiten ginen azkenean bilatzaileak hizkuntza-teknologia erabiltzen hasten zirelako. Ordura arte Google-ren eta beste bilatzaileetan hitz soila izan baitzen oinarria, karaktere-sekuentzia hutsa.

Bi urte geroago blogeko beste albiste batean IXA taldeko Eneko Agirre Google-ren Zurich-eko ikerketa zentroan izan zela genion, Google-k ikerkuntza jardunaldi batzuetara gonbidatuta.

Oraingoan, eta harreman horren fruitu gisa, 297 miloi (hitz, kontzeptu) bikote dituen “hiztegi” berri hori argitaratu dute. Non kontzeptu bakoitza Wikipediako artikulu bateko izenburua den, eta hitza Wikipedia barruan artikulu horri esteka bat egiteko erabili den testua. Gero zerrenda horiek hainbat modutan erabil daitezke, adibidez, hitzetatik kontzeptuetara edo kontzeptuetatik hitzetara. Zehaztasun gehiago nahi izanez gero jo Googleko blogeko albistera (laburra da eta nahiko ulergarri), ikusi LREC 2012 konferentzian aurkezten duten artikulua, edo irakurri datuekin batera datorren README fitxategia.

Baliabide ireki berri honekin aplikazio berritzaile asko sortu ahal izango dira laster. Adibidez, Google-k duela gutxi kaleratu duen Ezagutza-Grafoarekin zerikusi hertsia duela uste dugu. Ezagutza-grafo horrekin Google-ren egiten ditugun bilaketetan ohiko esteka zerrendaz gain, interesa dugun pertsona edo kontzeptuari buruzko datuak ere azalduko zaizkigu. Proba moduan, oraingoz bilatzailearen ingelesezko bertsioan bakarrik eskaintzen dute. Hemen adibidez Marie Curie-ri buruz galdetuz gero ikusiko genukeena:

Bilaketan izen anbiguo bat jarriz gero informazio ezberdina azalduko zaigu, Manhattanekin gertatzen den bezala (New York-eko hiria edo Woody Allen-en pelikula):

Lexiko-semantikaren erabilera informazio-berreskurapenean

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza.  Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
Pasa den martxoan Informatika Fakultatean Arantxa Otegik irakurri duen tesiaren helburua IBaren ikerketan urrats bat egitea izan da, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz.

Izenburua: “Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak“.
Zuzendariak: Eneko Agirre eta Xabier Arregi
Tesi-txostena: helbide honetan lortu daiteke.

Laburpena:

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.

IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.

IBaren hastapenetatik gaur arte parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Tesi-lan honetan hizkuntzaren prozesamenduaren (HP) bidez arazo hau arintzerik ba ote den aztertu da.

Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egiten dugu HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzen dugu, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko ditugun. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen dugu kasu bakoitzerako. Are gehiago, erabiliko dugun hedapen-teknikak kontsulta eta dokumentuak itzultzeko balio duenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen direla erakutsiko dugu.

Hiru datu-multzotan egindako esperimentu eta analisiek erakusten dute tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio dutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.

Hitzen adiera-desanbiguazioa biomedikuntzako testuetan

Mark Stevenson irakaslea da Sheffield Unibertsitatean, eta bertako Natural Language Processing groupikertaldeko kidea.Datorren astean Donostian izango da Ixa Taldea bisitatzen, eta ostiralean hitzaldi bat emango du, blog honetan berriki azaldu diren bi gai uztartuz:

Hitzaldia:Disambiguation of Biomedical Text
Non
: Informatika Fakultateko 3.17 gelan (3. solairuan)
Eguna
: 2010-maiatza-14
Ordua
: 16:00

Laburpena:

Like text in other domains, biomedical documents contain a range of terms with more than one possible meaning. These ambiguities form a significant obstacle to the automatic processing of these texts. Previous approaches to resolving this problem have made use of a variety of knowledge sources including the context in which the ambiguous term is used and domain-specific resources (such as UMLS). We compare a range of knowledge sources which have beenpreviously used and introduce a novel one: MeSH terms. The best performance is obtained using linguistic features in combination with MeSH terms. Performance exceeds previously reported results on a standard test set.
Our approach is supervised and therefore relies on annotated training examples. A novel  approach to automatically acquiring additional training data, based on the relevance
feedback technique from Information Retrieval, is  presented. Applying this method to generate additional training examples is shown to lead to a further increase in performance.

Eneko Ixakidea Googlek gonbidatuta Zurich-en bisitan

Eneko IXA taldeko Eneko Agirre Google-en Zurich-eko ikerketa zentroan izan da, Google-ek ikerkuntza jardunaldi batzuetara gonbidatuta. Eneko lehenago ere egon da Google-en, baina kasu hartan Californiako Mountain View-n duten gune nagusian izan zen, hitzaldi gonbidatu bat ematen. Izan ere Google-eko ikerlari batzuekin elkarlanean aritu izan da.

Google Zurich
Europa, Ekialde Hurbil eta Afrikako 60 ikerlari inbitatu ditu Google-ek otsaileko mintegi honetan parte hartzeko. Google-ek unibertsitateetan egiten den ikerkuntzaren berri izan nahi du, eta unibertsitateetako ikerlariei kontatu nahi die zeintzuk diren bere ikerkuntza helburuak. Hemen dago 2009ko bilerako laburpen bat.

Eneko nahiko harrituta gelditu da Google-en unibertsitateekiko hurbilpenarekin. Nahiko modu irekian kontatu dute zeintzuk diren bere ikerketa gaiak, eta zeintzuk diren arazo irekiak.  Beren interesa hizkuntza-teknologiako hainbat alorretan kokatzen da: itzulpen automatikoan, hizketaren tratamendua eta informazio erauzketa.  Gainera Google-ek ikasle eta ikerlariei diru-laguntzak ematen die, baita ikasleak eta ikerlarientzat egonaldiak antolatu ere.

Google-ek bere lana proiektuetan oinarritzen du, unibertsitateko ikerlarien antzera. Proiektu horiek goitik edo behetik sortu daitezke, eta dena ondo badoa bilatzailean bertan probatzen dute, bilatzailearen bezero kopuru txiki bat proiektu horretako software berrira bideratuz. Horrela zuzenean neurtu dezakete proiektu berriak bilaketak hobetu dituen ala ez, erabiltzaileen portaera erreala aztertuz. Google-eko ingeniariak doktore, master eta graduatuen artean banatzen dira, herenetan banatuta. 10.000 izanda, atera kontuak zenbat ikerlari dauden!

Gai horietaz aparte, badago zer kontatu Google bisitatu ondoren. Mountain View-n duten gune nagusian Ikerlariek behar duten guztia dute bulegotik ez daitezen atera:  ile  apaindegia, gimmasioa,  erlajatzeko txokoak, kafe-makinak (benetako espresoa!), eta edozein langilek 60 metro baino gertuago ditu edari eta pikatzeko janaria doan. Izan ere hainbat jatetxe dituzte, tartean bat euskal erakoa (amerikar-euskal erakoa esan beharko 🙂 Google-eko gune horri campusa deitzen diote, eta egia esan jende gaztez gainezka egona, bai badirudiela unibertsitate bateko campusa. Sustatu-n ere inoiz aipatu dira horrelakoak.  Zurich-eko edifizioa kanpotik grisagoa eta txikiago da, 600 langile besterik ez. Barruan ordea friki batek diseinatutako haurtzaindegi baten antza du: pisu bakoitza gai baten inguruan dago eginda, klasikoa (dvd-bat duen beko sua barne!),  tropikala (landaraz betetako erlaxazio gela), ura (ixilean dagoen gela, hormetan arrainez inguratua), etab. Hemen irudiak.

Informatikako ikasleren batek Google-en egonaldi bat egin nahiko balu, jarri dadila  Enekorekin kontaktuan.