Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Hitzaldia: Biomedikuntzazko erlazioen erauzketa (Roland Roller, 2015-01-28)

Hizlaria:  Roland Roller (University of Sheffield)

Eguna: Urtarrilaren 28an, asteazkena
Ordua: 17:00
Tokia: 3.2 gela. Informatika Fakultatea
Izenburua: “Biomedical Relation Extraction using Distant Supervision  / Biomedikuntzazko erlazioen erauzketa urrutizko gainbegiraketa erabilita ”

Testuan gako diren entitateen arteko erlazioak automatikoki erauztea zeregin garrantzitsua da. Adibidez, botika eta botiken ondorio kaltegarrien arteko erlazioak testuetatik automatikoki erauzteko erabiltzen da. Gainbegiratuko ikasketa automatikako teknikek frogatu dute hurbilketa eraginkorra izan daitezkeela erronka horri ekiteko.

Limurtu nahian? Konputagailuak sumatuko dizu.

Konputagailu bidez jakin omen daiteke zein den pertsona baten jarrera elkarrizketa batean. Stanford-eko Unibertsitateko Dan Jurafsky irakasleak esperimentu batean saiatu da hori aztertzen. Elkarrizketa guztia ulertu ez, baina emaitza onak lortu du bereizten ea zein zen kide bakoitzaren jarrera. Interbentzioak entzunda mintzakideen jarreraren lau ezaugarri hauek aztertzen ditu makinak: adiskide-moduan (Friendliness), deseroso (Awkwardness), limurtu nahian (Flirtation) edo neutroa (Assertiveness). Beti ez du asmatzen, %68an bakarrik, baina horrek esan nahi du susmo onak dituela.

Testu edo hizketa batean ordenagailuek ezin dute ulertu pertsonok ulertzen dugun mailan. Hori jakina da. Baina zerbait bai, konputagailuek hasi dira zerbait ulertzen. Informazio partzialak dira oraindik, baina esanahiaren zati bat harrapatzeko ahalmena dute. Stanford-eko Unibertsitate:http://www.stanford.edu/ ospetsutik Ixa taldera pasa den astean bisitan etorri zitzaigun Dan Jurafsky adituak asko daki horretaz. Berak lankideekin egindako lau esperimentu azaldu zizkigun HAP Masterreko hitzaldi batean, ondo aukeratuak gainera,  arlo honetan dauden teknika eta aplikazio posibleen berri emateko:

  1. APLIKAZIOA: Solaskideen jarrera detektatzen.;
    TEKNIKA: ikasketa automatiko gainbegiratua.
  2. APLIKAZIOA: Korreferrentzia (testuan gauza bera modu desberdinetan aipatuta).
    TEKNIKA: Eskuz idatzitako erregelak.
  3. APLIKAZIOA: Testuaren esanahiko erlazioak erauzten.
    TEKNIKA:ikasketa automatiko erdigainbegiratua.
  4. APLIKAZIOA: Testuko gertaerak erauzten.
    TEKNIKA: ikasketa automatiko gainbegiratugabea.

Xelebre samar izan zen lehenengo aplikazioa. Goian esan bezala, gauza izan dira elkarrizketa batean kide bakoitzak nola jokatzen duen esateko. Horretarako mila elkarrizketa grabatu zituzten hainbat ikasle bikoteka jarrita 2005ean. Hizketarekin guztira 60 ordu, eta horien transkripzioan 800.000 hitz lortu zuten. Datu asko, bai.

Datu guzti horien gainean ikasketa gainbegiratuko teknika bat aplikatu zuten. Horretarako hainbat ezaugarri prosodiko-linguistikoak identifikatu zituzten testu eta grabazioetan: tonua (pitch), interbentzioaren luzera, altu edo baxu hitz egitea, galdera, irria, besteak esandakoa errepikatzea adostasuna adierazteko, azpimarratzeko interbentzioak (Wow, That’s true, Oh, great!, Oh, gosh!). osagai horien sekuentziak ere lortu ziren “adierazpen erregularren” bitartez.

Ondorioetako batzuk xelebreak dira:

  • Nabaritu zuten, adibidez, gehienetan elkarrizketan pertsonak bere jokaera aldatzen duela bere kidearen jokaerara hurbiltzeko (edo urruntzeko, giro txarra dagoenan).
  • Sistemak hobeto antzematen omen die mutilei noiz jarduten duten giro “friendly” ederrean (%71ean asmatzen du), neskei baino (%64ean bakarrik). Aldiz, errazago antzematen die neskei limurtzeko jarrera (%78) mutilei baino (%65).
  • Automatikoki ikasitakoa aztertuta ikusi dute neskek limurtu nahi dutenean honelakoak egiten dituztela: tonua igo, beren buruaz parre egin, arinago hitz egin, “I” (“ni”) esan, muletilla gehiago erabiltzen dituzte (kind of, sort of, a little, I don’t know, I guess); eta mutilek, aldiz, honela: tonuaren oinarria igotzen dute (pitch floor), “you” (“zu”) esan, par egin (adarra jo?) solaskideaz, eta “hitz akademikorik” ez erabili (academia, interview, teacher, phd, advisor, lab, research, management).

Esperimentuko elkarrizketa batzuk

Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez.


Zuzentzaile ortografiko automatikoa tresna lagungarria da zalantzarik gabe. Halako tresna batek aztergai duen aztertzeko unitatea hitz soltea izaten da. Testuen zuzenketa automatiko sakonagoa egin ahal izateko sintaxia ere kontuan hartu behar izaten da, eta halakoetan, esaldi luze-luzeak izan ohi direnez, esaldi horien sintaxia lantzeko esaldia “zati” txikiagoetan banatzea izan ohi da lehen pausoa: sintagmak eta perpausak identifikatzea, alegia.Bertol Arrieta Kortajarena Ixakideak bere tesian Ikasketa Automatikoko teknikak aztertu eta erabiltzea izan du helburu, euskararen sintaxian eta zuzenketa automatikoan bi urrats aurrera egiteko.

Hau da tesiaren izenburu osoa:
Azaleko sintaxiaren tratamendua ikasketa automatikoko tekniken bidez: euskarako  kateen eta perpausen identifikazioa eta bere erabilera koma-zuzentzaile batean.

Hala, euskarako kate- eta perpaus-identifikatzaile automatikoak sortu dira, ikasketa automatikoko teknikak hizkuntzaren ezagutzan oinarritutakoekin uztartuz. Modu honetan, testu bat emanda, makina gai da testu horretako sintagmak, perpausak eta esaldiak modu automatikoan identifikatzeko. Tresna hauek oso baliagarriak dira analisi sintaktiko automatiko osoa edo sakona bideratzeko, eta baita Hizkuntzaren Prozesamenduko hainbat arloetan aurrerapausoak egiteko ere: hala nola, informazioaren erauzketa, laburpenen sorkuntza, itzulpen automatikoa

Horretaz gain, puntuazioaren erabilera jorratu da hizkuntzalaritza konputazionalaren ikuspegitik. Makinak hizkuntzaren ulermen osoa lor dezan, komak duen garrantzia aztertu da, batez ere. Hala, euskarako koma-zuzentzaile automatiko bat garatu da ikasketa automatikoko teknikak baliatuz. Horretarako, aurrez sortutako kate- eta perpaus-identifikatzaileek ematen duten informazioa erabili da. Koma-zuzentzaile hau XUXENg euskarako estilo- eta gramatika-zuzentzailean txertatu nahi da. Gainera, baliagarria izango da euskarako analizatzaile eta desanbiguatzaile sintaktikoak hobetzeko, eta baita ahotsaren ezagutza sistemetan integratzeko ere.

Tesi osoa eta aurkezpena Ixa taldeko argitalpenen orritik jaso daitezke. Pasa den uztailaren 27an aurkeztu izan da, eta zuzendariak Iñaki Alegria eta Arantza Diaz de Ilarraza izan dira.