Ikastaro osagarria: Hizkuntz ingeniaritzaren arloko aplikazioak (Matrikulazio epea luzatuta)

HAP masterretik ikastaro hau zabaldu dugu publiko orokorrarentzat:

Hizkuntz ingeniaritzaren arloko aplikazioak.
Eskola saioak Hizkuntzaren Azterketa eta Prozesamendua masterreko saioen azpimultzo bat dira, aplikazio praktikoekin lotuta daudenena (itzulpen automatikoa, informazio-bilaketa, hizkuntzaren ikaskuntza…

Matrikulazio-epea/Plazo de matricula:  Urtarrilaren 12tik 23ra/ Del 12 al 23 de enero Urtarrilaren 12tik Otsailaren 7ra / Del 12 de enero al 7 de febrero
Idazkaritza amaia.lorenzo@ehu.es / patxi.salinas@ehu.es
Informazio teknikoa: montse.maritxalar@ehu.es
Loturak:

diptikoa-ikastaro-osagarria-Aplikazioak_1

diptikoa-ikastaro-osagarria-Aplikazioak_2

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat 😉
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

#txiotesia. Hizkuntza-teknologia arloko tesiak

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia

NewsReader proiektua abian jarri dugu Amsterdamen

Ixa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015). Urtarrilaren 23an proiektua martxan jartzeko lehen bilera egin da Amsterdameko VU Unibertsitatean. Hauek gara kontsortzioko kideak :

NewsReaderproblem

Gaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero. Gertaera berrien aurrean arin erantzun behar duten erabaki-guneetako langileek ezintasunean ibiltzen dira gaur egunean, egun erabiltzen diren soluzioek ez baitabiltza behar bezala. Ondorioz ia ezinezkoa da erabakiak hartzea informazio esanguratsu guztia eskuratuta, eta profesional horiek moldatu behar izaten dira informazio ez-osoa, ez-zehatza eta zaharkituarekin.

NewsReaderStorylines NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan. Horrela, iraganeko gertaerak aztertuz NewsReader etorkizuneko gertaerak aurreikusteko gauza izango da. Gertaera berriak azaltzeko ahalmena lortuko du iraganeko datuak erabiliz. Finantzetako eta ekonomiako profesionalek testatuko dute tresna hau proiektuko azken urtean.

Koldo Mitxelena saria Arantxa Otegiri.

III_Koldo_Mitxelena_ArantxaEuskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten atzo Arantxa Otegi Ixakideari Ikasketa Teknikoen jakintza-arloan. Sari-banaketa atzo izan zen, urtarrilak 17,  Bilboko Bizkaia aretoan.

Arantxa Otegiren tesiaren helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, ahaidetasun semantikoko hainbat metodo erabiliz.

Tesi horren azalpentxo bat ikus dezakezu blog honetan lehengo urteko albiste batean.
Tesi-txosten osoa ere ikus dezakezu hemen.

ZORIONAK Arantxa!
Zorionak zuzendariei! (Eneko Agirre eta Xabier Arregi)

Lexiko-semantikaren erabilera informazio-berreskurapenean

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza.  Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
Pasa den martxoan Informatika Fakultatean Arantxa Otegik irakurri duen tesiaren helburua IBaren ikerketan urrats bat egitea izan da, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz.

Izenburua: “Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak“.
Zuzendariak: Eneko Agirre eta Xabier Arregi
Tesi-txostena: helbide honetan lortu daiteke.

Laburpena:

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.

IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.

IBaren hastapenetatik gaur arte parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Tesi-lan honetan hizkuntzaren prozesamenduaren (HP) bidez arazo hau arintzerik ba ote den aztertu da.

Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egiten dugu HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzen dugu, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko ditugun. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen dugu kasu bakoitzerako. Are gehiago, erabiliko dugun hedapen-teknikak kontsulta eta dokumentuak itzultzeko balio duenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen direla erakutsiko dugu.

Hiru datu-multzotan egindako esperimentu eta analisiek erakusten dute tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio dutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.