Elkarrizketa Manex Agirrezabalekin unibertsitatea.net-en

Manex Agirrezabal gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Manexek hau aurrikusten du:“Konputagailuek bertsoak modu naturalean sortzea lortuko dute”

Manex_Unibertsitatean_netBertsoBOT: lehen urratsak proiektua aurkeztu zuen 2012an HAP masterrean,  eta orain  Delawareko unibertsitatean (AEBtan) dabil Manex. Handik erantzun ditu galderak eta hango pinuen arteko argazkia bidali omen du.

Hona hemen elkarrizketako bi galdera eta erantzunak:

Noizbait plazan makinak eta bertsolariak buruz buru ikusteko aukera izango dugu?

Fisikoki posible ikusten dudan arren, gure helburua ezberdina da. Gure helburua ez da bertso-sorkuntza sistema zuzenean robotean txertatzea eta bertsolariekin plazan ikustea. […]

Bertsozaletasunak eraginda hautatu zenuen bertsolaritzaren ikerlerroa ala bertsolaritzaren bat-batekotasun horrekin “lehiatzeko” grinak eraginda?

Bai bata eta baita bestea… Batetik, bertso batek dituen ezaugarri metriko, semantiko eta pragmatikoek egunez-egun gehiago harritzen naute. Bestetik, beti gustatu izan zait zientzia-fikziozko filmetan makinek eta gizkaiek duten elkarrekintza naturala (HAL 9000 eta parekoak). Nik uste dut gure ikerkuntza-lerroak elkarrekintza hori naturalagoa egiten lagun dezakeela.

GipuzkoAPP sarietako bat SEGAPOTO-rentzat

Gailu mugikorreko aplikazioetarako GipuzkoAPP lehen lehiaketako sariak banatu zituen Gipuzkoako Foru Aldundiak pasa den ostiralean. Banatu diren sei sarietako bi hizkuntza-teknologiarekin lotuta daude:

Beste lau sariak hauek izan dira:

  • Kategoria profesionalean, entitate batentzat garatutako APP onenari saria
    EUSKAL HERRIAN  IHESI – Iametza Interaktiboas S.L.
  • Kategoria profesionalean, enpresa izaerako APP onenari saria
    GOZ Pro Suite – Igarle S.L.
  • Kategoria profesionalean, gizarte edo herritar izaerako APP onenari saria
    APP DOMOALERT SECURITY –Domoalert S.L.
  • Amateur kategorian, enpresa izaerako APP onenari saria
    IALDAMIO  – Iker Pedrosa Martinez

Epai-mahaiak azpimarratu du aurkeztu diren APP gehienen maila altua. Aukera ederra izan da txapelketa hau informatikari gazteak motibatzeko!

#txiotesia. Hizkuntza-teknologia arloko tesiak

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia

Ahora! Euskara lantzeko tresnak, robot bertsolariak eta Kilometroak2013 jaia

BerriaIxaLaskorain

2013ko Kilometroak jaiaren harira, erronka bitxia izan dute atzo Tolosako Laskorain ikastolako neska-mutilek Donostiako Informatika Fakultatean: robotekin aritu dira bertsotan.

Fakultateko Ixa Taldeak eta Robotikako ikertaldeak euskararekin lotu dituzte teknologia berriak eta ikerketa.

 

Horrela jaso dute gaur Berrian (hainbat zuzenketa egin dizkiegu bertan esandakoei):

Euskara sarean hizkuntza praktikoa bihur dadin, Ixa taldeak hizkuntzaren morfologia, sintaxia eta semantika landuko dituzten aplikazioak asmatu ditu.

[…]Gaur egun euskararekin lan egiteko oso eraginkorra bilakatu den Xuxen zuzentzaile ortografikoaz gain, OpenTrad itzultzaile automatikoa, Euskal WordNet sarea eta ZT eta EPEC corpusak sortu dituzte, eta etorkizunera begira PATHSNewsReaderREADERS eta  OpeNER proiektu europarrak aurrera ateratzeko ari dira lanean.

Berria_Ixa_Laskurain_Kontrazala

[…]Horrekin batera, Ixa taldea Herrialde Katalanetako zein Galiziako informatikariekin ari da lanean OpenTrad izeneko programa aurrera ateratzeko; programa horrek esaldi osoak itzultzeko gaitasuna dauka. Jada Google Translator programa baino eraginkorragoa bilakatu da.

[…]Baina aisialdiarekin lotutako aplikazioetan ere sartu dira, eta, adibidez, sakelakoetan erabiltzen den Angry Words  (edo Apalabrados) euskaraz ere jokatu ahal izatea bideratu dute.

[…]Baina sortutako gailu eta tresna guztien artean, bi robotek bereganatu dute ikasleen arreta: Tartalo robot bertsolaria eta Nao jostailu itxurako robot hiztun eta ibiltaria. Nao-k txundituta utzi ditu ikasleak mahaitik altxatu eta ongietorria eman dienean, eta hitz egiteko, mugitzeko eta gizakien keinuak imitatzeko gai dela erakutsi die aho zabalik begira zeudenei. Bi ikaslek Tartalorekin bertso lehiaketa egiteko aukera izan dute, Naok saioa aurkeztu ondoren. Tartalo gogor saiatu arren, argi gelditu da oraindik hezur-haragizko bertsolariek robotek baino hobeto menderatzen dutela hizkuntza.

[…]Aitzol Astigarraga ikerlariak,  Robotikako taldekoak,  azaldu duenez, robot horiek soEITBkulturaIxa_Laskurain_Bertsoakrtzeko helburua gailuei komunikatzen irakastea da. «Tartalo-k eta Nao-k erakusten dute posible dela robotei hizkuntzaren logika erakustea pixkanaka». Robotika taldearen eta Ixa taldearen elkarlanaren helburua roboten autonomia handitzea eta komunikatzeko gaitasunak garatzea da, ondoren, medikuntzan edota irakaskuntzan lagungarri izateko. «Robotek ikertzen jarraitzeko aukera ematen digute, eta, beharbada, etorkizunean elkarrizketak izateko gai izango dira».

Ikusi  bideo hauek ere bai:

Bertsoak idazten laguntzeko “Arbel digitala” aurkeztu dute.

Manex Agirrezabal, Bertol Arrieta eta Iñaki Alegria Ixakideek eta Bertsozale Elkartearekin produktu berri bat sortu dute informatika, hizkuntza-teknologia eta bertsolaritza lantzeko. Arbel digitala aurkeztu dute Koldo Mitxelenan gaur Manex, Bertol eta Bertsozale Elkarteko Aritz Zerain eta Ixiar Eizagirrek.

Hainbat baliabide eskaintzen ditu tresna honek: errima-bilatzailea, neurri-markatzailea, neurri-egiaztatzailea, sinonimo-bilatzailea… Orain dela urte batzuk sortu zuten Bertsolarixa tresna baino dezente ahaltsuagoa da Arbel digital berri hau. Orain dela gutxi robot bertsolaria ere erakutsi zuten.

Bertsotarako arbel digitala zer den ondo jakiteko jo Bertsozale Elkarteak jarri duen azalpenera, edo hobeto, zuzenean joan proba egitera. Jarri lanean, ea “inspirazio artifizial” honekin bertso ederren bat sortzen duzun!

Arbel_digitalaAlbistea medioetan: Berria, bertso-eskolak.com, Diario Vasco, …

Albistea bertsoa.com webgunean

Robot-bertsolariaren lehen plaza

(Argazkia: Berria / Jon Orbe / Argazki Press)

Apirilaren 18an egin zuten Galtxagorri eta Tartalo robotek euren lehen plaza, EHU-ko Gipuzkoako Campuseko gelategiko portxetan. Andoni Egaña, Felix Zubia, Maialen Velarde eta Oier Lakuntza bertsolariak lagun hartuta, ordu erdi pasatxoko bertso-saioa egin zuten.

Euren lehen plaza izanik, egin zituzten akatsak robotek (ez urduritasunak eraginda, jakina!), baina sortutako ikusminari ere ondo baino hobeto erantzun zioten.

Hiru ikerkuntza talderen arteko elkarlanetik sortu da robot-bertsolaria:

  • Batetik, robotika-lanak daude, Robotika eta Sistema Autonomoen taldeak gorputza jarri dio makina bertsolariari. Honela, robota gai da aginduak jaso eta  bere ingurunean mugitzeko: mikrofonora hurbildu, heldu, jiratu, atzera itzuli eta antzeko mugimenduak eginez. Aurrera begirako helburua, gizaki eta roboten arteko elkarrekintza garatzea litzateke: komunikazioa hizkuntza naturalean gauzatuz, sentsoreak erabiliz ustekabeko gertaeren aurrean erantzuteko, eta bertsoaren komunikazio ekintzan eragina duen gorputz espresioan arreta handiagoa jarriz, besteak beste.
  • Bestetik, Aholab ikerkuntza taldearen lana dago. Talde honek ahotsaren sorkuntzan hainbat urtetan egindako lanari esker jarri ahal izan dugu kantari robota. Horretarako, lehenik eta behin, abestu behar duen bertsoa eta haren egitura musikala azaldu behar zaizkio ordenagailuari, hala nola, silaba  bakoitzaren nota eta
    hauen iraupena. Bertsoaren testua pasatzen zaio Aholab-en garatutako
    ahoTTS programari, eta silaba bakoitzaren iraupena finkatzen da, silabak luzatu behar direnean fonema batzuk (bokalak) gehiago luzatuz eta beste batzuk (kontsonanteak) gutxiago. Ondoren, estatistikoki ezarri zaion pitch kurba (hitz egiterakoan erabiltzen ditugun musika-nota arruntak) aldatuko da, erabili nahi den doinuaren frekuentziak finkatuz. Hau egindakoan, nota berriak ezartzen zaizkio berbaldiari, Aholab ikerkuntza taldean garatutako Ahocoder programa erabilita.
  • Azkenik, IXA ikerkuntza taldean egindako lanari esker, hutsetik bertsoak sortzeko gai da robota (hala-moduzkoak badira ere), ikasketa automatikoko teknikak baliatuz. Etorkizunean hau hobetzeko lanean ari da IXA taldea. Era berean, zentzu handiagoko bertsoak sortzeko, beste bide batzuk jorratu dira: eskuragarri zeuden bertso multzo bat harturik abiapuntu gisa, hainbat bertsoalditako errima
    bereko puntuak uztartzen ditu ordenagailuak bertsoa osatzeko; gainera, puntu bakoitzean, zenbait hitz ordezkatu egiten ditu, jatorrizko hitzaren sinonimoak, antonimoak edo semantikoki nolabait erlazionatutako hitzak baliatuz. Ordezkapen hau egiteko, EuskalWordNet datu-basea darabil:
    euskararako sortutako ezagutza-base lexikal eleanitza, hau da, euskarazko hitzen zuhaitz semantiko moduko bat.

Hiru ikerkuntza talde hauek eskainitako baliabideak oinarri gisa hartuta, Manex Agirrezabal izan da proiektu honen garatzaile nagusia, Aitzol Astigarraren laguntzarekin.

Hona hemen, roboten lehen bertso-saioak sortutako ikusminaren hainbat adibide: