Ahora! Euskara lantzeko tresnak, robot bertsolariak eta Kilometroak2013 jaia

BerriaIxaLaskorain

2013ko Kilometroak jaiaren harira, erronka bitxia izan dute atzo Tolosako Laskorain ikastolako neska-mutilek Donostiako Informatika Fakultatean: robotekin aritu dira bertsotan.

Fakultateko Ixa Taldeak eta Robotikako ikertaldeak euskararekin lotu dituzte teknologia berriak eta ikerketa.

 

Horrela jaso dute gaur Berrian (hainbat zuzenketa egin dizkiegu bertan esandakoei):

Euskara sarean hizkuntza praktikoa bihur dadin, Ixa taldeak hizkuntzaren morfologia, sintaxia eta semantika landuko dituzten aplikazioak asmatu ditu.

[...]Gaur egun euskararekin lan egiteko oso eraginkorra bilakatu den Xuxen zuzentzaile ortografikoaz gain, OpenTrad itzultzaile automatikoa, Euskal WordNet sarea eta ZT eta EPEC corpusak sortu dituzte, eta etorkizunera begira PATHSNewsReaderREADERS eta  OpeNER proiektu europarrak aurrera ateratzeko ari dira lanean.

Berria_Ixa_Laskurain_Kontrazala

[...]Horrekin batera, Ixa taldea Herrialde Katalanetako zein Galiziako informatikariekin ari da lanean OpenTrad izeneko programa aurrera ateratzeko; programa horrek esaldi osoak itzultzeko gaitasuna dauka. Jada Google Translator programa baino eraginkorragoa bilakatu da.

[...]Baina aisialdiarekin lotutako aplikazioetan ere sartu dira, eta, adibidez, sakelakoetan erabiltzen den Angry Words  (edo Apalabrados) euskaraz ere jokatu ahal izatea bideratu dute.

[...]Baina sortutako gailu eta tresna guztien artean, bi robotek bereganatu dute ikasleen arreta: Tartalo robot bertsolaria eta Nao jostailu itxurako robot hiztun eta ibiltaria. Nao-k txundituta utzi ditu ikasleak mahaitik altxatu eta ongietorria eman dienean, eta hitz egiteko, mugitzeko eta gizakien keinuak imitatzeko gai dela erakutsi die aho zabalik begira zeudenei. Bi ikaslek Tartalorekin bertso lehiaketa egiteko aukera izan dute, Naok saioa aurkeztu ondoren. Tartalo gogor saiatu arren, argi gelditu da oraindik hezur-haragizko bertsolariek robotek baino hobeto menderatzen dutela hizkuntza.

[...]Aitzol Astigarraga ikerlariak,  Robotikako taldekoak,  azaldu duenez, robot horiek soEITBkulturaIxa_Laskurain_Bertsoakrtzeko helburua gailuei komunikatzen irakastea da. «Tartalo-k eta Nao-k erakusten dute posible dela robotei hizkuntzaren logika erakustea pixkanaka». Robotika taldearen eta Ixa taldearen elkarlanaren helburua roboten autonomia handitzea eta komunikatzeko gaitasunak garatzea da, ondoren, medikuntzan edota irakaskuntzan lagungarri izateko. «Robotek ikertzen jarraitzeko aukera ematen digute, eta, beharbada, etorkizunean elkarrizketak izateko gai izango dira».

Ikusi  bideo hauek ere bai:

31 eskutik bloga

31 eskutik bloga EIZIEk jarri zuen abian 2012an, egunero euskararen erabilerari buruzko testu bat argitaratzeko, xede gutxi-asko didaktikoz idatzia.

31eskutikTalde-bloga da, egunero testu bat jartzeko, 31 lagunek idazten dute, hilean behin. Alor askotako kideak bildu dira: irakaskuntzakoak, komunikabideetakoak, itzultzaileak, idazleak, ikertzaileak, hiztegigileak…
Ixa taldeko kidea den Itziar Aduriz Agirre, Bartzelonako Unibertsitateko irakaslea eta UEUkidea dena, martxoan hasi da blog horretan. Honezkero bi artikulu bidali ditu

  • Euliak eta Kanoiak. Teoria-hizkuntzalaritza eta hizkuntzalaritza praktikoaren arteko harremanaz aritzen da. Anekdota bat ere kontatzen du: Hizkuntzalaritza konputazionala Euskaltzaindiko biltzar batean estreinakoz aurkeztuta, Piarres Xarriton altxatu eta bere iritzia bota zuen: ez ote ginen ari euliak kanoikadaz hil nahian.
  • Tristura. Kontakizun goxoa euskarazko tristura hitz horren itzulpena zein zaila den aurkezteko.  “… «ama, zer duzu?» galderari, «tristura» erantzuten zuen, eskua sabelaren gainean jartzen zuen bitartean”

Igone Zabala Ixakide berriak ere berri batzuk bidali ditu 31 eskutik blogera:

  • Corpusak eta hiztegiak artikuluan corpus eta hiztegien mugak aztertzen ditu estimatu / estimazio / estimatzaile lemen adierak aztertuta.“Hiztegiek corpusek egiten dituzten argazkiak interpretatzen dituzte eta zenbat eta argazki gehiago eta enfokatuago eduki, orduan eta informazio hobea eskainiko diete erabiltzaileei.”
  • Corpusen adierazgarritasuna artikuluan agurtzen ditu 2013an argitaratu diren corpus handi berriak “ezinezkoa zait ezikusia egitea urte honen hasieran euskal corpusgintzak eman digun uzta oparoari“. Eta eztabaidatzen du ea Egungo Testuen Corpusa (ETC) corpusa benetan ereduzkoa edo nonbait oportunista den.

Blog interesgarria da. Hizkuntza-teknologiaren bidez sortutako baliabideak aipatu, erabili eta eztabaidatzen dira bertan. Gure blogeko esteken artean sartu dugu.

 

Aro digital honetan nola dago euskara? (META-NET liburua)

Europa mailan Hizkuntzaren Prozesamenduan koordinazio-lanak egiten dituen META-NET sareak 30 “liburu zuri” argitaratu ditu alor honetan Europako hizkuntzen egoera aztertzearren. Horietako bat euskararena da, orain dela gutxi argitaratu dena:

“Euskara Aro Digitalean” liburua

Inmaculada Hernáez, Eva Navas, Igor Odriozola, Kepa Sarasola, Arantza Diaz de Ilarraza, Igor Leturia, Araceli Diaz de Lezana, Beñat Oihartzabal, Jasone Salaberria  2012
The Basque language in the digital age / Euskara aro digitalean
METANET White Paper Series.
Georg Rehm, Hans Uszkoreit (editors). Springer.

METANET_White_Papers_Basque.pdf

Liburuaren egile eta koordinatzaile nagusia izan den Inma Hernaezek laburpentxo hau egin du:

Oro har, META-NETen ikerketa-lanak ohartarazten du Europako hizkuntza gehienak digitalki iraungitzeko arriskuan daudela, aztertutako 30 hizkuntzetako 21ek duten babes digitala “hutsa” edo, kasurik onenean, “eskasa” baita.

Azterketak agerian uzten du hizkuntza batek ere ez duela “babes bikaina”; ingelesa baino ez da jo “babes ona” duen hizkuntzatzat, eta haren atzetik daude alemana, espainiera, frantsesa, italiera eta nederlandera, “babes ertainaz”. Bestalde euskarak, katalanak eta galegoak, bulgariera, greziera, hungariera eta polonierarekin batera, “babes zatikatua” dute, eta, hortaz arrisku handiko hizkuntzen multzoan ezarri dira horiek ere.

META-NETen arabera, ezinbestekoa da Europan ekimen koordinatu eta eskala handiko bat sortzea, dauden hutsuneak beteko baditugu eta teknologia ahalik eta hizkuntza gehienetara transferituko badugu. Izan ere, biztanleko karga finantzarioa oso handia da hizkuntza-komunitate txikienentzat; hizkuntzen artean teknologiak trukatu beharra dago; nabarmena da baliabideen, tresnen eta zerbitzuen elkarreragingarritasun falta; eta bistakoak dira hizkuntza-mugak eta muga politikoak maiz bat ez etortzearen ondorioak.

Osasun-terminoak euskaraz: tresna informatiko berri bat

OLatzMaiteSnomed1Osasungoan euskara erabiltzea oraindik erronka betegabea da. Bide horretan, urrats bat eman du Olatz Perez de Viñasprek bere Hizkuntzaren Azterketa eta Prozesamendua  masterreko tesian: SNOMED CT sare semantikoa euskaratzeko lehen urratsak“.

Medikuntza-arloan terminologia zabal, eleanitz eta ulergarriena da SNOMED CT (Systematized Nomenclature of Medicine – Clinical Terms). Milioi bat termino inguru biltzen ditu gaixotasun-izen, gorputzeko atal, medikuntzako prozedura eta antzeko kategorien azpian.

Sare-semantiko honetako kontzeptuentzako euskarazko ordainak lortzeko aplikazio bat diseinatu du Olatzek eta aplikazioaren lehen urratsa inplementatu du. Honela, euskara ere duten zenbait hiztegi eleanitz espezializatutan oinarrituta, SNOMED CTn dauden gaixotasun-izenen %20 inguru euskaratu du modu automatikoan hizkuntza-teknologia baliatuta.

Tresna informatikoa diseinatuta dago eta garapenean jarraituko duen arren, arloko adituen erabilera eta ezagutza behar ditu Olatzek hurrengo urratsak emateko.

Osasun-langileek euskara erabil dezaten laguntza ematea da, besteak beste, aplikazio honen helburua.

Txosten osoa hemen dago eskuragarri.

Snomed

SNOMED ontologiaren adibidea (iturria: http://www.imt.liu.se/~erisu/)

Mintegia: Terminoen erregistro akademikoen garapena aztertzeko lan-ingurunea(2013/02/28)

Gaia: GARATERM: erregistro akademikoen garapena aztertzeko lan-ingurunea
Hizlaria: Igone Zabala
Eguna: Otsailak 28, osteguna
Ordua: 15:00
Tokia:  3.2 gela. Informatika Fakultatea

Laburpena:
2008 urtean aurrera eraman zen GARATERM proiektua (EHU-EJIE deialdiko diru-laguntza). Proiektu horretan gogoeta orokorra egin zen euskara akademikoaren garapena, ikerketa eta didaktika uztartzeko plataforma bat osatzeko eman beharreko urratsez eta beharrezko liratekeen tresna eta baliabideez. Gogoeta horrekin batera etorri zitzaion orduko Euskal Filologia sailari (orain Euskal Hizkuntza eta Komunikazioa izena duenari) zeregin bat Euskara Errektoreordetzatik, alegia, Euskara Plan Gidarian aurreikusten ziren irakasleentzako tailerren ardura hartzea. Zeregin hori Garaterm proiektuaren ideiarekin uztartu zen, eta hasieran tailer huts modura pentsatuta zeudenak Terminologia Sareak Ehunduz esaten diogun programa bihurtu ziren apurka-apurka. 2011 eta 2012 urteetan Elhuyarrekin batera aurrera eraman den unibertsitate-gizartea proiektuaren bitartez eta TSE programan lortutako esperientziari esker, aurrera eraman ahal izan dira lehen proiektuan beharrezkotzat hartutako zenbait elementu. Hitzaldi honetan “Garaterm-2: Linguistikoki prozesatutako corpusetatik terminologia eta neologia erauzteko lan-ingurunearen garapena” proiektuaren helburuak, lorpenak eta aurrera begira egin beharrekoak azalduko dira.

NewsReader proiektua abian jarri dugu Amsterdamen

Ixa taldea NewsReader proiektuko bost partaideetako bat da (EU FP7 programa, grant 316404, 2013 – 2015). Urtarrilaren 23an proiektua martxan jartzeko lehen bilera egin da Amsterdameko VU Unibertsitatean. Hauek gara kontsortzioko kideak :

NewsReaderproblem

Gaur egunean albiste-datuen kopuruak ikaragarri handiak dira eta zabalduz doaz gainera. Mila milioika dokumentu eduki dezakegu gordeta eta milioika dokumentu berri sortzen dira egunero. Gertaera berrien aurrean arin erantzun behar duten erabaki-guneetako langileek ezintasunean ibiltzen dira gaur egunean, egun erabiltzen diren soluzioek ez baitabiltza behar bezala. Ondorioz ia ezinezkoa da erabakiak hartzea informazio esanguratsu guztia eskuratuta, eta profesional horiek moldatu behar izaten dira informazio ez-osoa, ez-zehatza eta zaharkituarekin.

NewsReaderStorylines NewsReader proiektuan erabaki-prozesuetan laguntzeko tresna bat garatu nahi da. Profesionalari interfaze grafikoen bidez dokumentuak lerro historikoetan antolatuta erakutsiko zaizkio. Elkarrekintzaren bidez dokumentuen berritasun maila aztertu ahal izango du. Helburua da erauztea zer gertatu zion nori, non eta noiz, eta jakitea horrelakoak  bereizten  lerro historiko diferenteetan. Horrela, iraganeko gertaerak aztertuz NewsReader etorkizuneko gertaerak aurreikusteko gauza izango da. Gertaera berriak azaltzeko ahalmena lortuko du iraganeko datuak erabiliz. Finantzetako eta ekonomiako profesionalek testatuko dute tresna hau proiektuko azken urtean.

Koldo Mitxelena saria Arantxa Otegiri.

III_Koldo_Mitxelena_ArantxaEuskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten atzo Arantxa Otegi Ixakideari Ikasketa Teknikoen jakintza-arloan. Sari-banaketa atzo izan zen, urtarrilak 17,  Bilboko Bizkaia aretoan.

Arantxa Otegiren tesiaren helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, ahaidetasun semantikoko hainbat metodo erabiliz.

Tesi horren azalpentxo bat ikus dezakezu blog honetan lehengo urteko albiste batean.
Tesi-txosten osoa ere ikus dezakezu hemen.

ZORIONAK Arantxa!
Zorionak zuzendariei! (Eneko Agirre eta Xabier Arregi)

Testu-liburuen “erradiografiak” egiten, hizkuntza teknologia erabiliz (Mikel Larrañagaren tesia)

Abenduan irakurritako tesi-lanean Mikel Larrañaga doktore berriak hizkuntza-teknologiako zenbait tresna erabiltzen ditu testu-liburu baten “erradiografia” egiteko, alegia, liburuan azaltzen den domeinuko ezagutza erauzteko. Lanaren zuzendariak Galan ikerketa taldeko Jon Ander Elorriaga eta Ana Arruarte izan dira, eta haren titulua Semi-Automatic Generation of Learning Domain Modules for Technology Supported Learning Systems.

Galan ikerketa taldeak EHUko Informatika Fakultatean dihardu. Adimen artifizialeko teknikak erabiltzen dituzte irakaskuntza-sistemak eta tresnak sortzeko.

Irudi honetan ikus daitekeenez, testuliburu bat automatikoki aztertzeko, eta bertan irakasten denaren errepresentazio sakona eraikitzeko hainbat urrats egiten ditu tesi horretan sortu den sistemak. Larranaga_Acq_Domain_ModuleSistemak lortzen dituen Domeinu-Modulu eta Ikas-Domeinuaren Ontologia horiek funtsezkoak dira irakaskuntza-sistema automatikoa sortu ahal izateko.   Honela dio Mikel Larrañagak sarreran: “Domeinu-modulua da Teknologian Oinarritutako Hezkuntzarako edozein tresnaren muina, hark adierazten baitu ikasleek ikasi beharreko ezagutza guztia. Tutore Adimendunek, adibidez, osagai hori erabiltzen dute ikasleen ezagutza neurtzeko eta nola jokatu erabakitzeko. Domeinu-modulua ez bada egokia, ikasketa-prozesu eraginkorra burutzea ezinezkoa izango da (Anderson, 1988).
Domeinu-modulua sortzea ez da lan arina, ordea.”

Testuaren prozesaketa automatiko hori egiteko Ixa taldean sortu ditugun tresnak erabili ditu: lematizazioa, analisi morfologikoa, constrain-grammar, UKB algoritmoa… Honako irudian kolore berdez azaltzen diren moduluak hizkuntza-teknologiakoak dira:

Larranaga_arkitektura Ixa taldean pozik gaude gure tresnetarako erabilera berriak asmatzen direnean, eta horrela tesi honetan bezala ikerketa-lerro berriak zabaltzen direnean. Zorionak eta eskerrik asko!

Tesia begiratu nahi duenak erraz lortu dezake dokumentua (PhDThesis.pdf), baita aurkezpeneko gardenkiak ere (TesiAurkezpenaGardenkiak.pdf) Galan taldeko webgunean.

Bertsoak idazten laguntzeko “Arbel digitala” aurkeztu dute.

Manex Agirrezabal, Bertol Arrieta eta Iñaki Alegria Ixakideek eta Bertsozale Elkartearekin produktu berri bat sortu dute informatika, hizkuntza-teknologia eta bertsolaritza lantzeko. Arbel digitala aurkeztu dute Koldo Mitxelenan gaur Manex, Bertol eta Bertsozale Elkarteko Aritz Zerain eta Ixiar Eizagirrek.

Hainbat baliabide eskaintzen ditu tresna honek: errima-bilatzailea, neurri-markatzailea, neurri-egiaztatzailea, sinonimo-bilatzailea… Orain dela urte batzuk sortu zuten Bertsolarixa tresna baino dezente ahaltsuagoa da Arbel digital berri hau. Orain dela gutxi robot bertsolaria ere erakutsi zuten.

Bertsotarako arbel digitala zer den ondo jakiteko jo Bertsozale Elkarteak jarri duen azalpenera, edo hobeto, zuzenean joan proba egitera. Jarri lanean, ea “inspirazio artifizial” honekin bertso ederren bat sortzen duzun!

Arbel_digitalaAlbistea medioetan: Berria, bertso-eskolak.com, Diario Vasco, …

Albistea bertsoa.com webgunean