Lexikoaren Behatokia: Hitz hau erabiltzen da XXI. mendeko hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak jakin nahi zuen hitzen benetako erabilera zein zen. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; ‘erreferentziatu‘ aditza, esaterako, horrela detektatu zen.

 

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu egin beharko du.

 

Zorionez Euskaltzaindiak bakarrik ez, Interneteko eremu irekian denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez kontsulta oso praktikoak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke, hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: zakarra, bortitz, suabe, ahul...
Praktikoa da, baietz!

Corpus handi, orekatu,lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’

Science aldizkariak albiste moduan jaso du aste honetan Mikel Artetxe, Eneko Agirre and Gorka Labaka gure lankideek urrian argitaratu zuten ikerketa bat: Artificial intelligence goes bilingual—without a dictionary

Ixakideen ikerketa deskribatzen duen Science aldizkariko albistea.

Hiru Ixakide horiek urriaren 30ean argitaratu zuten Unsupervised Neural Machine Translation artikulua, New York Unibertsitateko Kyunghyun Cho ikerlari ospetsuarekin lankidetzan.

Biharamunean, kasualitatez, Facebook-eko G. Lample ikerlariak oso antzeko ikuspuntua duen beste artikulu bat argitaratu zuen (Unsupervised Machine Translation Using Monolingual Corpora Only). Kasualitate horrek arreta handia ekarri du ikerketa bide berri honetara. Bi artikuluak, gainera, elkarren osagarri izan daitezke. Artikulu horiek argitaratu aurreko bertsioak dira oraindik baina, ICLR 2018 bilkuran aukeztuak izateko bidali dira orain.
Hauek dira Science aldizkarian Matthew Hutson freelance kazetariak idatzi dituen esaldi batzuk:

[…] artikulu bi hauek erakusten dute neurona-sareek testu paralelorik gabe ere ikas dezaketela itzulpenak egiten —eta horrela aurrerapen harrigarri honek erabilgarri bihurtuko lizkiguke beste hainbat hizkuntzatako dokumentu.

[…] “Imajinatu pertsona bati ematen dizkiozula liburu mordo bat txineraz eta liburu mordo bat arabieraz —gai diferenteak bi hizkuntzatan— eta pertsona horrek txineratik arabiera itzultzen ikasi nahi duela. Ezinezkoa dirudi, ez da?” horixe dio artikuluko lehen egileak, Mikel Artetxe, Euskal Herriko Unibertsitateko (UPV/EHU) informatikaria Donostian. “Baina guk konputagailua hori egin dezakeela frogatu dugu.”

[…]  “Hau hasiera baino ez da,” ohartzen du Artetxeren idazkide izan den Eneko Agirre-k. “Guk ikerketarako bide bat zabaldu dugu, eta oraindik ez dakigu noraino heldu daitekeen.”

[…] Artetxek dio harrigarria dela bere metodoa eta Lample-rena hain antzekoak izatea —egun bakar bateko tartearekin baino ez zuten igo arXiv biltegira—. “Baina aldi berean itzela ere bada. Horrek esan nahi baitu hurbilketa berri hau norabide egokian doala.”

Zorionak Mikel, Eneko, Gorka and Kyunghyun. Aurrera!

Ixa Taldearen 4 proiektu Senez aldizkarian (Besterena nuen neuregana)

Euskal Itzultzaile, Zuzentzaile eta Interpreteen Elkartearen Senez aldizkariko 48. alean Ixa Taldeko lau artikulu argitaratu ditugu Besterena nuen neuregana atal berezian. Hemen daude artikulu horiek ikusteko estekak, baita EIZIEko Karlos del Olmok egin duen sarrera ere:

SEPLN2017 biltzarreko artikulu onenaren saria

Begoña Altuna, María Jesús Aranzabe, eta Arantza Diaz de Ilarraza ixakideek artikulu onenaren saria jaso dute kongresuan!
ZORIONAK!!!

Artikuluaren izenburua hau da: ‘EusHeidelTime: Time Expression Extraction and Normalisation for Basque

Euskarazko testuetatik denbora-adierazpenak nola antzeman eta nola normalizatu aztertzen dute artikuluan. Nola antzeman testu batean denbora-lerroko une konkretu bat aipatzen dela? Nola antzeman denbora tarte bat dela? Eta noiz? Testuan deskribatzen diren ekintzak noiz gertatu izan diren ondo ulertzeko behar beharrezko dira ikerketa hauek.

Bada sistema bat ingeleserako eta beste hizkuntzetarako erabiltzen dena HeidelTime. Ikerketa honetan euskarari egokitu dute sistema hori. Morfologia aberatsa duen hizkuntza baterako ere baliagarria izan daitekeela frogatu dute.

 

HAP Masterreko 7 ikasle-ohi IKERGAZTE biltzarrean

Maiatzaren 10, 11 eta 12an Iruñean ikerlari gazteak bilduko dituen IkerGazte biltzarreko aurkezpenen listan 7 artikulu aurkituko dituzu HAP masterreko ikasle ohiekin:

  • (18) Euskarazko gertaeren etiketatze automatikoa. Haritz Salaberri, Olatz Arregi eta Beñat Zapirain
  • (29) Poesiaren eskantsio automatikoa: bi hizkuntzen azterketa. Manex Agirrezabal, Iñaki Alegria eta Mans Hulden
  • (78) Testu-loturen labirinto semantikoan barna, esanahi-bektoreak lagun! Josu Goikoetxea, Iñigo Lopez-Gazpio, Eneko Agirre, Montse Maritxalar eta Aitor Soroa
  • (112) Osasun-zientzietako terminologiaren euskaratze automatikoaren ebaluazioa, osasungintzako euskal komunitatea inplikatuz. Olatz Perez-De-Viñaspre eta Maite Oronoz Anchordoqui
  • (120) Ahots kantatuaren sintesiaren, bertsolaritzarako egokitzapena. Xabier Sarasola, Eva Navas eta Inma Hernaez
  • (121) Euskarazko ezeztapenaren tratamendu automatikorako azterketa. Begoña Altuna, María Jesús Aranzabe eta Arantza Díaz de Ilarraza
  • (132) Aditz+izen konbinazioen itzulpen automatikoa, arau linguistikoen bidez. Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola

Gaur bukatzen da matrikula merkerako epea. Aupa!

Hizkuntza prozesamenduaren beharraz (Gaur8, 2017-01-28)

Arantza2_Gaur8Hizkuntza prozesamenduaren teknikaz balia gaitezke artikulua argitaratu du Arantza Diaz de Ilarraza Ixakideak Gaur8 aldizkarian. Hona hemen zati batzuk:

Interneten aurki ditzakegun dokumentuen kantitatea ikaragarria da, eta, gainera, esponentzialki handitzen da urtero. Hori dela-eta, gure eskura testu-informazio bolumen itzela dugu, eta hazten doa. Hala ere, testu-informazio hori erabiltzea ez da erraza; laguntza behar dugu, eta konputagailuek lagun diezagukete zeregin horretan. […]

Jende askok ez daki teknologia hori zertan datzan, baina gure bizitzaren alderdi funtsezkoa bilakatu dela esan behar dugu. […]

Datozen urteetan teknologia honen baliagarritasuna gero eta nabarmenagoa izango da eguneroko beharretan. Konputagailuak gero eta hobeto dabiltza itzulpen automatikoan, dokumentuen sailkapenean, bilaketetan eta baita ahotsaren ezagutzan eta hizketaren sintesian ere, baina oraindik ez dute hizkuntzaren esanahia ulertzen. Bitartean, baina, balia gaitezke lagungarriak izan daitezkeen aplikazioez.

IXA taldearen ekarpenak COLING 2016 kongresuan (Osaka, abendua, 11-17)

COLING kongresua oso garrantzitsua da linguistika konputazionaleko ikerketa-arloan. 2016ko bilkura Japonian Osakan egiten ari da egun hauetan, abenduaren 11tik 17ra.
Hauek dira IXA Taldeak aurkeztuko dituen lanak:

#txiotesia3. Hizkuntza-teknologia arloko tesiak

Azaroaren 22an Unibertsitatea.net atariak antolatu duen #txiotesia3 ekimenean gutxienez 6 izan dira hizkuntza teknologiaren inguruko tesiak. Guztira 52 ikertzailek parte hartu zuten, aurreko edizioan baino %13 gehiago.
Sari banaketa abenduaren 1ean izango da Donostiako Garoa liburu dendan, bertan  unibertsitatea.net atariaren 10. urteurrena ospatu eta mahai-inguru bat ere izango da.

Hauek dira Hizkuntza-Teknologiako txio-tesilariak:


Uxoa Iñurrieta barrezka Matxinekin (Wolfram deuna)

wofram11uxoa_matxin_umorea_bergaraAtzo, Uxoa Iñurrietak parte hartu zuen Wolfram deuna 2016 umorezko saioan. Ikusi behean Teknopolis programako albistea (Uxoarena: 2’10”).

Bai, itzultzaile automatikoen esaldiak barregarri xamarrak izaten dira batzuetan. Horrelako adibide batzuekin bere tesi-lanaren motibazioa erakutsi zigun.

 

Errore horietako batzuk konpontzearren tesian egiten ari dena ikusi nahi baduzu…