Lexikoaren Behatokia: Hitz hau erabiltzen da XXI. mendeko hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak jakin nahi zuen hitzen benetako erabilera zein zen. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; ‘erreferentziatu‘ aditza, esaterako, horrela detektatu zen.

 

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu egin beharko du.

 

Zorionez Euskaltzaindiak bakarrik ez, Interneteko eremu irekian denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez kontsulta oso praktikoak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke, hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: zakarra, bortitz, suabe, ahul...
Praktikoa da, baietz!

Corpus handi, orekatu,lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’

Science aldizkariak albiste moduan jaso du aste honetan Mikel Artetxe, Eneko Agirre and Gorka Labaka gure lankideek urrian argitaratu zuten ikerketa bat: Artificial intelligence goes bilingual—without a dictionary

Ixakideen ikerketa deskribatzen duen Science aldizkariko albistea.

Hiru Ixakide horiek urriaren 30ean argitaratu zuten Unsupervised Neural Machine Translation artikulua, New York Unibertsitateko Kyunghyun Cho ikerlari ospetsuarekin lankidetzan.

Biharamunean, kasualitatez, Facebook-eko G. Lample ikerlariak oso antzeko ikuspuntua duen beste artikulu bat argitaratu zuen (Unsupervised Machine Translation Using Monolingual Corpora Only). Kasualitate horrek arreta handia ekarri du ikerketa bide berri honetara. Bi artikuluak, gainera, elkarren osagarri izan daitezke. Artikulu horiek argitaratu aurreko bertsioak dira oraindik baina, ICLR 2018 bilkuran aukeztuak izateko bidali dira orain.
Hauek dira Science aldizkarian Matthew Hutson freelance kazetariak idatzi dituen esaldi batzuk:

[…] artikulu bi hauek erakusten dute neurona-sareek testu paralelorik gabe ere ikas dezaketela itzulpenak egiten —eta horrela aurrerapen harrigarri honek erabilgarri bihurtuko lizkiguke beste hainbat hizkuntzatako dokumentu.

[…] “Imajinatu pertsona bati ematen dizkiozula liburu mordo bat txineraz eta liburu mordo bat arabieraz —gai diferenteak bi hizkuntzatan— eta pertsona horrek txineratik arabiera itzultzen ikasi nahi duela. Ezinezkoa dirudi, ez da?” horixe dio artikuluko lehen egileak, Mikel Artetxe, Euskal Herriko Unibertsitateko (UPV/EHU) informatikaria Donostian. “Baina guk konputagailua hori egin dezakeela frogatu dugu.”

[…]  “Hau hasiera baino ez da,” ohartzen du Artetxeren idazkide izan den Eneko Agirre-k. “Guk ikerketarako bide bat zabaldu dugu, eta oraindik ez dakigu noraino heldu daitekeen.”

[…] Artetxek dio harrigarria dela bere metodoa eta Lample-rena hain antzekoak izatea —egun bakar bateko tartearekin baino ez zuten igo arXiv biltegira—. “Baina aldi berean itzela ere bada. Horrek esan nahi baitu hurbilketa berri hau norabide egokian doala.”

Zorionak Mikel, Eneko, Gorka and Kyunghyun. Aurrera!

Ikastaroa neguan: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)

Ondoko ikastaro osagarriari buruzko informazioa helarazten dizuegu IXA taldetik.
Ikastaroa ingelesez izango da. Masterreko modulua da. Gustatzen bazaizu hurrengo urtean master osoa egin 😉

GAIA: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)
//
Deep Learning for Natural Language Processing

Hitzen esanahiak grafikoki. Google saria Eneko Agirreri.

Hizkuntza: Ingelesa
Ikastaroaren datak:
12 saio dira; otsailaren 5-8, 19-22, 26-28 eta martxoaren 1a
Ordutegia:
17:30 – 20:00
Matrikulazio-epea:  abenduaren 24ra arte.
Ikasle kopurua: 20 (kurrikulumaren arabera aukeratuko dira)
Izena ematea: bidali CVa amaia.lorenzo@ehu.eus and e.agirre@ehu.eus
Baldintzak:
eskarmentua oinarrizko programazioarekin, informatikako gradua eta Python ezagutzea. Aljebra edo kalkuluaren oinarrizko kontzeptuak ere beharrezkoak dira.
Prezioa: 180€
Irakasleak:Eneko Agirre eta Oier Lopez de Lacalle

[EN]
https://ixa.eus/ikastaroa_deep_learning
Deep Learning for Natural Language Processing

    Course open to anyone, see details and pre-requisite information below.

Irudia: Roelof Pieters

    Deep Learning neural network models have been successfully applied to natural language processing, and are now changing radically how we interact with machines (Siri, Amazon Alexa, Google Home, Skype translator, Google Translate, or the Google search engine). These models are able to infer a continuous representation for words and sentences, instead of using hand-engineered features as in other machine learning approaches. The seminar will introduce the main deep learning models used in natural language processing, allowing the attendees to gain hands-on understanding and implementation of them in Tensorflow.

Edukiak

Introduction to machine learning and NLP with Tensorflow, Deep learning, Word embeddings, Language modeling and recurrent neural networks, Convolutional neural networks, Attention mechanisms

Saria: Bagera elkartearen “bidelagunak” gara

25 urte bete ditu Bagera elkarteak. Donostiako euskaltzaleen elkartea den horrek 25 pertsona edo talde aukeratu ditu 25 urte horietan Donostian euskara sustatzen bidelagun izan dituelako. Eta Ixa Taldea izan da aitortza jaso duen 25 bidelagun horietako bat.

Zelako maila dagoen 25 aukeratu horien artean: Txillardegi, Mikel Zalbide, Arantza Urretabizkaia, Mintzalaguna, Donostiako euskaltegiak, Donostiako euskara taldeak, Dani Goñi, Piratak…

Ohore handia da bidelagun horiekin guztiekin azaltzea.
Eskerrik asko Bagera, eta urte askotarako!
Lanean jarraituko dugu bidelagunekin 😉

Bagera-ren oroigarriak indarra ematen digu. Jarraituko dugu proiektu eta langile gehiago prestatzen.

Ixa taldearen oroigarria Arantza Diaz de Ilarraza-k jaso zuen (Arg: Estitxu Zabala, Hirutxulo)

Mintegia: PROSAMED, gaztelaniazko txosten medikoen azterketa (K. Gojenola, 2017-11-21)

Noiz: asteartean, azaroak 21, 15:30ean. bai oraingoan 15:30ean
Non: 3.2 gelan.
Hizlaria: Koldo Gojenola
Izenburua: 

Lengoaia naturalaren prozesamendua eta medikuntza:
gaztelaniazko txosten medikoen azterketa (PROSAMED proiektua)

Laburpena:
Azken urteotan txosten mediko elektronikoak orokortu egin dira osasun-sistema guztietan. Honek testu horiek prozesatzeko aukera asko irekitzen ditu.
Prosamed proiektuan Osakidetzarekin egiten ari garen lanak aurkeztuko dira mintegi honetan, horien artean:
  • Entitate medikoen ezagutza:
    • gaixotasunak: LEUCEMIA, paniculitis, síndrome de lissi tumoral, STENOTROPHOMONAS MALTOPHILIA, …
    • botikak: Omeprazol, posaconazol, levofloxacino, …
    • gorputz-atalak: pulmonar, pretibial, cutáneas, …
    • kalifikatzaileak: aguda, Fenotipo Mixto T/mieloide, …
  • Entitate medikoen arteko erlazioak: gaixotasuna eta gorputz-atala, gaixotasuna-kalifikatzailea kalifikadorea , gaixotasuna-botika (aurkako efektua)
  • Txostenen lotura medikuntzako datu-base eta ontologiekin:
    • SNOMED Clinical Terms: 311.000 kontzeptu.
    • ICD-10 (International Classification of Diseases): 64.000 entitate baino gehiago.
    • Dokumentuak eta entitateak ontologia horiekin lotu.

Ixa Taldearen 4 proiektu Senez aldizkarian (Besterena nuen neuregana)

Euskal Itzultzaile, Zuzentzaile eta Interpreteen Elkartearen Senez aldizkariko 48. alean Ixa Taldeko lau artikulu argitaratu ditugu Besterena nuen neuregana atal berezian. Hemen daude artikulu horiek ikusteko estekak, baita EIZIEko Karlos del Olmok egin duen sarrera ere:

Zer ikertzen da Informatika Fakultatean? Aurkezpena ikasleei

Bihar goizean Informatika Fakultateko ikerketa-taldeok aurkezpen bat egingo diegu ikasleei.

Noiz: Asteartean, urriak 10
Ordua: 10:05-11:10
Non: Ada-Lovelace aretoan
Norentzat: Batez ere 4. eta 3. mailako ikasleentzat.
Helburua: Fakultatean egiten dugun ikerketa azaltzea, baita ikasleek gurekin lan egiteko dituzten aukerak ere: gradu/master amaierako lanak, kolaborazioak, eta abar.

 

Guztira 15 talde gara! Beraz, aurkezpenak labur joango  dira. 3 minutuko aurkezpena eta minutu bat galderetarako. Ixa taldearena 3. izango da
Kuxkuxeroentzat: ikertaldeen posterrak eta Fakultateko ikertaldeen webgunea

SEPLN2017 biltzarreko artikulu onenaren saria

Begoña Altuna, María Jesús Aranzabe, eta Arantza Diaz de Ilarraza ixakideek artikulu onenaren saria jaso dute kongresuan!
ZORIONAK!!!

Artikuluaren izenburua hau da: ‘EusHeidelTime: Time Expression Extraction and Normalisation for Basque

Euskarazko testuetatik denbora-adierazpenak nola antzeman eta nola normalizatu aztertzen dute artikuluan. Nola antzeman testu batean denbora-lerroko une konkretu bat aipatzen dela? Nola antzeman denbora tarte bat dela? Eta noiz? Testuan deskribatzen diren ekintzak noiz gertatu izan diren ondo ulertzeko behar beharrezko dira ikerketa hauek.

Bada sistema bat ingeleserako eta beste hizkuntzetarako erabiltzen dena HeidelTime. Ikerketa honetan euskarari egokitu dute sistema hori. Morfologia aberatsa duen hizkuntza baterako ere baliagarria izan daitekeela frogatu dute.