Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan (iñigo Jauregi, 2017-12-19)

Gaia: Hizkuntzaren prozesamendua eta ikasketa automatikoa osasun arloan
Hizlaria:
Inigo Jauregi-k Telekomunikazioen Ingenieritza gradua atera zuen Nafarroako Unibertsitatean (Tecnum) 2016an. CEITen aritu zen gero bi urtez ikerketa laguntzaile lanetan.
2016ko abuztuaz geroztik Capital Markets Cooperative Research Centre-en (CMCRC) ari da lanean hikzuntzaren prozesamendua osasun sektorean aplikatzen.
2017tik tesia egiten dabil University of Technology Sydney-n (UTS). Bere ikerketaren gai nagusiak ikasketa automatikoa eta hizkuntzaren prozesamendua dira.
Eguna: abenduaren 19an, asteartean
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

Osasun sektorean egunero sortzen den informazio kopurua oso handia da eta, gainera, informazio horren zati handi bat testu hutsa izaten da. Bi gai lantzen ditut, bat unibertsitateari lotuta eta bestea enpresa pribatu baterako proiektu bati lotua:

  • Lehenengoa, farmako, medikamentu marka, gaixotasun, prozedura eta beste zenbait osasun domeinuko izenen ezagutze automatikoan datza (health-domain named-entity recognition). Horretarako, B-LSTM-CRF izeneko sare neuronala erabili dut.
  • Bigarren ikerketa praktikoagoa da. Enpresa honek mugikorreko app baten bitartez bakoitzaren osasunerako coaching zerbitzu pertsonalizatu bat eskaintzen du munduan zehar, 24h erabilgarri dagoen chat baten bitartez. Helburua erabiltzaileen mezuen kopuru handi bati automatikoki erantzungo dien chatbot bat sortzea da.

Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak hitzen benetako erabilerari buruzko informazioa eskuratzeko. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; esaterako, ea erreferentziatu aditza maiz erabiltzen den ala ez.

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu beharko du.

Zorionez, Euskaltzaindiak bakarrik ez, denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez, oso kontsulta erabilgarriak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke… hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: bortitz, suabe, ahul...
Praktikoa da, ez da?

 

Corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’

Science aldizkariak albiste moduan jaso du aste honetan Mikel Artetxe, Eneko Agirre and Gorka Labaka gure lankideek urrian argitaratu zuten ikerketa bat: Artificial intelligence goes bilingual—without a dictionary

Ixakideen ikerketa deskribatzen duen Science aldizkariko albistea.

Hiru Ixakide horiek urriaren 30ean argitaratu zuten Unsupervised Neural Machine Translation artikulua, New York Unibertsitateko Kyunghyun Cho ikerlari ospetsuarekin lankidetzan.

Biharamunean, kasualitatez, Facebook-eko G. Lample ikerlariak oso antzeko ikuspuntua duen beste artikulu bat argitaratu zuen (Unsupervised Machine Translation Using Monolingual Corpora Only). Kasualitate horrek arreta handia ekarri du ikerketa bide berri honetara. Bi artikuluak, gainera, elkarren osagarri izan daitezke. Artikulu horiek argitaratu aurreko bertsioak dira oraindik baina, ICLR 2018 bilkuran aukeztuak izateko bidali dira orain.
Hauek dira Science aldizkarian Matthew Hutson freelance kazetariak idatzi dituen esaldi batzuk:

[…] artikulu bi hauek erakusten dute neurona-sareek testu paralelorik gabe ere ikas dezaketela itzulpenak egiten —eta horrela aurrerapen harrigarri honek erabilgarri bihurtuko lizkiguke beste hainbat hizkuntzatako dokumentu.

[…] “Imajinatu pertsona bati ematen dizkiozula liburu mordo bat txineraz eta liburu mordo bat arabieraz —gai diferenteak bi hizkuntzatan— eta pertsona horrek txineratik arabiera itzultzen ikasi nahi duela. Ezinezkoa dirudi, ez da?” horixe dio artikuluko lehen egileak, Mikel Artetxe, Euskal Herriko Unibertsitateko (UPV/EHU) informatikaria Donostian. “Baina guk konputagailua hori egin dezakeela frogatu dugu.”

[…]  “Hau hasiera baino ez da,” ohartzen du Artetxeren idazkide izan den Eneko Agirre-k. “Guk ikerketarako bide bat zabaldu dugu, eta oraindik ez dakigu noraino heldu daitekeen.”

[…] Artetxek dio harrigarria dela bere metodoa eta Lample-rena hain antzekoak izatea —egun bakar bateko tartearekin baino ez zuten igo arXiv biltegira—. “Baina aldi berean itzela ere bada. Horrek esan nahi baitu hurbilketa berri hau norabide egokian doala.”

Zorionak Mikel, Eneko, Gorka and Kyunghyun. Aurrera!

Ikastaroa neguan: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)

Ondoko ikastaro osagarriari buruzko informazioa helarazten dizuegu IXA taldetik.
Ikastaroa ingelesez izango da. Masterreko modulua da. Gustatzen bazaizu hurrengo urtean master osoa egin 😉

GAIA: Ikasketa sakona hizkuntzaren prozesamendurako (4.5 kreditu ECTS)
//
Deep Learning for Natural Language Processing

Hitzen esanahiak grafikoki. Google saria Eneko Agirreri.

Hizkuntza: Ingelesa
Ikastaroaren datak:
12 saio dira; otsailaren 5-8, 19-22, 26-28 eta martxoaren 1a
Ordutegia:
17:30 – 20:00
Matrikulazio-epea:  abenduaren 24ra arte.
Ikasle kopurua: 20 (kurrikulumaren arabera aukeratuko dira)
Izena ematea: bidali CVa amaia.lorenzo@ehu.eus and e.agirre@ehu.eus
Baldintzak:
eskarmentua oinarrizko programazioarekin, informatikako gradua eta Python ezagutzea. Aljebra edo kalkuluaren oinarrizko kontzeptuak ere beharrezkoak dira.
Prezioa: 180€
Irakasleak:Eneko Agirre eta Oier Lopez de Lacalle

[EN]
https://ixa.eus/ikastaroa_deep_learning
Deep Learning for Natural Language Processing

    Course open to anyone, see details and pre-requisite information below.

Irudia: Roelof Pieters

    Deep Learning neural network models have been successfully applied to natural language processing, and are now changing radically how we interact with machines (Siri, Amazon Alexa, Google Home, Skype translator, Google Translate, or the Google search engine). These models are able to infer a continuous representation for words and sentences, instead of using hand-engineered features as in other machine learning approaches. The seminar will introduce the main deep learning models used in natural language processing, allowing the attendees to gain hands-on understanding and implementation of them in Tensorflow.

Edukiak

Introduction to machine learning and NLP with Tensorflow, Deep learning, Word embeddings, Language modeling and recurrent neural networks, Convolutional neural networks, Attention mechanisms

Saria: Bagera elkartearen “bidelagunak” gara

25 urte bete ditu Bagera elkarteak. Donostiako euskaltzaleen elkartea den horrek 25 pertsona edo talde aukeratu ditu 25 urte horietan Donostian euskara sustatzen bidelagun izan dituelako. Eta Ixa Taldea izan da aitortza jaso duen 25 bidelagun horietako bat.

Zelako maila dagoen 25 aukeratu horien artean: Txillardegi, Mikel Zalbide, Arantza Urretabizkaia, Mintzalaguna, Donostiako euskaltegiak, Donostiako euskara taldeak, Dani Goñi, Piratak…

Ohore handia da bidelagun horiekin guztiekin azaltzea.
Eskerrik asko Bagera, eta urte askotarako!
Lanean jarraituko dugu bidelagunekin 😉

Bagera-ren oroigarriak indarra ematen digu. Jarraituko dugu proiektu eta langile gehiago prestatzen.

Ixa taldearen oroigarria Arantza Diaz de Ilarraza-k jaso zuen (Arg: Estitxu Zabala, Hirutxulo)

Mintegia: PROSAMED, gaztelaniazko txosten medikoen azterketa (K. Gojenola, 2017-11-21)

Noiz: asteartean, azaroak 21, 15:30ean. bai oraingoan 15:30ean
Non: 3.2 gelan.
Hizlaria: Koldo Gojenola
Izenburua: 

Lengoaia naturalaren prozesamendua eta medikuntza:
gaztelaniazko txosten medikoen azterketa (PROSAMED proiektua)

Laburpena:
Azken urteotan txosten mediko elektronikoak orokortu egin dira osasun-sistema guztietan. Honek testu horiek prozesatzeko aukera asko irekitzen ditu.
Prosamed proiektuan Osakidetzarekin egiten ari garen lanak aurkeztuko dira mintegi honetan, horien artean:
  • Entitate medikoen ezagutza:
    • gaixotasunak: LEUCEMIA, paniculitis, síndrome de lissi tumoral, STENOTROPHOMONAS MALTOPHILIA, …
    • botikak: Omeprazol, posaconazol, levofloxacino, …
    • gorputz-atalak: pulmonar, pretibial, cutáneas, …
    • kalifikatzaileak: aguda, Fenotipo Mixto T/mieloide, …
  • Entitate medikoen arteko erlazioak: gaixotasuna eta gorputz-atala, gaixotasuna-kalifikatzailea kalifikadorea , gaixotasuna-botika (aurkako efektua)
  • Txostenen lotura medikuntzako datu-base eta ontologiekin:
    • SNOMED Clinical Terms: 311.000 kontzeptu.
    • ICD-10 (International Classification of Diseases): 64.000 entitate baino gehiago.
    • Dokumentuak eta entitateak ontologia horiekin lotu.

Ixa Taldearen 4 proiektu Senez aldizkarian (Besterena nuen neuregana)

Euskal Itzultzaile, Zuzentzaile eta Interpreteen Elkartearen Senez aldizkariko 48. alean Ixa Taldeko lau artikulu argitaratu ditugu Besterena nuen neuregana atal berezian. Hemen daude artikulu horiek ikusteko estekak, baita EIZIEko Karlos del Olmok egin duen sarrera ere:

Zer ikertzen da Informatika Fakultatean? Aurkezpena ikasleei

Bihar goizean Informatika Fakultateko ikerketa-taldeok aurkezpen bat egingo diegu ikasleei.

Noiz: Asteartean, urriak 10
Ordua: 10:05-11:10
Non: Ada-Lovelace aretoan
Norentzat: Batez ere 4. eta 3. mailako ikasleentzat.
Helburua: Fakultatean egiten dugun ikerketa azaltzea, baita ikasleek gurekin lan egiteko dituzten aukerak ere: gradu/master amaierako lanak, kolaborazioak, eta abar.

 

Guztira 15 talde gara! Beraz, aurkezpenak labur joango  dira. 3 minutuko aurkezpena eta minutu bat galderetarako. Ixa taldearena 3. izango da
Kuxkuxeroentzat: ikertaldeen posterrak eta Fakultateko ikertaldeen webgunea