Itzulpengintza automatiko neuronala. Jardunaldi irekia Kyunghyun Cho adituarekin (2017-05-29)

Itzulpengintza automatikoaren hirugarren belaunaldia garatzen ari da. Garai batean erregela linguistikoetan oinarritutako sistemak ziren nagusi (RBMT teknologia), azken hamarkadan, berriz, estatistikan oinarritutako sistemak gailentzen joan dira (SMT teknologia), eta azken bi urtetan neurona-sareetan oinarritutako sistemek hobekuntza kualitatiboak lortzen ari dira (NMT teknologia), teknologia hau ikergai nagusia bihurtuz itzulpengintza automatikoaren arloan. Jardunaldi honetan teknologia horren azken aurrerapenak aurkeztu nahi ditugu, euskararen gainean lortu ditugun emaitzak barne.

Modela_irudia11Testuingurua:

NMT teknologian ikertzea eta, are gehiago, erronka handia den euskararen itzulpen automatiko onargarrira iristea da Modela proiektuaren helburua. Modela proiektua Eusko Jaurlaritzak finantzatzen du eta honako erakundeak dira partaideak: Ametzagaiña, Elhuyar, ISEA, UPV/EHUko Ixa taldea eta Vicomtech/IK4.

Gonbidatua:

Jardunaldi honen gonbidatu nagusia Kyunghyun Cho (Center for Data Science, New York University), ikerlari ezaguna da. NMT arloan aditu erreferentziatuenetako bat da, Google saria jaso du gai horretan eta hizlari bikaina ere bada.

Noiz: 2017ko maiatzaren 29, goizeko 11.00etan
Non: EHUko Informatika Fakultatea, ManuelLardizabal 1, 20018 Donostia (mapa)
Hizkuntza: ingelesa
Programa:

11.00-11.15: Sarrera eta proiektuaren aurkezpena
11.15-12.30: NMT (Kyunghyun Cho)
12.30-13.15: Modela proiektuaren lehen emaitzak

Babesleak: Modela proiektua eta UPV/EHUko Gipuzkoako errektoreordetza

Biharamonean 15:00ean, maiatzak 30, HAP masterreko ikasleekin arituko da Kyunghyun Cho irakaslea.

Modela_irudia3

IKERGAZTE sari bat Begoña Altunari

Giza Zientziak eta Artea alorrean egindako aurkezpen onenari saria irabazi zuen Begoña Altuna ixakideak IKERGAZTE Kongresuan Iruñean pasa den ostiralean Artikulua Kongresuko artikulu bilduman irakur dezakezu 127. orrialdean.

Bego_Altuna_Saria_Ikergazte2017

Begoñaren tesian euskarazko testuetan zer kontatzen den erauzi nahi dute, informazio faktuala jasotzen dute. Horrelakoetan ezeztapen bat agertzen denean lana dezente zailtzen da. Horixe da Begoñak ikertu duena. Beste hizkuntzetarako lanak ikertu, euskaraz ezeztapena nola gauzatzen den aztertu eta euskarazko ezeztapen-informazio hori kodetzeko eskema bat sortu du.

ZORIONAK Begoñari eta bere zuzendariak diren Arantzari eta Maxuxi!

Bego_Altuna_saria_Ikergazte2017

IKERGAZTE kongresuko aktetan 127. orrialdean aurkituko duzu artikulua

HAP Masterreko 7 ikasle-ohi IKERGAZTE biltzarrean

Maiatzaren 10, 11 eta 12an Iruñean ikerlari gazteak bilduko dituen IkerGazte biltzarreko aurkezpenen listan 7 artikulu aurkituko dituzu HAP masterreko ikasle ohiekin:

  • (18) Euskarazko gertaeren etiketatze automatikoa. Haritz Salaberri, Olatz Arregi eta Beñat Zapirain
  • (29) Poesiaren eskantsio automatikoa: bi hizkuntzen azterketa. Manex Agirrezabal, Iñaki Alegria eta Mans Hulden
  • (78) Testu-loturen labirinto semantikoan barna, esanahi-bektoreak lagun! Josu Goikoetxea, Iñigo Lopez-Gazpio, Eneko Agirre, Montse Maritxalar eta Aitor Soroa
  • (112) Osasun-zientzietako terminologiaren euskaratze automatikoaren ebaluazioa, osasungintzako euskal komunitatea inplikatuz. Olatz Perez-De-Viñaspre eta Maite Oronoz Anchordoqui
  • (120) Ahots kantatuaren sintesiaren, bertsolaritzarako egokitzapena. Xabier Sarasola, Eva Navas eta Inma Hernaez
  • (121) Euskarazko ezeztapenaren tratamendu automatikorako azterketa. Begoña Altuna, María Jesús Aranzabe eta Arantza Díaz de Ilarraza
  • (132) Aditz+izen konbinazioen itzulpen automatikoa, arau linguistikoen bidez. Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola

Gaur bukatzen da matrikula merkerako epea. Aupa!

IXA taldearen ekarpenak COLING 2016 kongresuan (Osaka, abendua, 11-17)

COLING kongresua oso garrantzitsua da linguistika konputazionaleko ikerketa-arloan. 2016ko bilkura Japonian Osakan egiten ari da egun hauetan, abenduaren 11tik 17ra.
Hauek dira IXA Taldeak aurkeztuko dituen lanak:

14 artikulu Esloveniako LREC bilkuran

Aste honetan Eslovenian LREC bilkura egiten ari da (Language Resources and Evaluation Conference). Hizkuntza-Teknologiarako baliabideak eta ebaluazio-metodoak aztertzen dira bilkura handi honetan.

Ez da makala gero, Ixa Taldeko 14 artikulu onartu dizkigute. horietako 3 artikulu Elhuyarreko ikerlariekin batera idatzi ditugu. Bertan daude Eneko Agirre, Iñaki Alegria eta German Rigau Ixakideak. Aupa!

LREC_logoHemen daude 14 artikulu horiek lortzeko estekak:

  1. A Comparison of Domain-based Word Polarity Estimation using different Word Embeddings
  2. A Comparison of Named-Entity Disambiguation and Word Sense Disambiguation
  3. A Multilingual Predicate Matrix
  4. Addressing the MFS Bias in WSD systems
  5. Domain Adaptation in MT Using Titles in Wikipedia as a Parallel Corpus: Resources and Evaluation
  6. Evaluating the Noisy Channel Model for the Normalization of Historical Texts: Basque, Spanish and Slovene
  7. Evaluating Translation Quality and CLIR Performance of Query Sessions
  8. Interoperability of Annotation Schemes: Using the Pepper Framework to Display AWA Documents in the ANNIS Interface
  9. QTLeap WSD/NED Corpora: Semantic Annotation of Parallel Corpora in Six Languages
  10. The Event and Implied Situation Ontology (ESO): Application and Evaluation
  11. Tools and Guidelines for Principled Machine Translation Development
  12. TweetMT: A Parallel Microblog Corpus
  13. Two Architectures for Parallel Processing of Huge Amounts of Text
  14. Word Sense-Aware Machine Translation: Including Senses as Contextual Features for Improved Translation Models

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Ikergazteko sari bana Begoña Altuna eta Olatz Perez de Viñasprerentzat

IkerGazte biltzarrean Ixa Taldeko 10 artikulu egotea pozgarria zen, euskaraz ematen dugun HAP_LAP masterreko  ikasle ohien artikuluak 14 izatea ere bai, eta gainera ostiralean sorpresa izan genuen:  Ikergazteko 2 sari:

 

  • olatzUdalbiltzak banatutako sari berezia (Euskal Herriko garapenari ekarpen garrantzitsuena egiten diona):
    Olatz Perez de Viñasprerentzat izan da
    Osasun-txosten elebidunak posible ote?” lanarekin.
    Ikus Ikergazteko artikulu-bilduma (orriak: 730-738)

ZORIONAK DENEI !!   🙂

10 artikulu IkerGazte kongresuan!

Durangon ikerlari gazteak biltzen dituen IkerGazte biltzarrean 10 artikulu datoz Ixa taldetik. Ixa Taldeak parte hartze oso handia dauka. Euskaraz ematen dugun HAP masterraren ikasle-ohien artikuluak guztira 14 dira 🙂

Ikusi kongresua laburbiltzen duen BIDEOA
Ikusi kongresuko komunikazio guztiak biltzen dituen LIBURUA

Osteguneko artikuluak:

  • Euskararen Sorkuntza Automatikoa: lehen urratsak. Manex Agirrezabal, Itziar Gonzalez-Dios and Iñigo Lopez-Gazpio.
  • Euskararako HPSG gramatikaren lehen proposamena. Jon Alkorta.
  • Konbitzul: euskarazko eta gaztelaniazko izen+aditz konbinazioen datu-basea. Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka and Kepa Sarasola.
  • Euskarazko denbora-egituren tratamendu automatikorako azterketa. Begoña Altuna.

Ostiralekoak:

  • Konbinatu eta Irabazi! Hitzen Semantikaren Errepresentazio Osoagoaren Bila. Josu Goikoetxea, Eneko Agirre and Aitor Soroa.
  • Lurrikarei buruzko informazioa eskuratzen Twitter bidez. Ander Intxaurrondo, Eneko Agirre and Oier Lopez De Lacalle.
  • Datu handien tekniken erabilera testu-corpus eskergak prozesatzeko. Zuhaitz Beloki, Xabier Artola and Aitor Soroa.
  • Euskarazko izena+aditza konbinazioak corpusetik automatikoki erauztea eta idiomatikotasunaren arabera karakterizatzea. Antton Gurrutxaga, Iñaki Alegria and Xabier Artola.
  • Izen-aipamenak desanbiguatu eta Wikipediara lotzen. Ander Barrena, Eneko Agirre, Jokin Perez de Viñaspre and Aitor Soroa.
  • Korreferentzia-ebazpena euskaraz idatzitako testuetan. Ander Soraluze Irureta, Olatz Arregi Uriarte, Xabier Arregi Iparragirre and Arantza Diaz de Ilarraza Sanchez.

Gainera, horiez gain euskarazko HAP masterraren beste ikasle-ohi hauek ere agertzen dira:

  • Corpusetan oinarritutako hiztegi elebidun berria sortzen. David Lindemann and Iñaki San Vicente.
  • Weba euskarazko corpus gisa. Igor Leturia.
  • Audio albistegietatik informazioa erauzten duen sistema eleaniztuna- Komunikazio zubiak sortzen. Nora Barroso, Karmele Lopez de Ipiña, Pilar Maria Calvo, Carmen Hernandez, Aitzol Ezeiza, Unai Susperregi, Simeon Barroso and Odei Barroso.
  • Polaritate lexikoak azkar eta merke . Iñaki San Vicente and Xabier Saralegi.

Ixa taldea Parisen eta Galesen inbitatuta euskararentzat egindako lana aurkezteko

Azken hilabetean Europako bi herritatik inbitazioa luzatu digute hizkuntzaren prozesamendua alorrean euskararentzat egin dugun lana aurkezteko.

tlrf15

bangor3

Bangor2015_DSC_0016

#txiotesia. Hizkuntza-teknologia arloko tesiak

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia