Ekainak 22: Teknologia itzultzailearen lagun. Noiz eta Nola?

IT_UEUItzulpengintza eta teknologiaren arteko konbergentzia oso azkar gertatzen ari da.
Garapen teknologikoek hizkuntzen industrien lan merkatua handiagotu eta
produktu berriak sortu dituzte. Egungo eskaerari erantzun ahal izateko, ordenagailuz lagundutako itzulpenean, softwarearen edota web orrien lokalizazioan trebatutako profesionalak prestatu behar dira.

Itzulpengintza eta Teknologia’ graduondokoa on-line ematen dugu urte osoan. Oraingoan egunbeteko jardunaldi bat antolatu dugu: Teknologia, itzultzailearen lagun. Noiz eta nola? Jardunaldi honetan tresna teknologikoek lan egiteko prozesuan eta itzultzaileen prestakuntzan duten inpaktua aztertuko da. Ixa Taldekideak daude sartuta honetan: Nora, Gorka eta Kepa.

UEUko udako ikastaroetan. Ekainaren 22an, asteazkena, Eibarren.

8:30 Harrera eta dokumentazio banaketa
9:00 Jardunaldiaren aurkezpena.
9:15 Laguntza teknologikoa itzulpen-enpresaren jarduera estandarrean.
……..Ritxi Lizartza (Maramara Taldea)
10:15 Euskal post-edizioa, zertan dabil?
……..Nora Aranberri (IXA taldea, UPV/EHU. UEUkidea)
11:15 Atsedena
11:45 Euskal lokalizatzaileen gaitasunak eta trebetasunak.
……..Ane Lopez (Itzultzailea eta lokalizatzailea)
12:45 Lan merkatuaren eskakizunak. Itzultzaileen prestakuntza beharrak.
……..Josu Barambones (UPV/EHUko irakaslea. ‘Itzulpengintza eta Teknologia’ graduondokoaren zuzendaria).
13:30 Bazkari arina.
15:00 Mahai ingurua: Teknologiaren ekarpena gure enpresetan.
……..Hori-Hori, Bakun, Maramara, UZEI eta Elhuyar

Itzulpen Automatikoko Europako Elkartean partaide instituzionala da Ixa Taldea

EAMT_IXAEuropean Association of Machine Translation elkartean hamaikagarren partaide instituzionala izan ginen Ixa Taldea 2012 urteaz geroztik.  IXA Taldearen aipamena berriztu dugu gaur EAMT webgunean, argazkia eta guzti.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudeatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Guztira orain hamabost gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

14 artikulu Esloveniako LREC bilkuran

Aste honetan Eslovenian LREC bilkura egiten ari da (Language Resources and Evaluation Conference). Hizkuntza-Teknologiarako baliabideak eta ebaluazio-metodoak aztertzen dira bilkura handi honetan.

Ez da makala gero, Ixa Taldeko 14 artikulu onartu dizkigute. horietako 3 artikulu Elhuyarreko ikerlariekin batera idatzi ditugu. Bertan daude Eneko Agirre, Iñaki Alegria eta German Rigau Ixakideak. Aupa!

LREC_logoHemen daude 14 artikulu horiek lortzeko estekak:

  1. A Comparison of Domain-based Word Polarity Estimation using different Word Embeddings
  2. A Comparison of Named-Entity Disambiguation and Word Sense Disambiguation
  3. A Multilingual Predicate Matrix
  4. Addressing the MFS Bias in WSD systems
  5. Domain Adaptation in MT Using Titles in Wikipedia as a Parallel Corpus: Resources and Evaluation
  6. Evaluating the Noisy Channel Model for the Normalization of Historical Texts: Basque, Spanish and Slovene
  7. Evaluating Translation Quality and CLIR Performance of Query Sessions
  8. Interoperability of Annotation Schemes: Using the Pepper Framework to Display AWA Documents in the ANNIS Interface
  9. QTLeap WSD/NED Corpora: Semantic Annotation of Parallel Corpora in Six Languages
  10. The Event and Implied Situation Ontology (ESO): Application and Evaluation
  11. Tools and Guidelines for Principled Machine Translation Development
  12. TweetMT: A Parallel Microblog Corpus
  13. Two Architectures for Parallel Processing of Huge Amounts of Text
  14. Word Sense-Aware Machine Translation: Including Senses as Contextual Features for Improved Translation Models

HAP/LAP masterra Master-tesien defentsak

Eguna : maiatzaren 17a
Lekua: Ada Lovelace aretoa

11:00
Adverse Drug Reaction event extraction on Electronic Health Records written in Spanish.
Egilea: Sara Santiso González
Tutoreak: Alicia Pérez eta Arantza Casillas
Epaimahaia: Eva Navas, Montse Maritxalar Arantza Casillas

11:45
Distributional Semantics and Machine Learning for Statistical Machine Translation
Egilea: Mikel Artetxe Zurutuza
Tutoreak: Eneko Agirre eta Gorka Labaka
Epaimahaia: Eva Navas, Montse Maritxalar, Gorka Labaka

Hizkuntza-teknologia lagun errefuxiatuen integrazioan

Hizkuntzarteko zubiak: http://ixa2.si.ehu.es/welcome

Zertan lagun diezagukete hizkuntza-teknologiek?
Zein tresna/baliabide erabil ditzaket errefuxiatuekin komunikatzeko eta laguntzeko?
Atari honetan Siriako errefuxiatuekin erabil daitezkeen tresna batzuk proposatzen ditugu.
Euskara

Can language technology be helpful?  Of course!!
Which tools can I use to communicate with refugees and help them?
We suggest some tools in this website. Our aim is to give you an overview of the technology you can use with syrian refugees.
English

¿En qué nos pueden ayudar las tecnologías del lenguaje?
¿Con qué recursos puedo comunicarme con los refugiados y ayudarles?
En esta página recomendamos algunos recursos disponibles que pueden resultar útiles con los refugiados sirios.
Español

هل يمكن للتقنيات التي تم تطويرها في مجال اللغات أن تكون مفيدة لنا؟ الجواب هو طبعًا وبدون أي شك!ما هي الأدوات التي يمكن أن أستخدمها للتواصل مع اللاجئين ومساعدتهم؟نقترح في هذا الموقع بعض الأدوات المفيدة وهدفنا هو أن نعطيك لمحة عامة عن التقنيات والأدوات المتوفرة التي يمكنك استخدامها للتواصل مع اللاجئين السوريين

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak

Ikasketa automatikoaren erabilera testu-sailkapenean, adiera-desanbiguazioan eta korreferentzian

Ana Zelaia irakasleak defenditu du gaur bere tesia Informatika Fakultatean. Zuzendariak Olatz Arregi eta  Basilio Sierra izan dira, eta tesiaren titulua hau:

Latent Semantic Indexing eta Ikasketa Automatikoa Hizkuntzaren Prozesamenduaren Arloan: Testu-Sailkatzea, Hitzen Adiera-Desanbiguatzea eta Korreferentzia-Ebaztea SVD Bidezko Dimentsio Murrizketa eta Multi- Sailkatzea Konbinatuz

Berak, gaur azaldu duen moduan, indar berezia jarri du Latent Semantic Indexing metodoaren oinarri matematikoa deskribatzen duen kapitulua azaltzen, erraz uler dadin. Inork interesa badu horretan irakur dezala, mesedez, tesi osoa edo kapitulu hori gutxienez (Ana_Zelaia_tesia.pdf, Aurkezpena.pdf). Eskerrik asko, Ana!

20160125_114700

Elkarrizketa Uxoa Iñurrieta-rekin unibertsitatea.net-en

Uxoa Iñurrieta gure ixakidearekin elkarrizketa bat argitaratu dute Unibertsitatea.net webguneko Ziztu-bizian albistegian. Izenburuaren arabera Uxoak hau aurrikusten du: “Oso zaila izango da esaldi konplexuenak ere zuzen-zuzen itzuliko dituen tresnarik lortzea”

Uxoa tesia egiten ari da HAP-LAP programaren barruan. Hona hemen elkarrizketako galdera eta erantzun pare bat:

Konbitzul datu-basea daukazu esku artean; zer da?
Konbitzul datu-baseak izen+aditz motako konbinazioei eta haien itzulpenari buruzko informazioa jasotzen du. Hizkuntzaren prozesamenduari begira sortua da, eta baliagarria da hainbat aplikazio informatikotarako, itzultzaile automatikoetarako, kasu. Edo hala espero dugu, behintzat!

Zein da bere aplikazio praktikoa? Zertarako balia daiteke datu-base hau?
Demagun, adibidez, itzultzaile automatiko batek “adarra jo” esapidea gaztelaniara itzultzea nahi dugula. Ordenagailuak, guk informaziorik eman ezean, bi hitz horiek irakurri eta “tocar/pegar el cuerno” bezalako zerbait sortuko luke, ez bailuke jakingo benetako esanahia zein den. Bada, Konbitzulen sartzen ari garen datuek horrelakoak hobeto itzultzeko balioko dute.