Euskal Wikipediaren testu-bertsio bat behar duzu?

Wikipedia oso baliabide interesgarria da hizkuntzaren prozesamendurako. Testu egituratua da eta metadatu asko barneratzen ditu. Baina oinarrizko estatistikak-eta lortu nahi badituzu komenigarria da testu-formatu hutsean edukitzea. Ixa Taldeko zenbait lanetan Euskal Wikipediaren testu bertsio bat lortu behar izan dugu eta orain bertsio hori Ixa Taldearen baliabideen artean jarri dugu edonork bertatik jaitsi ahal izateko moduan:

Euskarazko Wikipediaren esportazioa (2016ko apirilak 7ko bertsioa)

Oharrak:

Afrika2_text

Afrika artikulua testu moduan

WPAfrika1

Afrika artikulua Euskal Wikipedian

Mintegia: Big Data eta hizkuntza teknologia Trivagon (Min Fang, 2016/06/08)

Izenburua:  Big Data and NLP at Trivago
…………….(Big Data eta hizkuntzaren prozesamendua hotelak bilatzeko Trivago aplikazioan)
Hizlaria: Min Fang
…..2013 – 2015: Master Erasmus Mundus Language and Communication Technologies, summa cum laude
…..2015-… :   (Trivago, hotelak bilatzeko aplikazioa)
Eguna: ekainaren 8an
Ordua:  10:00 – 11:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:
Hoteletako bezeroek idazten dituzten balorazioetatik aldeko eta kontrako iritziak automatikoki lortzea da helburua, ikasketa automatikoa, analisi estatistikoa eta “Big data” teknikak erabilita. Sentimenduen analisia lantzen du.
I’m interested in getting insights from data by applying natural language processing, machine learning and statistical analyses. Ideally, those insights can then be turned into useful applications or facilitate higher level decisions.

Together with our software engineers I take care of our NLP capabilities: We work on improving and maintaining a highly flexible and scalable pipeline that is geared towards aspect-based sentiment analysis (and more in the future). Extracting knowledge from a large number of natural language texts allows us to understand our domain better and enhance the experience for our users.

Our technology stack includes:
– Python and Java
– R for analysis
– AWS for infrastructure

Bideoa: HAP/LAP master-tesia (Mikel Artetxe)

Mikel Artetxe-k maiatzaren 17an aurkeztu zuen bere master tesia HAP-LAP Masterrean

Lan sakon horretan aztertu du Itzulpen Automatikoa hobetzeko nola txertatu hitzen adierazpen distribuzionala (word embedding) eta ikasketa automatikoa.

Orain EHUtb-n ikus dezakezu aurkezpen osoa.

HAP_LAP_artetxeTBDistributional Semantics and Machine Learning for Statistical Machine Translation
Egilea: Mikel Artetxe Zurutuza
Tutoreak: Eneko Agirre eta Gorka Labaka

Ekainak 22: Teknologia itzultzailearen lagun. Noiz eta Nola?

IT_UEUItzulpengintza eta teknologiaren arteko konbergentzia oso azkar gertatzen ari da.
Garapen teknologikoek hizkuntzen industrien lan merkatua handiagotu eta
produktu berriak sortu dituzte. Egungo eskaerari erantzun ahal izateko, ordenagailuz lagundutako itzulpenean, softwarearen edota web orrien lokalizazioan trebatutako profesionalak prestatu behar dira.

Itzulpengintza eta Teknologia’ graduondokoa on-line ematen dugu urte osoan. Oraingoan egunbeteko jardunaldi bat antolatu dugu: Teknologia, itzultzailearen lagun. Noiz eta nola? Jardunaldi honetan tresna teknologikoek lan egiteko prozesuan eta itzultzaileen prestakuntzan duten inpaktua aztertuko da. Ixa Taldekideak daude sartuta honetan: Nora, Gorka eta Kepa.

UEUko udako ikastaroetan. Ekainaren 22an, asteazkena, Eibarren.

8:30 Harrera eta dokumentazio banaketa
9:00 Jardunaldiaren aurkezpena.
9:15 Laguntza teknologikoa itzulpen-enpresaren jarduera estandarrean.
……..Ritxi Lizartza (Maramara Taldea)
10:15 Euskal post-edizioa, zertan dabil?
……..Nora Aranberri (IXA taldea, UPV/EHU. UEUkidea)
11:15 Atsedena
11:45 Euskal lokalizatzaileen gaitasunak eta trebetasunak.
……..Ane Lopez (Itzultzailea eta lokalizatzailea)
12:45 Lan merkatuaren eskakizunak. Itzultzaileen prestakuntza beharrak.
……..Josu Barambones (UPV/EHUko irakaslea. ‘Itzulpengintza eta Teknologia’ graduondokoaren zuzendaria).
13:30 Bazkari arina.
15:00 Mahai ingurua: Teknologiaren ekarpena gure enpresetan.
……..Hori-Hori, Bakun, Maramara, UZEI eta Elhuyar

Itzulpen Automatikoko Europako Elkartean partaide instituzionala da Ixa Taldea

EAMT_IXAEuropean Association of Machine Translation elkartean hamaikagarren partaide instituzionala izan ginen Ixa Taldea 2012 urteaz geroztik.  IXA Taldearen aipamena berriztu dugu gaur EAMT webgunean, argazkia eta guzti.

EAMT elkartearen helburua itzulpengintza automatikoan eta itzulpen-tresnagintzan interesa duten ikertzaile, garatzaile eta erabiltzaileentzako zerbitzuak eskaintzea da. Besteak beste, bi urterik behin EAMT eta MT Summit konferentziak antolatzen ditu, eta MT-List lista eta Compendium of Translation Software  biltegia kudeatzen ditu.

EAMT elkartea mundu mailako International Association for Machine Translation (IAMT) elkartearen barruan dago. Maila berean mugitzen dira Amerikako elkartea (Association for Machine Translation in the Americas, AMTA) eta Asiakoa (Asia-Pacific Association for Machine Translation, AAMT).

Guztira orain hamabost gara EAMTko elkartearen bazkide bereziak, instituzioak edo enpresak garenok:

14 artikulu Esloveniako LREC bilkuran

Aste honetan Eslovenian LREC bilkura egiten ari da (Language Resources and Evaluation Conference). Hizkuntza-Teknologiarako baliabideak eta ebaluazio-metodoak aztertzen dira bilkura handi honetan.

Ez da makala gero, Ixa Taldeko 14 artikulu onartu dizkigute. horietako 3 artikulu Elhuyarreko ikerlariekin batera idatzi ditugu. Bertan daude Eneko Agirre, Iñaki Alegria eta German Rigau Ixakideak. Aupa!

LREC_logoHemen daude 14 artikulu horiek lortzeko estekak:

  1. A Comparison of Domain-based Word Polarity Estimation using different Word Embeddings
  2. A Comparison of Named-Entity Disambiguation and Word Sense Disambiguation
  3. A Multilingual Predicate Matrix
  4. Addressing the MFS Bias in WSD systems
  5. Domain Adaptation in MT Using Titles in Wikipedia as a Parallel Corpus: Resources and Evaluation
  6. Evaluating the Noisy Channel Model for the Normalization of Historical Texts: Basque, Spanish and Slovene
  7. Evaluating Translation Quality and CLIR Performance of Query Sessions
  8. Interoperability of Annotation Schemes: Using the Pepper Framework to Display AWA Documents in the ANNIS Interface
  9. QTLeap WSD/NED Corpora: Semantic Annotation of Parallel Corpora in Six Languages
  10. The Event and Implied Situation Ontology (ESO): Application and Evaluation
  11. Tools and Guidelines for Principled Machine Translation Development
  12. TweetMT: A Parallel Microblog Corpus
  13. Two Architectures for Parallel Processing of Huge Amounts of Text
  14. Word Sense-Aware Machine Translation: Including Senses as Contextual Features for Improved Translation Models

HAP/LAP masterra Master-tesien defentsak

Eguna : maiatzaren 17a
Lekua: Ada Lovelace aretoa

11:00
Adverse Drug Reaction event extraction on Electronic Health Records written in Spanish.
Egilea: Sara Santiso González
Tutoreak: Alicia Pérez eta Arantza Casillas
Epaimahaia: Eva Navas, Montse Maritxalar Arantza Casillas

11:45
Distributional Semantics and Machine Learning for Statistical Machine Translation
Egilea: Mikel Artetxe Zurutuza
Tutoreak: Eneko Agirre eta Gorka Labaka
Epaimahaia: Eva Navas, Montse Maritxalar, Gorka Labaka

Hizkuntza-teknologia lagun errefuxiatuen integrazioan

Hizkuntzarteko zubiak: http://ixa2.si.ehu.es/welcome

Zertan lagun diezagukete hizkuntza-teknologiek?
Zein tresna/baliabide erabil ditzaket errefuxiatuekin komunikatzeko eta laguntzeko?
Atari honetan Siriako errefuxiatuekin erabil daitezkeen tresna batzuk proposatzen ditugu.
Euskara

Can language technology be helpful?  Of course!!
Which tools can I use to communicate with refugees and help them?
We suggest some tools in this website. Our aim is to give you an overview of the technology you can use with syrian refugees.
English

¿En qué nos pueden ayudar las tecnologías del lenguaje?
¿Con qué recursos puedo comunicarme con los refugiados y ayudarles?
En esta página recomendamos algunos recursos disponibles que pueden resultar útiles con los refugiados sirios.
Español

هل يمكن للتقنيات التي تم تطويرها في مجال اللغات أن تكون مفيدة لنا؟ الجواب هو طبعًا وبدون أي شك!ما هي الأدوات التي يمكن أن أستخدمها للتواصل مع اللاجئين ومساعدتهم؟نقترح في هذا الموقع بعض الأدوات المفيدة وهدفنا هو أن نعطيك لمحة عامة عن التقنيات والأدوات المتوفرة التي يمكنك استخدامها للتواصل مع اللاجئين السوريين

CODEFEST, antolatu dugu baliabide urriko hizkuntzetarako teknologia-eskola (udan, 2016-07-04)

Codefest

Codefest uda-eskolak baliabide urriko hizkuntzak biziberritzeko helburu argia dauka. Komunikazio elektronikorako tresna eraginkorrak eskaini eta hauek nola erabili erakutsiz. Astebeteko ikastaro praktikoan, egungo hizkuntza-teknologiak aztertu eta aplikazioak garatzeko aukera izango da; lan-taldeak eratuko dira, hizkuntzalari, software ingeniari eta ikasleak integratuz proiektuak auzolanean garatzeko.

Eskola irekia da, ez da aurre ezagutzarik eskatzen, hizkuntzarekiko pasioa eta haren alde zerbait egiteko gogoa dira ezinbesteko bakarrak.

Codefest uztailaren 4tik 8ra izango da, eta asteburuan Wikipedia editathon batekin borobilduko dugu ekitaldia. Hizkuntza txikietan fokua jarriz, hiriari buruzko artikuluak idatzi eta itzuliko ditugu ahalik eta hizkuntza gehienetara.

Helburuak

  • Baliabide urriko hizkuntzei eguneroko komunikazio elektronikorako tresna
  • eraginkorrak eskaintzea.
  • Europa hizkuntza hauen eremu gisa bistaratzea.
  • Auzolana sustatzea.
  • Herrialde ezberdinetako eragileak harremanetan jartzea.
  • Kode librean oinarritutako hizkuntza ­teknologiak eta baliabideak sustatzea.

IXA taldekoak bertan arituko gara, noski 😉

Informazio gehiago (ingelesez): http://dss2016.eu/images/Codefest.pdf

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)