Mintegia: Jarreren sailkapena sare sozialetan (A. Zubiaga, 2017-02-14)

Izenburua: Helburu jakinekiko jarreren sailkapena sare sozialetan.
Hizlaria:
Eguna: Otsailaren 14an
Ordua: 16:00-17:00 (bai 16:00etan)
Gela: 3.2 gela. Informatika Fakultatea

Laburpena:

Sare sozialetako erabiltzaileek helburu, kontzeptu edo ideia ezberdinekiko erakusten duten jarrera antzematea erabilgarria izan daiteke kasu askotan. Hitzaldi honetan bi kasu jorratuko ditut. Batetik, sare sozialetan zabaltzen diren zurrumurruekin batera, erabiltzaileek aldeko zein kontrako jarrera ezberdinak erakusten dituzte, eztabaida sortuz eta zurrumurruen egiazkotasuna adostu nahian. Eztabaida hauetan ematen den diskurtsoa aztertzeko sailkatzaile sekuentzialekin egindako lana azalduko dut. Bestetik, sare sozialetako erabiltzaileen identitate nazionalaren sailkapena jorratuko dut, mugimendu independentisten esparruan. Euskal Herria, Herrialde Katalanak eta Eskozia adibide hartuta, erabiltzaileek naziotasunarekiko duten jarrera sailkatzeko egindako lana azalduko dut.

Bio laburra:

Arkaitz Zubiaga doktorego osteko ikertzailea da Warwickeko Unibertsitatean (Coventry, Ingalaterra). Aurretik CUNY eta DIT unibertsitateetan aritu zen, eta UNEDeko hizkuntzaren prozesamendurako taldean burutu zuen doktore tesia. Sare sozialetako edukiak ikertzen ditu hizkuntzaren prozesamendurako eta datu meatzaritzarako teknikak baliatuz, besteak beste, eta baita giza zientzia konputazionalerako tekniken bidez diziplina arteko atazak landuz ere.

Mintegia: Itzulpen Automatiko Neuronala: TAdeep eta Modela proiektuak (G. Labaka, 2017-01-31)

Izenburua:  Itzulpen Automatiko Neuronala: TADeep eta Modela proiektuak
Hizlaria: Gorka Labaka
Eguna: urtarrilaren 31n
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

2017. urtean, IXA taldeak bi proiektutan landuko ditu itzulpen automatiko neuronala (TAdeep eta Modela). Mintegian, Gorka Labakak itzulpena automatiko neuronalaren aurkezpen orokorra egingo du, eta horren ondoren proiektu horietan aurreikusitako eginbeharrak eta epeak azalduko dira.

TAdeep

Espainerazko hitz-konbinazio bereziak bilatzen (Margarita Alonso, 2016-01-17)

Izenburua:  Procesamiento de colocaciones en castellano
…….  (Espainerazko kolokazioak bilatzen eta prozesatzen)
Eguna: urtarrilaren 17an
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Laburpena:

It is frequently stated that collocations are especially challenging to L2 learners, even to the more advanced ones (Henriksen 2013). This statement usually appears in the literature which focuses on English as L2. However, learners of English as L2 have at their disposal several resources to help them learn collocations, starting with a number of collocation dictionaries, teaching materials and many online lexical tools (among others, Benson et al. 1996, Crowther et al. 2002, McCarthy and O Dell 2005 or Wu et al. 2010). The situation for learners of Spanish as L2 is very different. Resources for learning collocations in Spanish, compared with those available in English, are scarce. There are only two Spanish combinatorial dictionaries (Bosque 2004, Alonso Ramos 2004), very few specific teaching materials (Prada et al. 2012), and until very recently there was no collocation online tool which could help the learner to choose the appropriate collocation.

Over the last years I have tried to fill these gaps as far as resources for learning Spanish collocations are concerned. However, due to the crisis that traditional dictionary format is facing, the question arises as to what form the ideal resource designed to help learners should take. The challenges are posed not only by online lexical tools, but also by corpora containing vast amounts of lexical information. In this light, some proposals for blending dictionary and corpus have been put forward as an ideal resource (Cobb 2003, Kilgarriff 2009). Corpus-driven lexicography has given rise to what can be called  lexically-driven corpora , resources which instead of providing lexical information in the form of a dictionary do so in the form of a concordance program exploiting language corpora. Through an appropriate user interface, lexical items become pointers to the texts that reveal their meaning, blurring the boundaries between dictionaries and corpora. Moreover, dictionaries have ceased to be stand-alone products to be complemented by CALL applications (Abel 2010). Therefore, the concept of the dictionary is changing towards a more flexible and dynamic tool which aims to better address the user s needs. This presentation shows how the resources we are building attempt to provide assistance with collocational needs. More particularly, I will describe the evolution of my research interests from an online collocation dictionary of Spanish (DiCE), the development of which began ten years ago, towards an online collocation writing assistant, the tool HARenES, which although integrated with the DiCE goes beyond the dictionary. In order to evaluate the effectiveness of correction suggestions offered by this tool, I will show the results of experimental study with students of Spanish as a second language. I will finish by presenting some reflections about the pedagogical role of the corpus

Mintegia: Big Data eta hizkuntza teknologia Trivagon (Min Fang, 2016/06/08)

Izenburua:  Big Data and NLP at Trivago
…………….(Big Data eta hizkuntzaren prozesamendua hotelak bilatzeko Trivago aplikazioan)
Hizlaria: Min Fang
…..2013 – 2015: Master Erasmus Mundus Language and Communication Technologies, summa cum laude
…..2015-… :   (Trivago, hotelak bilatzeko aplikazioa)
Eguna: ekainaren 8an
Ordua:  10:00 – 11:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:
Hoteletako bezeroek idazten dituzten balorazioetatik aldeko eta kontrako iritziak automatikoki lortzea da helburua, ikasketa automatikoa, analisi estatistikoa eta “Big data” teknikak erabilita. Sentimenduen analisia lantzen du.
I’m interested in getting insights from data by applying natural language processing, machine learning and statistical analyses. Ideally, those insights can then be turned into useful applications or facilitate higher level decisions.

Together with our software engineers I take care of our NLP capabilities: We work on improving and maintaining a highly flexible and scalable pipeline that is geared towards aspect-based sentiment analysis (and more in the future). Extracting knowledge from a large number of natural language texts allows us to understand our domain better and enhance the experience for our users.

Our technology stack includes:
– Python and Java
– R for analysis
– AWS for infrastructure

Mintegia: Zuhaitz-banku unibertsala (K.Gojenola, 2015/10/20)

Hizlaria:  Koldo Gojenola
Ordua: 15:00-16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Izenburua:  “Zuhaitz-banku unibertsala / Universal Treebank

2008. urtetik hona, hizkuntza desberdinetan garatutako zuhaitz-bankuek etiketatze eredu estandarra jarraitzeko hainbat saiakera egin dira (Standford Dependencies, Clear, Google UD, Standford UD, Hamlet). 2014tik aurrera Standford UDetan oinarritutako Universal Dependencies, “de facto”zko estandarra bihurtu da. Gure zuhaitz-bankua UDetara bihurtzen hasi gara, eta lehenengo bertsio bat atzigarri dago jada. Eman diren urratsak eta egoera azalduko ditugu mintegi honetan.

Mintegia: Lexikoaren Behatokia proiektua eta EDBL aberasten Hiztegi Batuarekin (2013/12/11)

Gaiak: Lexikoaren behatokia proiektua (X. Artola)
+Hiztegi Batuko informazioaren EDBLratzea (Gorka Labaka – Xabier Artola)
Hizlariak: Xabier Artola eta Gorka Labaka
Eguna: Abenduaren 11n, asteazkena
Ordua: 15:30
Tokia:  3.2 gela. Informatika Fakultatea

Lexikoaren behatokia proiektua  2008. urtean jarri zuen abian Euskaltzaindiak, Andoni Sagarna euskaltzainaren zuzendaritzapean. Euskaltzaindiko ikerketarako testu-corpus etiketatu eta linguistikoki anotatu bat prestatzea du helburu. Corpus hori osatzeko hainbat hornitzaile aurreikusi dira, hedabideak bereziki, eta horien artean, besteak beste, interes orokorreko komunikabideak. 2012. urtearen bukaeran 26.565.924 testu-hitz zeuzkan corpusak eta urtean-urtean handituz doa. Euskaltzaindia, IXA taldea, Elhuyar Fundazioa eta UZEI dira proiektuaren kideak.

Lexikoaren behatokiaren corpusa kontsultatu dezakezu hemen.

EDBL datu-base lexikalak sarrera berriak hartu ditu azken aldian Hiztegi Batuaren azken bertsiotik. Prozesu horren berri ere emango da mintegi honetan.

Lex_Behatokia_Twitter

Mintegia: HPSG gramatikak (2013/07/15).

Hizlariak: Montse Marimón eta Lluis Padró
Izenburua: HPSG gramatikak
Eguna: Uztailaren 15a, 2013, astelehena
Ordua: 10:00-13:00
Non
: Informatika Fakutatea, 3.2 gela

 Edukiak:

Erreferentziak:

 

OpeNER proiektuan NER hackatoia antolatu dugu uztailaren 2rako, Amsterdamen

Hackathon_OpeNERPasa den urteko uztailean martxan jarri genuen OpeNER proiektu europarrean Hackatoi bat antolatu dugu orain. Inbitatuta zaudete Hizkuntza-Teknologiarekin, Testu-Mehatzagintzan, edota datu multzo erraldoiekin interesatuta zaudeten programatzaile, hizkuntzalari eta (produktu-)diseinatzaile guztiak. Amsterdameraino joaterik ez baduzu eta gurekin harremanetan jarri nahi baduzu jo hona: rodrigo.agerri abildua ehu.es

Egun eskura ditugu hainbat API, web-zerbitzu eta datu multzo. Produktu horien garatzaile izan diren lankide batzuk ere hackatoian bertan egongo dira zu ere lan hauetan errazago hasteko. Horixe da hackatoi bat: gaiaren inguruan interesatuta daudenak bildu egun batez, eta denen artean tresna edo aplikazio berri bat sortu.

Hackatoia abagune egokia izan daiteke daukazun ideia mundial hori bideratzeko,  edo ea teknologia hau zure enpresarako baliagarria den aztertzeko… edo, besterik gabe, hizkuntza-teknologiako tresna berri-berri hauekin egun bat ondo pasatzeko.

  • Asteartea, uztailaren 2an, 2013
  • 10:00 – 18:00
  • Studio K Timorplein 62,
  • Amsterdam (mapa)

OpeNER_Logo

OpeNER  Europako Batzordeak finantzaturiko proiektua da. Ixa Taldea partaideetako bat da, eta Piek Vossen eta Vicomtech ere daude partaideen artean.

OpeNER  proiektuaren helburuak NER arloan (Named Entity Recognition) kokatzen dira:

  • Enpresei eta gizarteari entitate-izenak ezagutzeko eta sailkatzeko tresnak  eskaintzea da, beti ere existitzen diren baliabideak erabilita.
     (Cross-lingual Named Entity Recognition and Classification)
  • Berdin sentimenduen analisia lantzeko tresnekin.
    (Sentiment Analysis)
  • Alor horretako teknologia osagarrien garapen irekia.

OpeNER_Consortium

Mintegia: Terminoen erregistro akademikoen garapena aztertzeko lan-ingurunea(2013/02/28)

Gaia: GARATERM: erregistro akademikoen garapena aztertzeko lan-ingurunea
Hizlaria: Igone Zabala
Eguna: Otsailak 28, osteguna
Ordua: 15:00
Tokia:  3.2 gela. Informatika Fakultatea

Laburpena:
2008 urtean aurrera eraman zen GARATERM proiektua (EHU-EJIE deialdiko diru-laguntza). Proiektu horretan gogoeta orokorra egin zen euskara akademikoaren garapena, ikerketa eta didaktika uztartzeko plataforma bat osatzeko eman beharreko urratsez eta beharrezko liratekeen tresna eta baliabideez. Gogoeta horrekin batera etorri zitzaion orduko Euskal Filologia sailari (orain Euskal Hizkuntza eta Komunikazioa izena duenari) zeregin bat Euskara Errektoreordetzatik, alegia, Euskara Plan Gidarian aurreikusten ziren irakasleentzako tailerren ardura hartzea. Zeregin hori Garaterm proiektuaren ideiarekin uztartu zen, eta hasieran tailer huts modura pentsatuta zeudenak Terminologia Sareak Ehunduz esaten diogun programa bihurtu ziren apurka-apurka. 2011 eta 2012 urteetan Elhuyarrekin batera aurrera eraman den unibertsitate-gizartea proiektuaren bitartez eta TSE programan lortutako esperientziari esker, aurrera eraman ahal izan dira lehen proiektuan beharrezkotzat hartutako zenbait elementu. Hitzaldi honetan “Garaterm-2: Linguistikoki prozesatutako corpusetatik terminologia eta neologia erauzteko lan-ingurunearen garapena” proiektuaren helburuak, lorpenak eta aurrera begira egin beharrekoak azalduko dira.