Mintegia: Big Data eta hizkuntza teknologia Trivagon (Min Fang, 2016/06/08)

Izenburua:  Big Data and NLP at Trivago
…………….(Big Data eta hizkuntzaren prozesamendua hotelak bilatzeko Trivago aplikazioan)
Hizlaria: Min Fang
…..2013 – 2015: Master Erasmus Mundus Language and Communication Technologies, summa cum laude
…..2015-… :   (Trivago, hotelak bilatzeko aplikazioa)
Eguna: ekainaren 8an
Ordua:  10:00 – 11:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)
Abstract:
Hoteletako bezeroek idazten dituzten balorazioetatik aldeko eta kontrako iritziak automatikoki lortzea da helburua, ikasketa automatikoa, analisi estatistikoa eta “Big data” teknikak erabilita. Sentimenduen analisia lantzen du.
I’m interested in getting insights from data by applying natural language processing, machine learning and statistical analyses. Ideally, those insights can then be turned into useful applications or facilitate higher level decisions.

Together with our software engineers I take care of our NLP capabilities: We work on improving and maintaining a highly flexible and scalable pipeline that is geared towards aspect-based sentiment analysis (and more in the future). Extracting knowledge from a large number of natural language texts allows us to understand our domain better and enhance the experience for our users.

Our technology stack includes:
– Python and Java
– R for analysis
– AWS for infrastructure

#txiotesia. Hizkuntza-teknologia arloko tesiak

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia

NewsReader proiektuko kideek irabazi dute Enlighten Your Research lehiaketa

NewsReader proiektukoek, tartean IXA taldekoak ere badira, EYR4 lehiaketa irabazi dute! Albiste-jario handi-handiak automatikoki aztertzeko Enlighten Your Research (EYR4) lehiaketaren 4. edizioa izan da. Sariarekin batera hiru opari egiten ditu Amsterdam-eko Unibertsitateak: 25.000€, hodeiko konputagailu potente bat erabiltzeko baimena eta horretarako aholkularitza.

ZORIONAK German, Aitor, Eneko, Itziar, Egoitz, Piek eta proiektuko beste kide guztiei!

Honela esan du epai-mahaiak: ’Lan honek harantzago eraman ditu eskuragarri ditugun azpiegituren mugak, datu handizko jarioak analizatzeko bide berritzaile bat erabilita. Bide berri bat albisteak prozesatzeko.’

Newsreader proiektuaren proposamenaren izena ’Recording history in large news streams‘ izan da. Eta hau izan da bere helburua: “Egunero milaka albiste publikatzen dira, batzuk gertakari berriak aurkezteko eta beste batzuk lehenago argitaratutakoak eguneratzeko. Egungo teknologiarekin ezinezkoa da informazio guzti hori gordetzea eta prozesatzea. Proiektu honen helburua arkitektura hoberena garatzea da, ahal den arinen eta ahal den albiste kopuru handiena prozesatuko duena, eta egun Hizkuntzaren Prozesamenduaren arloan eskura dauzkagun tratamendu semantikorako teknika aurreratuenak baliatuko dituena.”.

Ikus blog honetako aurreko albiste hauek: