Mintegia: Itzulpen automatikoko proiektuak, TADEEP eta MODELA (Gorka Labaka, 2018-03-27)

Noiz: asteartean, martxoak 27, 15:00etan
Non: 3.2 gelan.
Hizlaria: Gorka Labaka
Izenburua:  Itzulpen automatikoko proiektuak, TADEEP eta MODELA
Laburpena:

Mintegi honetan, azken urtean martxan izan ditugun itzulpen automatikoari buruz izandako proiektuetan (Tadeep eta Modela) egindako lanen berri emango da. Bi proiektuak itzulpena automatiko neuronalaren ingurukoak dira, eta, batez ere, euskara-gaztelera hizkuntza bikotea landu da. Bertan, oinarrizko NMT sistema bat entrenatzeaz gain, horren gaineko zenbait moldaketak landu ditugu. Lan horietatik, euskarazko testuen segmentazio aukera desberdinak, eta karaktereetan oinarritutako sistema azalduko dira aurkezpen honetan.  Ikusi demoa

Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak hitzen benetako erabilerari buruzko informazioa eskuratzeko. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; esaterako, ea erreferentziatu aditza maiz erabiltzen den ala ez.

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu beharko du.

Zorionez, Euskaltzaindiak bakarrik ez, denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez, oso kontsulta erabilgarriak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke… hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: bortitz, suabe, ahul...
Praktikoa da, ez da?

 

Corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Mintegia: PROSAMED, gaztelaniazko txosten medikoen azterketa (K. Gojenola, 2017-11-21)

Noiz: asteartean, azaroak 21, 15:30ean. bai oraingoan 15:30ean
Non: 3.2 gelan.
Hizlaria: Koldo Gojenola
Izenburua: 

Lengoaia naturalaren prozesamendua eta medikuntza:
gaztelaniazko txosten medikoen azterketa (PROSAMED proiektua)

Laburpena:
Azken urteotan txosten mediko elektronikoak orokortu egin dira osasun-sistema guztietan. Honek testu horiek prozesatzeko aukera asko irekitzen ditu.
Prosamed proiektuan Osakidetzarekin egiten ari garen lanak aurkeztuko dira mintegi honetan, horien artean:
  • Entitate medikoen ezagutza:
    • gaixotasunak: LEUCEMIA, paniculitis, síndrome de lissi tumoral, STENOTROPHOMONAS MALTOPHILIA, …
    • botikak: Omeprazol, posaconazol, levofloxacino, …
    • gorputz-atalak: pulmonar, pretibial, cutáneas, …
    • kalifikatzaileak: aguda, Fenotipo Mixto T/mieloide, …
  • Entitate medikoen arteko erlazioak: gaixotasuna eta gorputz-atala, gaixotasuna-kalifikatzailea kalifikadorea , gaixotasuna-botika (aurkako efektua)
  • Txostenen lotura medikuntzako datu-base eta ontologiekin:
    • SNOMED Clinical Terms: 311.000 kontzeptu.
    • ICD-10 (International Classification of Diseases): 64.000 entitate baino gehiago.
    • Dokumentuak eta entitateak ontologia horiekin lotu.

Mintegia: itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan (I. Cortes, 2017-05-09, 15:00)

Mintegia
Itzulpen automatikoa eta postedizio kolaboratiboa consumer.eus proiektuan

Noiz: asteartean, maiatzak 9, 15:00etan.
Non: 3.2 gelan.
15:15-15:30 aldera, teorikoa amaitu ondoren,  alde praktikoa ere egin nahi duenak, fakultateko 1.6 gelan i
Hizlaria: Itziar Cortes. (Elhuyar Fundazioa)
Izenburua: Consumer.eus elebitan:  uztartzen dituen proiektua

Laburpena:

Itzulpen automatikoarekin lotutako 3 urteko proiektu esperimentala da. Helburu nagusia Consumer.eus atarian argitaratzen diren gaztelaniazko edukiak euskarara ahalik eta modu azkarrrenean itzultzea da, eta, horretarako, itzulpen automatikoa eta itzulpen-memoriak erabiltzen dituen plataforma bat erabiltzen da. Bertan, gainera, automatikoki sortutako euskarazko edukia zuzendu daiteke, posteditatu; testuari egindako moldaketetatik ikasi, eta sistemak automatikoki ematen dituen emaitzak hobetzea da helburua.

Zehazki postedizio automatikoko sistema bat sortuko dugu urte bukaerarako, jasotako informazioa oinarri hartuz. Horregatik, garrantzitsua da ahalik eta zuzenketa edo postedizio gehiena biltzea, sistemak ikasketarako nahikoa informazio izan dezan.

Consumer2

Itzulpen automatiko eta postedizio bidez itzulpena sortzeko interfazea.

Consumer_atun1

Sortutako errezeta bat

Mintegia: Itzulpen Automatiko Neuronala: TAdeep eta Modela proiektuak (G. Labaka, 2017-01-31)

Izenburua:  Itzulpen Automatiko Neuronala: TADeep eta Modela proiektuak
Hizlaria: Gorka Labaka
Eguna: urtarrilaren 31n
Ordua:  15:00 – 16:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

2017. urtean, IXA taldeak bi proiektutan landuko ditu itzulpen automatiko neuronala (TAdeep eta Modela). Mintegian, Gorka Labakak itzulpena automatiko neuronalaren aurkezpen orokorra egingo du, eta horren ondoren proiektu horietan aurreikusitako eginbeharrak eta epeak azalduko dira.

TAdeep

QTLeap proiektuaren emaitzak: itzulpen automatikotik Txatbot teknologia laguntzen

Campusa aldizkarian artikulu bat atera dute QTLeap proiektuaz. Ixa taldeak azken hiru urteetan ibili da Europako proiektu horretan eta emaitza probetxagarriak sortu dira bertan. Hona hemen artikuluko testua:

qtleap_bukaera_campus

Web guneetatik app-etara egin genuen salto, eta orain app-etatik txatbot adimentsuetara pasatzen ari gara, oztopo linguistikoak gaindituz mundu digital osora mugitzeko aukera emanaz. QTLeap ikerketa-proiektuak aurrerapauso bat egin du interakzio-modu berri honetan, eta itzulpen automatiko sakonari esker merkatu global digitalean errazago izango da hainbat hizkuntza erabiltzea.
Eneko Agirre UPV/EHUko Informatika Fakultateko irakaslearen aburuz “ordenagailu pertsonalen etorrerarekin, enpresek eta erakundeek web gunea garatu behar izan zuten bere presentzia digitala bermatzeko. Gerora, telefono mugikorrekin, mundu digitalera iristeko app aplikazioak sortzea ezinbestekoa izan da. Adimen Artifizialeko (AA) azken aurrerapenak ikusita, hurrengo urratsa txatbotak edo elkarrizketarako robotak izango direla dirudi, hainbat hizkuntzatan erabiltzaileekin elkarrekintzan aritzea erraztuko dutenak”.

Arlo honen inguruan ari da lanean QTLeap—Quality Translation by Deep Language Engineering lankidetzako europar ikerketa-proiektua, Europar Batasunak finantzatutakoa eta zortzi partaideko partzuergo batek aurrera eramana (Euskal Herriko Unibertsitatea, Informatika Fakultatearen bitartez; Adimen Artifizialerako Ikerketa Zentro Alemana; Berlineko Humboldt Unibertsitatea; Bulgariako Zientzien Akademia; Groningeneko Unibertsitatea; Lisboako Unibertsitatea; Pragako Charles Unibertsitatea; eta, Higher Functions enpresa portugaldarra).
QTLeap proiektuak Itzulpen Automatikorako metodologia berritzaile bat ikertu eta garatu du, elkarrekintza globalerako teknologia-belaunaldi berri honi oztopo linguistikoak gainditzen laguntzeko.

“Emaitzen arabera, gure proiektuan garatutako Itzulpen Automatikoaren teknologiarekin, txatbot-a hizkuntza berri batera egokitu behar denean, kostuak %20an murriztu daitezke, hizkuntzaren arabera. PCMedic izeneko online motako laguntza-zerbitzu batean lortu dira emaitza hauek. Sortutako zerbitzuan, erabiltzaile batek Informazio-Teknologiako gailu edo zerbitzu batean duen arazoa duenean, galdera egingo dio txatbot-ari. Galdera edozein hizkuntzatan eginda ere, galdera hori itzuli eta galdera-erantzunen datu-basean bilatuko da. Sistemak, erantzuna automatikoki itzuli eta bere hizkuntzan erantzungo dio. Egun, Euskara, gaztelania, ingelesa, portugesa, alemana, txekiera, bulgariera eta nederlanderaz egin daitezke galderak.”, argitzen du Eneko Agirrek.

Halaber, emaitzek erakusten dute proiektuan garatutako itzulpen sakoneko teknikek “artearen egoeran aurrerapauso bat ekarri dutela. Ikusten da teknika hauek orain arteko teknologia estandarrak baino itzulpen hobea lortzen dutela, %85eko probabilitateaz, hizkuntzaren arabera”.

Egindako ikerketa hizkuntzaren prozesamendu sakonean datza. “Esaldiak egitura sakonaren eta esanahiaren arabera analizatuz gero, hizkuntzen arteko ezberdintasunak gutxitu egiten dira, itzulpena erraztuz”.

Komunikabide batzuetan ere jaso dute proiektuaren berri:

Informazio zabalagoa lortzeko eta harremanetarako, bisitatu:

Web gunea: http://qtleap.eu
Facebook: https://www.facebook.com/qtleap
Twitter: https://twitter.com/QTLeap
LinkedIin: https://www.linkedin.com/company/qtleap-project?trk=EML_cp-admin

Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik

Gráfico Eneko AgirreEneko Agirre: “…gure proposamena gai da hainbat hizkuntzatako hitzen esanahiak espazio bakar batean irudikatzeko; horri esker, jakin ahal izango dugu banku hitzaren adiera bat ingeleseko bank hitzaren eta euskarazko kutxa hitzaren antzekoa dela, eta beste adiera chair eta aulki hitzen antzekoa, baina bi adiera horietako bat ere ez dela katu edo cat hitzen antzekoa.”

Horrelako metodoak dira Eneko Agirrek UPV/EHUko Donostiako Informatika Fakultateko ‘Language Analysis and Processing’ masterrean ematen duen ikastaroaren oinarria.

Eneko_Google saria Not_Gip

Google premia a Eneko Agirre, profesor de la UPV (Noticias de Gipuzkoa, 2015-03-19)

Google Research saria Eneko Agirre taldekideari

GoogleResearchAwardFall2015Google Research sari bat eman diote Ixa Taldeko  Eneko Agirre-ri. Sariarekin batera 50.000 dolar ere eman diote ikerkuntzan gastatzeko.

Enekok diru horrekin hitzen esanahia konputagailuetan errepresentatzeko modu egokienak zein diren aztertuko ditu. Hainbat hizkuntzatako hitzen esanahiak uztartzea ahalbideratzen duten errepresentazioak topatzea da helburua. Proiektuaren izena “Learning Interlingual Representations of Words and Concepts” izango da.

Sarirako 950 proposamen jaso zituen Google-k, informatikako 18 arlotan, 55 herrialdetatik eta 350 unibertsitatetatik bidaliak. Proposamen guzti horien artean 151 sari bakarrik banatu ditu Google-k. Hizkuntzaren prozesamenduaren arloan 10 izan dira sarituak eta horietako bat izan da Eneko Agirre. ZORIONAK Eneko!

Google_Saria_Eneko_2016

Hizkuntzaren prozesamenduaren arloko 10 sarituak