Tesia: Itzulpen automatiko gainbegiratu gabea (Mikel Artetxe, 2020-07-29)

Tesiaren titulua:  Itzulpen automatiko gainbegiratu gabea
                               / Unsupervised Machine Translation

Non: Telekonferentzia: https://eu.bbcollab.com/guest/b22b606d9ae74bc5b3e067821c897617
Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Uztailaren 29, asteazkena
Ordua: 11:00etan
Egilea: Mikel Artetxe Zurutuza 
Zuzendariak: Eneko Agirre  eta Gorka Labaka
Hizkuntza: Ingelesa / Euskara

Ikerketaren motibazioa, galderak:

Sekuentziatik sekuentziarako eredu neuronalaren etorrerak aurrerapen izugarria ekarri du itzulpen automatikoan. Horrek hobekuntza handia ekarri du itzulpen-sistema estandarretan eta horrela zenbait ingurunetan giza-itzulpenen kalitatearen maila lortu dute lehenengoz. Hala ere, gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona), corpus paralelo gisa normalean milioika perpaus behar izaten dituzte. Baina harrigarria da, baldintza hori ez du behar gizakiak hizkuntza eskuratzeko. Eta gainera arazo praktiko garrantzitsu bat planteatzen du euskara bezalako baliabide gutxiko hizkuntzekin itzulpenak egiteko.

Tesiaren helburua datu paraleloen mendekotasun hori guztiz ezabatzea da, corpus elebakarra baino beharko ez duten “gainbegiratu gabeko itzulpen automatiko”ko sistemak eratzeko. Horretarako, lehenengo urrats batean bi hizkuntzatarako sortutako hitz-bektoreak (word embedding-ak) lerrokatzen ditu, beren arteko egitura-antzekotasunean oinarrituta. Gero, bigarren urrats batean, lerrokatze horren emaitzak erabiltzen ditu itzulpen-sistema neuronal bat edo itzulpen-sistema estatistiko bat hasieratzeko, azken urratsean back-translationaren bidez hobetzen joango dena.

https://github.com/artetxem
https://github.com/artetxem

Tesiaren egindako bide progresiboa eta  ekarpenak oso ondo jarraitu daiteke Mikel Artetxek 2016tik argitaratu dituen 9 artikulu hauen zehar:

 

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko. Beharrezko eremuak * markatuta daude