Itzultzaile automatikoen bolada berria (sarean.eus)

Itzultzaile automatikoen bolada berria artikulua idatzi dute eta “.EUS” domeinuko sarean.eus webgunean. Hona hemen horko zati batzuk:

Sarean_MT_AlegriaEneko

“[…] aldaketa espero ez zen bidetik etorri da. Ikusita sare neuronalek (bereziki Iiasketa sakona edo “deep learning” deritzatenek) irudien prozesamenduan eta giza-ahotsaren ezagutzan izan duten arrakasta, ikerlari batzuek horiek aplikatu dituzte itzulpenera, […] hitzen esanahia bektoreen bitartez errepresentatzen dute eta egitura sintaktikoa matrizeen biderketa bidez, orain arteko teknologiaren mugak gaindituz.  Denbora gutxian garapen izugarria izan dute, eta egun Google, Microsoft eta Systran enpresek teknologia hau darabilte itzulpenak sortzeko, aurreko 20 urtetan garatutako teknologia alde batera utziaz.[…]

[…] lexikoan, morfologian, eta hitzen hurrenkeran egin izan diren erroreak %20 inguru gutxitu direla. Hala ere, azterketa berdinak azaleratu du fenomeno sintaktiko eta semantiko ugari oraindik ondo itzuli gabe gelditzen direla – egitura linguistiko aberatsagoak behar direnaren seinale, beharbada.”

Hitzaldia: Diskurtsoaren egitura itzulpen automatikoaren ebaluazioan (L. Màrquez, 2015/06/15).

Hizlaria: Lluis Màrquez
…………….Arabic Language Technologies group from the Qatar Computing Research
Eguna: Ekainaren 15ean, ostegunean
Ordua: 12:00
Gela: 3.2 gela. Informatika Fakultatea (UPV/EHU)

Hitzaldiaren izenburua: Discourse Structure in Machine Translation Evaluation / Diskurtsoaren egitura itzulpen automatikoaren ebaluazioan

Mitzuli itzultzaileak 10.000 deskarga

Mitzuli_10000Deskargatu duzu Mitzuli aplikazioa android telefonora?

Testua, audio eta irudiak ere itzultzen ditu 50 hizkuntza-bikoteetarako, librea da… eta gure taldeko kide eta HAP masterreko ikasle den Mikel Artetxek sortu du!

Honezkero 10.000 deskarga izan ditu.
Zorionak eta eskerrik asko, Mikel!

 

Ikusi, ikusi albiste hauek:

Euskarazko eta gaztelaniazko izen+aditz konbinazioak lantzen

Konbitzul datu-baseak euskarazko eta gaztelaniazko izen+aditz konbinazioei buruzko informazioa biltzen du. Konbinazioen eta euren ordainen ezaugarri morfosintaktiko zein semantikoei begiratu diegu, eta bi hizkuntzak parez pare jarri ditugu, zer alde eta antzekotasun duten aztertzeko.

Konbitzul_Zubiak_eraikiBilatzailea atalean, datu-basean jasota dauden hitz-konbinazioak eta ordainak bilatu daitezke, hainbat irizpideren arabera:

  1. Hizkuntza-norantza: euskaratik gaztelaniara ala gaztelaniatik euskarara.
  2. Bilatu nahi den testuaren forma: konbinazio osoa, aditza edo izena.
  3. Informazio linguistiko gehigarria: euskara-gaztelania zentzuan, euskarazko izenaren kasu- edo postposizio-marka; gaztelania-euskara zentzuan, gaztelaniazko konbinazioaren egitura.

UxoaIñurrietaDatu-base hau IXA taldeko Uxoa Iñurrietak doktoretza-tesirako egin duen lan baten emaitza da. Lankidetzan aritu da beste hauekin ere: Itziar Aduriz, Mikel Artetxe, Arantza Díaz de Ilarraza, Gorka Labaka, Kepa Sarasola eta Ruben Urizar.

Informazio zehatzago nahi izanez gero ikusi artikulu berri hau:

Izen+aditz konbinazioen azterketa elebiduna, hizkuntza-aplikazio aurreratuei begira
Uxoa Iñurrieta, Itziar Aduriz, Arantza Díaz de Ilarraza, Gorka Labaka eta Kepa Sarasola 2014, Linguamatica 6.2 (2014): 45-55.

Hona hemen Konbitzul datu-basean egin ditzakezun galderetako batzuk:

Konbitzul_TenderKonbitzul_tender_puentes

Ikastaro osagarria: Hizkuntz ingeniaritzaren arloko aplikazioak (Matrikulazio epea luzatuta)

HAP masterretik ikastaro hau zabaldu dugu publiko orokorrarentzat:

Hizkuntz ingeniaritzaren arloko aplikazioak.
Eskola saioak Hizkuntzaren Azterketa eta Prozesamendua masterreko saioen azpimultzo bat dira, aplikazio praktikoekin lotuta daudenena (itzulpen automatikoa, informazio-bilaketa, hizkuntzaren ikaskuntza…

Matrikulazio-epea/Plazo de matricula:  Urtarrilaren 12tik 23ra/ Del 12 al 23 de enero Urtarrilaren 12tik Otsailaren 7ra / Del 12 de enero al 7 de febrero
Idazkaritza amaia.lorenzo@ehu.es / patxi.salinas@ehu.es
Informazio teknikoa: montse.maritxalar@ehu.es
Loturak:

diptikoa-ikastaro-osagarria-Aplikazioak_1

diptikoa-ikastaro-osagarria-Aplikazioak_2

Argitalpena: Sistema itzultzaile hibridoa sintaxiak gidaturikoa

A hybrid machine translation architecture guided by syntax
Horixe da Springer argitaletxeko Machine Translation Journal aldizkariak argitaratu berri duen gure artikulu baten izenburua.MTJournal_SMatxinTIxa taldea eta Bartzelonako TALP zentroa lankidetzan ibili ginen OpenMT-2 proiektuan 2009-2012 urteetan. Eta artikulu hau da proiektuko horren azken emaitza.

Espainieratik euskarara itzultzen duten bi sistema oso diferente elkarrekin lanean jartzea izan da gure helburua. Itzultzaile automatiko horietako bat estatistikoa da (EUSMT), bestea erregeletan oinarritutakoa (Matxin). Biak batzen dituen sistema hibridoak hasieran esaldien analisi sintaktikoa egiten du, erregeletan oinarritutako sistemak egiten duen bezala, baina gero egitura sintaktikoaren osagai bakoitza modu batera eta bestera saiatzen da itzultzen. Bukaeran prozedura estatistiko bat erabiltzen du itzulpen posible guztien artean hoberena hautatzeko.

SMatxinT_arkitektura

Itzultzaileen ebaluazioa neurri automatikoekin egin dugunean sistema hibridoa izan da onena, argi eta garbi. Hortaz, arrakastatsua izan da gure proiektua.

Baina eskuzko ebaluazioa egin dugunean gizakiek Matxinen itzulpenak nahiago izan dituzte sistema estatistikoarenak edo hibridoarenak baino. Hor, beraz, itzulpengintza automatikoan dagoen konpondugabeko arazo batekin egin dugu topo: ebaluaziorako neurri estatistikoak eta giza-ebaluatzaileak beti ez dira bat etortzen. Ebaluazio automatikoa merkea da, baina ez guztiz sinesgarria, eta maiz erabiltzen da ikerketan 🙁   Giza-ebaluatzaileen iritziekin bat etorriko diren neurri automatiko hobeak asmatzeko daude!

Ederra lankidetza TALP zentrokoekin izan duguna (). Orain Tacardi proiektuan gabiltza elkarrekin.

Euskal WordNet hiztegi semantikoa “publiko” bihurtu dugu

Itzulpen automatikoari, informazio-erauzketari eta hitzen adieren desanbiguazioari ganoraz ekin ahal izateko, makinek betiko hiztegiak baino tresna informatiko boteretsuagoak behar dituzte. Helburu horiek lantzeko oso egokia den Euskal WordNet baliabidea, eta hori aste honetan doan jaitsi eta kontsultatzeko moduan jarri dugu IXA taldean.  Gure 25. urteurrena ospatzeko beste modu gehigarri bat 😉
Ea denon artean fruitu gehiago ateratzen diogun baliabide ahaltsu honi!

Euskal WordNet euskararentzat egin den lehen Ezagutza-Base Lexikala (EBL) da. Alegia, informazio lexikala eta semantikoa jasotzen eta antolatzen dituen “hiztegi semantikoa” edo biltegi bat. Datu-base baten antzekoa da, baina desberdintasuna da hiztegi batean jasotzen den informazioaz gain —hitzen adierak eta adiera horien definizioak eta adibideak— kontzeptuak elkarren artean harremanetan jartzen direla.

Adibidez, hatz hitza kontsultatuz gero, zera esaten digu: “gizakiaren eskua edo oina bukatzen den bost zatietako bakoitza” da. Hori da esanahia, baina horretaz gain, beste hitzekin dituen erlazioen biartez hainbat informazio ere jaso dezakegu: hatza gorputz-adar bat dela, hatz lodia hatz bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla, eta hatzak gauzak ukitzeko erabiltzen direla. Kontzeptu horrek beste hizkuntzetan dauzkan baliokideak ere lortu ditzakegu (digit, dedo, dixito, dit). Azken finean, kontzeptu guztiak euren artean harremanetan jartzen dira hierarkikoki.

EuskalWordnet_hatz_eleanitza

“hatz” hitza kontsultatzen EuskalWordnet-en (zati bat)

Datu-base hori oso baliagarria da hainbat arlotan, hala nola, itzulpengintza automatikoan, informazio-erauzketan, hitzen adieren desanbiguazioan eta galdera-erantzun sistemetan. Itzulpen automatikoan, esaterako, sistemak ulertu behar du zer hitz ari den itzultzen eta horretarako horrelako “hiztegi semantiko” baten beharra dauka. Ezinbestekoa da hitz batek dituen adieretatik egokiena bereiztea kalitatezko itzulpena bermatzeko. WordNet erabilita egungo itzulpen automatikoen kalitate hobetzea da IXA taldearen ardura QTLeap proiektu europarrean.

HAP_diptiko_Irudia

HAP/LAP masterra

Euskal WordNet eta antzerako aplikazioak nola sortu eta nola erabili nahi dituenak horiek ikasi ahal izango ditu 2014-2015 ikasturtean UPV/EHUn IXA Taldeak emango duen Hizkuntzaren Azterketa eta Prozesamendua unibertsitate-masterrean. Ekainaren 30era arte dago izena emateko aukera http://ixa.si.ehu.es/master

Ebaluatoia, ingelesetik euskarara itzultzen duten lehen prototipoak ebaluatzeko

Nora Aranberrik, Gorka Labakarekin elkarlanean, ingelesetik euskarara automatikoki itzultzen duten itzultzaile automatiko batzuk garatu ditu azken urtean. Marie Curie beka batekin egin du, ENEUS proiektuaren barruan.
Proiektuan lehenengo prototipo batzuk egin dira teknologia desberdinekin eta orain ebaluazio batekin bukatu behar da proiektu hori.
Ebaluatoia_interfazea2Horrelakoetan nazioartean moda-modan dago “ebaluatoiak” egitea. Programa egin duen taldetik kanpo dauden hainbat pertsonak egiten dute. Bakoitzak, bere ordenagailutik, esaldi sorta bat ebaluatzen du, esaldi bakoitza eta automatikoki lortutako itzulpen batzuk ikusita pertsonak erabakitzen du zein den hoberena.

Erdaretarako ebaluatoi asko egin dira. Batzuek diote euskaraz ebaluatoia ez dela ondo joango, euskararen mundua txikiegia dela, baina IXA taldean animatu gara ebaluatoi bat antolatzen eta erantzun ona jasotzea espero dugu. Ea egia den! Parte hartuko duzuen guztiok “egundoko zozketa” batean parte hartuko duzue 🙂  Zozketa martxoaren 4an izango da.

Ingelesez dakizu? eta euskaraz?
Lagun iezaguzu euskara “teknologizatzen”!
Ebaluatoia otsailaren 14tik 25era, egon adi!

Zehaztasun gehiago 14tik aurrera. Zorte on!

Ebaluatoia2014

Wikipedia eta itzulpen automatikoa. Harri batez bizpalau xori

The People’s Web Meets NLP
“Webaren alde herrikoiak Hizkuntzaren Prozesamendua ezagutu du. Lankidetzan sortutako hizkuntza-baliabideak”
Horixe da ingelesez Springer argitaletxeak argitaratu berri duen liburu berri baten izenburua.
    Eta liburu horretako kapitulu batean (Reciprocal Enrichment between Basque Wikipedia and Machine Translators) luze azaldu dugu zer egin dugun IXA taldean Euskal Wikipedian 100 sarrera berri (50.000 hitz) gehitzeko eta Matxin itzultzaile automatikoa hobetzeko.
    2009-2013 urte tartean egin dugu lan hori. Itzulpen Automatikoan ikertzeko OpenMT2 proiektuaren barruan bideratu dugu lana. Euskal Wikipedialariekin ere koordinatu egin gara wikiproiektu baten barruan.
     Ekaia aldizkariko abenduko ale berrian ere azalduko da proiektu honetan egin dugun lanaren berri, kasu honetan euskaraz, noski: Wikipedia eta itzulpen automatikoa: ‘Harri batez bizpalau xori’.
Matxin_Wikipedia_OmegaT
   Lankidetza eta hizkuntza-teknologia uztartzen lehen urrats hori burutu dugu orain, baina urrats berriak egin behar ditugu oraindik. Euskarazko Wikipedia badugu, tamainan munduko 35. wikipedia da, 150.000 artikulu dauzka, osasun onean dagoela esan genezake. Baina, tamalez, bere tamaina oraindik txikia da Hizkuntzaren Prozesamenduko aplikazio aurreratuetan erabil ahal izateko.

Hizkuntzalari Euskaldunen I. Topaketa

Arrakastatsua izan da Hizkuntzalari Euskaldunen I. Topaketa. UEUko Hizkuntzalaritza Sailburuak diren Itziar Aduriz eta Ruben Urizar IXAkideek balorazio oso positiboa egin dute bilkuraz.

Lau izan dira bilkuran Ixa Taldearen aldetik aurkeztu diren lanak:

  • Euskarazko testuen sinplifikazio automatikoa. Itziar Gonzalez Dios
  • EPEC corpusa predikatu mailan etiketatzeko eta ustiatzeko oinarriak: BVI, EPEC-RoISem eta e-ROLda. Ainara Estarrona
  • Ezagutza linguistikoa Ingelesa-Euskara itzulpen automatikoko sistemen garapenean. Nora Aranberri
  • BASYQUE: hizkeren arteko aldakortasun sintaktikoa aztertzeko aplikazioa. Gotzon Santander, Xan Aire, Larraitz uria eta Ricardo Etxepare (CNSR-IKER / UPV-EHU, IXA)

Zorionak, hizkuntzalariok!

Edurne Elizondoren albistea Berrian
(Arg.: A. Canellada, ARP)