Hizkuntza-teknologiak, Ixa Taldearen bloga

Blog honen agurra. Jarraitu HiTZ zentroari sare sozialetan

ixa — Wed, 31 May 2023 15:32:41 +0000

Bukaera ematen diogu blog honi, hau da azken albistea.
Ixa taldearen bitakora moduko zerbait izan da 2006tik 2022ra bitartean, 312 albiste jasota.
Ikus aurkibide osoa (2006-2022).

Azken urteetan bezala aurrerantzean ere, jakina, sare sozialen bidez izango duzu Ixa Taldearen eta HiTZ zentroaren berri:

HiTZ Zentroa Mastodon sarean
HiTZ Zentr oa Twitterren
Ixa Taldea Twtterren
HiTZ medioetan: hedabideetako albisteak HiTZ Zentroko webgunean bilduak
“HiTZ medioetan“: hedabideetako albisteak Hitz Zentroko webgunean.

Kubako sari akademiko gorena Xabier Artola Ixakideari (2023-02-16)

ixa — Thu, 16 Feb 2023 20:13:15 +0000

Kubak “Carlos J. Finlay” Ordenaren Saria eman dio Ixa Taldeko Xabier Artola irakasleari 2023ko otsailaren 16an. Kubako zientzialari nazionalei eta atzerritarrei ematen dien kondekoraziorik gorena da hori. Artolari Kubarekin 20 urteko lankidetza zientifiko emankorrarengatik eman diote saria. Santiagoko Linguistika Aplikatuaren Zentroarekin bereziki.

Xabier Artolari Carlos J. Finlay saria emateko ekitaldia(Kuba, 2023-02-16)

Euskal Herriko Unibertsitateko IXA taldea lankidetzan aritu izan da 2001tik CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar Cubano (DBE) hiztegia (digitala eta paperezkoa). Lankidetza honen barruan mende hasieran sortu zen lehenengo bertsioan hiztegiaren diseinu informatikoa oso aurreratu izan zen: XML lengoaia kodetuta dago), eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen zen. Geroago hiztegiaren lau edizio (2005, 2008, 2009, 2013-2015) argitaratu dira Kuban, paperean eta digitalki. Hiztegiaren sortzaileak Eloína Miyares Bermúdez eta Vitelio Ruiz Hernández linguistak ziren. Urteetan zehar zabalkuntza handia izan du hiztegiak Kubako eskoletan. 2023. urtera arte guztira hiztegiaren 300.000tik gora ale salduta zeuden paperean, eta bertsio elektronikoan 1100 CD.

Irakurri gehiago:

«La Orden Carlos J. Finlay llega hasta el País Vasco» Trabajadores, Labañino, Arleen. (2023-02-16).
Condecoran hoy con la Orden Carlos J. Finlay a cubanos y extranjeros (+Fotos). Agencia Cubana de Noticias. Luben Pérez, Lino; Dìaz Caballero, Yury. (2023-02-16).
«Orden “Carlos J. Finlay” a oficiales, trabajadores, profesores extranjeros e instituciones.» Gaceta Oficial de la República de Cuba (MINISTERIO DE JUSTICIA ISSN 1682-7511Información en este número Gaceta Oficial No. 2 Ext. Especial de 19 de enero de 2023).
2021; Ixa Taldeari esker ona Cubatik (CLA zentroak 50 urte)
2019: Vitelio Ruiz lankide kubatarra hil zaigu
2015: Eloína Miyares lankide kubatarra hil zaigu
2011: Santiago de Cubako Centro de Lingüística Aplicada-k 40 urte
2010: XML teknologiaren erabilera hiztegigintzan: Diccionario Básico Escolar

Alfonso Ureña, Hizkuntzaren ekonomia berriko jardunaldian (2022-06-01)

ixa — Wed, 01 Jun 2022 10:29:04 +0000

Alfonso Ureña, SEPLN elkarteko presidentea.

Hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldia antolatu dugu Donostiako Miramar jauregian. Galdera hauei erantzuteko asmoz:

Nola egin arrakastaz trantsizio digital eleaniztuna; nola bermatu gure hizkuntzen eta kulturen iraupen digitala?
Nola bihurtu sozioekonomikoki errentagarri eleaniztasuna: berrikuntza, zerbitzuak, produktuak eta negozio-eredu berriak?

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak, Eusko Jaurlaritzako Kultura Sailaren eta UPV/EHUko HiTZ zentroaren lartean antolatu dugu.

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteko Presidente Alfonso Ureñaren hasierako hitzak hauek izan dira:

Eva Ferreira, Bingen Zupiria, eta Allfonso Ureña. (arg.: Langune)

Eskerrak eman nahi dizkiet Eusko Jaurlaritzari, Kultura Sailari eta Euskal Herriko Unibertsitateko HiTZ zentroari. Bereziki, Eneko Agirre HiTZ zentroko zuzendariari, Eva Ferreira errektoreari eta Bingen Zupiria sailburuari. Eta eskerrak eman nahi dizkiegu hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldi honetan parte hartzen duten guztiei.

Hizkuntzaren teknologiaren potentzialtasunari erantzuna eman eta ezagutarazteko helburua du jardunaldi honek. Adimen artifizialaren iraultza gertatzen ari da, oro har, eta, bereziki, hizkuntza naturalaren prozesamenduarena. Gizarteko esparru eta sektore gehienetan sartzen ari da.

Utz iezadazu aipamen labur bat egiten Hizkuntza Naturalaren Prozesamendurako Espainiako Elkartea (SEPLN) aurkezteko. Espainian ikerketa egituratzen duen elkartea. Ibilbide luzea du, 1983tik. Oso komunitate aktiboa da, irabazi asmorik gabekoa eta bazkide numerarioek, erakundeek eta enpresek osatua. Horren helburua da hizkuntza naturalaren prozesamenduaren esparruan ikerketari, irakaskuntzari edo prestakuntzari eta garapenari buruzko era guztietako jarduerak sustatu eta zabaltzea, bai nazio mailan, bai nazioartean. Azpimarratu behar da SEPLN kongresua Espainiako zaharrena dela informatikaren arloan, eta urtero egiten dela, etenik gabe, 1983an sortu zenetik, Donostian hain zuzen ere. Gizarteak giza kapital handia du, masa kritiko garrantzitsua, izen handiko ikertzaileak eta ikerketa-talde garrantzitsu eta nazioartekotuak biltzen baititu. Talde horiek Hizkuntzaren Teknologiako komunitate ia osoa osatzen dute, ez bakarrik Espainian, baita Iberoamerikako erreferentea ere bada.

Jardunaldiaren xedeari dagokionez, hizkuntza naturala harrigarria dela aipatu nahiko nuke. Ahalegin handiik gabe, ezezagun bati galde diezaiokegu nola aurkitu kafetegi bat edo hurbilago bazkaltzeko toki bat. Gure esperientziak, ezagutzak eta abar partekatu ditzakegu. Hizkuntza da informazioa transmititu eta atzitzeko modurik arruntena eta praktikoena. Hizkuntza erabiltzen dugu, gure komunikazio-ingurune naturala den aldetik, informazioa kodetzeko, gordetzeko, transmititzeko, partekatzeko eta manipulatzeko. Hain zuzen, eskura dagoen informazio digital gehiena egituratu gabeko informazioa da, dokumentu gisa hainbat hizkuntzatan (idatziak edo hitz egindakoak), eta hori erronka bat da informazio hori ustiatu eta prozesatu nahi duen edozein erakunderentzat. Izan ere, ez da erraza egituratu gabeko informazio digitala (testua eta ahotsa) prozesatzea, hainbat interpretazio baititu (anbiguotasuna), testuinguruari eta munduari buruzko ezagutzarik eza eta bere berezko konplexutasuna. Hizkuntzaren Teknologiak (TL), giza hizkuntza prozesatzeko gai diren sistemak aztertu eta garatzeaz arduratzen denak, hainbat metodo garatu ditu urteen bidez testuetako informazioa esplizitu egiteko eta deskribatzen duen errealitatearekin lotzeko.

Beraz, hizkuntza adimen artifiziala garatzeko gure ahaleginen erdigunean egon behar da, eta alderantziz. Izan ere, gaur egun, Hizkuntzaren Teknologia da, seguruenik, adimen artifizialaren eremurik berritzaileena, hazkunde azkarreko eragin ekonomikoa duena. Gaur egun, duela urte batzuk aurrerapen ikaragarriak eta imajinaezinak gertatzen ari dira. Hain zuzen, NLP aplikazio funtzionaleko eremu garrantzitsuenetako bat da. Adimen artifizialaren %50 baino gehiago Hizkuntzaren Prozesamendua dela kalkulatzen da.

Egiten diren lan askoren berezko zailtasuna gorabehera, Hizkuntza-teknologiaren egungo garapen-mailak duela urte gutxi pentsaezinak ziren aplikazio aurreratu asko ahalbidetzen ditu. Hizkuntza-Teknologia gure eguneroko bizitzan dago, nahiz eta ez garen horretaz jabetzen. Adibidez, informazio-bilatzaileen, gomendio-sistemen, laguntzaile birtualen, txat-en, testu-zuzentzaileen, testu-aurresaleen, itzulpen automatikoko sistemen, azpititulazio automatikoen, laburpen automatikoen, teknologia inklusiboaren eta abarren bidez. baita administrazioan ere, aplikazio-eremu bertikalen bidez, hala nola hezkuntza, osasuna, justizia, turismoa… Azken urteetan izan duen garapen azkarrak emaitza are harrigarriagoak ekarri ditu etorkizun hurbilean.

“Buenos días a todos y bienvenidos a la jornada sobre la transición digital multilingüe en l nueva economía de la lengua.

Quisiera agradecer el apoyo del Gobierno Vasco, concretamente a la Consejería de Cultura y al centro HiTZ de la Universidad del País Vasco. Especialmente, al director del centro HiTZ Eneko Agirre, a la rectora Eva Ferreira y al consejero Bingen Zupiria.

Y agradecer a todos los que participan y asisten en esta jornada sobre la transición digital multilingüe en la nueva economía de la lengua.

Esta jornada se enmarca con el objetivo de dar respuesta y dar a conocer la potencialidad de la tecnología del lenguaje. Estamos asistiendo a una revolución de la inteligencia artificial en general y en particular del procesamiento del lenguaje natural, también conocido como tecnología del lenguaje que está penetrando en todos los ámbitos y en la mayor parte de los sectores de la sociedad.

Permítanme que haga una breve reseña y presentación a la Sociedad Española para el Procesamiento para el Lenguaje Natural (SEPLN). La sociedad que viene vertebrando la investigación en España. Cuenta con una larga trayectoria, desde 1983. Es una comunidad muy activa, sin ánimo de lucro y formada por socios numerarios, instituciones y empresas. Cuyo objetivo es promover y difundir todo tipo de actividades referentes a la investigación, a la enseñanza o formación y desarrollo en el ámbito del procesamiento del lenguaje natural, tanto a nivel nacional como internacional. Resaltar que el congreso SEPLN es el más antiguo de España en el ámbito de la informática, viene realizándose año tras año, de manera ininterrumpida, desde la fecha de creación en 1983, precisamente en esta ciudad de San Sebastián. La sociedad cuenta con un gran capital humano, una masa crítica importante, ya que agrupa a investigadores de alto prestigio y grupos de investigación muy relevantes e internacionalizados que constituyen prácticamente toda la comunidad en Tecnología del Lenguaje, no sólo en España, también es un referente en Iberoamérica.

Centrándonos en el objeto de la jornada, quisiera mencionar que el lenguaje natural es asombroso. Sin esfuerzo podemos preguntar a un desconocido cómo encontrar una cafetería o un lugar para comer más cercano. Podemos compartir nuestras experiencias, conocimientos, etc. El lenguaje es la forma más común y versátil para transmitir y acceder a la información. Usamos el lenguaje, como nuestro medio natural de comunicación, para codificar, almacenar, transmitir, compartir y manipular información. De hecho, la mayor parte de la información digital disponible es información no estructurada en forma de documentos (escritos o hablados) en múltiples idiomas, lo que representa un desafío para cualquier organización que quiera explotar y procesar esta información. Ya que no es trivial procesar la información digital no estructurada (texto y voz), ya que está sujeta a múltiples interpretaciones (ambigüedad), falta de conocimiento sobre el contexto y el mundo, y su complejidad intrínseca. La Tecnología del Lenguaje (TL) que se ocupa de estudiar y desarrollar sistemas capaces de procesar lenguaje humano, ha desarrollado a través de los años diferentes métodos para hacer explícita la información contenida en los textos y relacionarla con la realidad que describen.

Por lo tanto, el lenguaje es y debe estar en el centro de nuestros esfuerzos para desarrollar la Inteligencia Artificial, y viceversa. De hecho, actualmente, la Tecnología del Lenguaje es posiblemente el campo más innovador de la Inteligencia Artificial con un impacto económico de crecimiento acelerado. Actualmente estamos asistiendo a unos avances impresionantes e inimaginables hace unos años. De hecho, el PLN es una de las áreas de aplicación funcional más importantes. Se calcula que más del 50% de la inteligencia artificial es PLN.

A pesar de la dificultad inherente de muchas de las tareas que se realizan, el grado de desarrollo actual de la TL permite ya muchas aplicaciones avanzadas impensables hace pocos años. La TL está presente en nuestra vida diaria, aunque no seamos conscientes de ello. Por ejemplo, a través de buscadores de información, sistemas de recomendación, asistentes virtuales, chatbots, correctores de texto, predictores de texto, sistemas de traducción automática, subtitulación automática, resúmenes automáticos, tecnología inclusiva, etc. así como, en la administración, a través de verticales como educación, sanidad, justicia, turismo… Su rápido desarrollo en los últimos años augura resultados aún más sorprendentes en un futuro muy cercano.

Desafortunadamente, tal y como demuestran los resultados del proyecto European Language Equality, este notable progreso tecnológico no se desarrolla por igual en todas las lenguas. Existe una distancia abismal entre ellas. Es una oportunidad la que tenemos con el multilingüismo, ya que se estima que la mitad de la población es bilingüe. Como ejemplo, el PLN atendió al 50% de la población que usa más de un idioma a la vez. En este contexto, el objetivo de esta jornada es dar respuesta a los siguientes retos:

Cómo hacer con éxito la transición digital multilingüe; cómo garantizar la pervivencia digital de nuestras lenguas y culturas.
Cómo rentabilizar socioeconómicamente el multilingüismo: innovación, servicios, productos y nuevos modelos de negocio.

Quisiera hacer mención muy brevemente al PERTE sobre la nueva economía de la lengua, aprobado en marzo por el gobierno y que nos acompañan en esta jornada la comisionada y su director, y a los que agradezco que hayan aceptado nuestra invitación. Consideramos el PERTE un acierto, es necesario aunque no suficiente, para llevar a las lenguas cooficiales a un estado de madurez tecnológica que las sitúe a la vanguardia de la sociedad y economía digitales, y que esto permita a su vez el desarrollo de una industria que pueda liderar incluso a escala mundial los servicios, productos y aplicaciones basados en TL, en particular en español. La TL está contribuyendo al desarrollo de sociedades digitales inclusivas, y son útiles para la transformación digital y responder a los desafíos sociales (multilingüismo, accesibilidad, transparencia y equidad).

Tenemos una ventana de oportunidad que tendrá, en todo caso, una duración temporal limitada. En el horizonte del 2025 deberían ser evidentes los resultados del PERTE como plan de choque para la maduración tecnológica del español y las lenguas cooficiales del estado. De otro modo se perderá, quizás definitivamente, la oportunidad de que España lidere la economía alrededor de la TL en sus lenguas.

Como se pondrá de manifiesto en la jornada, las iniciativas de diferentes gobiernos autonómicos en este sentido, como son las iniciativas públicas con lengua propia, las del País Vasco, Galicia y Cataluña, concretamente con el Gaitu, Nós y Aina respectivamente. Así como al Perte al que ya he hecho referencia a nivel estatal.

Se deben de adoptar decididas políticas científicas para su correcto y eficiente despliegue, y contribuir con ello al progreso de la ciencia, la sociedad y el conocimiento. Es por tanto necesario que desde la SEPLN se influya en la equidad de las lenguas cooficiales y se involucre a los investigadores y a la academia (universidades), ya que contamos con centros de investigación de diferentes universidades relevantes y competitivos en PLN, como los que colaboran en esta jornada (Hitz, Citius, CEATIC, CENID y BSC), así como grupos de investigación por todo el territorio estatal.

Esperemos sacar el máximo provecho a esta jornada, corta pero intensa, a través de mesas redondas se dará respuesta a la situación del multilingüismo en los ámbitos de industria, investigación y formación en PLN (TLH).”

Bingen Zupiria, Hizkuntzaren ekonomia berriko jardunaldian (2022-06-01)

ixa — Wed, 01 Jun 2022 09:17:06 +0000

Bingen Zupiria, Eusko Jaurlaritzako Kultura Sailburua.

Hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldia antolatu dugu Donostiako Miramar jauregian. Galdera hauei erantzuteko asmoz:

Nola egin arrakastaz trantsizio digital eleaniztuna; nola bermatu gure hizkuntzen eta kulturen iraupen digitala?
Nola bihurtu sozioekonomikoki errentagarri eleaniztasuna: berrikuntza, zerbitzuak, produktuak eta negozio-eredu berriak?

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak, Eusko Jaurlaritzako Kultura Sailaren eta UPV/EHUko HiTZ zentroaren lartean antolatu dugu.

Hau da Eusko Jaurlaritzako Kultura Saiburu Bingen Zupiriaren hasierako interbentzioa:

“Egun on guztioi eta mila esker gaur Donostiara hurbildu zareten guztioi. Azken urteotan teknologiaren eraginez, gauza asko aldatu dira gure hizkuntzentzat.
Ikusi dugu hizkuntza-teknologiei esker, adimen artifizialari esker, euskara bezalako hizkuntzentzat aukera berriak sortu direla gure hizkuntzaren erabilera areagotze eta indartze aldera.
Kontzeptu berriak ere agertu dira, adibidez, gaur jardunaldi honen ardatzean dagoena: “Hizkuntzaren ekonomia berria”. Orain gutxi “Hizkuntzen industriei” buruz hitz egiten genuen, baina teknologiarekin gertatzen den moduan, hizkuntza ere etengabe aldatzen ari da.Gure gizartea gero eta eleaniztunagoa eta gero eta teknologikoagoa da, eta errealitate horrek gobernuok politika zehatzak diseinatzera eta gauzatzera garamatza.

Eva Ferreira, Bingen Zupiria, eta Allfonso Ureña.

Horrela, hemen gauden gobernuok estrategia digitalak, planak, ekintza-planak eta antzekoak onartu ditugu gure gobernuetan, hain zuzen, gure hizkuntzak hizkuntza-teknologietan integratzeko eta gure herritarrei Administrazioarekiko harremanetan nahiz eguneroko bizitzan, teknologia baliatuta, haien aukerako hizkuntza erabil dezaten bermatzeko. Hizkuntzek elkarren ondoan bizi behar dute, handiek eta txikiek; Baina Hizkuntza guztiak ez daude egoera berean; eta herritar guztion ere ez, hizkuntzen desberdintasun horren ondorioz.

Guztiok nahi eta behar dugu geure tokia mundu berri honetan eta denon obligazioa da hizkuntza guztien trantsizio digital arrakastatsua bultzatzea eta gauzatzea. Baita hiztun gutxiago dituzten hizkuntzena ere. Eusko Jaurlaritzak “GAITU Hizkuntza-teknologien Ekintza-plana 2021-2024” (www.euskadi.eus/gaitu) jarri du martxan. Jaurlaritzako sailen arteko Ekintza-plana da eta abian dauden proiektuak jasotzen ditu, baita legegintzaldian zehar garatuko direnak ere. Badakigu oso garrantzitsua izango dela proiektu horiek guztiak aurrera eramatea eta berriak txertatzea.
Ekintza-plan hau irekia da, moldagarria, dinamikoa eta etengabe eguneratuko da. Administraziotik herritarrei zerbitzu on eta aurreratuak ematea da Ekintza-planaren lehenengo fase honen helburua, baina, aurrerantzean, ikerketa ere txertatzea aurreikusi dugu.

Hizkuntza-teknologietan eta adimen artifizialean euskara modu eraginkorrean integratzearen ardatza elkarlana da, hau da, erakunde publikoen konpromisoa eta ikerketa-zentroen eta enpresen ezagutza eta esperientzia (eskarmentua) etengabe uztartzea ezinbestekoa da. Elkarlan hori beti izan da gure printzipioa eta praktika, hemen, gure artean.
Bide horretan jarraitzeko eta euskara hizkuntzak Adimen Artifizialean behar duen garapena izan dezan, hain zuzen, programak eta proiektuak bideratu ahal izateko, laguntza handia izan daiteke Espainiako Gobernuak onartu Hizkuntzaren Ekonomia berriaren PERTEa. Oso garrantzitsua da Gaztelaniak ekonomia berrian izan behar duen tokia bermatzea, baina era berean, nahieta nahi ezkoa da Estatu espainiarreko beste hizkuntza ofizialentzat ere diru-baliabideak esleitzea ahalik eta lasterren. Gaztelania ez diren Estatuko beste hizkuntzek, garapen teknolinguistikoa dela eta, bermatu beharra daukate beren etorkizuna mundu digitalean.
Ez da hautazko kontu bat. Hitz ala biziko kontua da. Izatea edo ez izatea, hori izango da kontua.

Bestalde, ezin ahaztu ikerketa eta, zentzu horretan, Estatuko Gobernuari lankidetza luzatzen diogu Europa mailako CLARIAH proiektuan (Digital Humanities resources and infrastructures) parte hartzeko.
Gure hizkuntza-teknologietako ikerlarientzat aukera garrantzitsua litzateke Estatuko Gobernua proiektu horretako kide balitz (Estatuak izan behar dira kide). Eusko Jaurlaritza proiektu horretan Euskadiko bi ikerlari jartzeko prest dagoela adierazi nahi dizuet. La incorporación del euskera y de las otras lenguas cooficiales del estado español al mundo de las tecnologías de la lengua y de la inteligencia artificial no es una opción.
Es una cuestión de supervivencia. Y su logro solo será posible mediante el trabajo en común, es decir, mediante el compromiso de las instituciones públicas y el conocimiento y la experiencia de los centros de investigación y de las empresas. Esa colaboración siempre ha sido nuestro principio y nuestra manera de trabajar. Para poder continuar en ese camino y que el euskera tenga el desarrollo necesario en la Inteligencia Artificial, para poder canalizar programas y proyectos, el PERTE de la nueva economía de la lengua recientemente aprobado por el Gpbierno de España debe ser una herramienta fundamental.
No concebimos un futuro digital europeo o mundial en el que los ciudadanos no tengamos la libertad de elegir nuestra lengua de comunicación y tengamos que renunciar al uso de una de nuestras lenguas.
Ese es el reto y la oportunidad que las tecnologías de la lengua y la inteligencia artificial nos ofrecerán si somos capaces de impulsar las políticas adecuadas. Y es urgente que lo hagamos ràpido y bien.

Es legítimo que las instituciones públicas en el estado español busquen el protagonismo del castellano en el escenario universal en el que vamos a vivir. Pero además de legítimo, es una obligación de todos que todas las lenguas del estado español tengan asegurada su presencia y desarrollo en el mundo digital. Es una cuestión de democracia e igualdad y atañe a todas las instancias del estado español. Es obligación de todas nuestras instituciones que todas nuestras lenguas puedan acceder, existir, competir, desarrollarse y pervivir en un nuevo mundo digital, que sí o sí deberá ser multi y plurilingÜe como es la realidad analógica del estado español.
Preocuoación del Gpobvbierno vasco por como se han planteado y sustanciado los fondos europeos. Vemos en el Perter de la economía de la lengua una oportunidad que no deberíamos desperdiciar
Así quiero trasladarles la disposición del Gobierno Vasco a poner a disposición de este proyecto a dos personas investigadoras de Euskadi.

Amaitzeko, esan, hizkuntza koofizialak ezin direla atzera geratu Hizkuntzaren Ekonomia Berrian. Beraz, jardunaldi honek argibide interesgarriak eta lankidetzarako eta konpromisorako aukera paregabea izatea espero dugu. Eskerrik asko! “

Eva Ferreira, Hizkuntzaren ekonomia berriko jardunaldian (2022-06-01)

ixa — Wed, 01 Jun 2022 09:06:30 +0000

Eva Ferreira, Bingen Zupiria, eta Allfonso Ureña.

Hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldia antolatu dugu Donostiako Miramar jauregian. Galdera hauei erantzuteko asmoz:

Nola egin arrakastaz trantsizio digital eleaniztuna; nola bermatu gure hizkuntzen eta kulturen iraupen digitala?
Nola bihurtu sozioekonomikoki errentagarri eleaniztasuna: berrikuntza, zerbitzuak, produktuak eta negozio-eredu berriak?

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak, Eusko Jaurlaritzako Kultura Sailaren eta UPV/EHUko HiTZ zentroaren lartean antolatu dugu.

Hau da UPV/EHUko errektore Eva Ferreriraren hasierako interbentzioa:

“Kultura eta Hizkuntza Politika sailburu jauna; Comisionada para la Alianza por la Nueva Economía de la Lengua, Gobierno de España; Presidente de la Sociedad Española para el Procesamiento del Lenguaje Natural; HiTZ zentroko zuzendari jauna; autonomi erkidego ezberdinetako herri agintariok; jaun-andreok.

Euskal Herriko Unibertsitatearentzat oso pozgarria da hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldi honen antolaketan eta garapenean parte hartu izana.

Horregatik, eskerrak eman nahi dizkiot Kultura eta Hizkuntza Politikako Sailari jardunaldi hau sustatu eta babestu izanagatik. Eskerrik asko sailburu jauna gure unibertsitate publikoan jarri duzun, jarri duzuen, konfiantzagatik. Pozgarria eta atsegina zait gaur zuekin Miramar Jauregi honetan egotea. Egoitza hau unibertsitateko jarduera akademikoarekin estuki lotua baitago.

Hizkuntza gizateriak duen tresnarik konplexuena eta bereziena da. Maiz errepikatu denez, hizkuntzak egiten gaitu, nolabait, gizaki.

Hizkuntza tresna konplexua da bere egituran, noski, baina are konplexuagoa kultura aniztasunean, hizkuntza asko izanik. Hizkuntzek kultura-tapiz aberatsa ehundu dute historian zehar, baina tapiz horrek are gehiago zaildu ditu giza harremanak.

(…)

El lenguaje es, en efecto, la herramienta intelectual más sofisticada que ha ideado el ser humano. Pero a esa complejidad se le une la complejidad añadida del multilingüismo como producto de la diversidad de pueblos y culturas.

Por ello, el lenguaje se ha convertido en un objeto de atracción para la tecnología y para su desarrollo, desde una perspectiva multidisciplinar.

Ese campo de trabajo, tan vasto y también tan ambicioso, se sitúa en eso que denominamos “conocimiento de frontera”. La tecnología del lenguaje constituye una auténtica vanguardia del conocimiento dirigida a explorar la inteligencia humana; a explotar los recursos textuales y orales que esta ha desarrollado; y a indagar en formas cada vez más ambiciosas y sugestivas de inteligencia artificial.

En ese sentido, la tecnología del lenguaje encara verdaderos desafíos. Uno de ellos es el desarrollo cada vez más sofisticado de tecnologías dirigidas a actuar en un entorno multilingüe. Nadie puede negar que el multilingüismo es una riqueza para el patrimonio cultural de la humanidad. Pero ahora, en el contexto de nuestro tiempo, el multilingüismo no es una circunstancia localizada en el tiempo y en el espacio, sino la consecuencia lógica de una sociedad global. Y las tecnologías del lenguaje son cada vez más eficaces a la hora de salvar los inconvenientes que suscita el uso de lenguas incomprensibles entre sí.

Los desafíos son numerosos. Uno de ellos, la exploración de un nuevo espacio de actividad económica, basada en nuevos servicios para nuevas necesidades, dentro de un contexto global.

Sin embargo, hay más: a menudo se habla de la economía global pero no tanto de su irremediable consecuencia: una cultura global. Las culturas, y con ellas, las lenguas, ya no habitan espacios separados, con puntuales sectores de convivencia. Ahora, las culturas y las lenguas se superponen, de diversas maneras, en un mundo donde las fronteras físicas ya han desaparecido y las fronteras políticas, en buena medida, también.

Por ello, deben construirse puentes entre las lenguas y las nuevas tecnologías son determinantes en esa tarea. Ese es, además, un condicionamiento fundamental para conseguir otro objetivo: que las lenguas sobrevivan, que sigan cumpliendo su decisiva función de comunicación en sus comunidades de origen y que también permitan entrar en contacto directo -e inmediato- con otras lenguas y culturas.

Los temas a abordar esta jornada son muy ambiciosos y requieren la colaboración de la universidad, la administración pública y la empresa. Creo que, desde la Universidad del País Vasco, la aportación que podemos hacer es inmejorable: HiTZ, centro vasco de tecnología del lenguaje, un proyecto en el que se integran grupos de investigación tan relevantes como AHOLAB (que ha participado en proyectos de reconocimiento de voz, conversión de texto a voz e identificación de locutor) e IXA Taldea (que trabaja en el desarrollo de recursos y herramientas para el tratamiento del euskera, castellano o inglés).

El centro de investigación HiTZ es hoy día una referencia a nivel internacional en su especialidad y creo que hay un reconocimiento implícito a esa realidad en la elección de nuestra universidad para esta jornada de trabajo.

Uste dut hizkuntzaren teknologia aliatu berria dela hizkuntza gutxituen biziraupenerako, eta ziur nago lan-eremu horrek etorkizunerako aukera berriak ekarriko dituela.

Nire aldetik, besterik ez. Lanaldi emankorra opa dizuet eta mila esker zuen arretagatik.

EusCrawl: kalitate handiko euskal corpusa

ixa — Wed, 16 Mar 2022 11:28:26 +0000

Adimen artifizialaren erronka nagusietako bat konputagailuek gizakion hizkuntza ulertzea da, eta hori da hain zuzen Hizkuntzaren Prozesamenduaren helburua. Adimen artifizialaren arlo honek iraultza handia jazo du azken urteetan, ikasketa sakona edo “deep learning” teknikei esker eta, zehatzago esateko, hizkuntza-eredu deritzon teknologiari esker.

Hizkuntza-ereduak testu kopuru handiak erabiliz entrenatzen dira, eta, testua irakurriaz, gai dira hizkuntzaren egitura ikasi eta testu berriak sortzeko. Gaur egungo hizkuntzaren prozesamenduko aplikazioen muinean aurki ditzakegu hizkuntza-ereduak, dela bilaketa eta galderen erantzunean, itzulpen automatikoan, ahotsaren ezagutzan edo elkarrizketa-sistema zein txatbotetan. Labur esateko, hizkuntza-ereduak dira hizkuntzaren inguruan egiten diren aplikazio gehienen motorra, eta testuak dira motor horren gasolina.

Hizkuntza-eredu onak eraikitzeko behar den testu kopurua astronomikoa da. Ingelesa bezalako hizkuntzetarako testuak aurkitzea ez da arazoa; nahi adina testu dugu hizkuntza horretan Interneten. Testu multzo izugarri handiak batu izan dira horrela, adibidez 156 mila miloi hitz dituen Colossal Clean Crawled Corpus (C4) izeneko corpusa (https://github.com/allenai/c4-documentation). Pertsona batek 2000 urte beharko lituzke hori dena irakurtzeko, egunean 10 ordu irakurriz gero. Horiei lotuta eraikitako hizkuntza-ereduak ere erraldoiak dira, tartean BERT-large (350 milioi parametro), eta ezagunena, komunikabideetan hainbat aldiz aipatu den GPT-3 (175 mila miloi parametro). Hizkuntza-eredu horiek adimen artifizialean eraiki izan diren gailu konplexuenetakoak dira parametro kopuruan, eta milioika euro gastatu izan dira beraiek entrenatzeko behar den konputazioan (adibidez, 4 miloi dolar inguru GPT-3 entrenatzeko).

Euskara bezalako baliabide urriko hizkuntzetarako, baina, tamaina handiko testu masak biltzea arazo zaila da. Euskararen kasuan existitzen diren eta eskura dauden testu masa handienak Google eta Meta-AI (lehen Facebook) enpresek Internetetik automatikoki jaitsi eta dokumentuen hizkuntza programa bidez identifikatu izan dituzten mC4 eta CC100 corpusak dira. Lehenbizikoak euskarazko mila miloi hitz dauzka eta bigarrenak 416 miloi hitz. Horien kalitatea zalantzan jarri izan da ordea, Internet zaratatsua delako eta dokumentuak euskaraz daudela ziurtatzen duen programa automatikoak akatsak egiten dituelako.

EusCrawl-en garrantziaz

Gabezia horri erantzutera dator EusCrawl. Corpusa osatzen duten dokumentuak modu librean bana daitezke, Creative Commons familiako lizentziekin[1]. 12.5 milioi dokumentu eta 288 milioi hitzez osatuta dago, eta eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da.

Corpusarekin batera, EusCrawl-ekin entrenatutako bi hizkuntza-eredu sortu ditugu, horietako bat egun euskararako dagoen eredurik handiena, 355 Milioi parametrokoa.

EusCrawl corpusa publikoa izateak euskarak duen nazioarteko ikusgarritasuna areagotzen du, eta mundu zabaleko ikertzaileek euskararako baliabide hobeak sortzea dakar horrek. Esate baterako, dagoeneko badakigu EusCrawl BigScience proiektuan erabiliko dela, helburu bezala hizkuntza-eredu eleaniztun eta erraldoi librea eraikitzea duen proiektua, horretarako bost milioi konputazio-ordu erabiliz. Hortaz, sortutako hizkuntza-ereduak euskaraz ere jakingo du. EusCrawl bezalako baliabideak publiko jartzea urrats ezinbestekoa da euskara plaza digitalera jalgi dadin.

Hizkuntzaren prozesamendua eta adimen artifizialaz aparte, EusCrawl corpusa baliabide ezin hobea da hizkuntza bera aztertu nahi duenarentzat. Ez da ahaztu behar corpusen ustiapena dela gaur egun hizkuntzalaritzaren muinetako bat, hizkuntzaren erabilera errealaren gordailuak diren neurrian. Euskarazko corpus handiak bildu izan dira aurretik ere, eta publikoki kontsultagarri jarri, baina EusCrawl osorik deskargatu eta berrerabiltzeko aukera dago. Azpimarratu behar da ez dela gauza bera corpusa kotsultagarri jartzea ala deskargatzeko moduan jartzea. Kontsulta soilek ez dute aukerarik ematen benetako azterketa linguistikoak eta ikerkuntzak egiteko.

EusCrawl-i esker ikasi dugunaz

Corpusa biltzarekin batera, EusCrawl-ekin sortutako hizkuntza-ereduak beste corpusekin sortutakoekin alderatu ditugu, hizkuntzaren prozesamenduko hainbat atazatan beraien kalitatea neurtuaz. Esperimentuek adierazten dute garrantzitsuagoa dela testu kopurua, testuen kalitatea baino. Gaur egun ezagunak diren euskarazko corpus guztiak bilduta ere, hizkuntza nagusien corpusen tamainatik oso urruti geldituko ginateke, eta horrek euskarazko hizkuntza-ereduei goi-borne bat ezartzen die. Ondorioz, arriskua dago euskararentzat sor daitezkeen tresnen kalitatea ingelesa bezalako beste hizkuntzen mailara ez iristeko.

Horren aurrean, euskara eta baliabide urriko beste hizkuntzen teknologiak aurrera egin dezan, bi helburu estrategiko azaltzen zaizkigu.

Corpus handiagoak biltzea, euskaraz ekoizten den eduki gehiago eskuragarri jarriz. EusCrawl eraikitzea posible izan da Berria, Argia, eta beste hainbat euskal komunikabideei esker, edukia lizentzia librean banatzen dute eta. Ezinbestekoa da gainontzeko ekoizleak ere bide horretara batzea.
Testu gutxiagorekin ikasiko duten hizkuntza-ereduen ikerketa sustatzea. Tamalez aurreko ahaleginak muga bat du, hizkuntza baten idazten den testu kopuruaren araberakoa. Egun dauden teknikekin eraikitako metodoez haratago, testu gutxiagotik ikasiko duten hizkuntza-ereduak behar ditu euskarak. Euskararako tresnak kalitatezkoak izan daitezen estrategikoa da ikerketa-lerro hau bultzatzea.

Corpusa http://ixa.ehu.eus/euscrawl helbidean aurki daiteke, eta xehetasun guztiak, berriz, https://arxiv.org/abs/2203.08111 artikuluan. EusCrawlekin sortu diren hizkuntza-ereduak zein ikerketa-esperimentuak Hitz Zentroa (UPV/EHU) eta Meta-AI erakundeen arteko elkarlana izan da.

[1] Dokumentuen %20a inguru CC-BY-NC/CC-BY-ND lizentziarekin banatzen dira. Horiek partekatu eta moldatu daitezke, beti ere merkataritza-xedeetarako ez badira (NC), edo lan eratorririk banatzen ez bada (ND).

LINGUATEC produktuak erabiltzeko hitzarmena lau unibertsitaterekin

ixa — Mon, 31 Jan 2022 09:47:27 +0000

Euskal Herriko Unibertsitateko errektorea, Eva Ferreira eta Elhuyarreko koordinatzaile nagusia, Jon Abril, beste hiru errektoreekin: Université de Pau et des Pays de I´Adour unibertsitatekoarekin. Zaragozako Unibertsitatekoa , eta Nafarroako Unibertsitate Publikokoa.

LINGUATEC proiektua ekainean bukatu zen. Emaitza oparoak lortu ditugu, 20 produktu aurkeztu genituen Bruselako META-FORUMean (2021-11-15). Geroago Udaberrian hainbat ekitaldi antolatuko genituen enpresei proiektuaren emaitzak aurkezteko.

2021/02/23 Pau, Emaitzak aurkeztea
2021/04/13 Jaca, Emaitzak aurkeztea eta erakusketa-tailerrak
Jacan Aragoiko enpresek sinatu zuten hitzarmen bat
2021/06/17 Donostia/Baiona: Emaitzak aurkeztea eta erakusketa-tailerrak
Pauen Okzitaniako enpresek sinatu zuten hitzarmen bat
2021/06/18 Donostia: LINGUATEC kongresua. Erakusketa-tailerrak
Donostian euskal enpresek sinatu zuten hitzarmen bat eta Linguatec AI Bikaintasun-Sarea sortu genuen (2021-06-18)

Proiektuko emaitzak zabaltzen urrats berri bat egin dugu. Jacan 2022ko urtarrilaren 20an Linguatec Proiektuak lankidetza-hitzarmen bat sinatu du lau unibertsitaterekin: Euskal Herriko Unibertsitatea, Zaragozako Unibertsitatea, Paueko eta Aturrialdeko Unibertsitatea, eta Nafarroako Unibertsitate Publikoa. POCTEFA proiektuen arduraduna ere egon da sinatze-ekitaldian.

Hitzarmen horri esker, euskararentzat, aragoierarentzat eta okzitanierarentzat EFA 227/16/LINGUATEC proiektuan garatutako tresna eta aplikazio teknologikoak erabili eta inplementatu ahal izango dituzte unibertsitateek.
Lankidetza-hitzarmenak lau urteko iraupena izango du, eta sinatu duten erakundeek elkarlanean aritzeko konpromisoa hartu dute, adimen artifizialaren esparruan euskara, okzitaniera eta aragoierarentzako proiektu teknologikoak garatzeko.

Hitzarmen hau beste urrats estrategiko bat da mugaz gaindiko azpiegitura linguistiko inklusibo, eleaniztun eta adimendun baten eraikuntza zientifiko-teknologikorako.

Albisteak:

Irakurri albistea sei hizkuntzatan: eu, es, ca, gl, fr, en

Espainiako Informatika-Ikerketako Sari bana eman diete Eneko Agirre eta Mikel Artetxeri (elkarrizketak eta esker-hitzak, 2021-11-18)

ixa — Tue, 23 Nov 2021 00:34:09 +0000

Eneko Agirreri eta Mikel Artetxeri Ixakideei SCIE-FBBVA 2021 ikerketa sari bana emateko ekitaldi ofiziala atzo izan zen Madrilen. Estatu mailan informatikako sari nagusia dena jaso dute. Enekok Aritmel saria jaso zuen eta Mikelek ikertzaile gazteen sarietako bat. Zorionak Eneko eta Mikel!

Ekarri dugu hona ekitaldian aurkeztu ziren bideoak eta eskerrak emateko Enekok eta Mikelek esan zutena (ikusgarriak)

Eneko Agirrerentzat izan da Espainiako Informatika-Ikerketa Saria (Aritmel Saria)

Bideo-elkarrizketa Eneko Agirrerekin

Epaimahaiak azaldu du hizkuntzaren prozesamenduaren esparruan egindako ekarpen bikainengatik eman diotela; bereziki, testu-baliabide handien ustiapenean, eta itzulpen automatikoari aplikatutako neurona-konputazioan oinarritutako ikasketa automatiko ez-gainbegiratuan. Aipatu du, gainera, zientzia-argitalpenen kalitate bikainagatik ez ezik (bere argitalpen horietako batzuk erreferentetzat hartzen dira mundu mailan), bere ikerketaren emaitza-transferentzia handiagatik, zientzia-lidergoagatik —Hitz ikerketa-zentro ospetsuaren zuzendaria da— eta nazioarteko ibilbide oso nabarmenagatik, bai prestakuntzan, bai lankidetzetan.

Eneko Agirreren esker-hitzak

Antes de todo doy las gracias a la FBBVA, a la SCIE, al jurado y a la Sociedad Española para el Procesamiento del Lenguaje Natural por este reconocimiento.

El lenguaje es la base de la comunicación, desde los sentimientos más íntimos a las ideas más complejas. Es la base del progreso, donde el conocimiento descubierto en cada generación se ha codificado para poder transmitirlo a las generaciones siguientes. Y también fuente de riqueza y diversidad para las culturas del planeta. Cada idioma es un tesoro.

Ha sido además una de las grandes promesas de la Inteligencia Artificial desde sus inicios, incumplidas hasta hace bien poco. En escasos años el aprendizaje profundo ha revolucionado el área, dando lugar a grandes avances en investigación que en pocos meses han pasado a ser productos comerciales, tales como la traducción automática y el reconocimiento de voz.

Entre los descubrimientos inesperados de estos últimos años está el que hizo nuestro grupo, un algoritmo que por primera vez era capaz de traducir entre idiomas sin necesidad de diccionarios bilingües.

Pero la inteligencia artificial aprende de una manera muy distinta a la humana. Las personas aprenden tareas de muy pocos ejemplos y normalmente lo hacen mediante la interacción. Los sistemas artificiales en cambio requieren de grandes y costosas cantidades de ejemplos de entrenamiento. Pero eso también está cambiando con los modelos pre-entrenados.

Por ejemplo, acabamos de crear en nuestro grupo un programa que distingue menciones de eventos (p.ej. brotes epidémicos) aprendiendo de solamente uno o dos
ejemplos por clase. También hemos presentado un premiado algoritmo de pregunta-respuesta capaz de aprender de la mera interacción con usuarios. Todo ello de una forma más cercana a la humana, y abaratando los costes de la IA industrial.

A pesar de estos resultados y los de otros grupos notables en PLN, la mayoría de los avances se dan en otros países y la brecha en atracción de talento se acrecienta, como muestra la baja tasa de publicación en congresos. Esperamos pues con ilusión que la Estrategia Nacional en IA y el Plan Nacional de Tecnologías del Lenguaje den empuje a la investigación y así evitar que seamos meros consumidores de tecnología de terceros. En ello trabajamos en el grupo Ixa desde hace más de 25 años, investigando
de modo cooperativo. Resultado de ello es la creación del centro de investigación HiTZ, Centro Vasco de Tecnología del Lenguaje, el centro de investigación más productivo en procesamiento del lenguaje natural. Es a todos los miembros de Ixa, en especial a sus fundadores, que debo este premio y mi agradecimiento final. Mila esker! Gracias!

Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat,

Bideo-elkarrizketa Mikel Artetxerekin

Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat, arloko SCIE elkarte nagusiak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman dio nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.^[17]

Mikel Artetxeren esker-hitzak

“Es un verdadero honor para mí recibir este premio por mi trabajo sobre el procesamiento del lenguaje natural. Me gustaría dar las gracias a todos los que han contribuido a este trabajo. Habría sido imposible sin el apoyo y la contribución de muchos colegas y amigos. Me gustaría agradecer especialmente a mi asesor, Jon Kleinberg, y a mi coautora, Stefanie Jegelka, todo su apoyo.

He tenido la suerte de pasar los dos últimos años en Google trabajando en un proyecto llamado Search–based Question Answering (SQA). SQA es un proyecto de IA que trata de hacer posible la respuesta a preguntas utilizando la búsqueda de Google.”

Estas palabras que acabo de leer no las he escrito yo. Salvo la primera frase, el texto entero ha sido generado por una inteligencia artificial. En realidad no trabajo en Google sino en Facebook, donde investigo modelos de lenguaje que, entre otras cosas, pueden escribir discursos como ese.

Como habéis podido comprobar, la tecnología actual ya es capaz de generar texto fluido y coherente, dibujando un horizonte verdaderamente prometedor donde podremos interactuar de manera natural con una máquina. Pero todavía queda mucho por hacer, pues estos sistemas tienden a comportarse como bocas sin cerebro, y lo que he leído antes, aunque creíble, nada tiene que ver con la realidad. El reto científico que tenemos adelante es, pues, apasionante, pero también una responsabilidad conjunta. No debemos desconfiar de la inteligencia artificial temiendo que se vuelva demasiado inteligente, pero tampoco confiar en exceso en ella creyendo que es más inteligente de lo que es en realidad.

Para terminar, me gustaría corregir a la inteligencia artificial y dar las gracias a los verdaderos directores de mi tesis, Eneko Agirre y Gorka Labaka, por todo lo que me han enseñado, así como a FBBVA y SCIE por este reconocimiento.

LINGUATEC proiektuko emaitzak META-FORUM 2021en (2021-11-15)

ixa — Mon, 15 Nov 2021 12:57:45 +0000

LINGUATEC proiektu europarrean lortutako emaitzak aurkeztu ditugu gaur poster batean META-FORUM 2021 biltzarrean. Proiektuaren xedea okzitanieraren, aragoieraren eta euskararen digitalizazio-maila hobetzea zen, eta bete-betean lortu dugu. Hauek izan dira emaitzak:

EUSKARA

INTELE kongresuko posterra (CC-BY-SA)

Hizketa ezagutzea: hitzak ezagutu eta sailkatzea
Iparraldeko euskarazko hizketaren sintesia. Funtsezkoa gailu mugikor ugariren interfazerako
Gaztelania-euskara bikotearen itzulpen automatikoa hobetzea
Euskara Eskuz Esku : Euskaltzaindiaren arauak aurkezteko tresna, Ipar Euskal Herriko hizkerak kontuan hartuko dituena (irakurri tresnari buruzko artikulua)

ARAGOIERA

LINGUATEC eskuinaldean erdian, poster-saio “telematikoan”

Aragoierazko hizketaren sintesia. Funtsezkoa gailu mugikor ugariren interfazerako
TRADUZE: Gaztelania-aragoiera bikotearen itzulpen automatikoa hobea
ARAGONARIO: Aragoierazko onlineko hiztegia
Audiogida eleaniztuna eta inklusiboa, turismora eta baliabidee kulturaletara bideratua

OKZITANIERA

Hiztegi elebakarra: ohiko hitzen bilduma okzitanieraz
Hiztegi elebiduna: ohiko hitzen bilduma okzitanieraz eta haien ordainak beste hizkuntza batzuetan
Analisi morfosintaktikoa: hitzen erroa, aurrizkiak eta atzizkiak banatzea
Analisi sintaktikoa: taldeak osatzen dituzten hitz-segidak ezagutzea
VOTZ: Okzitanierazko hizketaren sintesia. Funtsezkoa gailu mugikor ugariren interfazerako
ReVOc: Okzitanierazko hizketa-ezagutzailea
Frantses-okzitaniera bikotearen itzulpen automatikoa hobetzea

BALIABIDE ELEANIZTUNAK

Pirinioetako hizkuntzen artean itzulpen automatikoa egiteko APPa: euskara-frantsesa, euskara-gaztelania, frantsesa-okzitaniera eta gaztelania-aragoiera
LinguaPir Google Play-en
LinguaPir AppStore-n
Itzulpen automatikoko barra deskargagarria webguneetarako
LinguaPir Chrome luzapena
LinguaPir Firefox luzapena
Itzulpen automatikoko aplikazioa edukiak kudeatzeko sistemetarako (CMS)
- Instalazio-gida (ingelesa)

Linguatec AI Bikaintasun-Sarea (2021-06-18)

ixa — Fri, 08 Oct 2021 12:09:32 +0000

Bukatu da aurten LINGUATEC proiektu europarra. Proeiktuaren xedea okzitanieraren, aragoieraren eta euskararen digitalizazio-maila hobetzea izan da, eta neurri handi batean lortu dugu helburua.

2021eko maiatzeko workshopean emaitza zientifikoak konpartitu genituen komunitate akademikoarekin,
Ekaineko biltzar publikoan Linguatec AI Bikaintasun-Sarea sortu genuen proiektuko kideen artean, 2018-2021 urteetan egin dugun lankidetza-lan eredugarriari jarraipena emateko.

Linguatec sarearen erakunde sortzaileen ordezkariak: Elhuyar fundazioa, Aragoiko Gobernua, Okzitaniako Tolosako CRNS goi mailako ikerketa zentroa, Euskaltzaindia, Lo Congrés okzitanieraren akademia eta EHUko Ixa taldea. (Naiz, 2021-06-19)

Sare berria sortzeko adierazpena lau hizkuntzatan idatzi genuen (espainieraz, frantsesez, okzitanieraz eta euskaraz, LINGUATEC-AI_ES-EU-FR-OC.pdf). Hau da euskarazko bertsioa:

LINGUATEC AI BIKAINTASUN-SAREA

Adimen Artifiziala Hizkuntzan Mugaz Gaindiko Bikaintasun Sarea eratzea (Pirinioez gaindiko hizkuntza-azpiegitura eraikitzeko lankidetza teknologikoa)

Pirinioetako Lan Elkartearen lurraldea eraikitzen ari diren mugaz gaindiko proiektua da, eta 15 milioi herritarrek baino gehiagok partekatzen dituzte 6 hizkuntza eta horien tokiko barietateak. Eleaniztasuna gure lurraldeko aktiborik handienetako bat da, eta erronka garrantzitsuenetako bat ere bada, kulturaren eta ekonomiaren ikuspegitik kohesionatutako lurralde bat sortzeko. Gauza bera gertatzen da Europan, non hogeita lau hizkuntza ofizial eta 60 hizkuntza gutxitu baino gehiago osatzen duten eremu eleaniztun aberatsa baita; garai batean, eleaniztasuna komunikazioa eta informazioaren zirkulazio librea zailtzen zituzten hizkuntza-oztopo gisa ikusi ziren.

Adimen artifiziala hizkuntza eguneroko produktu digital askotan erabiltzen da, gehienak hizkuntzaz baliatzen baitira. Komunikazio mugikorrek, sare sozialek, laguntzaile adimendunek eta ahotsean oinarritutako interfazeek herritarrak, enpresak eta administrazio publikoak mundu digitalean elkarreraginean aritzeko modua aldatzen ari dira

Hizkuntza-teknologiek eraginkortasunez laguntzen dute Europako herritar guztien (eta Pirinioetako Lan Elkartearen lurraldearen) arteko berdintasuna lortzen eguneroko bizitzan, edozein dela ere hitz egiten duten hizkuntza. Nahiz eta hizkuntza gutxituek asko duten irabazteko hizkuntza-teknologiekin, egoera teknologiko ahula dute abiapuntu; izan ere, hizkuntza horiek digitalki garatzeko behar diren tresna eta baliabideak oso urriak dira, eta, kasu batzuetan, ez dira existitzen. 2018ko irailaren 11n Europako Parlamentuak onartutako ebazpenean (“On language equality in the digital age” 2018/2028(INI)) argiki egiaztatu du Europako hizkuntzen artean desoreka dagoela hizkuntzaren teknologien barruan, eta ekintzarako deia egin du, hizkuntzen arteko arrakala horiek lehenbailehen gainditzeko.

Hizkuntza baten garapena, eta beraz, hizkuntza horretatik elikatzen den kultura, erabat loturik dago hizkuntza horrek ingurune moderno eta aldakorretan, hala nola mundu digitalean funtzionatzeko duen gaitasunarekin. Hala, hizkuntza- eta kultura-aniztasuna estu lotuta dago mundu digitalean hizkuntza batek dituen gaitasun eta baliabideekin, hau da, gure kasuan mugaz gaindiko hizkuntza-azpiegitura sortzearekin. Hori dela eta, oso garrantzitsua da hizkuntza-oztopoak gainditzea eta, hartara, Pirinioetako Lan Elkartearen lurraldeko hizkuntzak indartzea, lurraldeak duen balio ekonomiko, kultural eta linguistikoa osorik bultzatu ahal izateko.

Lurraldeko hizkuntza guztientzat euskarri teknologiko egokia bermatzeak enplegua sortuko dugu, hazkuntza, aukerak, kulturarteko harremanak eta nazioarteko erreferentzialtasuna.

Era berean, funtsezkoa da ingurune digitaleko hizkuntza-oztopoak gainditzea, funtsezkoa baita gizarte inklusiborako eta aniztasunari batasuna eta kohesioa emateko urte askoan.

Linguatec AI Bikaintasun Sarearen xedea

Adimen Artifiziala Hizkuntza Mugaz Gaindiko Bikaintasun Sarea sortzea, lankidetza teknologikoaren bidez Pirinioez gaindiko hizkuntza-azpiegitura eraikitzen laguntzeko.

Helburuak

1. LINGUATEC bezalako mugaz gaindiko proiektuen beharra balioan jarri eta transmititzea, gure lurraldearen aberastasun eleaniztunak balio ekonomiko, turistiko eta kulturala sortzen baitu. Hau da, hizkuntza-hesia gainditzea eta ahaleginak batzea gure kultura- eta hizkuntza-aberastasuna motor ekonomiko gisa aprobetxatzeko.

2. Agenda estrategiko baten oinarriak eta ibilbide-orri bat ezartzea, hizkuntza-berdintasun digitala errealitate izan dadin Pirinioetako Lan Elkartearen lurraldean 2030ean.

3. Euskararen, katalanaren, aragoieraren eta okzitanieraren arteko lankidetza estua abiaraztea, guztiek oinarri teknologiko nahikoa izan dezaten, eta, hartara, pertsona bakoitzak bere hizkuntzan eroso parte har dezan mundu digitalean.

4. Adimen artifizialak hizkuntza eskaintzen dizkigun aukerak eta ahalmenak gizarteratzea, lurralde kohesionatua, integratzailea, eleaniztuna eta adimenduna lortzeko.

5. Adimen artifizialean azken belaunaldiko ezagutza eta teknologia sortzea, enpresek, erakundeek eta gizarte-erakundeek teknologiaren ahalmena aprobetxa dezaten Pirinioetako Lan Elkartearen lurraldearen garapen ekonomiko, sozial eta instituzionalerako.

6. Beste lurralde eleaniztun batzuetan, Europan zein mundu osoan, Pirinioetako Lan Elkartearen lurraldean lortutako lorpenak zabaltzea, esperientzia, prestakuntza, aholkularitza eta teknologia eskainiz.

7. Pirinioetako Lan Elkartearen lurraldea erreferentzia garrantzitsu bihurtzea hizkuntza-teknologietan baliabide urriak dituzten hizkuntzentzat eta haren garapen digitalean aurrera egin nahi duten hizkuntzentzat.