Informatika Fakultateko HP hautazko ikasgaia. Lan praktiko batzuk (2018)

Informatika Fakultateko Hizkuntzaren Prozesamendua ikasgaian bi lan praktiko egiten ditu ikasleak.Lehenengoa Wikipediarekin eta bigarrena aplikazio praktiko bat da.

Lehenengo praktikan Hizkuntza-Teknologiako aplikazio mota bat aztertzen du:

  • Zeintzuk dira produktu erabilienak gaur egun?  Zein hizkuntzatarako? Zein da aplikazio horien oinarri informatikoa? Adibidez: Iritzi-meatzaritza, Informazioa bilatzea, informazioa erauztea, itzulpengintza automatikoa, hizketa bidezko interfazeak testuen ediziorako laguntzak, galdera-erantzun sistemak. testuen laburpen automatikoa… (ikus Hizkuntzaren_prozesamendua Wikipedian).

Chatbot artikulua Euskal Wikipedian

Aurten lehen lan hori Wikipediaren bitartez egin dugu.  Guztira 17 artikulu berri, 206.267 karaktere eta 41 irudi gehitu genituen. Apiriletik hona artikulu horiek 2,470 aldiz kontsultatu dira 🙂
Sortu ditugun artikulu berriak:
Chatbot, Google Assistant, Siri, Microsoft Cortana, Sentimenduen analisi, Word embedding, Word2vec, IXA pipes, Moore makina, Mealy makina, WordNet, Euskal WordNet, Itzulpen automatiko neuronal, Google Translate, Tf–idfKleene izar, eta Neurolinguistika.
Partehartzaileak:
Aitidina, Ainhoa54, Aodriozola023, Satantxiki, Jsautua001, Ehernandez035, XLekunberri, Aritzh, Aelu013, Mssebastian, Jcampandegui, Ilanda020, Atriguero, Eneks, Oaguinagalde002, eta Fofrito.

Ikus albiste hau Fakultatean: Wikipediako Hezkuntza proiektua, gure fakultatearen ekarpena

Bigarren praktikan ikasleak bere aplikazio xume bat sortzen du. Aplikazio tipiko bat Twitterreko hainbat eta hainbat txio bildu eta horiek aztertzea izan daiteke. Txio guzti horien testuak analizatuta aztertzen dugu ea gehiago diren iritzi negatibodunak edo positibodunak.

Baina Twitter izan gabe ere beste iturri batzuk edo beste aplikazio batzuk azter daitezke, adibidez: Mikel San Sebastián ikasleak historiako 8 liburu aztertu ditu IXA pipes tresnarekin eta webgune bat sortu du (https://hpeia.000webhostapp.com/Inicio.php) liburu horietan azaltzen diren pertsonak, erakundeak eta tokiak zein urtetan aipatu izan diren erakusteko.

Liburu guzti hauek landu ditu:
Intervención en Navarra (Koldo San Sebastián), La historiografía modernista en la universitat de Valencia (Manuel Ardit), La música instrumental en el Renacimiento (Jose Ignacio Suarez Garcia), Historia de una historia (Ma. José García Quintana), Inventario general de Manuscritos de la biblioteca nacional. Un legado que perdura (John eta Mark Bieter Garmendia) , Las devociones marianas españolas en el Brasil colonial (Carlos Javier Castro), Revista de Historia Moderna No 33, Revista de Historia Moderna No 28, La colonia de Filipinas (Gemma Quincoces Herreros)

Ikasleek egin dituzten beste lan batzuk:

  • Aitzol Elu, Kantuak bilatu, hitzen esanahia erabilita (semantika distribuzionala).
  • Iñaki Landa: Aplikazio baten lokalizazioa Androiden. Nola euskaratu aplikazio bat?
  • Eneko Ortiz de Zarate. Semantika Distribuzionala: Hizkuntzen arteko antzekotasun lexikala irudikatzea.
  • Unai Cantero eta Julen Pérez-Cortés. Twitter kontu bateko txioen polaritatea aztertzea eta bisualizatzea.
  • Oscar Aguinagalde eta Josu Campandegui. Matxin itzultzailearen APIa erabiltzea Wikimedia Commons-eko argazkien oinak (captions) itzultzeko.
  • Ainhoa Pato eta Alexander Triguero. Dokumentu-sailkapena.
  • Xabier Lekunberri eta Javier Sautua: PythonUEU liburua. 12. Testuak lantzen  HPko ariketak
  • Aritz Lopez eta Elena Hernandez: Euskal Wikipediaren testuzko bertsio batetik abiatuta polaritate negatiboa duten artikuluak detektatzea.
  • Gorka Urbizu. Korreferentziaren ebazpenerako embeddingen konparaketa (dimentsioak eta stemmerra)
  • Ane Odriozola. Zer ikasiko dut unibertsitatean? Aholkularitza-zerbitzu batean egin ziren galdera eta erantzun ugari ditugu errepositorio batean. Galdera berri bat emanda jakin nahi dugu zein den errepositorioko galdera antzekoena, eta eman zitzaion erantzuna.

‘Gramatika sinesgaitza denean’, Linda Wiechetek-en tesia eta agurra

Linda Wiechetek, Norvegiako Tromsø-ko Unibertsitateko ikerlariak tesia defendatu du maiatzean, Ixa taldean oso ondo ezagutzen dugu, 2010ean gurean egin zuen egonaldi bat eta geroago ere harremanetan ibili gara murriztapen-gramatikak eta aditz-azpikategorizazioa direla-eta, eta horren erabilera itzulpen automatikoan, transferentzia lexikalean eta sintaktikoan.
Euskara ere ikasi zuen gurekin 🙂
Tesiaren ale bat bidali digu orain Lindak:
Valency and semantic categories in North Sámi syntactic analysis and
error detection.
Eta tesiko sarrerako hitz gozo hauek ekarri ditugu hona:
“I would like to thank the members of Basque language technology group IXA at Euskal Herriko Unibertsitatea, who were extremely welcoming and helpful (Kepa Sarasola and Amaia Lorenzo were great with all the administrative work and the application process, and Ruben Urizar lent me his bike), and who were ready to discuss exciting things within Constraint Grammar (Jose Mari Arriola), valency/semantic role annotation (Ainara Estarrona and Izaskun Aldezabal), and dependency annotation (Maxux Aranzabe) with me.
I really enjoyed our lunches with the people from Korta, and no one ever complained when I asked tons of questions about Basque grammar, history and culture 🙂 Eskerrik asko denei! Zorte ederra izan nuen zuekin euskera ikasteko abagunea izan nuenean. Eskerrik asko Antiguoko AEKko jendeei, hargatik! Not only did Basque morpho-syntax let me see North Sámi grammar in a different light, it also made me excited again about the immense variation in thinking (and expressing these thoughts in language) in this world.”

Lan-poltsak eta udako praktikak IXA ikerkuntza taldean

An Overview Of Artificial Intelligence
In The Event Industry

Informatikako graduko edo master bateko ikaslea zara?
Kuxkuxero gai hauetan?

  • big data, deep learning
  • hizkuntzaren prozesamendua
  • aplikazioen garapena (zerbitzariak, clusterrak, GPUak,… )

Gurekin aritu nahi? Orduan…
eskatu lan-poltsa bat IXA ikerketa taldean
… martxoaren 22a baino lehen,
… bidali zure CVa (ixa.administratzailea@ehu.eus)

Gradurako zein masterreko lan-poltsak eskaintzen ditugu, baita udako lanak ere.

 

Matxin itzultzailea Wikipedian integratuta

Urtebeteko lana izan da, luzeak izan dira tramiteak. Baina lortu dugu: Matxin  integratuta dago Wikipediarekin, artikuluak errazago itzuli ahal izateko, espainieratik euskarara.

Ez da itzulpen perfektua baina lagungarria da wikizaleontzat. Esaterako kategoriak itzultzen ditu automatikoki, baita estekak, irudiak edo erreferentziak ere. Postedizioan aritu behar da dezente, bai, batez ere esaldi luzeekin; baina orokorrean lana dezente errazten du.

Elhuyarrek kudeatzen duen API batekin erabiltzen da Matxin, irudi honetan ikusten den bezala:

Matxin “Third party MT service” moduan integratu da Wikimedian.

Matxin erabiliz sortuko diren itzulpenen testuak, eta erabiltzaileak egingo duen postedizioaren emaitzak publikoak izango dira. Edonork erabili ahal izango ditu itzultzailea hobetzeko. Wikipediaren filosofia horixe delako: datu eta kode irekiak erabiltzea. Datu eta kode irekiak erabiltzen direnean hobekuntzak azkarrago egin daitezke. Euskarara itzultzeko, badira beste itzultzaile batzuk, baina irekiak ez direnez beste horiek ezin dira integratu Wikipedian. Matxin bai 🙂

Euskal Wikilarien Elkarteak albiste bat atera du bere blogean eta hor azaltzen du Matxin nola erabil daitekeen: Matxin itzultzaile automatikoa integratu dute Wikipedian.

 

Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan?

Senez aldizkariak artikulu hau argitaratu berri du:
Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari

Euskaltzaindiaren ekimenez sortu zen Lexikoaren Behatokia corpusa 2007an, Hiztegi Batuko Lantaldeak hitzen benetako erabilerari buruzko informazioa eskuratzeko. Ez ea hitz bat testu klasikoetan historikoki erabili den, baizik eta ea XXI. mendeko hedabideotan egunerokoan erabiltzen den.

Elhuyar, UZEI eta Ixa Taldearekin lankidetzan, hamar urtetan ia 60 milioi hitzeko testu-corpus bat eratu da

Corpus horri esker Euskaltzaindiak detektatzen ditu medioetan asko erabili baina hiztegian ez dauden hitzak; esaterako, ea erreferentziatu aditza maiz erabiltzen den ala ez.

Aplikazio horri esker Euskaltzaindiak jakin dezake ea  emandako arauak benetan betetzen diren egunerokoan. Arau bat erabiltzen ez bada, agian moldatu edo hobeto azaldu beharko du.

Zorionez, Euskaltzaindiak bakarrik ez, denok kontsultatu dezakegu LB corpusa web bidez. Eta testuak linguistikoki prozesatuta daudenez, oso kontsulta erabilgarriak egin ditzakegu, esaterako:

Nolakoa izaten da ‘haizea’? Zein adjektiborekin lagunduta erabili ohi da?
Handia
, txikia esatea arruntegia izan daiteke… hitz interesgarriagorik?

Lexikoaren Behatokiak berehala esango dizu: bortitz, suabe, ahul...
Praktikoa da, ez da?

 

Corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatu honen zehaztasunak ezagutu nahi badituzu… irakurri artikulua.

 

Egileak hauek dira:

 

 

 

Mediku-txostenetan botiken aurkako erreakzioak ikertzen (M. Oronoz, Gaur8, 2017-12-09)

Gaur8 astekariak, Maite Oronoz Antxordoki irakaslearen artikulu bat atera du gaur: Botiken aurkako erreakzioak osasun txostenetan identifikatzen
Osakidetzako Galdakaoko Ospitala eta Basurtuko Ospitala mediku-txostenetako testuak ari dira ikertzen IXA taldearekin. Parte horietako asko estatistikoki aztertuta  asmatu liteke ea botikaren batek aurkako erreakziorik sortzen duen? Oraingoz gazteleraz idatzitako osasun txostenak baino ez dira aztertzen, eta noski, gaixoaren pribatutasun eskubideak bermatuz. Hizkuntzaren tratamendua erabiliz, gaixoari ematen zaion arreta hobetzeko aukera anitz eta interesgarriak ditugu aurrean. Irakurri, irakurri artikulua.

Zer ikertzen da Informatika Fakultatean? Aurkezpena ikasleei

Bihar goizean Informatika Fakultateko ikerketa-taldeok aurkezpen bat egingo diegu ikasleei.

Noiz: Asteartean, urriak 10
Ordua: 10:05-11:10
Non: Ada-Lovelace aretoan
Norentzat: Batez ere 4. eta 3. mailako ikasleentzat.
Helburua: Fakultatean egiten dugun ikerketa azaltzea, baita ikasleek gurekin lan egiteko dituzten aukerak ere: gradu/master amaierako lanak, kolaborazioak, eta abar.

 

Guztira 15 talde gara! Beraz, aurkezpenak labur joango  dira. 3 minutuko aurkezpena eta minutu bat galderetarako. Ixa taldearena 3. izango da
Kuxkuxeroentzat: ikertaldeen posterrak eta Fakultateko ikertaldeen webgunea

Osasuna eta hizkuntza (Bilbo hiria Irratia, 2017/06/27)

BilboHiriaIrratia_Maite_Osasuna eta hizkuntza jardunaldiak egin dira ekainaren 27 eta 28an EHUko udako ikastaroen barruan. Osasungintza euskaratzen dabilen komunitatea batu egin da Bizkaia aretoan. Bilbo Hiria irratiak 11 grabazio argitaratu ditu jardunaldien inguruan. Grabazio batean Olatz Perez de Viñaspre eta Maite Oronoz ixakideak azaldu dira. Beraien arabera, osasun arloan euskaraz aritu nahi badugu, ezinbestekoa da terminologia finkatzea. Osasun langilearengana hurbildu eta “tengo rotura del tendón del músculo esplenio del cuello” esan ordez “lepoko esplenio giharraren tendoia hautsia dut” esateko gai bagara, euskararen normalizazio prozesuan aurrerapauso izugarria egina izango dugu. Horretan dihardute Olatzek eta Maitek. Terminologia itzulpen automatikoan garatu ostean orain testuak automatikoki itzultzeko ikerketan murgilduta daude.

Entzun irrati-programa hemen

Igone Zabala Ixakidearekin ere hitz egin dute EHUren ekarpena euskarako terminologia teknikoaren garapenaz. Ehunduz programako koordinatzailea da bera. Euskararen gaineko ikerketa aplikatua dute xede nagusi, baina beste hizkuntza batzuetan ikertzen eta produktuak garatzen ere aritzen dira. Terminologi teknologia ehunduz programa azaldu du. Entzun Igone Zabalaren hitzak hemen:

 

Beste esteka batzuk:

 

Tesia: Bertso-neurketa automatikoa (Manex Agirrezabal, 2017-06-19)

Tesiaren titulua:  Automatic Scansion Of Poetry (Bertso-neurketa automatikoa)
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 12:00etan
Egilea: Manex Agirrezabal Zabaleta
Zuzendariak: Iñaki Alegria Loinaz eta Mans Hulden doktoreak
Hizkuntza: Ingelesa

Ikerketaren motibazioa, galderak:

  • Zer jakin behar dugu bertso idatzi baten neurria eta erritmoa automatikoki analizatzeko?
    Zelan detektatu dezakegu?
  • Ezagutza linguistikoa erabiltzeak lagundu dezake poesia automatikoki analizatzeko?
    Ingeleserako lortutako metodoa baliagarria izango da espainierarako?
    Euskararako?
  • Posible al da bertso baten neurria analizatzea batere ezagutza linguistikorik erabili gabe?
    Horrelako analisi batean lortuko diren emaitzak interpretagarriak izango dira?

Manex_tesiko_irudia

Tesia: Euskarazko osasun-terminoen sorkuntza automatikoa (Olatz Perez de Viñaspre, 2017-06-19)

Tesiaren titulua: Osasun-alorreko termino-sorkuntza automatikoaren euskaratzea.
Non
: Informatika Fakultateko Ada Lovelace Aretoan
Eguna: Ekainak 19, astelehena
Ordua: 10:00etan
Egilea: Olatz Pérez de Viñaspre Garralda
Zuzendariak: Maite Oronoz Antxordoki eta Jon D. Patrick

Laburpena:
Medikuarengana joan eta harekin euskaraz aritu arren, txostena gazteleraz jasotzen dugu, baietz!
Arrazoietako bat da euskaraz osasun-alorreko terminologia landu gabe dagoela.
Baina tesi honetan osasun-arloko terminoak automatikoki euskaratzeko egin den ikerketari esker, urrats erraldoi bat egin da horretan.

Ingelesezko 300.000 termino kliniko dituen SNOMED CT datu-basetik abiatu da ikerketa, euskarara itzultzeko. Hizkuntza-teknologia erabili da horretan, lau urrats hauetan:

  1. Euskaraz definituta dauden ohiko terminoak jaso (Euskalterm, ZT hiztegia…)
  2. NeoTerm sistema: Ingelesezko termino neoklasikoak (“Photodermatitis”) itzuli.
    Zatika itzulita, transliterazio-erregelak erabiliz “Fotodermatitis” lortzen da euskaraz.
  3. KabiTerm sistema: termino konplexuak itzuli, sinpleagoen itzulpena erabilita.
    Adibidez: “Fracture of elbow” –> “Ukondoaren haustura”
    Patroi hau erabili da horretan: GORPUTZ_EGITURA+ren + GAIXOTASUN
  4. Matxin-Med itzultzaile automatikoa sortu du, Matxin itzultzailea medikuntzaren domeinura egokituta.

Osasun-komunitateak ebaluatu ditu tresna horiek. Medbaluatoia ebaluazio-kanpainak erantzun bikaina lortu du. Gainera, dena borobiltzeko, osasun-txostenak euskaraz idazten laguntzeko prototipo bat sortu da, XuxenMed zuzentzaile ortografiko berezia erabiltzen duena.