#txiotesia. Hizkuntza-teknologia arloko tesiak

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia

Testu-liburuen “erradiografiak” egiten, hizkuntza teknologia erabiliz (Mikel Larrañagaren tesia)

Abenduan irakurritako tesi-lanean Mikel Larrañaga doktore berriak hizkuntza-teknologiako zenbait tresna erabiltzen ditu testu-liburu baten “erradiografia” egiteko, alegia, liburuan azaltzen den domeinuko ezagutza erauzteko. Lanaren zuzendariak Galan ikerketa taldeko Jon Ander Elorriaga eta Ana Arruarte izan dira, eta haren titulua Semi-Automatic Generation of Learning Domain Modules for Technology Supported Learning Systems.

Galan ikerketa taldeak EHUko Informatika Fakultatean dihardu. Adimen artifizialeko teknikak erabiltzen dituzte irakaskuntza-sistemak eta tresnak sortzeko.

Irudi honetan ikus daitekeenez, testuliburu bat automatikoki aztertzeko, eta bertan irakasten denaren errepresentazio sakona eraikitzeko hainbat urrats egiten ditu tesi horretan sortu den sistemak. Larranaga_Acq_Domain_ModuleSistemak lortzen dituen Domeinu-Modulu eta Ikas-Domeinuaren Ontologia horiek funtsezkoak dira irakaskuntza-sistema automatikoa sortu ahal izateko.   Honela dio Mikel Larrañagak sarreran: “Domeinu-modulua da Teknologian Oinarritutako Hezkuntzarako edozein tresnaren muina, hark adierazten baitu ikasleek ikasi beharreko ezagutza guztia. Tutore Adimendunek, adibidez, osagai hori erabiltzen dute ikasleen ezagutza neurtzeko eta nola jokatu erabakitzeko. Domeinu-modulua ez bada egokia, ikasketa-prozesu eraginkorra burutzea ezinezkoa izango da (Anderson, 1988).
Domeinu-modulua sortzea ez da lan arina, ordea.”

Testuaren prozesaketa automatiko hori egiteko Ixa taldean sortu ditugun tresnak erabili ditu: lematizazioa, analisi morfologikoa, constrain-grammar, UKB algoritmoa… Honako irudian kolore berdez azaltzen diren moduluak hizkuntza-teknologiakoak dira:

Larranaga_arkitektura Ixa taldean pozik gaude gure tresnetarako erabilera berriak asmatzen direnean, eta horrela tesi honetan bezala ikerketa-lerro berriak zabaltzen direnean. Zorionak eta eskerrik asko!

Tesia begiratu nahi duenak erraz lortu dezake dokumentua (PhDThesis.pdf), baita aurkezpeneko gardenkiak ere (TesiAurkezpenaGardenkiak.pdf) Galan taldeko webgunean.

Morfologia eta sintaxiko ariketak Internet bidez

Interneten hitzen analisi morfologiko eta esaldien analisi sintaktikoa automatikoki egiteko aukerak badira: Morfeus eta Freeling adibidez. Institutuko ikasleentzat sintaxia eta morfologia ordenagailuarekin lantzea erakargarria izan daiteke. Agian ikasle batzuek dagoeneko erabiltzen dute bide hau etxeko lanak egiteko, irakasleek jakin gabe. Azaroaren 5ean UEUko ikastaro batean aukera horietako batzuk aurkeztuko ditugu. Ea bide batez parte-hartzaile guztion artean oinarrizko ariketa bilduma eztabaidatu eta sortzen dugun.

Hona hemen adibide batzuk:

Ancorako corpusetan esaldi hau analizatu: Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ancora-EPEC-EU

Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin: Amagoiaren lagunak Galizian egiten du lan.
Morfeus

Freeling analizatzailean: Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)
Freeling

Ikastaroaren eguna
AZAROAREN 5a.

Ordutegia: 9:30/13:30 – 15:00/19:00

Irakasleak:
Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea.
Kepa Sarasola, doktorea Informatikan eta UEUko kidea.

Informazio gehiago eta izena emateko aukera: www.ueu.org

Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?

Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko, eta ondoko lista prestatu dugu. Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzekogauza den) eta erantzun-denbora ere kontuan hartu beharko dira.

Guztiz libreak:

* MaltparserGuztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke, noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.

* Stanford ParserEmaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik, baina azken hilebetetan hobekuntza nabarmena jaso du. Guztiz librea (GNU GPL).

* NLTK Natural Language ToolKitHizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da. Python lengoaia erabili da programatzeko.

Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:

* RASPEgungo erronka  handiena da ezagutza linguistikoa eta estatistikoakonbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuzJohn Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

* Bikel Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins eta Charniak.Bikel-ek egin zuen berrinplementazioa java lengoaiaz, eta orain Bikelen parser hori erabiltzen da.

Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:

* Connexor Ezagutza linguistikoan oinarritutakoa.* XeroxEzagutza linguistikoan oinarritutakoa.

Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten.

IXA taldeko Demoak web-orria erabiliz, praktikan ikus dezakegu nolakoa den esaldi bateko hitzen analisi morfologikoa, eta programa lematizatzaileak nola murrizten dituen gero analisi-aukerak.
Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.

Hori erraz ikus dezakegu IXA taldeko Demoak web-orria erabiliz. Batetik analizatu morfologikoki ondoko esaldia :

      Itxura hori
      zuen gizonak ikusi du.

Erabiltzen diren kategoria eta azpikategorien zerrenda ikus daiteke hemen.
Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela. Itxura hitza aditza ere izan daitekeela dio;  hori hitza aditza eta adjektibo  ere izan daitekeela; edo ikusi hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.

Orduan gero analizatu esaldi bera lematizatzailearekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du.

Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.

Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia.

Hizkuntza-ingeniaritzan corpusak ezinbesteko langai dira  hainbat tresna egiteko eta ebaluatzeko; are funtsezkoagoak dira metodo estatistikoak eta ikasketa automatikoa aplikatu ahal izateko.

Nazioarteko hizkuntza nagusiek 100 milioi hitzeko corpus nazionalak dituzte (Corpus Survey). Euskarak eduki badauzka zenbait corpus, baina oraindik nazioarteko tamaina
eta corpus nazionala, etiketatua noski, eginkizun dugu.

Behar hori asetu nahian hiru baliabide aurkeztu dituzte atzo (Prospektiba, Sustatu). Lehenengoa ZT corpusa da.  8 milioi hitzeko corpus egituratua eta linguistikoki etiketatua da, automatikoki prozesatua, zientzia eta teknologiaren alorreko 1990-2002 bitarteko hainbat obrekin sortua, 1,6 milioi hitz eskuz berrikusita eta zuzenduta dituena. Erabili  hemen.

Baina ZT corpusa bera bezain inportanteak dira bera eratzeko erabili diren metodologia eta tresnak. Corpusak nola etiketatu? Zein informaziorekin? Zein formatorekin? Zein tresnak behar dira behar ditugun corpus erraldoiak eratu eta erabiltzeko?

  • CORPUSGILE tresna berriak testu-bilketa kudeatzeko eta testuen egitura etiketatzeko kudeaketa egiteko tresna lagungarria da (XML eta TEI estandarren arabera).
  • EULIA  tresna berriak testuen etiketatze linguistikoa kudeatuko du.  Corpuseko hitz orok zenbait informazio linguistiko ditu erantsita,  hala nola: hitzaren lema eta  kategoria lexikala (% 100 zuzen, eskuz desanbiguatutako atalean, eta automatikoki esleitutakoa, gainerakoan); hitzak duen kasua eta betetzen duen funtzio sintaktikoa (automatikoki esleituak); hitz anitzeko unitateen kasuan, unitate hauen egitura ere. Etiketatze linguistiko automatikoa egindakoan, emaitzak eskuz lantzeko aukera dago.

Beraz, abiapuntuan badauzkagu zenbait tresna eta zenbait corpus:

Orduan… ea EUSKARAREN CORPUS NAZIONALA eraikitzeko gauza garen!
Arloan gabiltzan eragile guztien artean. Euskarak behar du.