Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2008/11/14 17:02:45.922 GMT+1

Hitzaldia: Interneteko liburutegi digitalak. (Rafael Carrasco 2009-XI-24)

HAP masterrak antolatu du hitzaldi bat  azaroaren 24rako, astelehena.
Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz.  Titulua eta edukia hauek izango dira:

Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala: Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala:  liburutegi digitalak sare sozialean

Rafael Carrasco fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna. Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik,  neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.

Inbitatuta zaude.

Nork: ixa.2008/11/14 17:02:45.922 GMT+1
Etiketak: ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/11/13 12:17:25.143 GMT+1

Gorka Labaka itzulpen automatiko estatistikoan txapelduna

Atzo banatu ziren ALBAYZIN-08 sariak Bilbon egiten ari diren Hizketa-Teknologiako V. Jardunaldietan. Albayzin-08 itzulpen automatikoko sistema  estatistikoak ebaluatzeko markoa da. Marko horren barruan, aurten espainieratik euskarara itzulpenak egiteko txapelketa egin da. Lehian 12 sistema ibili dira, hiru unibertsitatetik bidaliak: Kataluniako Unibertsitateko Politeknikoa  (UPC, TALP-AVIVAVOZ), Universitat Politècnica de València (UPV-PRHLT) eta Euskal Herriko Unibertsitatea (EHU, Ixa taldea).

EHUko Ixa taldeko kidea den Gorka Labakaren sistemak irabazi du.
ZORIONAK GORKA!

Nork: ixa.2008/11/13 12:17:25.143 GMT+1
Etiketak: mt_itzulpen_automatikoa mt-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/10/28 11:44:40.789 GMT+1

Morfologia eta sintaxiko ariketak Internet bidez

Interneten hitzen analisi morfologiko eta esaldien analisi sintaktikoa automatikoki egiteko aukerak badira: Morfeus eta Freeling adibidez. Institutuko ikasleentzat sintaxia eta morfologia ordenagailuarekin lantzea erakargarria izan daiteke. Agian ikasle batzuek dagoeneko erabiltzen dute bide hau etxeko lanak egiteko, irakasleek jakin gabe. Azaroaren 5ean UEUko ikastaro batean aukera horietako batzuk aurkeztuko ditugu. Ea bide batez parte-hartzaile guztion artean oinarrizko ariketa bilduma eztabaidatu eta sortzen dugun.

Hona hemen adibide batzuk:

Ancorako corpusetan esaldi hau analizatu: Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ancora-EPEC-EU

Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin: Amagoiaren lagunak Galizian egiten du lan.
Morfeus

Freeling analizatzailean: Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)
Freeling


Ikastaroaren eguna AZAROAREN 5a.

Ordutegia: 9:30/13:30 - 15:00/19:00

Irakasleak: Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea. Kepa Sarasola, doktorea Informatikan eta UEUko kidea.

Informazio gehiago eta izena emateko aukera: www.ueu.org

Nork: ixa.2008/10/28 11:44:40.789 GMT+1
Etiketak: ht-morfologia ht-tresnak ht-sintaxia | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/10/17 21:06:07.128 GMT+2

SEPLN2008 biltzarreko laburpena Elhuyar-eko Hizkuntza-Zerbitzuen blogean

Elhuyar-eko Hizkuntza-Zerbitzuak sailekoek SEPLN 2008 kongresuaren laburpena egin dute. SEPLNren (Sociedad Española para el Procesamiento del Lenguaje Natural) XXIV. kongresu hori irailean izan da Madrilen.

Atal bakoitzean nabaritu dena aipatzen dute eta Elhuyarrekoek eurek kongresuan aurkeztu duten  AzerHitz proiektuko ikerketaren azken emaitzak ere azaltzen dituzte. AzerHitz  terminologia-erauzketaren alorrean kokatzen da. Corpus konparagarrietatik lexiko elebiduna erauzteko teknikak lantzen dira ikerketa horretan, metodo probabilistikoak bektoreetan eta horien arteko distantzietan oinarritutako metodoekin alderatuz. Metodo probabilistikoek hobekuntza bat ekarri omen diete aurreko lanarekin alderatuta (aurtengo LREC-2008 kongresuan aurkeztu dutena).

SEPLN-2009 Donostian izango da, eta XXV. saioa izango da . Honezgero hasi gara Ixa taldean antolaketarekin. Bai, noski, eurek dioten bezala guk ere espero dugu Elhuyar han izango dela.

Eta ongi etorria beren blogari. Hizkuntza-teknologiako berriak dakartzala eta, gure blogeko esteken artean sartu dugu.

Nork: Kepa Sarasola. Ixa Taldea.2008/10/17 21:06:07.128 GMT+2
Etiketak: ht-biltzarrak | Permalink | Erantzunak (2) | Errenferentziak: (0)

2008/07/10 12:06:55.372 GMT+2

Hizkuntza Teknologia Interneteko bilatzaileetan: Azkenean sartu dute!

Azkenean bai! Interneteko bilatzaileetan nabaritzen ari da hizkuntza-teknologia erabiltzen hasi dela. Oraintsu arte Google-k eta beste bilatzaileetan hitz soila izan da oinarria, karaktere-sekuentzia hutsa. Azken hilabeteetan hasi dira azaltzen gauza berriak.
Google galderei erantzuten
Sei puntu aipa ditzakegu nazioartekoan:
Elebila ere multzo honetan sar dezakegu, hitzetatik harantzago baitoa bere bilaketetan euskarazko guneetan.
Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude.
Azken asteetan, baina,  gaia pil-pilean egon da Microsoft-ek Powerset (sarearen analisi sintaktikoa egiten ari zen bilatzailea) erosi omen duelako.

Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.

Nork: ixa (Eneko Agirre eta Kepa Sarasola).2008/07/10 12:06:55.372 GMT+2
Etiketak: ht-informazioaren bilaketa | Permalink | Erantzunak (2) | Errenferentziak: (0)

2008/06/18 14:34:43.521 GMT+2

Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?

Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile 
sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.
Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko,
eta ondoko lista prestatu dugu.
Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.
Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzeko
gauza den) eta erantzun-denbora ere kontuan hartu beharko dira.

Guztiz libreak:

* Maltparser
Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).
Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke,
noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.
Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.
Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.

* Stanford Parser
Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling 
Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik,
baina azken hilebetetan hobekuntza nabarmena jaso du.
Guztiz librea (GNU GPL).

* NLTK
Natural Language ToolKit
Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da.
Python lengoaia erabili da programatzeko.

Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:

* RASP
Egungo erronka  handiena da ezagutza linguistikoa eta estatistikoa
konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz
John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du.
Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

* Bikel
Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins
eta Charniak.
Bikel-ek egin zuen berrinplementazioa java lengoaiaz,
eta orain Bikelen parser hori erabiltzen da.

Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:

* Connexor  
Ezagutza linguistikoan oinarritutakoa.
* Xerox
Ezagutza linguistikoan oinarritutakoa.

Nork: Ixa taldea. Koldo Gojenola eta Kepa Sarasola.2008/06/18 14:34:43.521 GMT+2
Etiketak: ht-sintaxia ht-tresnak | Permalink | Erantzunak (2) | Errenferentziak: (0)

2008/05/08 19:15:10.286 GMT+2

Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara

Galdera-erantzutea (Question Answering, QA) arloko sistemak oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema berean konbinatu behar baitira bi azpiarloko teknikak: Informazio Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa automatikoa (Natural Language Processing, NLP).

QAko sistemari lengoaia naturalezko galderak egiten zaizkio (kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).

Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da martxan.  Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan, egun edonon onartzen diren ebaluazio-neurriak eta ebaluazio-eskakizunak  ezarri ditu-eta. Hala ere, hasierako TREC QA lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen inondik ere azaltzen.

2003. urtean CLEF foroa (Cross Language Evaluation Forum)  hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta hizkuntzen arteko QA sistemetarako: Multilingual Question Answering at CLEF. Geroago, adar berri horretako azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak gero eta hobeak.

2008ko lehiaketan euskara ere izango da hizkuntza aztergaien artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera, espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta portugesa. Euskara bi modutan izango da aztergai: 

  • Proba batean euskaraz idatzitako testuetan bilatu beharko dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo dira.
  • Beste proba batean galderak euskaraz egingo dira, eta erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz dauden testuetan.
Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira (lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira, baina lehenengo proban bakarrik.

Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute parte hartzaileen balorazioak denen artean komentatzeko.

Ea lehiaketa honek laguntzen duen arlo honetan euskararekin ere aurrera egiten.

-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait 
    Q: Who was called the “Iron-Chancellor”?         A: Otto von Bismarck.
    Q: What year was Martin Luther King murdered?    A: 1968.
    Q: Which town was  Mozart born in?               A: Salzburg.

b) Definizio-galderak (%15):
    Q: Who is Robert Altmann?                        A: Film maker.
    Q: What is the Knesset?                          A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
    Q: Name all the airports in London, England.     A: Gatwick, Stansted, Heathrow, Luton and City.
    Q: Name the last three American Presidents.      A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)

Nork: ixa.2008/05/08 19:15:10.286 GMT+2
Etiketak: ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/04/24 11:45:13.790 GMT+2

Roberto Navigliren hitzaldia

Hizkuntzaren ulermen automatikoa gauzatuko bada, hitz bat erabiltzen dugunean zein esanahirekin egiten den ebatzi beharko da. Hori da adiera desanbiguazioa, eta gaur egun %60-%90 doitasunarekin egiten da.

Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan, Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren granularitateari buruzko hitzaldiak eskainiko ditu Donostiako informatika fakultatean.

Roberto Navigli ikerlari italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar.

HAP masterraren barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu (gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan):

  • An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods
  • Dealing with the Complexities of Sense Granularity: Knowledge-Based Validation of Fine-grained Sense Annotations

Hitzaldiak irekiak eta ingelesez izango dira.


Nork: ixa.2008/04/24 11:45:13.790 GMT+2
Etiketak: | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/02/26 19:40:37.987 GMT+1

Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten.

IXA taldeko Demoak web-orria erabiliz, praktikan ikus dezakegu nolakoa den esaldi bateko hitzen analisi morfologikoa, eta programa lematizatzaileak nola murrizten dituen gero analisi-aukerak.
Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.

Hori erraz ikus dezakegu IXA taldeko Demoak web-orria erabiliz. Batetik analizatu morfologikoki ondoko esaldia :

      Itxura hori zuen gizonak ikusi du.

Erabiltzen diren kategoria eta azpikategorien zerrenda ikus daiteke hemen.
Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela. Itxura hitza aditza ere izan daitekeela dio;  hori hitza aditza eta adjektibo  ere izan daitekeela; edo ikusi hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.

Orduan gero analizatu esaldi bera lematizatzailearekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du.

Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.


Nork: ixa.2008/02/26 19:40:37.987 GMT+1
Etiketak: ht-morfologia ht-tresnak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/02/19 14:05:01.101 GMT+1

Egunkaria, hizkuntza-teknologiako baliabideen sortzailea

Egunkaria libre

Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten.
Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek  hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun.

Subject: Today Basque is "an even more" endangered language. (2003/03/05)
Dear colleagues
We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.
The only Basque language newspaper in the world "Egunkaria" was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.
It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),
Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)
and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.
Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.
There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.

We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to
http://www.sustatu.com/english/egunkaria.

Today Basque is "an even more" endangered language.

Research groups and companies working on Human Language Technology from the Basque Country supporting this message:

   AHOLAB group (http://bips.bi.ehu.es)
   DELi group (http://www.deli.deusto.es)
   ILCLI group on semantics, pragmatics and rhetoric
(http://www.sc.ehu.es/ilcli)
   IXA NLP group (http://ixa.si.ehu.es)
   Code & Syntax (http://www.codesyntax.com)
   Diana Teknologia (http://www.diana-tek.com)
   Eleka (http://www.eleka.net)
   Elhuyar (http://www.elhuyar.com)
   Hizkia Informatika (http://www.hizkia.fr)
   UZEI (http://www.uzei.com)

Nork: Kepa Sarasola. Ixa taldea.2008/02/19 14:05:01.101 GMT+1
Etiketak: ht-baliabideak | Permalink | Erantzunak (0) | Errenferentziak: (0)

bisitari