Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2008/07/10 12:06:55.372 GMT+2

Hizkuntza Teknologia Interneteko bilatzaileetan: Azkenean sartu dute!

Azkenean bai! Interneteko bilatzaileetan nabaritzen ari da hizkuntza-teknologia erabiltzen hasi dela. Oraintsu arte Google-k eta beste bilatzaileetan hitz soila izan da oinarria, karaktere-sekuentzia hutsa. Azken hilabeteetan hasi dira azaltzen gauza berriak.
Google galderei erantzuten
Sei puntu aipa ditzakegu nazioartekoan:
Elebila ere multzo honetan sar dezakegu, hitzetatik harantzago baitoa bere bilaketetan euskarazko guneetan.
Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude.
Azken asteetan, baina,  gaia pil-pilean egon da Microsoft-ek Powerset (sarearen analisi sintaktikoa egiten ari zen bilatzailea) erosi omen duelako.

Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.

Nork: ixa (Eneko Agirre eta Kepa Sarasola).2008/07/10 12:06:55.372 GMT+2
Etiketak: ht-informazioaren bilaketa | Permalink | Erantzunak (2) | Errenferentziak: (0)

2008/06/18 14:34:43.521 GMT+2

Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?

Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile 
sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.
Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko,
eta ondoko lista prestatu dugu.
Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.
Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzeko
gauza den) eta erantzun-denbora ere kontuan hartu beharko dira.

Guztiz libreak:

* Maltparser
Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).
Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke,
noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.
Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.
Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.

* Stanford Parser
Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling 
Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik,
baina azken hilebetetan hobekuntza nabarmena jaso du.
Guztiz librea (GNU GPL).

* NLTK
Natural Language ToolKit
Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da.
Python lengoaia erabili da programatzeko.

Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:

* RASP
Egungo erronka  handiena da ezagutza linguistikoa eta estatistikoa
konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz
John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du.
Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

* Bikel
Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins
eta Charniak.
Bikel-ek egin zuen berrinplementazioa java lengoaiaz,
eta orain Bikelen parser hori erabiltzen da.

Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:

* Connexor  
Ezagutza linguistikoan oinarritutakoa.
* Xerox
Ezagutza linguistikoan oinarritutakoa.

Nork: Ixa taldea. Koldo Gojenola eta Kepa Sarasola.2008/06/18 14:34:43.521 GMT+2
Etiketak: ht-sintaxia ht-tresnak | Permalink | Erantzunak (2) | Errenferentziak: (0)

2008/05/08 19:15:10.286 GMT+2

Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara

Galdera-erantzutea (Question Answering, QA) arloko sistemak oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema berean konbinatu behar baitira bi azpiarloko teknikak: Informazio Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa automatikoa (Natural Language Processing, NLP).

QAko sistemari lengoaia naturalezko galderak egiten zaizkio (kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).

Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da martxan.  Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan, egun edonon onartzen diren ebaluazio-neurriak eta ebaluazio-eskakizunak  ezarri ditu-eta. Hala ere, hasierako TREC QA lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen inondik ere azaltzen.

2003. urtean CLEF foroa (Cross Language Evaluation Forum)  hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta hizkuntzen arteko QA sistemetarako: Multilingual Question Answering at CLEF. Geroago, adar berri horretako azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak gero eta hobeak.

2008ko lehiaketan euskara ere izango da hizkuntza aztergaien artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera, espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta portugesa. Euskara bi modutan izango da aztergai: 

  • Proba batean euskaraz idatzitako testuetan bilatu beharko dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo dira.
  • Beste proba batean galderak euskaraz egingo dira, eta erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz dauden testuetan.
Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira (lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira, baina lehenengo proban bakarrik.

Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute parte hartzaileen balorazioak denen artean komentatzeko.

Ea lehiaketa honek laguntzen duen arlo honetan euskararekin ere aurrera egiten.

-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait 
    Q: Who was called the “Iron-Chancellor”?         A: Otto von Bismarck.
    Q: What year was Martin Luther King murdered?    A: 1968.
    Q: Which town was  Mozart born in?               A: Salzburg.

b) Definizio-galderak (%15):
    Q: Who is Robert Altmann?                        A: Film maker.
    Q: What is the Knesset?                          A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
    Q: Name all the airports in London, England.     A: Gatwick, Stansted, Heathrow, Luton and City.
    Q: Name the last three American Presidents.      A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)

Nork: ixa.2008/05/08 19:15:10.286 GMT+2
Etiketak: ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/04/24 11:45:13.790 GMT+2

Roberto Navigliren hitzaldia

Hizkuntzaren ulermen automatikoa gauzatuko bada, hitz bat erabiltzen dugunean zein esanahirekin egiten den ebatzi beharko da. Hori da adiera desanbiguazioa, eta gaur egun %60-%90 doitasunarekin egiten da.

Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan, Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren granularitateari buruzko hitzaldiak eskainiko ditu Donostiako informatika fakultatean.

Roberto Navigli ikerlari italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar.

HAP masterraren barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu (gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan):

  • An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods
  • Dealing with the Complexities of Sense Granularity: Knowledge-Based Validation of Fine-grained Sense Annotations

Hitzaldiak irekiak eta ingelesez izango dira.


Nork: ixa.2008/04/24 11:45:13.790 GMT+2
Etiketak: | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/02/26 19:40:37.987 GMT+1

Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten.

IXA taldeko Demoak web-orria erabiliz, praktikan ikus dezakegu nolakoa den esaldi bateko hitzen analisi morfologikoa, eta programa lematizatzaileak nola murrizten dituen gero analisi-aukerak.
Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.

Hori erraz ikus dezakegu IXA taldeko Demoak web-orria erabiliz. Batetik analizatu morfologikoki ondoko esaldia :

      Itxura hori zuen gizonak ikusi du.

Erabiltzen diren kategoria eta azpikategorien zerrenda ikus daiteke hemen.
Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela. Itxura hitza aditza ere izan daitekeela dio;  hori hitza aditza eta adjektibo  ere izan daitekeela; edo ikusi hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.

Orduan gero analizatu esaldi bera lematizatzailearekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du.

Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.


Nork: ixa.2008/02/26 19:40:37.987 GMT+1
Etiketak: ht-morfologia ht-tresnak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/02/19 14:05:01.101 GMT+1

Egunkaria, hizkuntza-teknologiako baliabideen sortzailea

Egunkaria libre

Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten.
Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek  hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun.

Subject: Today Basque is "an even more" endangered language. (2003/03/05)
Dear colleagues
We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.
The only Basque language newspaper in the world "Egunkaria" was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.
It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),
Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)
and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.
Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.
There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.

We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to
http://www.sustatu.com/english/egunkaria.

Today Basque is "an even more" endangered language.

Research groups and companies working on Human Language Technology from the Basque Country supporting this message:

   AHOLAB group (http://bips.bi.ehu.es)
   DELi group (http://www.deli.deusto.es)
   ILCLI group on semantics, pragmatics and rhetoric
(http://www.sc.ehu.es/ilcli)
   IXA NLP group (http://ixa.si.ehu.es)
   Code & Syntax (http://www.codesyntax.com)
   Diana Teknologia (http://www.diana-tek.com)
   Eleka (http://www.eleka.net)
   Elhuyar (http://www.elhuyar.com)
   Hizkia Informatika (http://www.hizkia.fr)
   UZEI (http://www.uzei.com)

Nork: Kepa Sarasola. Ixa taldea.2008/02/19 14:05:01.101 GMT+1
Etiketak: ht-baliabideak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2008/02/19 13:18:29.142 GMT+1

Hizkuntza ofiziala izatearen garrantzia

Europako Batzordeak bere itzulpenen corpusa liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko.

Horren berri jaso da Enpresa Digitala-n eta Sustatu-n.

Baina euskara ez dago 23 hizkuntza ofizial horien artean.
Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.

Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.

Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da Europarl corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan).
Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.

Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo.
Baina... euskara?

Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.

Baina ... oso inportantea da HIZKUNTZA OFIZIALA izatea.

Nork: ixa.2008/02/19 13:18:29.142 GMT+1
Etiketak: ht-baliabideak ht-itzulpen-automatikoa | Permalink | Erantzunak (0) | Errenferentziak: (0)

2007/12/12 10:51:41.967 GMT+1

Fernando Morillo idazleak teknologia bidaide (II)

Euskara konputagailuekin automatikoki lantzen irakatsi nahi dugu  HAP masterrean, berriro inbitatu nahi izan dugu Fernando Morillo idazlea mintegi ireki batean parte hartzeko. 
Orain dela bi urte Hiztek masterrean txundituta utzi gintuen bere hitzaldiarekin. Honela hasten zen kronika hau bidali genuen Sustatura:
Fernando Morillo idazleak aho zabalik utzi gaitu ostiraleko Hiztek mintegian. Argi geratu zaigu etorri handikoa dela azpeitiar hau, baita ere teknologia funtsezkoa zaiola etorri hori aberasteko. Bi orduko saioan bere jardun profesionaleko 25 programa aurkeztu dizkigu, pantailan eta martxan. Txundituta utzi gaitu.
Ikusi, ikusi orduko hitzaldiaren laburpen osoa.
Beraz, badakizue nora joan ostiral arratsaldean:
  • Hitzaldia: Hizkuntza-teknologia berriak eta literatura
  • Non: Donostiako Informatika Fakultateko Gradu Aretoan
  • Hizlaria: Fernando Morillo
    Azpeitiarra da eta zientziazale amorratua txikitatik. Fisika ikasten hasi zen baina Filosofia ikasketak burutu zituen. Literatur sarien irabazle: /Gudoste ametsak/ lanak Donostia Hiria saria oparitu zion 1999. urtean; Pasaiako Hiria, Igartza Literatur beka eta Gabriel Aresti saria irabazi ditu, besteak beste. CAF-Elhuyar-ek emandako zientzia artikuluen gaineko sarien irabazle suertatu da birritan ere.
  • Gaia: hizkuntza-teknologiek literatura sortzerakoan eskaintzen dituzten aukerez mintzatuko da. Eta gogoeta egitearekin batera, literatura egiteko baliagarri izan daitezkeen hainbat tresna erakutsiko dizkigu.

Nork: ixa.2007/12/12 10:51:41.967 GMT+1
Etiketak: ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2007/10/08 20:40:46.020 GMT+2

Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16)

Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. 
Dokumentu-bilatzaileak nola hobetu? Hori da gaia.
- Eguna: urriaren 16a
- Ordua: arratsaldeko 4etan - Gaiak: IR y NLP. Mineria de consultas (hitzaldiak gaztelaniaz izango dira) - Tokia: Donostiako Informatika Fakultateko gradu-aretoa
Ricardo Baeza-Yates

Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da  gaur egun,
baita Yahoo! Research Latin America zentrokoa ere.
Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria
eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.
Oso ikerlari famatua da Information Retrieval arloan.

Bere argitalpenen artean aipagarria da Modern Information Retrieval liburua

Dokumentuen berreskurapena (IR, Information Retrieval)

Aplikazio honen helburua hainbat eta hainbat dokumenturen artean bakar bat (edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana. Noski, adibide tipikoena Interneterako bilatzaileena da,  Google  eta Yahoo !esatebaterako. Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez denez, hainbat ekarpen izan  dira:

IR-ko programek barruan hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak aztertuta hitzekin indizeak sortzen dituena;  modulu bilatzailea, indizeak erabilita dokumentu interesgarriak azkar bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera ordenatzen dituen modulua.

Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan:  dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,




Morfologia konputazionala

Nork: ixa.2007/10/08 20:40:46.020 GMT+2
Etiketak: berreskurapena dokumentu-bilatzaileak ht-aplikazioak | Permalink | Erantzunak (0) | Errenferentziak: (0)

2007/06/26 14:53:00.322 GMT+2

Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)

Ingalaterrako Sussex Unibertsitateko John Carroll irakaslea gurekin izango da uztailaren 9tik 11ra (egitaraua behean ikusi).

Hizkuntza prozesatzeko analisi sintaktikoa izaten da pausorik garrantzitsuenetariko bat, perpausaren osagai nagusiak zeintzuk diren (izen-sintagma, aditz-sintagma...) eta beraien arteko erlazioak ezagutzeko (subjektu, objektu...). Ingelesa izan da gehien landu den hizkuntza, eta gaur egunean lau dira analizatzaile hoberenak:
   a)    Ezagutza linguistikoan oinarritutakoak.
               Connexor eta Xerox
   b)    Estatistikan oinarritutako sistemak
                Collins eta Charniak

Egungo erronka  handiena da ezagutza linguistikoa eta estatistikoa konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.


Egitaraua:
Lekua: Informatika Fakultateko batzar aretoan.
Uztailaren 9/10, 15:30-17:30:
Ikastaroa: NLP and parsing.
  1.techniques for shallow parsing: treebanks, linguistic grammars,  
  2.Disambiguation.
  3.parser evaluation
  4.high precision parsing
  5.efficient deep parsing
  6.robust parsing and shallow semantics
Uztailaren 11, 11:30-13:00:
Hitzaldia: Text categorization for improved priors of word meaning.
Distributions of the senses of words are often highly skewed. This fact is exploited by word sense disambiguation (WSD) systems which back off to the predominant (most frequent) sense of a word when contextual clues are not strong enough. The topic domain of a document has a strong influence on the sense distribution of words.
Unfortunately, it is not feasible to produce large manually sense-annotated corpora for every domain of interest. Previous experiments have shown that unsupervised estimation of the predominant sense of certain words using corpora whose domain has been determined by hand outperforms estimates based on domain-independent text for a subset of words and even outperforms the estimates based on counting occurrences in an annotated corpus.
In this talk I will address the question of whether it is possible to _automatically_ produce domain-specific corpora which could be used to acquire predominant senses appropriate for specific domains.

Nork: Koldo Gojenola. IXA taldea.2007/06/26 14:53:00.322 GMT+2
Etiketak: ht-teknikak | Permalink | Erantzunak (0) | Errenferentziak: (0)

bisitari