2008/07/10 12:06:55.372 GMT+2
Azkenean bai! Interneteko bilatzaileetan nabaritzen ari da
hizkuntza-teknologia erabiltzen hasi dela. Oraintsu arte Google-k eta beste bilatzaileetan hitz soila izan da oinarria, karaktere-sekuentzia hutsa. Azken hilabeteetan hasi dira azaltzen gauza berriak.
Sei puntu aipa ditzakegu nazioartekoan:
Elebila ere multzo honetan sar dezakegu, hitzetatik harantzago baitoa bere bilaketetan euskarazko guneetan.
Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude.
Azken asteetan, baina, gaia pil-pilean egon da Microsoft-ek
Powerset (sarearen analisi sintaktikoa egiten ari zen bilatzailea)
erosi omen duelako.
Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.
Nork: ixa (Eneko Agirre eta Kepa Sarasola).2008/07/10 12:06:55.372 GMT+2
Etiketak:
ht-informazioaren
bilaketa
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/06/18 14:34:43.521 GMT+2
Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile
sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.
Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko,
eta ondoko lista prestatu dugu.
Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.
Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzeko
gauza den) eta erantzun-denbora ere kontuan hartu beharko dira.
Guztiz libreak:
* Maltparser
Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).
Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke,
noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.
Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.
Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.
* Stanford Parser
Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling
Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik,
baina azken hilebetetan hobekuntza nabarmena jaso du.
Guztiz librea (GNU GPL).
* NLTK
Natural Language ToolKit
Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da.
Python lengoaia erabili da programatzeko.
Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:
* RASP
Egungo erronka handiena da ezagutza linguistikoa eta estatistikoa
konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz
John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du.
Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.
* Bikel
Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins
eta Charniak.
Bikel-ek egin zuen berrinplementazioa java lengoaiaz,
eta orain Bikelen parser hori erabiltzen da.
Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:
* Connexor
Ezagutza linguistikoan oinarritutakoa.
* Xerox
Ezagutza linguistikoan oinarritutakoa.
Nork: Ixa taldea. Koldo Gojenola eta Kepa Sarasola.2008/06/18 14:34:43.521 GMT+2
Etiketak:
ht-sintaxia
ht-tresnak
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/05/08 19:15:10.286 GMT+2
Galdera-erantzutea (Question Answering, QA) arloko sistemak
oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema
berean konbinatu behar baitira bi azpiarloko teknikak: Informazio
Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa
automatikoa (Natural Language Processing, NLP).
QAko sistemari lengoaia naturalezko galderak egiten zaizkio
(kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak
testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa
erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).
Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da
martxan. Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan,
egun edonon onartzen diren ebaluazio-neurriak eta
ebaluazio-eskakizunak ezarri ditu-eta. Hala ere, hasierako TREC QA
lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen
inondik ere azaltzen.
2003. urtean CLEF foroa (Cross Language
Evaluation Forum) hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta
hizkuntzen arteko QA sistemetarako: Multilingual Question Answering at CLEF. Geroago, adar berri horretako
azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak
gero eta hobeak.
2008ko lehiaketan euskara ere izango da hizkuntza aztergaien
artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera,
espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta
portugesa. Euskara bi modutan izango da aztergai:
- Proba batean euskaraz idatzitako testuetan bilatu beharko
dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo
dira.
- Beste proba batean galderak euskaraz egingo dira, eta
erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz
dauden testuetan.
Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira
(lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa
prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira,
baina lehenengo proban bakarrik.
Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta
galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute
parte hartzaileen balorazioak denen artean komentatzeko.
Ea lehiaketa honek laguntzen duen arlo honetan euskararekin
ere aurrera egiten.
-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait
Q: Who was called the “Iron-Chancellor”? A: Otto von Bismarck.
Q: What year was Martin Luther King murdered? A: 1968.
Q: Which town was Mozart born in? A: Salzburg.
b) Definizio-galderak (%15):
Q: Who is Robert Altmann? A: Film maker.
Q: What is the Knesset? A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
Q: Name all the airports in London, England. A: Gatwick, Stansted, Heathrow, Luton and City.
Q: Name the last three American Presidents. A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)
Nork: ixa.2008/05/08 19:15:10.286 GMT+2
Etiketak:
ht-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/04/24 11:45:13.790 GMT+2
Hizkuntzaren ulermen automatikoa gauzatuko bada, hitz bat erabiltzen dugunean zein esanahirekin egiten den ebatzi beharko da. Hori da adiera desanbiguazioa, eta gaur egun %60-%90 doitasunarekin egiten da.
Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan,
Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren
granularitateari buruzko hitzaldiak eskainiko ditu Donostiako
informatika fakultatean.
Roberto Navigli
ikerlari
italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet
Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera
desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar.
HAP masterraren
barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu
(gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan):
- An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods
- Dealing with the Complexities of Sense Granularity: Knowledge-Based Validation of Fine-grained Sense Annotations
Hitzaldiak irekiak eta ingelesez izango dira.
Nork: ixa.2008/04/24 11:45:13.790 GMT+2
Etiketak:
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/02/26 19:40:37.987 GMT+1
IXA taldeko Demoak web-orria erabiliz, praktikan ikus dezakegu nolakoa den esaldi bateko hitzen analisi morfologikoa, eta programa lematizatzaileak nola murrizten dituen gero analisi-aukerak.
Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.
Hori erraz ikus dezakegu
IXA taldeko Demoak web-orria erabiliz. Batetik
analizatu morfologikoki ondoko esaldia :
Itxura hori
zuen gizonak ikusi du.
Erabiltzen diren kategoria eta azpikategorien zerrenda ikus daiteke
hemen.Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela.
Itxura hitza aditza ere izan daitekeela dio;
hori hitza aditza eta adjektibo ere izan daitekeela; edo
ikusi hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.
Orduan gero analizatu esaldi bera
lematizatzailearekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du.
Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.
Nork: ixa.2008/02/26 19:40:37.987 GMT+1
Etiketak:
ht-morfologia
ht-tresnak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/02/19 14:05:01.101 GMT+1
Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten.
Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun.
Subject: Today Basque is "an even more" endangered language. (2003/03/05)
Dear colleagues
We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.
The only Basque language newspaper in the world "Egunkaria" was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.
It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),
Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)
and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.
Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.
There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.
We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to
http://www.sustatu.com/english/egunkaria.
Today Basque is "an even more" endangered language.
Research groups and companies working on Human Language Technology from the Basque Country supporting this message:
AHOLAB group (http://bips.bi.ehu.es)
DELi group (http://www.deli.deusto.es)
ILCLI group on semantics, pragmatics and rhetoric
(http://www.sc.ehu.es/ilcli)
IXA NLP group (http://ixa.si.ehu.es)
Code & Syntax (http://www.codesyntax.com)
Diana Teknologia (http://www.diana-tek.com)
Eleka (http://www.eleka.net)
Elhuyar (http://www.elhuyar.com)
Hizkia Informatika (http://www.hizkia.fr)
UZEI (http://www.uzei.com)
Nork: Kepa Sarasola. Ixa taldea.2008/02/19 14:05:01.101 GMT+1
Etiketak:
ht-baliabideak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/02/19 13:18:29.142 GMT+1
Europako Batzordeak bere
itzulpenen corpusa liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko.
Horren berri jaso da
Enpresa Digitala-n eta
Sustatu-n.
Baina euskara ez dago 23 hizkuntza ofizial horien artean.
Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.
Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.
Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da
Europarl corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan).
Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.
Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo.
Baina... euskara?
Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.
Baina ... oso inportantea da HIZKUNTZA OFIZIALA izatea.
Nork: ixa.2008/02/19 13:18:29.142 GMT+1
Etiketak:
ht-baliabideak
ht-itzulpen-automatikoa
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2007/12/12 10:51:41.967 GMT+1
Euskara konputagailuekin automatikoki lantzen irakatsi nahi dugu
HAP masterrean, berriro inbitatu nahi izan dugu
Fernando Morillo idazlea mintegi ireki batean parte hartzeko.
Orain dela bi urte Hiztek masterrean txundituta utzi gintuen bere hitzaldiarekin. Honela hasten zen
kronika hau bidali genuen Sustatura:
Fernando Morillo idazleak aho zabalik utzi gaitu ostiraleko Hiztek
mintegian. Argi geratu zaigu etorri handikoa dela azpeitiar hau, baita
ere teknologia funtsezkoa zaiola etorri hori aberasteko. Bi orduko
saioan bere jardun profesionaleko 25 programa aurkeztu dizkigu,
pantailan eta martxan. Txundituta utzi gaitu.
Ikusi, ikusi orduko hitzaldiaren
laburpen osoa.Beraz, badakizue nora joan ostiral arratsaldean:
-
Hitzaldia: Hizkuntza-teknologia berriak eta literatura
-
Non: Donostiako Informatika Fakultateko Gradu Aretoan
- Hizlaria: Fernando Morillo
Azpeitiarra da eta zientziazale amorratua
txikitatik. Fisika ikasten hasi zen baina Filosofia ikasketak burutu
zituen. Literatur sarien irabazle: /Gudoste ametsak/ lanak Donostia
Hiria saria oparitu zion 1999. urtean; Pasaiako Hiria, Igartza
Literatur beka eta Gabriel Aresti saria irabazi ditu, besteak beste.
CAF-Elhuyar-ek emandako zientzia artikuluen gaineko sarien irabazle
suertatu da birritan ere. -
Gaia: hizkuntza-teknologiek
literatura sortzerakoan eskaintzen dituzten aukerez mintzatuko da. Eta
gogoeta egitearekin batera, literatura egiteko baliagarri izan
daitezkeen hainbat tresna erakutsiko dizkigu.
Nork: ixa.2007/12/12 10:51:41.967 GMT+1
Etiketak:
ht-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2007/10/08 20:40:46.020 GMT+2
Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an.
Dokumentu-bilatzaileak nola hobetu? Hori da gaia.
- Eguna: urriaren 16a
- Ordua: arratsaldeko 4etan
- Gaiak: IR y NLP. Mineria de consultas
(hitzaldiak gaztelaniaz izango dira)
- Tokia: Donostiako Informatika Fakultateko gradu-aretoa
Ricardo Baeza-Yates
Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da gaur egun,
baita Yahoo! Research Latin America zentrokoa ere.
Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria
eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.
Oso ikerlari famatua da Information Retrieval arloan.
Bere argitalpenen artean aipagarria da Modern Information Retrieval liburua
Dokumentuen berreskurapena (IR,
Information Retrieval)
Aplikazio
honen helburua hainbat eta hainbat dokumenturen artean bakar bat
(edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana.
Noski, adibide tipikoena Interneterako bilatzaileena da, Google eta Yahoo !esatebaterako.
Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez
denez, hainbat ekarpen izan dira:
IR-ko programek barruan
hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak
aztertuta hitzekin indizeak sortzen dituena; modulu
bilatzailea, indizeak erabilita dokumentu interesgarriak azkar
bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera
ordenatzen dituen modulua.
Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan: dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,
Morfologia konputazionala
Nork: ixa.2007/10/08 20:40:46.020 GMT+2
Etiketak:
berreskurapena
dokumentu-bilatzaileak
ht-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2007/06/26 14:53:00.322 GMT+2
Ingalaterrako Sussex Unibertsitateko John Carroll irakaslea gurekin izango da uztailaren 9tik 11ra (egitaraua behean ikusi).
Hizkuntza prozesatzeko analisi sintaktikoa izaten da pausorik garrantzitsuenetariko bat, perpausaren osagai nagusiak zeintzuk diren (izen-sintagma, aditz-sintagma...) eta beraien arteko erlazioak ezagutzeko (subjektu, objektu...). Ingelesa izan da gehien landu den hizkuntza, eta gaur egunean lau dira analizatzaile hoberenak:
a) Ezagutza linguistikoan oinarritutakoak.
Connexor eta
Xerox b) Estatistikan oinarritutako sistemak
Collins eta
CharniakEgungo erronka handiena da ezagutza linguistikoa eta estatistikoa konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz John Carroll-ek Robust Accurate Statistical Parsing (
RASP) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.
Egitaraua:Lekua: Informatika Fakultateko batzar aretoan.
Uztailaren 9/10, 15:30-17:30:
Ikastaroa:
NLP and parsing. 1.techniques for shallow parsing: treebanks, linguistic grammars,
2.Disambiguation.
3.parser evaluation
4.high precision parsing
5.efficient deep parsing
6.robust parsing and shallow semantics
Uztailaren 11, 11:30-13:00:
Hitzaldia:
Text categorization for improved priors of word meaning.Distributions of the senses of words are often highly skewed. This fact is exploited by word sense disambiguation (WSD) systems which back off to the predominant (most frequent) sense of a word when contextual clues are not strong enough. The topic domain of a document has a strong influence on the sense distribution of words.
Unfortunately, it is not feasible to produce large manually sense-annotated corpora for every domain of interest. Previous experiments have shown that unsupervised estimation of the predominant sense of certain words using corpora whose domain has been determined by hand outperforms estimates based on domain-independent text for a subset of words and even outperforms the estimates based on counting occurrences in an annotated corpus.
In this talk I will address the question of whether it is possible to _automatically_ produce domain-specific corpora which could be used to acquire predominant senses appropriate for specific domains.
Nork: Koldo Gojenola. IXA taldea.2007/06/26 14:53:00.322 GMT+2
Etiketak:
ht-teknikak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
Hurrengoak