2008/11/14 17:02:45.922 GMT+1
Hitzaldia: Interneteko liburutegi digitalak. (Rafael Carrasco 2009-XI-24)
Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz. Titulua eta edukia hauek izango dira:
Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala: Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala: liburutegi digitalak sare sozialean
Rafael Carrasco fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna. Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik, neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.
Inbitatuta zaude.
Nork: ixa.2008/11/14 17:02:45.922 GMT+1
Etiketak:
ht-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/11/13 12:17:25.143 GMT+1
Gorka Labaka itzulpen automatiko estatistikoan txapelduna
EHUko Ixa taldeko kidea den Gorka Labakaren sistemak irabazi du.
ZORIONAK GORKA!
Nork: ixa.2008/11/13 12:17:25.143 GMT+1
Etiketak:
mt_itzulpen_automatikoa
mt-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/10/28 11:44:40.789 GMT+1
Morfologia eta sintaxiko ariketak Internet bidez
Hona hemen adibide batzuk:
Ancorako corpusetan esaldi hau analizatu: Ullrichek minutu bat atzerago atera arren ibilbidearen lehen zatian harrapatu zuen italiarra. (Kontsultak, CESS-EU, ikus zuhaitz osoa, grafikoa)
Ixa taldeko demoetan analizatu morfeus analizatzaile morfologikoarekin: Amagoiaren lagunak Galizian egiten du lan.
Freeling analizatzailean: Las famosas aguas recorren lentamente su camino.(select output : shallow parsing)

Ikastaroaren eguna AZAROAREN 5a.
Ordutegia: 9:30/13:30 - 15:00/19:00
Irakasleak: Maxux Arantzabe, doktorea Hizkuntzalaritzan eta UEUko kidea. Kepa Sarasola, doktorea Informatikan eta UEUko kidea.
Informazio gehiago eta izena emateko aukera: www.ueu.org
Nork: ixa.2008/10/28 11:44:40.789 GMT+1
Etiketak:
ht-morfologia
ht-tresnak
ht-sintaxia
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/10/17 21:06:07.128 GMT+2
SEPLN2008 biltzarreko laburpena Elhuyar-eko Hizkuntza-Zerbitzuen blogean
Atal bakoitzean nabaritu dena aipatzen dute eta Elhuyarrekoek eurek kongresuan aurkeztu duten AzerHitz proiektuko ikerketaren azken emaitzak ere azaltzen dituzte. AzerHitz terminologia-erauzketaren alorrean kokatzen da. Corpus konparagarrietatik lexiko elebiduna erauzteko teknikak lantzen dira ikerketa horretan, metodo probabilistikoak bektoreetan eta horien arteko distantzietan oinarritutako metodoekin alderatuz. Metodo probabilistikoek hobekuntza bat ekarri omen diete aurreko lanarekin alderatuta (aurtengo LREC-2008 kongresuan aurkeztu dutena).
SEPLN-2009 Donostian izango da, eta XXV. saioa izango da . Honezgero hasi gara Ixa taldean antolaketarekin. Bai, noski, eurek dioten bezala guk ere espero dugu Elhuyar han izango dela.
Eta ongi etorria beren blogari. Hizkuntza-teknologiako berriak dakartzala eta, gure blogeko esteken artean sartu dugu.
Nork: Kepa Sarasola. Ixa Taldea.2008/10/17 21:06:07.128 GMT+2
Etiketak:
ht-biltzarrak
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/07/10 12:06:55.372 GMT+2
Hizkuntza Teknologia Interneteko bilatzaileetan: Azkenean sartu dute!
Sei puntu aipa ditzakegu nazioartekoan:
- Powerset
- Hakia
- Google (Ohiko galderak erantzutea /Question Answering)
- Google (Hizkuntzen arteko bilaketa /CLIR Cross Lingual Information Retrieval)
- Google (Esaldiko hutsuneak bete / Fill-in-the-blank search )
- Google (lematizazioa, hutsuneak bete )
Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude.
Azken asteetan, baina, gaia pil-pilean egon da Microsoft-ek Powerset (sarearen analisi sintaktikoa egiten ari zen bilatzailea) erosi omen duelako.
Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.
Nork: ixa (Eneko Agirre eta Kepa Sarasola).2008/07/10 12:06:55.372 GMT+2
Etiketak:
ht-informazioaren
bilaketa
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/06/18 14:34:43.521 GMT+2
Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?
Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile
sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.
Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko,
eta ondoko lista prestatu dugu.
Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.
Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzeko
gauza den) eta erantzun-denbora ere kontuan hartu beharko dira.
Guztiz libreak:
* Maltparser
Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).
Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke,
noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.
Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.
Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.
* Stanford Parser
Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling
Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik,
baina azken hilebetetan hobekuntza nabarmena jaso du.
Guztiz librea (GNU GPL).
* NLTK
Natural Language ToolKit
Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da.
Python lengoaia erabili da programatzeko.
Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:
* RASP
Egungo erronka handiena da ezagutza linguistikoa eta estatistikoa
konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz
John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du.
Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.
* Bikel
Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins
eta Charniak.
Bikel-ek egin zuen berrinplementazioa java lengoaiaz,
eta orain Bikelen parser hori erabiltzen da.
Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:
* Connexor
Ezagutza linguistikoan oinarritutakoa.
* Xerox
Ezagutza linguistikoan oinarritutakoa.
Nork: Ixa taldea. Koldo Gojenola eta Kepa Sarasola.2008/06/18 14:34:43.521 GMT+2
Etiketak:
ht-sintaxia
ht-tresnak
| Permalink
| Erantzunak (2)
| Errenferentziak: (0)
2008/05/08 19:15:10.286 GMT+2
Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara
Galdera-erantzutea (Question Answering, QA) arloko sistemak
oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema
berean konbinatu behar baitira bi azpiarloko teknikak: Informazio
Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa
automatikoa (Natural Language Processing, NLP).
QAko sistemari lengoaia naturalezko galderak egiten zaizkio
(kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak
testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa
erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).
Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da
martxan. Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan,
egun edonon onartzen diren ebaluazio-neurriak eta
ebaluazio-eskakizunak ezarri ditu-eta. Hala ere, hasierako TREC QA
lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen
inondik ere azaltzen.
2008ko lehiaketan euskara ere izango da hizkuntza aztergaien
artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera,
espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta
portugesa. Euskara bi modutan izango da aztergai:
- Proba batean euskaraz idatzitako testuetan bilatu beharko dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo dira.
- Beste proba batean galderak euskaraz egingo dira, eta erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz dauden testuetan.
Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute parte hartzaileen balorazioak denen artean komentatzeko.
Ea lehiaketa honek laguntzen duen arlo honetan euskararekin ere aurrera egiten.
-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait
Q: Who was called the “Iron-Chancellor”? A: Otto von Bismarck.
Q: What year was Martin Luther King murdered? A: 1968.
Q: Which town was Mozart born in? A: Salzburg.
b) Definizio-galderak (%15):
Q: Who is Robert Altmann? A: Film maker.
Q: What is the Knesset? A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
Q: Name all the airports in London, England. A: Gatwick, Stansted, Heathrow, Luton and City.
Q: Name the last three American Presidents. A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)
Nork: ixa.2008/05/08 19:15:10.286 GMT+2
Etiketak:
ht-aplikazioak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/04/24 11:45:13.790 GMT+2
Roberto Navigliren hitzaldia
Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan, Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren granularitateari buruzko hitzaldiak eskainiko ditu Donostiako informatika fakultatean.
Roberto Navigli ikerlari italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar.
HAP masterraren barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu (gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan):
- An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods
- Dealing with the Complexities of Sense Granularity: Knowledge-Based Validation of Fine-grained Sense Annotations
Hitzaldiak irekiak eta ingelesez izango dira.
Nork: ixa.2008/04/24 11:45:13.790 GMT+2
Etiketak:
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/02/26 19:40:37.987 GMT+1
Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten.
Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.
Hori erraz ikus dezakegu IXA taldeko Demoak web-orria
Itxura hori zuen gizonak ikusi du.
Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela. Itxura hitza aditza ere izan daitekeela dio; hori hitza aditza eta adjektibo ere izan daitekeela; edo ikusi hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.
Orduan gero analizatu esaldi bera lematizatzailearekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du.
Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.
Nork: ixa.2008/02/26 19:40:37.987 GMT+1
Etiketak:
ht-morfologia
ht-tresnak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)
2008/02/19 14:05:01.101 GMT+1
Egunkaria, hizkuntza-teknologiako baliabideen sortzailea
Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten.
Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun.
Subject: Today Basque is "an even more" endangered language. (2003/03/05)
Dear colleagues
We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.
The only Basque language newspaper in the world "Egunkaria" was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.
It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),
Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)
and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.
Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.
There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.
We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to
http://www.sustatu.com/english/egunkaria.
Today Basque is "an even more" endangered language.
Research groups and companies working on Human Language Technology from the Basque Country supporting this message:
AHOLAB group (http://bips.bi.ehu.es)
DELi group (http://www.deli.deusto.es)
ILCLI group on semantics, pragmatics and rhetoric
(http://www.sc.ehu.es/ilcli)
IXA NLP group (http://ixa.si.ehu.es)
Code & Syntax (http://www.codesyntax.com)
Diana Teknologia (http://www.diana-tek.com)
Eleka (http://www.eleka.net)
Elhuyar (http://www.elhuyar.com)
Hizkia Informatika (http://www.hizkia.fr)
UZEI (http://www.uzei.com)
Nork: Kepa Sarasola. Ixa taldea.2008/02/19 14:05:01.101 GMT+1
Etiketak:
ht-baliabideak
| Permalink
| Erantzunak (0)
| Errenferentziak: (0)