<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Hizkuntza-teknologiak</title>
    <link>http://www.unibertsitatea.net/blogak/ixa</link>
    <description>IXA taldea</description>
    
     
     <item>
      <title>Hizkuntza Teknologia Interneteko bilatzaileetan: Azkenean sartu dute!</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/hizkuntza-teknologia-interneteko-bilatzaileetan-azkenean-sartu-dute</link>
      <description><![CDATA[
        Azkenean bai! Interneteko bilatzaileetan nabaritzen ari da <i>hizkuntza-teknologia </i>erabiltzen hasi dela. Oraintsu arte Google-k eta beste bilatzaileetan hitz soila izan da oinarria, karaktere-sekuentzia hutsa. Azken hilabeteetan hasi dira azaltzen gauza berriak.<br>
<img alt="Google galderei erantzuten" src="http://ixa2.si.ehu.es/irudiak_blog/Italy-area.png" width="480" height="360">

<br>Sei puntu aipa ditzakegu nazioartekoan:<br><ul><li><a href="http://www.powerset.com/explore/go/who-founded-dell%3F">Powerset</a></li><li><a href="http://www.hakia.com/search.aspx?q=Woody+Allen">Hakia</a></li><li>Google (Ohiko galderak erantzutea /<a href="http://www.google.com/search?hl=en&amp;q=what+is+the+population+of+Japan%3F&amp;btnG=Search">Question Answering</a>)</li><li>Google (Hizkuntzen arteko bilaketa /<a href="http://translate.google.com/translate_s?hl=en&amp;clss=&amp;q=concert+of+Oskorri&amp;sl=en&amp;tl=es">CLIR Cross Lingual Information Retrieval</a>)</li><li>Google (<a href="http://googleblog.blogspot.com/2005/08/fill-in-blanks.html">Esaldiko hutsuneak bete</a> / <a href="http://www.google.com/search?hl=en&amp;q=the+submarine+was+invented+by+*&amp;btnG=Search">Fill-in-the-blank search</a> )</li><li>Google (<a href="http://www.google.com/search?hl=en&amp;q=el+submarino+fue+inventado+por+*&amp;btnG=Google+Search">lematizazioa</a>, <a href="http://www.google.es/search?hl=eu&amp;q=el+telefono+fue+inventado+por+*&amp;btnG=Bilatu&amp;meta=">hutsuneak bete</a> )<br></li></ul><a href="http://www.elebila.eu/search/?bilatu=iraungi&amp;bot_bilatu=Bilatu&amp;lang=eu">Elebila</a> ere multzo honetan sar dezakegu, hitzetatik harantzago baitoa bere bilaketetan euskarazko guneetan.<br>Ez da egin aurkezpen ofizialik tresna berri horiekin, apurka-apurka eta ixilik ari dira azaltzen, baina hor daude. <br>Azken asteetan, baina,&nbsp; gaia pil-pilean egon da Microsoft-ek <a href="http://www.powerset.com/">Powerset</a> (sarearen analisi sintaktikoa egiten ari zen bilatzailea) <a href="http://venturebeat.com/2008/06/26/microsoft-to-buy-semantic-search-engine-powerset-for-100m-plus/">erosi omen duelako</a>.<br>

<br>Berri onak dira Hizkuntza-teknologiaren alde apustua egin dugunontzat.<br>
       ]]></description>
      
        <category>ht-informazioaren</category>
      
        <category>bilaketa</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/hizkuntza-teknologia-interneteko-bilatzaileetan-azkenean-sartu-dute#comments</comments>
      <dc:creator>ixa (Eneko Agirre eta Kepa Sarasola)</dc:creator>
      <pubDate>Thu, 10 Jul 2008 12:06:55 +0200</pubDate>
      
     </item>
    
     
     <item>
      <title>Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/ingeleserako-analizatzaile-sintaktiko-bat-nahi-dut-zein-dago-eskura</link>
      <description><![CDATA[
        <pre>Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile <br>sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.<br>Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko, <br>eta ondoko lista prestatu dugu. <br>Listan hiru multzo bereizten ditugu <b>eskuratzeko erraztasuna</b>ren arabera.<br>Beste alde batetik, parser bat aukeratzeko orduan <b>estaldura</b> (zelako esaldiak analizatzeko<br>gauza den) eta <b>erantzun-denbora</b> ere kontuan hartu beharko dira.<br></pre><h4><b>Guztiz libreak:</b><br></h4><pre>* <a href="http://w3.msi.vxu.se/%7Enivre/research/MaltParser.html%20%20">Maltparser</a><br>Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).<br>Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke, <br>noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.<br>Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.<br>Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.<br><br>* <a href="http://josie.stanford.edu:8080/parser">Stanford Parser</a><br>Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia) <br></pre>

<pre>* <a href="http://garraf.epsevg.upc.es/freeling%20%20">Freeling</a> <br>Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik, <br>baina azken hilebetetan hobekuntza nabarmena jaso du. <br>Guztiz librea (GNU GPL).<br><br>* <a href="http://nltk.org">NLTK</a> <br>Natural Language ToolKit<br>Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da. <br>Python lengoaia erabili da programatzeko.<br></pre>

<h4><b>Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:</b><br></h4><pre>* <a href="http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/">RASP</a><br>Egungo erronka&nbsp; handiena da ezagutza linguistikoa eta estatistikoa<br>konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz<br>John Carroll-ek Robust Accurate Statistical Parsing (<a href="http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/">RASP</a>) sistema sortu du. <br>Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da. <br><br>* <a href="http://www.cis.upenn.edu/%7Edbikel/software.html%20%20">Bikel</a> <br>Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: <a href="http://people.csail.mit.edu/mcollins/code.html">Collins</a> <br>eta <a href="http://www.cs.brown.edu/people/ec">Charniak</a>.<br>Bikel-ek egin zuen berrinplementazioa java lengoaiaz, <br>eta orain Bikelen parser hori erabiltzen da.<br></pre><h4><b>Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:</b></h4>

<pre>* <a href="http://www.connexor.com/demo/syntax%20%20">Connexor</a>  <br>Ezagutza linguistikoan oinarritutakoa.<br>* <a href="http://www2.parc.com/isl/groups/nltt/xle%20%20">Xerox</a><br>Ezagutza linguistikoan oinarritutakoa.<br><br></pre>
       ]]></description>
      
        <category>ht-sintaxia</category>
      
        <category>ht-tresnak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/ingeleserako-analizatzaile-sintaktiko-bat-nahi-dut-zein-dago-eskura#comments</comments>
      <dc:creator>Ixa taldea. Koldo Gojenola eta Kepa Sarasola</dc:creator>
      <pubDate>Wed, 18 Jun 2008 14:34:43 +0200</pubDate>
      
     </item>
    
     
     <item>
      <title>Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara</link>
      <description><![CDATA[
        <p><tt>Galdera-erantzutea (Question Answering, QA) arloko sistemak
oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema
berean konbinatu behar baitira bi azpiarloko teknikak: Informazio
Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa
automatikoa (Natural Language Processing, NLP). <br>
</tt></p>

<p><tt>QAko sistemari lengoaia naturalezko galderak egiten zaizkio
(kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak
testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa
erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).<br>
</tt></p>

<p><tt>Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da
martxan.&nbsp; Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan,
egun edonon onartzen diren ebaluazio-neurriak eta
ebaluazio-eskakizunak&nbsp; ezarri ditu-eta. Hala ere, hasierako TREC QA
lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen
inondik ere azaltzen.<br>
</tt></p>

<tt>2003. urtean <a href="http://www.clef-campaign.org">CLEF </a></tt><tt><a href="http://www.clef-campaign.org">foroa</a> </tt><tt>(Cross Language
Evaluation Forum)&nbsp; hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta
hizkuntzen arteko QA sistemetarako: </tt><a href="http://amedeopc.isti.cnr.it/ClefQA/"><tt><b><b>Multilingual Question Answering at CLEF</b></b></tt></a><tt>. Geroago, adar berri horretako
azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak
gero eta hobeak.<br>
</tt>
<p><tt>2008ko lehiaketan euskara ere izango da hizkuntza aztergaien
artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera,
espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta
portugesa. Euskara bi modutan izango da aztergai:&nbsp; <br>
</tt></p>

<ul><li><tt>Proba batean euskaraz idatzitako testuetan bilatu beharko
dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo
dira.</tt></li><li><tt>Beste proba batean galderak euskaraz egingo dira, eta
erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz
dauden testuetan.</tt></li></ul>

<tt><a href="http://www.anhitz.com/">Anhitz</a> ikerketa proiektu estrategikoren barruan <a href="http://ixa.si.ehu.es">Ixa</a> taldeko kide batzuk eta <a href="http://www.elhuyar.org/">Elhuyar Fundazioa</a> euskararen eginkizunetan antolatzaile izango dira
(lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa
prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira,
baina lehenengo proban bakarrik. <br>
<br>
Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta
galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute
parte hartzaileen balorazioak denen artean komentatzeko. <br>
<span style="font-family: arial; color: black;"></span><br>
</tt> <tt>Ea lehiaketa honek laguntzen duen arlo honetan euskararekin
ere aurrera egiten.<br>
<br>
-----------------------------------------------<br>
GALDEREI BURUZ<br><a href="http://amedeopc.isti.cnr.it/ClefQA/QA@CLEF08_Question_Generation_Guidelines.pdf">Lehiaketaren arauetan</a> ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:<br>
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait&nbsp; <br>
&nbsp;&nbsp;&nbsp; Q: Who was called the “Iron-Chancellor”? &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; A: Otto von Bismarck.<br>
&nbsp;&nbsp;&nbsp; Q: What year was Martin Luther King murdered?&nbsp;&nbsp;&nbsp; A: 1968.<br>
&nbsp;&nbsp;&nbsp; Q: Which town was&nbsp; Mozart born in?&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; A: Salzburg.</tt><tt><br>
</tt><tt>b) Definizio-galderak (%15):<br>
&nbsp;&nbsp;&nbsp; Q: Who is Robert Altmann? &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp; A: Film maker.<br>
&nbsp;&nbsp;&nbsp; Q: What is the Knesset? &nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;&nbsp; A: Parliament of Israel.<br>
c) Lista-erantzunekoak (%5):<br>
&nbsp;&nbsp;&nbsp; Q: Name all the airports in London, England.&nbsp;&nbsp;&nbsp;&nbsp; A: Gatwick, Stansted, Heathrow, Luton and City.<br>
&nbsp;&nbsp;&nbsp; Q: Name the last three American Presidents.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; A: George H.W. Bush, Bill Clinton, George W. Bush.<br>
d) Erantzun ezagunik gabeko galderak (%5)<br>
</tt>
       ]]></description>
      
        <category>ht-aplikazioak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Thu, 08 May 2008 19:15:10 +0200</pubDate>
      
     </item>
    
     
     <item>
      <title>Roberto Navigliren hitzaldia</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/roberto-navigliren-hitzaldia</link>
      <description><![CDATA[
        Hizkuntzaren ulermen automatikoa gauzatuko bada, hitz bat erabiltzen dugunean zein esanahirekin egiten den ebatzi beharko da. Hori da adiera desanbiguazioa, eta gaur egun %60-%90 doitasunarekin egiten da.<br><p>Hizkuntzaren Azterketa eta Prozesamendua masterraren barruan,
Roberto Navigli adituak hitzen adiera desanbiguazioa eta adieren
granularitateari buruzko hitzaldiak eskainiko ditu Donostiako
informatika fakultatean.</p>



  
   <p><a href="http://www.dsi.uniroma1.it/%7Enavigli/">Roberto Navigli</a>
ikerlari
italiarra Erromako "La Sapienza" unibertsitateko irakaslea da. Internet
Semantiko eta Lengoaia Naturalaren Prozesamenduan aritzen da, adiera
desanbiguazioan, ontologien ikasketan eta ezagutzaren ikasketan orohar.</p>
<p><a href="http://ixa.si.ehu.es/master/index_html">HAP masterraren</a>
barruan, Donostiako Informatika fakultatean bi hitzaldi eskainiko ditu
(gradu aretoan, apirilak 25 ostirala, arratsaldeko 4etan):</p>

<ul><li>An Introduction to Word Sense Disambiguation, with a Focus on Knowledge-based Methods</li><li>Dealing with the Complexities of Sense Granularity:  Knowledge-Based Validation of Fine-grained Sense Annotations</li></ul>
<p>Hitzaldiak irekiak eta ingelesez izango dira.</p><p><br></p>
       ]]></description>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/roberto-navigliren-hitzaldia#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Thu, 24 Apr 2008 11:45:13 +0200</pubDate>
      
     </item>
    
     
     <item>
      <title>Lematizatzailea. Testuetako anbiguotasun morfologikoa murrizten. </title>
      <link>http://www.unibertsitatea.net/blogak/ixa/lematizatzailea-testuetako-anbiguotasun-morfologikoa-murrizten</link>
      <description><![CDATA[
        <a href="http://ixa.si.ehu.es/Ixa/Demoak">IXA taldeko <i>Demoak</i> web-orria</a> erabiliz, praktikan ikus dezakegu nolakoa den esaldi bateko hitzen analisi morfologikoa, eta programa lematizatzaileak nola murrizten dituen gero analisi-aukerak.<br>Gizakiontzat oso erraza da geure hizkuntza ulertzea, konputagailuari asko kostatzen zaio ordea. Adibidez, testu bateko hitzak irakurtzen ditugunean guk ez ditugu kontuan hartzen ezohiko diren interpretazio bitxiak, baina konputagailuak bai, denak aztertu behar ditu eta. Programa lematizatzaileek laguntzen diote konputagailuari interpretazio morfologikoen artean egokia aukeratzen.<br><br>Hori erraz ikus dezakegu <a href="http://ixa.si.ehu.es/Ixa/Demoak">IXA taldeko <i>Demoak</i> web-orria</a><meta http-equiv="CONTENT-TYPE" content="text/html; charset=utf-8"><title></title><meta name="GENERATOR" content="OpenOffice.org 2.3  (Linux)"> erabiliz. Batetik <a href="http://ixa2.si.ehu.es/demo/analisianali.jsp">analizatu morfologikoki</a> ondoko esaldia : 


	
	
	
	<style type="text/css">
	<!--
		@page { size: 21cm 29.7cm; margin: 2cm }
		P { margin-bottom: 0.21cm }
	-->
	</style>

<ol start="4"><ol><p style="margin-bottom: 0cm;"><span lang="es-ES"><i>Itxura hori
		zuen gizonak ikusi du.</i></span></p></ol></ol>Erabiltzen diren kategoria eta azpikategorien zerrenda ikus daiteke <a href="http://ixa2.si.ehu.es/edblkontsulta/labur-eus.htm">hemen.</a><br>Argi dago Morfeus analizatzaileak hitz bakoitza testuingurua kontuan hartu gabe analizatzen duela. <i>Itxura</i> hitza aditza ere izan daitekeela dio;&nbsp; <i>hori</i> hitza aditza eta adjektibo&nbsp; ere izan daitekeela; edo <i>ikusi</i> hitza izena. Beste esaldi batzuetan agian gerta litezke, baina gure esaldi horretan ez.<br><br>Orduan gero analizatu esaldi bera<a href="http://ixa2.si.ehu.es/demo/analisimorf.jsp"> lematizatzailea</a>rekin. Lematizatzaileak analisi morfologikoa egiten du baina gero hitzaren testuingurua aztertuta hitz bakoitzerako analisi bakarra aukeratzen du. <br><br>Morfeus analizatzaile morfologikoak batez beste euskarazko hitz bakoitzerako 2,81 analisi diferente sortzen ditu. Kategoria eta azpikategoria sintaktikoa bakarrik kontuan hartuta 1,5 analisi ematen du hitz bakoitzeko. Lematizatzaileak ordea, testuingurua aztertu ondoren lema eta kategoria bakarra hautatzen du hitz bakoitzerako. Hanka sartzen du, baina %1 edo %2an baino ez. Oso tresna erabilgarria da hizkuntza-teknologian.<br><br><br>
       ]]></description>
      
        <category>ht-morfologia</category>
      
        <category>ht-tresnak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/lematizatzailea-testuetako-anbiguotasun-morfologikoa-murrizten#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Tue, 26 Feb 2008 19:40:37 +0100</pubDate>
      
     </item>
    
     
     <item>
      <title>Egunkaria,  hizkuntza-teknologiako baliabideen sortzailea</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/egunkaria-hizkuntza-teknologiako-baliabideen-sortzailea</link>
      <description><![CDATA[
        <img alt="Egunkaria libre" src="http://farm3.static.flickr.com/2246/2260933662_aaa821bc45_o.gif" height="180" width="240"> <p><b><span style="font-family: Georgia;" lang="ES"><span></span></span></b>
Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten. <br>Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek&nbsp; hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun. <br><br></p><blockquote>Subject: <b>Today Basque is "an even more" endangered language. (2003/03/05)</b><br>Dear colleagues<br>We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.<br>The only Basque language newspaper in the world "Egunkaria" was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.<br>It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),<br>Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)<br>and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.<br>Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.<br>There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.<br><br>We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to<br>http://www.sustatu.com/english/egunkaria.<br><br>Today Basque is "an even more" endangered language.<br><br>Research groups and companies working on Human Language Technology from the Basque Country supporting this message:<br><br>&nbsp;&nbsp; AHOLAB group (http://bips.bi.ehu.es)<br>&nbsp;&nbsp; DELi group (http://www.deli.deusto.es)<br>&nbsp;&nbsp; ILCLI group on semantics, pragmatics and rhetoric<br>(http://www.sc.ehu.es/ilcli)<br>&nbsp;&nbsp; IXA NLP group (http://ixa.si.ehu.es)<br>&nbsp;&nbsp; Code &amp; Syntax (http://www.codesyntax.com)<br>&nbsp;&nbsp; Diana Teknologia (http://www.diana-tek.com)<br>&nbsp;&nbsp; Eleka (http://www.eleka.net)<br>&nbsp;&nbsp; Elhuyar (http://www.elhuyar.com)<br>&nbsp;&nbsp; Hizkia Informatika (http://www.hizkia.fr)<br>&nbsp;&nbsp; UZEI (http://www.uzei.com)</blockquote>
       ]]></description>
      
        <category>ht-baliabideak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/egunkaria-hizkuntza-teknologiako-baliabideen-sortzailea#comments</comments>
      <dc:creator>Kepa Sarasola. Ixa taldea</dc:creator>
      <pubDate>Tue, 19 Feb 2008 14:05:01 +0100</pubDate>
      
     </item>
    
     
     <item>
      <title>Hizkuntza ofiziala izatearen garrantzia</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/hizkuntza-ofiziala-izatearen-garrantzia</link>
      <description><![CDATA[
        Europako Batzordeak bere <a href="http://langtech.jrc.it/DGT-TM.html">itzulpenen corpusa</a> liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko. <br><br>Horren berri jaso da <a href="http://www.enpresadigitala.net/euskera/noticias/noticia_concreta.jsp?id=3242">Enpresa Digitala</a>-n eta <a href="http://sustatu.com/1202722245">Sustatu</a>-n.<br><br>Baina euskara ez dago 23 hizkuntza ofizial horien artean.<br>Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.<br><br>Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.<br><br>Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da <a href="http://www.statmt.org/europarl/">Europarl</a> corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan).<br>Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.<br><br>Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo.<br>Baina... euskara?<br><br>Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.<br><br>Baina ... oso inportantea da HIZKUNTZA OFIZIALA izatea.<br><br>
       ]]></description>
      
        <category>ht-baliabideak</category>
      
        <category>ht-itzulpen-automatikoa</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/hizkuntza-ofiziala-izatearen-garrantzia#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Tue, 19 Feb 2008 13:18:29 +0100</pubDate>
      
     </item>
    
     
     <item>
      <title>Fernando Morillo idazleak teknologia bidaide (II)</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/fernando-morillo-idazleak-teknologia-bidaide-ii</link>
      <description><![CDATA[
        <div id="summary">
Euskara konputagailuekin automatikoki lantzen irakatsi nahi dugu&nbsp; <a href="http://ixa.si.ehu.es/Ixa/master">HAP masterrean</a>, berriro inbitatu nahi izan dugu <a href="http://www.idazleak.org/idazleak/idazlea.php?idazle_id=174">Fernando Morillo</a> idazlea mintegi ireki batean parte hartzeko.&nbsp; <br> 
</div>

Orain dela bi urte Hiztek masterrean txundituta utzi gintuen bere hitzaldiarekin. Honela hasten zen <a href="http://www.sustatu.com/1113908984">kronika hau</a> bidali genuen Sustatura: 
<br><blockquote><i>Fernando Morillo idazleak aho zabalik utzi gaitu ostiraleko Hiztek
mintegian. Argi geratu zaigu etorri handikoa dela azpeitiar hau, baita
ere teknologia funtsezkoa zaiola etorri hori aberasteko. Bi orduko
saioan bere jardun profesionaleko 25 programa aurkeztu dizkigu,
pantailan eta martxan. Txundituta utzi gaitu.
</i><br></blockquote>
Ikusi, ikusi orduko hitzaldiaren <a href="http://www.sustatu.com/1113908984">laburpen osoa.</a><br>Beraz, badakizue nora joan ostiral arratsaldean:<br><ul><li><b>
Hitzaldia:</b> Hizkuntza-teknologia berriak eta literatura</li><li><b>
Non</b>: <a href="http://www.informatika.ehu.es/p050-11376/eu/contenidos/informacion/localizacion/eu_local305/informatica_gipuzkoa.html">Donostiako Informatika Fakultateko</a> Gradu Aretoan</li><li><b>Hizlaria</b>: <a href="http://www.idazleak.org/idazleak/idazlea.php?idazle_id=174">Fernando Morillo</a> <br>Azpeitiarra da eta zientziazale amorratua
txikitatik. Fisika ikasten hasi zen baina Filosofia ikasketak burutu
zituen. Literatur sarien irabazle: /Gudoste ametsak/ lanak Donostia
Hiria saria oparitu zion 1999. urtean; Pasaiako Hiria, Igartza
Literatur beka eta Gabriel Aresti saria irabazi ditu, besteak beste.
CAF-Elhuyar-ek emandako zientzia artikuluen gaineko sarien irabazle
suertatu da birritan ere.</li><li><b>
Gaia</b>: hizkuntza-teknologiek
literatura sortzerakoan eskaintzen dituzten aukerez mintzatuko da. Eta
gogoeta egitearekin batera, literatura egiteko baliagarri izan
daitezkeen hainbat tresna erakutsiko dizkigu.
</li></ul>
       ]]></description>
      
        <category>ht-aplikazioak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/fernando-morillo-idazleak-teknologia-bidaide-ii#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Wed, 12 Dec 2007 10:51:41 +0100</pubDate>
      
     </item>
    
     
     <item>
      <title>Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16)</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/dokumentuen-berreskurapena-ricardo-baeza-ren-hitzaldia</link>
      <description><![CDATA[
        <meta http-equiv="CONTENT-TYPE" content="text/html; charset=utf-8"><title></title><meta name="GENERATOR" content="OpenOffice.org 2.0  (Linux)"><meta name="CREATED" content="20071008;19152400"><meta name="CHANGED" content="16010101;0">
	
	
	
	
	<style>
	<!--
		@page { size: 21cm 29.7cm; margin: 2cm }
		P { margin-bottom: 0.21cm }
	-->
	</style>

<pre><font face="Bitstream Vera Sans"><a href="http://www.dcc.uchile.cl/%7Erbaeza/spanish.html">Ricardo Baeza-Yates</a> ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. </font>
<font face="Bitstream Vera Sans">Dokumentu-bilatzaileak nola hobetu? Hori da gaia.<br>- Eguna: urriaren 16a</font>
<font face="Bitstream Vera Sans">- Ordua: arratsaldeko 4etan</font>
<font face="Bitstream Vera Sans">- Gaiak: IR y NLP. Mineria de consultas </font>
    <font face="Bitstream Vera Sans">(hitzaldiak gaztelaniaz izango dira)</font>
<font face="Bitstream Vera Sans">- Tokia: Donostiako Informatika Fakultateko gradu-aretoa</font></pre><h5>
</h5><h5><font><font face="Bitstream Vera Sans">Ricardo Baeza-Yates</font></font></h5><p>
</p>
<pre><font face="Bitstream Vera Sans"><a href="http://research.yahoo.com/Yahoo_Research_Barcelona">Yahoo! Research Barcelona</a> ikerketa-zentroko zuzendaria da  gaur egun,<br>baita <a href="http://research.yahoo.com/Yahoo_Research_Santiago">Yahoo! Research Latin America</a> zentrokoa ere. <br>Lehenago, 2005. urtera arte, Txileko <a href="http://www.cwr.cl/">Weberako ikerketa zentroko</a> zuzendaria <br>eta Bartzelonako <a href="http://www.upf.ed/">Pompeu Fabra</a> unibertsitateko katedraduna izan zen.<br>Oso ikerlari famatua da Information Retrieval arloan.</font><br><font face="Bitstream Vera Sans">Bere <a href="http://www.dcc.uchile.cl/%7Erbaeza/cv/publ.html">argitalpenen</a> artean aipagarria da <a href="http://sunsite.dcc.uchile.cl/irbook/">Modern Information Retrieval</a> liburua<br><br></font></pre><h5><font face="Bitstream Vera Sans">Dokumentuen berreskurapena (IR,
<i>Information Retrieval</i>)</font></h5>
<p style="margin-bottom: 0cm; line-height: 150%;" align="justify"><font size="2"><font face="Bitstream Vera Sans">Aplikazio
honen helburua hainbat eta hainbat dokumenturen artean bakar bat
(edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana.
Noski, adibide tipikoena Interneterako bilatzaileena da,&nbsp; <a href="http://www.google.com">Google</a>&nbsp;</font></font><font size="2"><font face="Bitstream Vera Sans"> eta Yahoo !esatebaterako</font></font><font size="2"><font face="Bitstream Vera Sans"><font color="#000000">.
</font>Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez
denez,&nbsp;hainbat ekarpen</font></font><font face="Bitstream Vera Sans"> izan&nbsp;<font size="2"> dira: </font></font>
</p>
<ul><li><p style="margin-bottom: 0cm;"><font face="Bitstream Vera Sans"><font size="2"><a href="http://www.kapsula.com/">Ametzagaina
	taldearen <i>Kapsula</i></a> softwarea, </font></font>
	</p>
	</li><li><p style="margin-bottom: 0cm;"><font face="Bitstream Vera Sans"><font size="2"><a href="http://www.diana-teknologia.com/www1/euskera/xerka.htm">Diana
	Teknologia enpresaren Xerka</a>, eta IXA taldearen lematitzailea
	erabilita. </font></font>
	</p>
	</li><li><p style="margin-bottom: 0cm;"><font face="Bitstream Vera Sans"><font size="2">IXA
	taldearen lematizatzailea zenbait web gunetan integratu izan da:
	<a href="http://www.berria.info/hemeroteka.php">Berria egunkariaren hemerotekan</a>, <a href="http://www.zientzia.net/">ZientziaNet</a>-en, <a href="http://www.jalgi.com/">Jalgi-n</a>...</font></font></p>
	</li><li><p><font face="Bitstream Vera Sans"><font size="2">Urrian bertan plazaratuko da <a href="http://www.elebila.eu">Elebila</a> Interneteko bilatzaile berria</font> <font size="2">euskarazko
	dokumentuetan bakarrik bilatuko dituena eta euskararen ezaugarriak
	kontuan hartuta.</font></font></p>
</li></ul>
<p style="margin-top: 0.21cm; margin-bottom: 0cm; line-height: 150%;" align="justify" lang="eu">
<font face="Bitstream Vera Sans"><font size="2">IR-ko programek barruan
hiru modulu edukitzen dute: <i>modulu indexatzailea,</i> dokumentuak
aztertuta hitzekin indizeak sortzen dituena;&nbsp; <i>modulu
bilatzailea,</i> indizeak erabilita dokumentu interesgarriak azkar
bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera
ordenatzen dituen modulua.</font></font></p><p style="margin-top: 0.21cm; margin-bottom: 0cm; line-height: 150%;" align="justify" lang="eu"><font face="Bitstream Vera Sans"><font size="2">Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan:&nbsp; dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta </font></font><font face="Bitstream Vera Sans"><font size="2">lengoaia bereziak, </font></font><font face="Bitstream Vera Sans"><font size="2">erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa, <br> </font></font>
</p>
<p><br></p><br><pre><font face="Bitstream Vera Sans"><br></font></pre>
<meta http-equiv="CONTENT-TYPE" content="text/html; charset=utf-8"><title>Morfologia konputazionala</title><meta name="GENERATOR" content="OpenOffice.org 2.0  (Linux)"><meta name="AUTHOR" content="iñaki"><meta name="CREATED" content="20050613;10410000"><meta name="CHANGEDBY" content="CAU"><meta name="CHANGED" content="20050613;10410000">
	
	
	
	
	
	
	<style>
	<!--
		@page { size: 21cm 29.7cm; margin: 2cm }
		H3 { margin-bottom: 0.11cm }
		H3.western { font-family: "Bitstream Vera Serif", serif; so-language: eu }
		H3.cjk { font-family: "Bitstream Vera Sans" }
		H3.ctl { font-family: "Lucidasans"; font-size: 12pt; font-weight: medium }
		P { margin-bottom: 0.21cm }
		A:link { color: #0000ff }
	--></style><meta http-equiv="CONTENT-TYPE" content="text/html; charset=utf-8"><title></title><meta name="GENERATOR" content="OpenOffice.org 2.0  (Linux)"><meta name="CREATED" content="20071008;19152400"><meta name="CHANGED" content="16010101;0">


	
	
	
	
	
	<style>
	<!--
		@page { size: 21cm 29.7cm; margin: 2cm }
		P { margin-bottom: 0.21cm }
	--></style>
       ]]></description>
      
        <category>berreskurapena</category>
      
        <category>dokumentu-bilatzaileak</category>
      
        <category>ht-aplikazioak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/dokumentuen-berreskurapena-ricardo-baeza-ren-hitzaldia#comments</comments>
      <dc:creator>ixa</dc:creator>
      <pubDate>Mon, 08 Oct 2007 20:40:46 +0200</pubDate>
      
     </item>
    
     
     <item>
      <title>Analisi sintaktiko automatikoa. Carroll irakaslearen bisita (uztaila, 9-11)</title>
      <link>http://www.unibertsitatea.net/blogak/ixa/analisi-sintaktiko-automatikoa-carroll-irakaslearen-bisita-uztaila-9-11</link>
      <description><![CDATA[
        Ingalaterrako Sussex Unibertsitateko John Carroll irakaslea gurekin izango da uztailaren 9tik 11ra (egitaraua behean ikusi).<br><br>Hizkuntza prozesatzeko analisi sintaktikoa izaten da pausorik garrantzitsuenetariko bat, perpausaren osagai nagusiak zeintzuk diren (izen-sintagma, aditz-sintagma...) eta beraien arteko erlazioak ezagutzeko (subjektu, objektu...). Ingelesa izan da gehien landu den hizkuntza, eta gaur egunean lau dira analizatzaile hoberenak:<br>&nbsp;&nbsp; a)&nbsp;&nbsp; &nbsp;Ezagutza linguistikoan oinarritutakoak. <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href="http://www.connexor.com/demo/syntax/">Connexor</a> eta <a href="http://www2.parc.com/isl/groups/nltt/xle/">Xerox</a><br>&nbsp;&nbsp; b)&nbsp;&nbsp; &nbsp;Estatistikan oinarritutako sistemak<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <a href="http://people.csail.mit.edu/mcollins/code.html">Collins</a> eta <a href="http://www.cs.brown.edu/people/ec/">Charniak</a><br><br>Egungo erronka&nbsp; handiena da ezagutza linguistikoa eta estatistikoa konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz John Carroll-ek Robust Accurate Statistical Parsing (<a href="http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/">RASP</a>) sistema sortu du. Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.<br><br><br><b>Egitaraua:</b><br>Lekua: Informatika Fakultateko batzar aretoan.<br>Uztailaren 9/10, 15:30-17:30: <br>Ikastaroa: <b>NLP and parsing.</b><br><blockquote>&nbsp; 1.techniques for shallow parsing: treebanks, linguistic grammars, &nbsp;<br>&nbsp; 2.Disambiguation.<br>&nbsp; 3.parser evaluation<br>&nbsp; 4.high precision parsing<br>&nbsp; 5.efficient deep parsing<br>&nbsp; 6.robust parsing and shallow semantics<br></blockquote>Uztailaren 11, 11:30-13:00: <br>Hitzaldia: <b>Text categorization for improved priors of word meaning.</b><br><blockquote>Distributions of the senses of words are often highly skewed. This fact is exploited by word sense disambiguation (WSD) systems which back off to the predominant (most frequent) sense of a word when contextual clues are not strong enough. The topic domain of a document has a strong influence on the sense distribution of words.<br>Unfortunately, it is not feasible to produce large manually sense-annotated corpora for every domain of interest. Previous experiments have shown that unsupervised estimation of the predominant sense of certain words using corpora whose domain has been determined by hand outperforms estimates based on domain-independent text for a subset of words and even outperforms the estimates based on counting occurrences in an annotated corpus.<br>In this talk I will address the question of whether it is possible to _automatically_ produce domain-specific corpora which could be used to acquire predominant senses appropriate for specific domains.<br></blockquote>
       ]]></description>
      
        <category>ht-teknikak</category>
      
      <comments>http://www.unibertsitatea.net/blogak/ixa/analisi-sintaktiko-automatikoa-carroll-irakaslearen-bisita-uztaila-9-11#comments</comments>
      <dc:creator>Koldo Gojenola. IXA taldea</dc:creator>
      <pubDate>Tue, 26 Jun 2007 14:53:00 +0200</pubDate>
      
     </item>
    
  </channel>
</rss>