Unibertsitatea.Net

Blog komunitatea   Sar zaitez blogera

2008/06/18 14:34:43.521 GMT+2

Ingeleserako analizatzaile sintaktiko bat nahi dut. Zein dago eskura?

Batzuetan aplikazio batean edo ikerketa batean ingeleserako analizatzaile 
sintaktiko bat (parser) erabili nahi dugu hizkuntza-teknologian.
Lagun batek galdetu digu zer dagoen eskura gaur egunean hori martxan jartzeko,
eta ondoko lista prestatu dugu.
Listan hiru multzo bereizten ditugu eskuratzeko erraztasunaren arabera.
Beste alde batetik, parser bat aukeratzeko orduan estaldura (zelako esaldiak analizatzeko
gauza den) eta erantzun-denbora ere kontuan hartu beharko dira.

Guztiz libreak:

* Maltparser
Guztiz librea eta ona ere Nivrerena da (maltparser, Javaz dago).
Parser estatistikoa da. Edozein hizkuntzatarako egokitu daiteke,
noski, sintaktikoki etiketatuta dagoen corpus bat edukiz gero.
Ingeleserako entrenatuta dago eta erabiltzeko eta jaisteko aukera ematen dute.
Ixa taldeko Koldo Gojenola eta Kepa Bengoetxea ari dira euskararako entrenatzen.

* Stanford Parser
Emaitza onak aurkeztu dituzte artikuluetan. Librea ere bai (GNU lizentzia)
* Freeling 
Espainierakoa aspaldi dago martxan. Ingeleserakoa garapen mailan dabil oraindik,
baina azken hilebetetan hobekuntza nabarmena jaso du.
Guztiz librea (GNU GPL).

* NLTK
Natural Language ToolKit
Hizkuntzaren prozesaketarako tresna multzo honetan parser sinple bat eskaintzen da.
Python lengoaia erabili da programatzeko.

Libreak ikerketetarako, baina erabilera komertzialetarako lizentzia ordaindu behar da:

* RASP
Egungo erronka  handiena da ezagutza linguistikoa eta estatistikoa
konbinatzea analizatzaile hobeak lortzearren. Ildo horretatik ikertuz
John Carroll-ek Robust Accurate Statistical Parsing (RASP) sistema sortu du.
Oso ondo dabil eta hainbeste ikerkuntza-proiektutan zein aplikaziotan erabiltzen ari da.

* Bikel
Oinarria aurretik erabiltzen ziren bi parser estatistiko hauek dira: Collins
eta Charniak.
Bikel-ek egin zuen berrinplementazioa java lengoaiaz,
eta orain Bikelen parser hori erabiltzen da.

Erabil daitezke Internet-en bidez esaldi batzuk analizatzeko, baina ezin dira jaitsi norberaren makinan erabiltzeko:

* Connexor  
Ezagutza linguistikoan oinarritutakoa.
* Xerox
Ezagutza linguistikoan oinarritutakoa.

Nork: Ixa taldea. Koldo Gojenola eta Kepa Sarasola.2008/06/18 14:34:43.521 GMT+2
Etiketak: ht-sintaxia ht-tresnak | Permalink | Erantzunak (2) | Errenferentziak: (0)

Erantzunak

Irakasle eta ikasleetaz aparte blog honen ideia, beste edozeinek kontsultatu eta dudak argitzeko erabilgarria izan dadin sortu dela uste dut. Beraz nik ingeleserako parserren inguruan (stanford, elda, bison, freeling, YACC, CASS, brown) azterketa txikitxo bat egina dut, beraz edonork eskuratu nahi badu .pdf formatuan dago, baina eztakit nola igo daitekeen blog honetara email bat bidali iezadan.

Nere ideia nagusia, ingeleserako parserra erabilterraza aurkitzea da. Non testu bat emanda parserra exekutatu eta hitzen kategoriekin gelditu. Gero kategoria hauek aztertu eta batzuk kanpoan utzi. 

Ea laguntzerik baduzuen

Mila esker

pd: oso ideia ona, gure ideiak eta eztabaidak denentzat atzigarri uztea



Nork: borja.2008/06/18 19:14:59.881 GMT+2

Honako helbide honetan aurki daiteke analizatzaileei buruzko informazioa:

http://aclweb.org/aclwiki/index.php?title=Parsers_%28English%29

Nork: Andoni Sagarna.2008/06/22 20:36:08.672 GMT+2
http://www.bloglines.com/blog/andonisagarna

Idatzi artikulu bat





The CAPTCHA image

Irudian agertzen diren letrak idatzi beheko kutxan. Spammerrei aurre egiteko CAPTCHA metodoa da hau Captchas.net zerbitzuari esker



bisitari