Hitzaldia. Adam Kilgarriff: Nola ezagutu zure corpus hori. (2012/11/07)

Gero eta errazago da norberak corpus bat biltzea, saretik jasotako hainbat testu bilduta, adibidez. Baina… nola jakin modu erraz batean zelakoa den bildu dugun testu guzti hori?
Zelan bereizi eskura ditugun beste testu-bilduma batzuetatik?
Adam Kilgarriff aditua da corpusen sorkuntzan eta azterketan.

Gaia: Getting to Know Your Corpus  (Nola ezagutu zure corpus hori)
Hizlaria: Adam Kilgarriff (Brightoneko Lexical Computing Ltd. enpresako zuzendaria)
Eguna: azaroaren 7an, asteazkena
Ordua: 16:00
Tokia:  3.2 aretoa. Informatika Fakultatea

Laburpena
Corpora are not easy to get a handle on. The usual way of getting to grips with text is to read it, but corpora are mostly too big to read (and not designed to be read). We show, with examples, how keyword lists (of one corpus vs: another) are a direct, practical and fascinating way to explore the characteristics of corpora, and of text types. Our method is to classify the top one hundred keywords of corpus1 vs: corpus2, and corpus2 vs: corpus1. This promptly reveals a range of contrasts between all the pairs of corpora we apply it to. We also present improved maths for keywords, and quantitative comparisons between corpora. All the methods discussed (and almost all of the corpora) are available in the Sketch Engine, a leading corpus query tool.

Egunkaria, hizkuntza-teknologiako baliabideen sortzailea

Egunkaria libre


Ematen du amesgaiztoa ez dela bukatzen. Egunkariaren auzia ez da ixten.
Orain dela bost urte mezu hau zabaldu genuen hizkuntza-teknologiako hainbat eragilek  hizkuntza-teknologiako hainbat posta zerrendetan. Berriro ekarri nahi izan dut hona Egunkariak hizkuntza-teknologiari egin zion ekarpena gogora dezagun.

Subject: Today Basque is “an even more” endangered language. (2003/03/05)
Dear colleagues
We know that this kind of message is not common in this mailing list, but we would like to inform you about a direct attack to the Basque culture, which has a direct influence in our research efforts.
The only Basque language newspaper in the world “Egunkaria” was temporarily closed on February the 20th and 10 top representatives of Basque culture arrested by a Spanish judge, under allegations of collaboration with terrorists. We want to stress that there has not been any trial yet; they have been held in protective custody. Before even finding the newspaper employees guilty, the judge decided to close down the newspaper. The closing of the newspaper is a preventive temporary measure, but Spanish law allows the closing to go on for five years. Even after a few weeks the newspaper becomes financially unfeasible.
It is worth mentioning that Egunkaria has the support of different political sensibilities in the Basque Society, and it is also well known in the International Community. The vast majority of Basque society does not agree with the closing of Egunkaria (list of supporters in http://www.euskalnet.net/ileturia/egunkaria/list.htm). The International Federation of Journalists (http://www.ifex.org/alerts/view.html?id=11985),
Reporters Without Borders (http://www.rsf.org/article.php3?id_article=4998)
and the president of the European Bureau of Lesser Used Languages, among others, have also criticized the measure.
Being Basque an endangered language (around 800.000 speakers) under a normalization process, currently available corpora are small in size, and one of the most promising sources for our research efforts was Egunkaria.
There is also an English version of it that would allow us to research on parallel corpora. One of the biggest linguistic corpora available for Basque is the compilation of the daily issues since 2000. Language technology was being used to search in their online news database (unfortunately, their internet edition was also closed). A document classification research project was underway, as well as a research project on a pragma-rhetorical analysis of the contents of EGUNKARIA.

We do not want to initiate a debate. If you want more information or to express your sympathy, please refer to
http://www.sustatu.com/english/egunkaria.

Today Basque is “an even more” endangered language.

Research groups and companies working on Human Language Technology from the Basque Country supporting this message:

   AHOLAB group (http://bips.bi.ehu.es)
   DELi group (http://www.deli.deusto.es)
   ILCLI group on semantics, pragmatics and rhetoric
(http://www.sc.ehu.es/ilcli)
   IXA NLP group (http://ixa.si.ehu.es)
   Code & Syntax (http://www.codesyntax.com)
   Diana Teknologia (http://www.diana-tek.com)
   Eleka (http://www.eleka.net)
   Elhuyar (http://www.elhuyar.com)
   Hizkia Informatika (http://www.hizkia.fr)
   UZEI (http://www.uzei.com)

Hizkuntza ofiziala izatearen garrantzia

Europako Batzordeak bere itzulpenen corpusa liberatu du. Corpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (gaelikoa berriki onartu denez zerrendatik at geratu da). Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko.

Horren berri jaso da Enpresa Digitala-n eta Sustatu-n.

Baina euskara ez dago 23 hizkuntza ofizial horien artean.
Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.

Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.

Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da Europarl corpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu (44 milioi 2007ko azken bertsioan).
Euskararako horrelako corpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.

Europako Batzordeko azken corpus berri hau laster batean Europarl-en mailan jarriko da edo.
Baina… euskara?

Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.

Baina … oso inportantea da HIZKUNTZA OFIZIALA izatea.

Ontologia formalak. Adam Pease (Hitzaldia, 2007-06-04, 11:00)

Perpausen esanahia lortu nahi badugu, ezinbestekoak dira ontologiak.
Ontologietan, hitzak baino, adierak biltzen dira.
Adiera horien artean hainbat erlazio definitzen dira esplizituki, eta askoz gehiago deduzitu daitezke adiera horiek modu hierarkikoan definitzen direlako.

Hizkuntzaren teknologiaren barruan semantika landu ahal izateko ontologiak behar ziren.

  • Wordnet izan zen lehenengo ekarpen handiena 1995ean. Aspaldi dago kontsultagai eta librea da.
  • Wordnet-etik abiatuta EuroWordnet sortu genuen Ixa taldean, ingleserako ontologia beste hizkuntza batzuenekin lotuz, eta erlazio berriak gehituz. 
  • Euskalwordnet esaten diogu Eurowordnet-eko euskarazko aldeari. Eurowordnet ere kontsultagai dago publikoki.
  • SUMO (Suggested Upper Merged Ontology) ontologiak kontzeptu bakoitzerako hainbat propietate definitzen ditu formula logiko baten bitartez.  Hau ere kontsultagai

Azken urtean Ixa taldeko  German Rigau, eta Informatika Fakultateko Paqui Lucio eta Javier Alvez ibili dira SUMO ontologiaren koherentzia logiko aztertzen; teorema-demostratzaile bat jarri dute martxan ontologiako kontraesanak erakusteko. SUMO-ren egilea den Adam Pease-rekin harremanetan daude hobekuntza horiek elkarrekin burutzeko. Eta harreman horren fruitu gisa datorren astelehenean fakultatean bertan izango dugu Adam Pease bera hitzaldi bat ematen. Hau pagotxa!

Hitzaldia: Formal Ontology

This talk presents an overview of ontology, including how formal ontology compares to less formal approaches and how the Suggested Upper Merged Ontology (SUMO) compares to other formal ontologies. Classes of ontology-based applications are introduced. A detailed description of first order logic is provided. Issues of the capabilities and tradeoffs in first order logic inference are explored.
The SUMO is also described in detail, along with its mappings to the WordNet lexicon.

Euskararen sintaxia analizatzen lehiatuko dira munduko hainbat sistema informatiko

Aurtengo CONLL (Conference on Computational Natural Language Learning) konferentzian sistema asko lehiatuko dira munduko hainbat hizkuntzen sintaxia analizatzeko. Hizkuntza horien artean txinatarra, txekiera, arabiera, katalana eta euskara egongo dira, besteak beste.

CONLL konferentziaren helburua lengoaia naturalaren prozesamenduko metodo edo programa berriak sortzea da, beti ere ikasketa automatikoaren bidez. Ikasketa automatikoan   gehienetan metodo estatistikoak erabiltzen dira. Urtero gai bat hartzen da horrelako sistema berriak probatzeko, eta 2006 eta 2007 urteetan hizkuntza askoren analisi sintaktikoa aukeratu da horretarako.

Sistema horiek eskuz markatutako treebankbatetik jasotzen dute informazioa. Treebank esaten zio hainbat eta hainbat esaldi  sintaktikoki analizatuta dituen fitxategiari. Esaldien analisi sintaktiko horiek dependentzia edo mendekotasunen bidez adierazten dira. Adibidez, “umeak ogi handi bat jan du goizean” esaldian dependentzia hauek lortuko genituzke:

  •     Subjektu(ume, jan)
  •     Objektu(ogi, jan)
  •     Modifikatzaile(handi, ogi)
  •     Determinatzaile(bat, ogi)
  •     Modifikatzaile(goizean, jan).

Dependentzia bakoitza honelakoa da: erlazioa(modifikatzailea, burua). Informazio hori da lengoaiaren prozesamendurako sistema askok erabili ohi dutena: itzulpen automatikoan, galdera-erantzuna sistemetan, …

Treebank horretatik abiatuta programa automatikoak sortzen dituzte ikasketa automatikorako metodoek; adibidez: analizatzaile sintaktiko berri bat bere barruan gramatikarik ez duena. Ondoren, lortutako programa horiek beste testu batzuen gainean probatuko dira, esaldi berrien gainean, ebaluatzeko sistema bakoitzaren ahalmena neurtzeko.

Oraingo CONLL lehiaketa honetan, euskararen kasuan, sistemen ikasketarako 50.000 hitzeko (3.000 esaldi inguru) corpusa erabiliko da, eta azken ebaluaziorako 5.000 hitzeko beste testu bat. Esaldi guzti horiek EPEC corpusetik (Euskararen Prozesamendurako  Erreferentziazko Corpusa) hartu dira.

Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia.

Hizkuntza-ingeniaritzan corpusak ezinbesteko langai dira  hainbat tresna egiteko eta ebaluatzeko; are funtsezkoagoak dira metodo estatistikoak eta ikasketa automatikoa aplikatu ahal izateko.

Nazioarteko hizkuntza nagusiek 100 milioi hitzeko corpus nazionalak dituzte (Corpus Survey). Euskarak eduki badauzka zenbait corpus, baina oraindik nazioarteko tamaina
eta corpus nazionala, etiketatua noski, eginkizun dugu.

Behar hori asetu nahian hiru baliabide aurkeztu dituzte atzo (Prospektiba, Sustatu). Lehenengoa ZT corpusa da.  8 milioi hitzeko corpus egituratua eta linguistikoki etiketatua da, automatikoki prozesatua, zientzia eta teknologiaren alorreko 1990-2002 bitarteko hainbat obrekin sortua, 1,6 milioi hitz eskuz berrikusita eta zuzenduta dituena. Erabili  hemen.

Baina ZT corpusa bera bezain inportanteak dira bera eratzeko erabili diren metodologia eta tresnak. Corpusak nola etiketatu? Zein informaziorekin? Zein formatorekin? Zein tresnak behar dira behar ditugun corpus erraldoiak eratu eta erabiltzeko?

  • CORPUSGILE tresna berriak testu-bilketa kudeatzeko eta testuen egitura etiketatzeko kudeaketa egiteko tresna lagungarria da (XML eta TEI estandarren arabera).
  • EULIA  tresna berriak testuen etiketatze linguistikoa kudeatuko du.  Corpuseko hitz orok zenbait informazio linguistiko ditu erantsita,  hala nola: hitzaren lema eta  kategoria lexikala (% 100 zuzen, eskuz desanbiguatutako atalean, eta automatikoki esleitutakoa, gainerakoan); hitzak duen kasua eta betetzen duen funtzio sintaktikoa (automatikoki esleituak); hitz anitzeko unitateen kasuan, unitate hauen egitura ere. Etiketatze linguistiko automatikoa egindakoan, emaitzak eskuz lantzeko aukera dago.

Beraz, abiapuntuan badauzkagu zenbait tresna eta zenbait corpus:

Orduan… ea EUSKARAREN CORPUS NAZIONALA eraikitzeko gauza garen!
Arloan gabiltzan eragile guztien artean. Euskarak behar du.