Semantika hizkuntzalaritzaren adar bat da
Hizkuntzalaritza hizkuntzaren azterketa zientifikoa da eta semantika esanahiaren aldetik hizkuntza aztertzen duen hizkuntzalaritzaren adarra.
Hizkuntzalaritza eta informatika eskuz esku doaz gaur egun
1950eko hamarkadatik hona bi jakintza-arlo horiek gero eta lankidetza estuagoan dihardute eta Linguistika Konputazionala deritzogun arlo berri bat sortu dute. Hiru esparru nagusitan ari da lanean diziplina hori:
- Ahozko hizketaren tratamenduan, hau da, seinale akustikoaren tratamenduan, hizketa -ezagutze automatikoan, hizketa testu bihurtzean eta ahotsaren sintesian.
- Hizkuntzaren tratamendu edo ingeniaritza linguistikoan, batez ere eginkizun hauetan: corpusen anotazioan, entitateen (pertsona- eta leku-izenak, markak, etab.en) erauzketan, itzulpen automatikoan, laburpen automatikoan, dokumentu multzoetan bilaketak egitean.
- Gizakiaren eta makinaren arteko elkarrizketan.
Web semantikoa
Asko aipatzen den izen horren azpian, egia esan, ez dago semantika askorik. Dagoena da Interneteko informazioa egituratzeko eta erlazionatzeko modu bat, erlazioak deskribatzen dituzten metadaduen bidez. Datuek duten esanahia ez da benetan tratatzen ezta interpretatzen ere. Horrek balio du batez ere datuak hainbat aplikaziok, enpresak eta erabiltzaile-taldek partekatzeko eta berrerabiltzeko.
Hizkuntzaren prozesamendu automatikoaren (HPA) eta web semantikoaren arteko erlazioak
Zein bere aldetik jaiotako teknologiak izan arren, elkarren osagarri dira. HPA desanbiguatzeko edo anotazioak eta dokumentuen itzulpena automatizatzeko baliagarria da. Web semantikoak, berriz, baliabideak partekatzeko eta bateragarri egiteko estandarrak eskaintzen ditu. Horrela, HPAk denbora irabazten eta produktibitatea handitzen laguntzen du, entitateen erakuzketaren, dokumentuen sailkapenaren eta anotazioaren bidez, web semantikoaren estandarrak erabiliz.
Gainera web semantikoak kontzeptuak sare semantikoen arabera antolatzen ditu. Sare semantikoen ideia hori Hizkuntzalaritzatik datorkio hain zuzen.
Informazioa enpresan
Enpresetan gero eta informazio gehiago erabiltzen da. Horrek sistema informatiko batek informazioa automatikoki tratatzeko moduan egituraturik edukitzea eskatzen du ezinbestean. Hau da, formularioak, fakturak eta kudeaketan erabiltzen diren gainerako dokumentu eta datuak sistema informatikoak automatikoki prozesatzeko moduan egon behar dute egituraturik.
Enpresetan, ordea, informazio asko egituratu gabe egoten da. Informazio horiek gizakiek soilik prozesa ditzakete. Testuak, irudiak, soinu- edo bideo-grabazioak izaten dira era horretako informazioak.
Beste informazio batzuk erdi egituratuak izaten dira. Adibidez, email bat erdi egituratua da, baduelako zati bat egituratua (hartzaileak, izenburua, helbidea) eta beste bat (mezua) egituratu gabea.
Informazio egituratu gabea kudeatu beharra dago enpresan
Enpresetan informazioa gero eta ugariagoa izateaz gain, informazio egituratu gabearen proportzioa gero eta handiagoa dela diote aditu batzuek. Datu multzoak oso handiak eta konplexuak egiten direnean ezin izaten dira datu-baseak kudeatzeko ohiko sistemez prozesatu. Datu multzo erraldoi horiei Big Data esaten zaie. Bestalde, Open Data deritzen datu multzo publikoak eta hainbat jatorri dituzten Linked Data datu-multzoak kontuan hartzen baditugu, arazoa are konplexuagoa dela ohartuko gara.
Informaziotik jakintzara
Datuak izateak ez du askorik balio, horietatik ondorioak ateratzen ez badira. Saltoki handi batek, esate baterako, milaka salmenta asko prozesatzen ditu egunero eta salmenta bakoitzari datu asko dagozkio: produktu mota, prezioa, kopurua, bezeroaren fidelizazio-txartelaren datuak, salmentaren eguna eta ordua, produktu horrekin batera saldu diren produktuen datuak, hornitzailearenak, etab. Zertako balio du, ordea, datu horiek guztiak gordetzeak, hortik ondoriorik ateratzen ez bada?
Teknologia semantikoen ekarpenak
Batez ere informazioa bilatu ahal izateko, garrantzitsua da informazio egituratu gabea nola edo hala sailkaturik izatea. Askoz informazio gutxiago erabiltzen zen garaian dokumentalistek, liburuzainek eta artxibozainek eskuz etiketatzen zituzten dokumentuak, gakohitzak erabiliz eta hauen zerrenda kontrolatuak kudeatuz. Gaur egun, testu-meatzaritzako aplikazioek eta entitate-erauzleek laguntzen diete kategoriak identifikatzen, eta gero metadatuen bitartez egiten da dokumentuen anotazio semantikoa.
Bilaketak egiteko, antzina dokumentalistarengana jo behar izaten zen, hark zekielako espezialista ez zen galdera-egilearen hizkera gakohitzetara itzultzen. Oraingo dokumentazio-sistemak sinonimoak, hiperonimoak eta hiponimoak, osoa/atala edo zioa/ondorioa moduko erlazioak maneiatzeko gai izaten dira, eta horrela erabiltzaile arruntak ez du dokumentalistaren hainbesteko beharrik izaten.
Teknologia semantikoek, zuzenketa ortografikoaren bidez ere laguntzen dute bilaketak egiten. Erabiltzaileak teklak gaizki jotzen dituenean edo grafia okerra erabiltzen duenean bilaketa bat egiteko garaian sistemak hurbileko formak proposatzen dizkio. Hitzak osorik idatzi gabe ere sistemak igartzen du askotan erabiltzaileak idatzi nahi duena, eta denbora irabazten laguntzen dio. Polisemia dagoen kasuetan ere laguntzen dio, testuinguruaren araberako desanbiguazioaren bidez.
Edukiak hainbat irizpideren arabera sailkatuz gero, enpresaren zerbitzu bakoitzak bere bilaketa-irizpide propioekin lan egin ahal izango du. Bakoitzak irazki egokiak erabiliz esanguratsua zaion informazioa aurkituko du. Zenbat eta irizpide gehiagoren arabera etiketatu edukiak metadatuen bitartez orduan eta bilaketa zehatzagoak egin ahal izango dira.
Teknologia semantikoek eta, batez ere, web semantikoak irauli egin dute datuei buruzko planteamendua. Orain arte datu-base erlazionalen eredua erabiltzen zen, eta aldiro-aldiro datuen eskema, hau da, taulen egitura birdefinitu behar zen. Orain, aldiz, ontologiak erabiltzen dira eta hori eredu unibertsalagoa da. Baliabide bakoitza nodo bat da, beste nodo batzuei erlazio bidez estekatua. Baliabideen multzoa kontzeptu-grafo bat da eta erlazioak subjektu-predikatu-objektu hirukoteen (RDF) bidez zehazten dira. Adibidez, ondoko irudian ageri den hirukoteak adierazten du Usurbilen kokapena Gipuzkoa dela.
Amaraunean hirukote honek, atzitu ahal izateko, identifikatzaile bakar bat, URI bat, behar du.
Ontologia bat bi geruzak osatzen dute:
- Geruza kontzeptualak, non objektu motak eta objektuen arteko erlazioak zehazten baitira, dela RDFS eskema baten bitartez, kasu sinpleetan, edo weberako OWL ontologia-lengoaiaren bidez, kasu konplexuagoetan.
- Instantziazio-geruzak, non ereduaren araberako objektu erreala sortzen baita.