Internet aipatzen badugu, berehalako informazio-iturri batekin lotuko dute askok, seguru. Esate baterako, nork ez du inoiz egin kontsulta bat Wikipedian? Eta euskarazko Wikipedian?
Hizkuntza txikia da gurea, hiztun gutxi dituena, alboan ditugun beste hizkuntza batzuekin alderatuta behintzat. Gaztelania, frantsesa eta ingelesa, adibidez, euskara baino osasuntsuago ikusten ditugu. Eta mundu digitalean zer? Zer moduz gabiltza?
Bada, askotan bezala, hemen ere, kontua nondik begiratzen den izaten da. Wikipedian, kasurako, ez da ahuntzaren gauerdiko eztula euskaraz aurki dezakegun informazioa. Eta Wikipedia elikatzeko erabiltzen diren baliabideetako bati begiratzen badiogu, Wikidatari, hain zuzen, are hobeak dira datuak.
Euskal Wikilarien Kultur elkartearen eta Elhuyarren lankidetzari esker, Wikidatan dauden hizkuntza guztien artean, euskara seigarrena da hitz-erroen (lexemen) kopuruan, bigarrena hitz-formen kopuruan (hitz-erro bakoitza deklinatuta sortzen diren forma guztiak kontuan hartuta), eta hizkuntza nagusia da esanahi-kopuruari dagokionez, ingelesaren, gaztelaniaren eta frantsesaren aurretik, besteak beste.
Wikidata elkarlanean editatzen den datu-base erraldoi bat da. Wikimedia Fundazioak kudeatzen du, bere proiektuetan erabili ahal izateko, adibidez Wikipedia elikatzeko.
2012an Wikidata abian jarri zenetik, pixkanaka elikatuz joan gara. Besteak beste, duela ia bi urte, Zientzia eta Teknologiaren Hiztegi Entziklopedikoko 6.500 kontzeptu inguru txertatu genituen, baita Teknopolis telebista-saioko hainbat bideo ere.
Azken urteotan, datu-mota berriak gordetzen hasi da Wikidata, hizkuntza askotan, hiztegien antzeko egitura batean. Informazio hori guztia hiru multzotan sailkatuta gordetzen da: hitz-erroak (hiztegi-sarrerak edo lexemak), formak (hitz bakoitzak deklinabide-kasuaren arabera har ditzakeen formak), eta esanahiak edo definizioak.
Euskal Wikilarien Kultur Elkartearen eta Elhuyarren arteko lankidetzari esker, Elhuyarren Ikaslearen Hiztegiko hainbat hitz edo lexema (izen kategoriakoak) gehitu ditugu Wikidatan. Guztira, 10.000 lexema inguru, bakoitzaren 65 forma (deklinabideko kasu guztietakoak, singularrean, pluralean eta mugagabean) eta haien definizioak gehitu ditugu.
Lan honi esker, orain errazagoa da euskarazko hitzak identifikatzea Wikipediako testuetan esate baterako, eta laster aukera izango da garapen teknologiko berriak egiteko.
Gurutzegramak eta letra-zopak ere egin daitezke ausaz, oso erraz, datu-base hori baliatuz.