Gaur egun gero eta gehiago erabiltzen ditugu sare sozialak gure iritzia agertzeko, eta enpresa eta erakundeek jakin nahi izaten dute zer esaten den haiei buruz sare sozialetan. Enpresei, adibidez, interesatzen zaie zenbaterainoko sona duten gizartean; edo erakunde publikoek jakin nahi izaten dute gizarteak zer jarrera duen haien politiken gainean.
Baina iritzi horiek denak banaka irakurtzea eta iritzi positiboa, negatiboa edo neutroa nagusitzen den jakitea oso nekeza eta garestia gerta daiteke. Beraz, informazio hori erauzteko lana automatikoki egingo duten tresnak ezinbesteko bilakatu dira.
Lehendik bazeuden halakoak egiteko sistemak zenbait hizkuntzatan; ez euskaraz, ordea.
Orain, euskarazko iritzi-erauzketan aitzindaria den lan bat garatu du Iñaki San Vicente Roncal Elhuyarreko ikertzaileak bere doktorego-tesian. Eta, tesian garatutako teknologia oinarri hartuta, euskarazko sare sozialetako mezuen polaritatea edo sentimendua (positiboa, neutroa ala negatiboa) hautemateko lehen sistema sortu du Elhuyarreko I+G unitateak, eta publiko jarri du, gainera.
Euskal Herrian idatzitako Twitterreko txioen % 15 inguru dira euskarazkoak; guztira, 2,5 eta 2,8 milioi txio idazten dira euskaraz urteko. Gainerakoak, gaztelaniaz eta frantsesez dira batez ere, eta, hein txikiago batean, ingelesez. Horrenbestez, lau hizkuntza horietan landu ditugu sare sozialetako mezuen sentimendua analizatzeko sistema osatzen duten baliabideak.
Lehen pausoa polaritate-lexikoak sortzea izan zen; hau da, berez sentimendu positiboa edo negatiboa duten hitzen zerrendak osatzea: txarra-ona, gaiztoa-zintzoa… Hori egitean, testuingurua ere kontuan izan behar da. Izan ere, testuinguruaren arabera, hitz berak polaritate desberdina izan dezake. Esate baterako, salmentak jaistea txarra da; aldiz, langabezia jaistea, ona. Hortaz “jaitsi” hitzaren polaritatea aldatu egiten da testuinguruaren arabera. Horrez gain, kontuan hartu behar dira ezezkoa adierazteko erabiltzen ditugun hitzak: ez, baina, aldiz, ordea... eta baita hitzen erabilera ironikoa ere.
Bestalde, Twitterren berezko idazkera informalak ere sortzen ditu arazoak. Twitterren ahozko hizkeraren transkribapen moduko bat egiten dute askok, edo bi hizkuntza nahasten dituzte txio berean. Batzuetan, hitz bati enfasia emateko, azken bokala errepikatzen da, eta emotikonoak ere erabiltzen dira, hain justu, sentimenduak adierazteko. Horrez gain, partikula indartzaileak eta murriztaileak daude: oso, gutxi, agitz, erabat… Horiek guztiak hartu ditugu aintzat lexikoa osatzeko.
Eta behin lexikoa osatuta, lexiko hori ikasketa automatikoko sistemetan integratzea izan da hurrengo pausoa. Horrelako sistemak entrenatzeko, milaka adibide sailkatu ditugu eskuz, hiru multzotan: positibo, negatibo edo neutro. Horrela, sistemari eredu matematiko bat irakatsi diogu; hala, adibide berri bat etorritakoan, aurrekoetan oinarrituta esango du positiboa, negatiboa ala neutroa den.
Euskarazko sailkapenaren asmatze-tasa beste hizkuntzetan izaten denaren parekoa izatea lortu dugu. Gaur egun, % 75 ingurukoa da asmatze-tasa, baina Elhuyarreko kideak emaitza hobetzeko lanean ari gara, sare neuronaletan oinarrituta. Bestalde, hasiera batean sistemak testu idatzietako iritziak soilik erauzten bazituen ere, orain gai da bideoak eta audioak ere aztertzeko eta haietan dauden iritziak hautemateko.
Sistema aurreratu hau dagoeneko erabili dugu aplikazio errealetan. Behagunearen bidez (behagune.elhuyar.eus), Donostia 2016 Hiriburutzako proiektuen jarraipena egin genuen. Berriarekin batera, berriz, 2016ko EAEko Legebiltzarrerako hauteskunde-kanpaina aztertu genuen. Eta 2018an, EHUko Kriminologia Institutuarekin, terrorismoaren biktimen inguruan sare sozialetan zer jarrera dagoen aztertu dugu. Beste zenbait proiektutan ere martxan dago gaur egun.
Ikerketa-lana Euskal Herriko Unibertsitateko IXA taldearekin elkarlanean egin da, eta emaitza guztiak eskura daude Elhuyarren Hizkuntza Teknologien webgunean (hizkuntzateknologiak.elhuyar.eus).