Mittari – Moniäänisyysmittari

MIKÄ ON MONIÄÄNISYYSMITTARI?

Moniäänisyysmittari on työkalu, joka analysoi mediatalojen sisältödataa kuten uutisarkistoja ja juttujen metadataa. Se tunnistaa teksteistä henkilöitä ja heihin liittyviä tietoja (sukupuoli, titteli, puoluekanta) ja kertoo yksinkertaisin luetteloin ja graafisin esityksin, keitä mediassa on haastateltu tai siteerattu. Mittari on mediatalojen sisäisessä käytössä, eli jokainen käyttäjätaho saa tietoja vain omasta uutisaineistostaan.

Mittari tehtiin alun perin Uutisraivaaja 2019 -mediainnovaatiokilpailuprojektiksi, ja nyt sitä kehitetään tämän tutkimushankkeen puitteissa. Tällä hetkellä mittari tunnistaa aineistosta haastateltavat ja siteeratut henkilöt, kertoo heidän sukupuolijakaumansa, jakautumisen eri puolueisiin (kun puoluetausta on mainittu tekstissä) sekä heidän tittelinsä. Tuloksia voi tarkastella juttukategorioittain. Myös muita hakuominaisuuksia on kehitteillä.

MITÄ TEKNOLOGIAA MITTARI HYÖDYNTÄÄ?

Moniäänisyysmittari perustuu NLP-kieliteknologiaan (Natural Language Processing). Mittarin demoversion tekstintunnistus perustuu libvoikon morfologiseen analyysiin, väestörekisterikeskuksen etu- ja sukunimilistaan, Suomessa käytössä oleviin työnimikelistauksiin sekä käsin kirjoitettuihin jäsennyssääntöihin.

MITÄ MITTARILLA SAA SELVILLE?

Palvelu tunnistaa datasta haastateltavat ja siteeratut henkilöt ja tilastoi heihin liittyviä ominaisuuksia. Mittari tunnistaa haastateltavien sukupuolen etunimien perusteella sekä erottaa nimiin liittyvät tittelit sekä puoluekannat silloin, kun ne on tekstissä mainittu. Mittari voi luokitella tulokset julkaisuvuoden tai juttukategorioiden mukaan, mikä mahdollistaa tarkempien hakujen tekemisen. Hakuja voidaan tehdä yhdellä hakuehdolla koko aineistoon (esim. ketkä ovat haastatelluimmat henkilöt koko media-arkistossa tai miten haastateltavien sukupuolet jakautuvat) tai eri hakuehtoja yhdistellen (esim. miten eri puolueita edustavat haastateltavat jakautuvat maahanmuuttoaiheisissa jutuissa vuonna 2016). Hakutulokset ovat pääosin anonyymejä.

Mittarin hakuominaisuudet ovat monilta osin kesken. Myös tulosten luotettavuutta on edelleen parannettava analyysimenetelmiä kehittämällä.

JOURNALISTISEN SISÄLLÖN MITTAAMISESTA

Mediankäyttäjien lukutottumuksia ja käyttäytymistä seurataan tarkkaan. Digitaalisten jakelukanavien ansiosta mediatalot tietävät hyvin tarkkaan, mitä yleisö kuluttaa, mitkä jutut sitouttavat ja minkä parissa kulutetaan aikaa. Tieto yleisön käyttäytymisestä auttaa myös erilaisten suosittelualgoritmien rakentamisessa. On esitetty, että samanlainen digiloikka pitäisi tehdä journalismin sisällön analysoinnissa kokonaisuutena (suomenlehdisto.fi). Yhteiskunnan moniarvoistuessa etenkin journalismin moninaisuudesta ja moniäänisyydestä on tullut sekä poliittisesti että median itseymmärryksessä tärkeä tavoite. Journalistisen sisällön automatisoitu analysointi on ollut kuitenkin hankalaa.

Viestintäministeriön tilaamassa tutkimuksessa vuodelta 2018 todettiin, että saatavilla olevat median moninaisuutta kuvaavat mittarit kertovat eniten medialähteiden määrästä ja median omistajien ja sisällöntarjoajien moninaisuudesta sekä, yllä mainitusta syystä, median käytön monipuolisuudesta. Sen sijaan sisällöllisen moniarvoisuuden mittaamiseen ei löydetty olemassa olevaa dataa, vaan päädyttiin ehdottamaan laadullisia, rajattuun aineistoon perustuvia mittareita. Sama ongelma on vaivannut EU-lähtöistä Media Pluralism Monitoria, jonka tehtävänä on arvioida median moninaisuuteen kohdistuvia riskejä maakohtaisesti. MPM-arviointia on kehitetty ja tehty vuodesta 2012-14 lähtien (Suomessa v:sta 2015) ja sen journalistiseen sisältöön kohdistuvia indikaattoreita on jouduttu useaan kertaan karsimaan saatavilla olevien tietojen puuttuessa.

Journalistisen datan lisääntyessä erilaisia avauksia on kuitenkin nähty. Hyvänä esimerkkinä on mediassa esiintyvien ihmisten binääriseen sukupuolten tasa-arvoon liittyvä kehityskulku. Perinteikkäin tekijä tällä kentällä on Global Media Monitoring Project (GMMP), jota on tehty vuodesta 1995. Tutkimuksessa monitoroidaan maailmanlaajuisesti naisten ja miesten osuutta uutisissa esiintyvistä henkilöistä. Tutkijat tekevät arvioinnin käsin tarkasti rajatuista aineistoista. Muutama vuosi sitten ruotsalainen Prognosis automatisoi tämän laskennan Tasa-arvobotillaan, joka kertoo päivittäin naisten ja miesten nimien osuudet eri medioiden verkkouutisissa. Ensimmäiset medioiden omaan käyttöön otetut sukupuolimittarit olivat uutisten arvoisia vuonna 2018 (hs.fi). Edistyneempiä sukupuolimittareita edustaa esimerkiksi kanadalainen Simon Fraser yliopiston Gender Gap Tracker -projekti, joka on tekniikaltaan samantyyppinen kuin Moniäänisyysmittari. Niin ikään sisarhanke on American Press Instituten työkalu Source Matters, joka tarjoaa mediataloille automaattista, muokattavissa olevaa uutislähteiden seurantaa.

Uutislähteiden monitorointi on erittäin kinkkistä työtä, koska muuttujia on niin paljon ja käytettävissä oleva data ei useinkaan ole yhteismitallista. Hyvän yleisesityksen aiheen monimutkaisuudesta on tehnyt AIJO-project, jonka mukaan lähteiden moninaisuutta voi lähestyä joko valokuvien kautta (kuten Financial Timesin JanetBot), tekstin kautta (kuten Moniäänisyysmittari tai Gender Gap Tracker), AV-sisältöjen kautta (kuten Stanfordin yliopiston TVNewsAnalyser) tai toimittajien itsensä keräämien tietojen kautta (kuten NPR:n Dex-työkalu). Kentän hajanaisuutta kuvaa hyvin se, että kaikki työskentelevät saman haasteen kimpussa tahoillaan – kaupallisia kokonaisratkaisuja tarjoavia tahoja on vähän (ks. kuitenkin Ceretain Diversity Dashboard). Oma haasteensa on sekin, miten sinänsä hyvä työkalu saadaan integroitua osaksi toimituskulttuuria. (Tällaista konsernijohtoista työtä tekee esim. Ringier Groupin EqualVoice-projekti.)

Moniäänisyysmittarin ideana on ollut selvittää, kuka pääsee ääneen journalismissa. Ajatuksena on, että kun median haastateltava- ja lähdevalinnat tehdään näkyväksi, niitä on helpompi kehittää. Tällöin ei riitä, että tiedossa on pelkästään naisten ja miesten osuudet haastateltavista. Yhtä tärkeää on tietää, ketkä asiantuntijat kutsutaan selittämään mitäkin aiheita, mitkä tahot yhteiskunnasta pääsevät eniten ääneen tai mitkä puolueet saavat sanansijaa missäkin aiheissa. Olennaista olisi myös erottaa, mikä on haastateltavan sanojen painoarvo: esimerkiksi, esiintyykö henkilö pikku-uutisen yhtenä lähteenä vai pitkän lukujutun ainoana haastateltavana.

Journalismintutkimus on toistuvasti osoittanut, että toimittajien valitsemat uutislähteet vaikuttavat monin tavoin siihen, kenen tarinat tulevat kerrotuiksi, miten ne kerrotaan, kenelle uutiset kohdistetaan ja ketä niillä palvellaan. Siksi lähteiden seuranta ja valintojen läpinäkyvyys on niin tärkeää.

Koneelliseen analyysiin perustuvan mittarin kyky antaa valaistusta median lähdevalintoihin on rajallinen. Erilaisten hakutulosten tulkitseminen ja johtopäätösten tekeminen jää edelleen tutkijoiden ja median ammattilaisten tehtäväksi. American Press Institutea lainaten: Ei riitä, että lähdeiden monimuotoisuutta seurataan. Pitää keskittyä myös kuuntelemiseen, suhteiden rakentamiseen, uusien haastateltavien etsintään ja itsensä kouluttamiseen.