STATISTIK OCH SOCIALA MEDIER

LO-granskningen ”Rasistsajter i sociala medier” väcker frågor

I fredags kom en nyhet från LO: ”Dramatiskt ras för rasistsajter i sociala medier.”

Den väckte frågor om mätmetoden och vilka slutsatser som kan dras av undersökningen LO gjort. Medieormen har ställt frågor till utredaren Johan Ulvenlöv samt bett medieforskaren Peter M Dahlgren att kommentera mätningen.

Flera medier, inklusive Sveriges Radios Medierna i P1, återpublicerade innehållet i LO:s pressmeddelande. Medieormen tyckte dock att informationen i pressmeddelandet, och i artiklar av bland andra TT och Journalisten, samt den debattartikel som granskaren själv skrivit i Aftonbladet var alltför knapphändig. Därför pratade vi med utredaren Johan Ulvenlöv, som inte hade någon utförlig rapport att skicka, men mejlade underlaget för granskningen i form av ett excelblad och grafik samt svarade på våra frågor om metoden. Vi bad sedan Peter M Dahlgren, som forskar om mediepåverkan i nya medier vid JMG, att förklara vad man egentligen kan dra för slutsatser av en mätning som denna utifrån underlaget.

Så här svarade LO:s utredare Johan Ulvenlöv:

Metoden går ut på att använda Facebooks data för delningar, gillamarkeringar och kommentarer likt detta.  Det är samma data som används av ett antal tjänster på nätet, bland annat buzzsumo.com , moz.com  eller majestic.com.

Vi har slagit ihop sajterna Exponerat, Avpixlat, Fria Tider, Dispatch International, Samtiden och Nyheter Idag och sökt på dem gemensamt. Undersökningen baseras totalt 9424 artiklar från månaderna juli 2015 till och med maj 2016 och vi har tittat på hur de 2948753 reaktionerna fördelar sig över månaderna. 499945 reaktioner för november 2015 och 130298 för maj 2016.

Jag kan tyvärr inte svara på om Facebooks graph-API innehåller reaktioner från stängda och hemliga Facebook-grupper, så det kan vara en felkälla. Det innehåller däremot data från icke-offentliga Facebook-profiler, dvs folk som postar material enbart för vänner. Andra felkällor kan vara att äldre material har kunnat delas en längre tid och därför får fler delningar, att mätverktyget vi använt slutar indexera en artikel efter en viss tid, samt att Facebook självt inte alltid rapporterar korrekta data.

Vi har dock bedömt att dessa felkällor inte i stort snedvrider resultatet. Ett annat vanligt missförstånd är att Facebook om vartannat kallar alla reaktioner för "shares" samtidigt som de i andra sammanhang delar upp det i "shares", "likes", och "comments". Men det är mer en fråga för vad man kallar det. Vi har mätt allt och kallat det reaktioner.

Vi har heller inte haft möjlighet att bedöma kvaliteten i varje enskild reaktion (gilla, delning eller kommentar), till exempel är de gjorda från riktiga konton eller från konton som är fejkade? Här finns alltså också en möjlig källa till fel.

Vi ser en generell minskad aktivitet i bemärkelsen reaktioner för artiklar i traditionell media. Dock inte i närheten av samma storleksordning: sverigesradio.se har minskat 15% SVT har minskat 18% Aftonbladet har minskat 45,5%

Samtidigt ser vi att de nyheter som sticker ut mest även i traditionella medier är kopplade till invandring. Exempelvis är de nyheter som delats mest från sverigesradio.se under den här perioden "Muslimer kan få låna utan ränta" och "Hudfärgade plåster finns bara i en färg". Så om folk har en tendens att dela den här typen av material mindre nu, så kan det även påverka totalen för en viss månad.

Det kan också bero på att Facebook ändrar på sina algoritmer, vilket de ju ständigt gör eller att människor generellt är mindre delningsbenägna.
   Den slutsatsen som man kan säga med säkerhet är i alla fall att synligheten för den här typen av material har minskat på Facebook för att folk delar/gillar eller kommenterar det i mindre utsträckning än tidigare.

Vi gjorde också en ytterligare mycket enkel sökning i Retrievers mediedatabas som kan vara relevant i sammanhanget. Sökbegreppet flyktingkris* i medierna har minskat med 65% när man jämför november med maj (1298 resp 457 träffar). I november skrev i princip alla medier om de här sajternas huvudämne. Nu finns det andra ämnen som konkurrerar om uppmärksamheten, åtminstone i bemärkelsen vilka artiklar som produceras av traditionell media.

 

Så här kommenterar medieforskaren Peter M Dahlgren utredningen och ovanstående:

Den första frågan är vad en ”reaktion” egentligen är. Facebook rapporterar en mängd olika uppgifter om hur inlägg och nyheter delas på deras plattform. Därför har också många analysföretag tagit fasta på att analysera dessa uppgifter, ofta med varierande resultat.

En ”reaktion” har blivit ett sammanfattande begrepp för delningar, kommentarer och gillningar som skett inom Facebook. Reaktioner säger därför väldigt lite om hur många gånger ett inlägg, eller en nyhet, har delats eftersom inlägget kan delas en gång och sedan kommenteras och gillas tusentals gånger mellan en handfull personer.

Därför är reaktioner ett tämligen meningslöst mått eftersom det slår ihop flera väldigt olika mått. Av den anledningen är det fullt naturligt att detta mått varierar kraftigt, och att förklara denna variation med hänvisningar till att intresset för en nyhetssajt har minskat går inte. Delningar, kommentarer och gillningar säger heller ingenting om antalet läsare, vilket kan vara viktigt att också ha i åtanke.

LO skriver inledningsvis i sitt pressmeddelande om reaktioner, men landar snabbt i slutsatsen att antalet delningar har minskat:

”Om man jämför antal reaktioner i november 2015 och maj 2016 ser man att intresset för att dela dessa sajters material sjunkit drastiskt.”

Och det är fel. Om man vill veta hur många gånger en sajt har delats på Facebook så bör man rimligen endast titta på antalet delningar. Att LO analyserar delningar, gillningar och kommentarer tillsammans för att sedan uttala sig om delningar är obegripligt.

Dessutom, när man analyserar det påstådda raset måste man normalisera måtten så att de kan jämföras. Om en nyhetssajt publicerar en artikel som blir delad tiotusentals gånger på Facebook väger den artikeln betydligt tyngre än en nyhetssajt som publicerar tiotusentals artiklar som vardera bara delas en gång (även om antalet totala delningar är densamma för båda nyhetssajter).

Att normalisera måtten innebär i sin enklaste form att man räknar ut antalet delningar per artikel. Då kan man sedan jämföra med andra nyhetssajter.

Och just jämförelser är viktigt. Är en 25-procentig minskning av reaktioner mycket? Hur är det då med 75 procent? För att en sådan siffra ska bli begriplig måste den sättas i relation till något. Det kan mycket väl vara så att reaktionerna till alla sajter minskat, men att rikta in sin analys på specifika sajter är därmed cherry-picking.

Meningslöst jämföra vinter med sommar

Att internetanvändningen har fallit från november till maj året därpå har en naturlig förklaring: solen. När det är varmt ute tenderar människor att sitta vid datorn (och därmed internet) mindre, även om smarta telefoner på sikt förmodligen ändrar det beteendet.

Här handlar det om problemet med urvalet av data, vilket ett exempel kan visa. Vill man visa att glassförsäljningen har sjunkit jämför man trenden från juli till november. Vill man däremot visa att glassförsäljningen har ökat låter man jämförelsen utgå från november till juli. För att en jämförelse ska vara relevant bör man därför jämföra samma månader från två olika år för att utesluta naturlig variation som har en tredje orsak , vilket i detta exempel är solen. Man kan inte heller godtyckligt välja det högsta värdet och jämföra med det minsta värdet för att sedan prata om ett ”dramatiskt ras”. Raset är då bara en konstruktion av urvalet som enkelt förändras om man väljer andra start- och slutpunkter.

Slutsats

Vilka slutsatser kan man då egentligen dra från LO:s undersökning? Inte mycket. På samma sätt som journalister gärna gör sig till uttolkare av variationen inom opinionsundersökningarnas felmarginaler (vilket inte går), är LO:s undersökning ett försök att tolka ännu fler slumpmässiga variationer i termer av trender och ändrade läsarbeteenden. Men det går inte.

Här är det dock viktigt att påpeka en sak. Det jag säger handlar om metoden och dess tillkortakommanden. Metodens brister innebär inte på något vis att slutsatsen nödvändigtvis är felaktig. Det kan mycket väl vara så att slutsatsen är helt korrekt. Det är en mycket viktig skillnad som tyvärr ofta försvinner i diskussioner om vem som ska få rätt. Om det i framtiden visar sig att LO hade helt korrekt i sin slutats kan man därför inte gå tillbaka och säga ”Ha! LO hade rätt!” eftersom sann berättigad kunskap kräver att man bör hålla något för sant om (1) det är sant och (2) man har goda grunder att hålla det för sant. I nuläget uppfyller LO:s undersökning inte (2) och kan därför inte uttala sig om (1).

Det är lätt hänt att man anspråkslöst accepterar det som stämmer överens med ens egna attityder och i stället ställer orimliga krav på sådant som säger emot ens egna attityder. Det brukar kallas confirmation bias. Om man upptäcker att man själv gör detta är det en god idé att ta ett steg tillbaka, andas, och sedan ställa sig frågan om man är känslomässigt involverad i slutsatsen man försöker leda i bevis. Om så är fallet, fråga dig själv om det finns något sätt att motbevisa det du tror på. När du har gjort det har du kommit en liten bit på vägen till bättre kunskap – något vi förhoppningsvis alla strävar efter.

Och som jag skrivit på andra ställen anser jag att journalister bör sansa sin förtjusning för big data eftersom stora datamängder eller väldigt exakta siffror (49,72 % snarare än 50 %) inte ger någon som helst ökad precision när det som undersöks inte rättar sig efter naturbestämda lagar.