Datapandemin

Coronapandemin har format de senaste två åren på alla möjliga sätt. En sak som jag som statistiker inte kunnat undgå att lägga märke till är hur statistik, i form av statistik kring pandemin, plötsligt blivit förstasidesnyheter. Media och folk i allmänhet diskuterar siffror på ett sätt vi nog aldrig har sett förut:

  • Är den senaste veckans ökade smittspridning tecken på en ny våg? Kommer spridningen istället att plana ut eller till och med gå ned igen?
  • Hur ser utvecklingen ut de senaste månaderna? Vad är tillfälligt brus i data och vad är en trend?
  • Kan man jämföra siffrorna för antalet smittade i olika länder, om rutinerna för testning ser olika ut? Testar man mindre så hittar man ju färre fall.
  • Hur ska man jämföra siffrorna för andelen vaccinerade i olika länder? Ska man titta på andelen vaccinerade i olika åldersgrupper? I hela befolkningen?

Det här är den sortens frågor som vi statistiker jobbar med och tänker på varje dag. Att de uppmärksammas i den allmänna debatten är jättebra. Tillgång till bra och rättvisande data är i många fall A och O för att kunna fatta rätt beslut – men det räcker inte med att bara ha bra data, vi måste dessutom ställa rätt frågor och titta på data på rätt sätt. Där är statistikens verktygslåda och sätt att tänka ovärderlig.

Mindre lyckad statistik.

För att göra all data kring pandemin begriplig försöker vi visualisera den i olika grafer. Vi möts varje dag av olika kurvor och figurer som visar antal, andelar och utveckling över tid – och inte bara i nyheterna.

SVT:s covidsidor är ett exempel på dagligen uppdaterade visualiseringar av pandemins förlopp. Den utjämnade kurvan visar trenden över tid.
Datavisualisering med en så kallad heatmap vid min lokala Ica-butik: färgerna visar hur många besökare det är i butiken vid olika tider.

Intresset för datavisualisering har nyligen lett Washington Post till att starta ett nyhetsbrev om grafer som syns i nyhetsflödet. Brittiska Royal Statistical Society har i sin tur publicerat en rad intervjuer där de försöker lyfta fram statistiken och statistikers viktiga roll under pandemin.

Det finns nog mycket vi kommer att ta med oss från pandemiåren. Nya vanor, erfarenheter av distansarbete, insikter om hur samhället ska byggas för att kunna hantera oväntade händelser. Jag hoppas att en av de saker vi tar med oss är användandet av statistik och datavisualisering och vanan att ställa frågor kring vad det egentligen är olika siffror visar.

Boka plats på statistikkurser

Intresserad av en onlinekurs om statistik med R? Under hösten och våren ger jag kurser baserade på min bok Modern Statistics with R. Bokningar sker hos min samarbetspartner Statistikakademin:

Fotbollsoraklet i Oberhausen

Idag drar fotbolls-EM för herrar igång – ett år försenat. Många sitter nog just nu och försöker tippa resultaten. Somliga lusläser fotbollsstatistik, andra går på magkänslan, och någon kanske gör som jag gjorde för det svenska innebandyslutspelet förra året och tar fram en statistisk prediktionsmodell.

Men det finns en metod som är bättre än alla ovanstående: att låta en bläckfisk tippa resultaten. Bläckfisken Paul vid Sea Life Center i tyska Oberhausen blev en internationell kändis under fotbolls-VM 2010, då han tippade rätt i 8 av 8 matcher.

Hade Paul bara tur, eller var han ett tipsorakel av rang? Ett vanligt sätt att statistiskt utvärdera en hypotes är p-värden. De mäter hur starka bevisen för att en hypotes är felaktig är. Hypotesen som testas brukar kallas nollhypotesen. Om nollhypotesen inte stämmer så gäller istället en alternativhypotes. Den något torra definition av p-värdet är att det är sannolikheten för ett resultat som är minst lika extremt som det observerade, i riktning mot alternativhypotesen. Om p-värden hamnar under en på förhand bestämd gräns – ofta 0,05 – så säger man att resultatet är signifikant eller statistiskt säkerställt och anser sig ha belägg för att det är alternativhypotesen som stämmer.

I fallet med bläckfisken Paul så kan vi undersöka nollhypotesen att Paul bara gissade blint. Alternativhypotesen är att han på något sätt faktiskt kunde förutse resultaten i matcherna. Om vi även räknar in de matcher han tippade i EM 2008 (4 rätt på 6 matcher) så har vi att han tippade rätt i 12 matcher av 14 möjliga. p-värdet blir då sannolikheten att tippa minst 12 rätt (”ett resultat som är minst lika extremt som det observerade”) när man tippar 14 matcher. Om nollhypotesen stämmer så borde Paul ha samma chans att tippa rätt som man skulle få om man singlade slant. Vi kan då räkna ut p-värdet, som blir 0,0065. Det ligger långt under gränsen 0,05 och därmed är det alltså statistiskt säkerställt att Paul hade förmågan att förutse resultaten i fotbollsmatcher.

Det finns två slutsatser man kan dra av exemplet med Paul. Den första slutsatsen är att man aldrig ska nöja sig med en enda studie som visar att något är statistisk säkerställt. Det finns alltid en risk att p-värdet blir lågt av ren slump, datafel, felräkningar eller brister i försöksupplägget. Därför behövs nya försök och upprepningar av studier innan man kan säga något med säkerhet.

Den andra slutsatsen? Man ska aldrig underskatta en bläckfisk.

Ny bok om statistik och R

För att utföra statistiska analyser behöver man inte bara känna till några statistiska metoder. Man behöver också kunna hantera, filtrera, sortera och på olika sätt vrida och vända på data. Samtidigt behöver man programvara där de senaste metoderna finns tillgängliga. Sedan många år tillbaka är det bästa valet av statistisk programvara R, som även är det verktyg som jag själv använder sedan 13 år.

Min nya bok Modern Statistics with R handlar om hur man kan använda R för att hantera, visualisera och analysera data. Explorativa metoder, klassisk statistik och maskininlärning finns med. Utkastet finns fritt tillgängligt på nätet redan nu, och den tryckta versionen kommer i början av nästa år. Materialet används redan på kurser vid flera lärosäten, och ligger till grund för kurser i R som jag ger i privat regi. Ta en titt om du är intresserad av vad R har att bjuda på!