Statistisk analys av biomarkörsdata

Ett problem som jag återkommit till många gånger genom åren, både som forskare och som konsult, är statistisk analys av biomarkörsdata. Biomarkörer är mätvärden från exempelvis blodprov, som beskriver mängden av till exempel olika proteiner eller molekyler. De är en viktig del av modern medicin, och används flitigt inom medicinsk forskning, där man letar efter biomarkörer som går att använda för att diagnosticera sjukdomar, ge prognoser för risken att drabbas av en sjukdom, eller för att förstås mekanismerna bakom olika åkommor.

Biomarkörsdata kännetecknas av en rad utmaningar: många variabler men få observationer, data som inte är normalfördelade, mätvärden som ligger under mätteknikens detektionsgräns. Det här kräver specialiserade statistiska metoder. Om det handlar ena dagen i min nya tvådagarskurs om medicinsk statistik. Den andra dagen fokuserar på överlevnadsanalys.

Intresserad av att lära dig mer om moderna statistiska metoder inom medicin? Ta en titt på årets kursdatum eller kontakta mig för att boka en kurs på plats hos er.

Ny utgåva av Modern Statistics with R

Den andra utgåvan av min bok Modern Statistics with R har nu släppts. Den handlar om allt från grundläggande statistiska koncept till R-programmering, avancerade regressionsmodeller och machine learning. Boken går att läsa gratis på nätet eller köpa i fysisk form i bokhandlar (utgiven internationellt av CRC Press).

Förutom att Modern Statistics with R används som kurslitteratur på universitet världen över så ligger den också till grund för de R-kurser jag ger i samarbete med Statistikakademin. Intresserad av att lära dig mer om R, statistik, machine learning eller AI? Ta en titt på höstens och vårens kursdatum eller kontakta mig för att boka en kurs på plats hos er.

Fotbollsoraklet i Oberhausen

Idag drar fotbolls-EM för herrar igång – ett år försenat. Många sitter nog just nu och försöker tippa resultaten. Somliga lusläser fotbollsstatistik, andra går på magkänslan, och någon kanske gör som jag gjorde för det svenska innebandyslutspelet förra året och tar fram en statistisk prediktionsmodell.

Men det finns en metod som är bättre än alla ovanstående: att låta en bläckfisk tippa resultaten. Bläckfisken Paul vid Sea Life Center i tyska Oberhausen blev en internationell kändis under fotbolls-VM 2010, då han tippade rätt i 8 av 8 matcher.

Hade Paul bara tur, eller var han ett tipsorakel av rang? Ett vanligt sätt att statistiskt utvärdera en hypotes är p-värden. De mäter hur starka bevisen för att en hypotes är felaktig är. Hypotesen som testas brukar kallas nollhypotesen. Om nollhypotesen inte stämmer så gäller istället en alternativhypotes. Den något torra definition av p-värdet är att det är sannolikheten för ett resultat som är minst lika extremt som det observerade, i riktning mot alternativhypotesen. Om p-värden hamnar under en på förhand bestämd gräns – ofta 0,05 – så säger man att resultatet är signifikant eller statistiskt säkerställt och anser sig ha belägg för att det är alternativhypotesen som stämmer.

I fallet med bläckfisken Paul så kan vi undersöka nollhypotesen att Paul bara gissade blint. Alternativhypotesen är att han på något sätt faktiskt kunde förutse resultaten i matcherna. Om vi även räknar in de matcher han tippade i EM 2008 (4 rätt på 6 matcher) så har vi att han tippade rätt i 12 matcher av 14 möjliga. p-värdet blir då sannolikheten att tippa minst 12 rätt (”ett resultat som är minst lika extremt som det observerade”) när man tippar 14 matcher. Om nollhypotesen stämmer så borde Paul ha samma chans att tippa rätt som man skulle få om man singlade slant. Vi kan då räkna ut p-värdet, som blir 0,0065. Det ligger långt under gränsen 0,05 och därmed är det alltså statistiskt säkerställt att Paul hade förmågan att förutse resultaten i fotbollsmatcher.

Det finns två slutsatser man kan dra av exemplet med Paul. Den första slutsatsen är att man aldrig ska nöja sig med en enda studie som visar att något är statistisk säkerställt. Det finns alltid en risk att p-värdet blir lågt av ren slump, datafel, felräkningar eller brister i försöksupplägget. Därför behövs nya försök och upprepningar av studier innan man kan säga något med säkerhet.

Den andra slutsatsen? Man ska aldrig underskatta en bläckfisk.

Vem tar SM-guldet?

Coronaviruset har påverkat alla delar av samhället – inklusive sportens värld. I Sverige fick bland annat innebandyns slutspel ställas in. Serievinnarna IKSU (dam) och Falun (herr) tilldelades SM-guldet. Men hur sannolikt är det egentligen att de faktiskt hade vunnit slutspelet?

Jag har för Innebandymagazinets räkning tagit fram en modell som förutspår hur innebandyns slutspel borde ha slutat. Modellen bygger på matchresultat från de senaste två säsongerna och tar med olika parametrar hänsyn till hur bra de olika lagen är, dels på hemmaplan och dels på bortaplan. Med hjälp av modellen kunde jag sedan simulera slutspelet 1 000 000 gånger, för att se hur troliga olika resultat var.

Det finns mycket som påverkar resultatet i en match, och allt kan inte sammanfattas med siffror. Men däremot är det fullt möjligt att skapa modeller som säger hur sannolikt det är att olika lag vinner, samt vilka resultat som är mest troliga. Och det fungerar faktiskt – när vi testade min modell på förra årets herrslutspel så prickade den in rätt vinnare i samtliga kvarts- och semifinaler.

Innebandymagazinet kommer att släppa resultatet som modellen förutspår dag för dag fram till det som skulle ha varit finaldagen – den 25e april. För egen del ser jag fram emot att läsa vad spelare och tränare tycker och tänker om modellens resultat. De första artiklarna finns uppe redan nu:

Intresserad av prognosmodeller? Jag erbjuder konsulttjänster, föredrag och utbildningar inom området. Kontakta mig för att få veta mer.

Automatiserad dataanalys

Som statistikkonsult stöter jag på mängder av olika frågeställningar från alla möjliga branscher. För att besvara dem krävs ibland mycket funderande och avancerade statistiska modeller. Men i en del andra fall handlar det om rutinartade analyser, där dataanalysen ser likadan ut dag efter dag. Ett bra exempel på det är analys av hur fort olika bakterier växer i mikrobiologiska experiment, där man ofta är intresserad av att se om olika egenskaper hos bakterierna påverkar deras tillväxthastighet.

För att hjälpa forskare och företag med sådana analyser har jag utvecklat Bioscreen Analysis Tool – förkortat BAT – ett gratis program som körs direkt i webbläsaren och som låter användaren snabbt och enkelt analysera resultatet av hundratals experiment.

BAT används idag av universitet och företag på fyra kontinenter. I de flesta fall kan programmet på egen hand utföra hela analysen, med en analysmotor byggd med verktygen R och Shiny, men i de fall där bakteriernas tillväxt avviker från det normala får användaren styra analysen genom ett grafiskt gränssnitt:

När man behöver utföra samma sorts tidskrävande analys gång på gång kan det vara en bra idé att automatisera det arbetet. Man behöver då en väl vald statistisk metod, verktyg för att kontrollera om något avviker från hur data brukar se ut samt ett gränssnitt som gör det lätt för användare som inte är experter på statistik att göra analyserna. En gång i tiden försökte man åstadkomma det här med komplicerade Excelark, men med R och Shiny kan vi idag skapa bättre, flexiblare och tydligare verktyg. Allt för att göra korrekta analyser på enklast möjliga vis.

  • Behöver ni hjälp med automatiserad dataanalys? Kontakta mig så ser vi hur jag kan hjälpa er.