Statistiska hänsynstaganden i Basic

I korthet kan sägas, att all avvikelse från norm i Basic är signifikant, även om avvikelsen är så liten som 0,045 z-poäng. Det man i stället bör fråga sig om avvikelsen har en praktiskt betydelse och om gruppen är homogen. För det senare finns en spridningstabell att tillgå i Basic. För det förra har vi funnit att ett värde om ± 0,25 z-poäng har en praktisk betydelse, dvs avvikelse är inte bara signifikant, utan den är också praktiskt märkbar. Vi markerar därför värden som över- eller understiger denna gräns. Vi har också satt en andra gräns vid ± 0,5 z-poäng, där erfarenheten visat att skillnaden mot norm är definitivt märkbar. 

Z-värden 
Basic är ett ett »test« som beräknar resultat efter normerade värden. Detta innebär att resultaten inte anges som medelvärden, utan som avvikelse från det normala medelvärdet. 

Resultaten anges dessutom i relation till vad som är en normal avvikelse från medelvärdet, dvs i relation till det normala värdets standardavvikelse. 

Detta innebär att poängen i Basic är z-värden. Ett z-värde anger helt enkelt ett enskilt värdes avvikelse från normalvärdet i enheten ± antalet standardavvikelser från norm. 

Varför z-värden? 
Anledningen till att vi använder z-värden i Basic är mångfaldig: 

  1. Genom att normera alla värden får man ett enhetligt utgångsvärde för alla påståenden och variabler. Detta innebär att man utan större problem exempelvis kan jämföra nivån på stress med nivån på organisatoriskt förtroende, men också att man kan jämföra nivån mellan varje enskild fråga: ett värde över 0 anger alltid att man ligger över normvärdet, ett värde under 0 innebär att man ligger lägre än norm.

  2. Ett z-värde tar automatiskt hänsyn till varje påståendes normala varians, dvs om ett påstående normalt pendlar inom ett intervall från 3,5 till 4, så är det »lättare« att få höga z-värden på detta påstående, än på ett påstående som ligger inom intervallet 3 till 4,5. Detta beror på att standardavvikelsen blir högre för det påstående som har den högre variansen 

    På så sätt ger omvandlingen till z-värden inte bara en normering av medelvärdet, utan också en normering av skalan. För att på ett enskilt påstående få värdet 1, krävs det kanske på påstående A att man har 1,56 poäng över medelvärdet, medan det för påståendet B räcker med en avvikelse på 0,34 poäng.

  3. Genom att använda en normgrupp kommer man delvis undan de problem som är förknippade med statistiska beräkningar på resultat från små grupper. För att få statistiskt signifikanta värden krävs normalt en grupp på 100 personer eller fler. Signifikansen anges då exempelvis som sannolikheten att den aktuella gruppens medelvärde är representativt för totalpopulationen (se definitionen för konfidensintervall nedan). Man kan också, om man vill jämföra olika grupper eller effekten av en behandling på en och samma grupp, vilja ange signifikansen i relation till variansen, dvs är det sannolikt att den skillnad vi uppmätt inte är att hänföra till slumpen (se definitionen för ANOVA nedan).

    Det är ofta i experimentella sammanhang dessa problem hamnar i fokus. Man hör då ofta talas om signifikans mätt på olika nivåer, angett som p-värden (eng. p-level eller probability level). En signifikansnivå p=0,05 anger då att det (endast) finns en 5% chans att det värde man uppmätt är att hänföra till slumpen. Ju lägre p-värde, desto lägre är sannolikheten för ett slumpmässigt resultat, dvs låga p-värden, hög signifikans (se definitionen för p-värden nedan).

    När man använder en normgrupp kan man lite slarvigt säga att signifikansproblematiken förflyttas från den lilla gruppen som man nu studerar, till den stora grupp som utgör normgrupp. Det är alltså konfidensintervall och signifikansangivelser för normgruppen som blir av intresse och det är inte riktigt meningsfullt att prata om konfidensintervall etc för den enskilda individens eller den lilla gruppens normerade resultat. 
Normgruppen 
Om signifikansproblematiken flyttas från den lilla grupp som man just nu studerar, till den stora grupp som utgör normgrupp, uppstår givetvis frågan om hur normgruppen ska vara beskaffad. 

Det huvudsakliga problemet med en normgrupp är urvalsmetoden, dvs hur kan man säga att den grupp man valt verkligen utgör norm? Man kan i princip tala om två modeller för att välja sin normgrupp. Antingen totalpopulation eller ett slumpmässigt urval. Totalpopulationen är i och för sig inte så mycket till urval: man tar helt enkelt med alla tänkbara individer inom den eftersökta kategorin, exempelvis alla under 18 år, alla män över 40, alla gravida eller alla födda inom oxens stjärntecken. 

Eftersom det kan bli en himla massa individer inom totalpopulationen, brukar man vilja använda en mindre grupp. Man gör då ett slumpmässigt urval, dvs man väljer slumpvis ut ett antal individer ur totalpopulationen. Detta urval ska givetvis vara representativt för totalen. Rent praktiskt innebär detta att man bör ha en grupp om fler än 100 individer i sitt urval. Detta verkar i och för sig inte vara särskilt många. Man kan ju tänka sig att ett slumpvis urval om 100 individer ur totalpopulationen »alla individer bosatta i Sverige« borde kunna bli lite snedvridet? Rent statistiskt tar man emellertid ingen hänsyn till storleken på totalpopulationen. Man behöver alltså inte ett större urval ur en stor totalpopulation än ur en mindre. 

När man pratar om det slumpmässiga urvalet bör man därför komma ihåg vad syftet är: att välja ut personer utan att det uppstår systematiska fel i samband med urvalet. Att man bara behöver 100 individer har inte med detta att göra, utan är i stället kopplat till bieffekter av de statistiska modellerna; det är allmänt känt att man med tillräckligt stora grupper alltid uppnår signifikans. 

I Basic har vi valt att använda dem som tidigare svarat på Basic som norm. Vi använder alltså inte ett slumpmässigt urval, utan strävar i stället mot en grupp så stor att den rent statistiskt och praktiskt närmar sig totalpopulationen. Vi gör detta mot bakgrund av ett antal faktorer: 

  1.  Vi vet inte med säkerhet vilken grupp som utgör totalpopulationen, dvs det är inte helt självklart inom vilken grupp vi skulle göra ett slumpmässigt urval.

  2. Just på grund av att totalpopulationens storlek och egenskaper ej är helt kända vill vi ha en betydligt större normgrupp än 100 individer. Detta på så sätt att om den tänkta totalpopulationen i grunden består av ett antal klart avgränsade subgrupper, skulle vi behöva ett slumpmässigt urval av 100 personer ur varje tänkbar subgrupp.

  3. Vi ser inget direkt systemfel i valet av nuvarande normgrupp. De som genomfört undersökningen har gjort så därför att företagsledningen eller personalenheten på deras arbetsplats beställt denna undersökning och inte p.g.a. individuella karaktäristika eller personliga skäl. Genom den relativt höga svarsfrekvensen (ca 80%) säkerställs denna urvalsneutralitet ytterligare: vi har visserligen bara fångat upp dem som svarat på enkäten, men dessa är procentuellt sett så många att det inte direkt liknar ett systemfel. Om bortfallet varit större skulle vår metod däremot varit tveksam. Man ska här dessutom komma ihåg, att bortfallet i samband med ett rent slumpmässigt urval många gånger är kring 50%, vilket också är ett klart problem med slumpmässiga urval: de som slumpmässigt väljs ut verkar också vara slumpmässigt motiverade att svara på frågorna 

    Man kunde i och för sig hävda att företagsledningens/personalenhetens motiv till att beställa undersökningen i sig är ett systemfel. Att man råkar arbeta på ett företag som beställt en viss undersökning kan dock svårligen betraktas som ett personlighetsdrag, särskilt som tillgången på arbeten många gånger hindrar individen från att fritt välja arbetsplats.
Normgruppen i Basic - en sammanfattning 
I Basic används resultat beräknade relativt en normgrupp bestående av 3232 individer som tidigare genomfört Basic. Urvalet har inte varit slumpmässigt, utan samtliga individer som under en period i början av 2000-talet genomfört undersökningen ingår i normgruppen. 
Genom att normerade data används blir det överflödigt att beräkna konfidensintervall i form av olika t-test och ANOVA. Genom att hela tiden relatera till de redan kända egenskaperna hos normgruppen i form av z-värden, står individens relation till det verkliga medelvärdet och variansen redan angiven. 
Detta innebär också att mätningar kan genomföras på grupper färre än 100 personer. I princip är det bara etiska ställningstaganden som behöver vägas in: rent statistiskt är en grupp om 1 person ingen omöjlighet. 
Det som dock kan bli nödvändigt är att mer noga studera homogeniteten på avdelningsnivå. Detta görs enklast genom att studera en spridningstabell. Det är däremot inte meningsfullt att beskriva avdelningens resultat i termer av konfidensintervall och sannolikhet. Genom att normgruppen är så stor som 3232 personer blir nämligen konfidensintervallet för varje given fråga mycket liten. Sannolikheten för att medelvärdena i normgruppen ligger inom »rätt« konfidensintervall är nämligen genomgående högre än 99%, samtidigt som konfidensintervallen ligger kring ± 0,1 rådatapoäng. I praktiken är alltså all avvikelse från normgruppens medelvärden signifikant på åtminstone nivån p = 0,01. 

Definitioner (på engelska) 

T-test 
T-test (for independent and dependent samples). The t-test is the most commonly used method to evaluate the differences in means between two groups. The groups can be independent (e.g., blood pressure of patients who were given a drug vs. a control group who received a placebo) or dependent (e.g., blood pressure of patients "before" vs. "after" they received a drug, see below). Theoretically, the t-test can be used even if the sample sizes are very small (e.g., as small as 10; some researchers claim that even smaller n's are possible), as long as the variables are approximately normally distributed and the variation of scores in the two groups is not reliably different (see also Elementary Concepts). 
Dependent samples test. The t-test for dependent samples can be used to analyze designs in which the within-group variation (normally contributing to the error of the measurement) can be easily identified and excluded from the analysis. Specifically, if the two groups of measurements (that are to be compared) are based on the same sample of observation units (e.g., subjects) that were tested twice (e.g., before and after a treatment), then a considerable part of the within-group variation in both groups of scores can be attributed to the initial individual differences between the observations and thus accounted for (i.e., subtracted from the error). This, in turn, increases the sensitivity of the design. 

One-sample test. In so-called one-sample t-test, the observed mean (from a single sample) is compared to an expected (or reference) mean of the population (e.g., some theoretical mean), and the variation in the population is estimated based on the variation in the observed sample. 

ANOVA 
General ANOVA/MANOVA. The purpose of analysis of variance (ANOVA) is to test for significant differences between means by comparing (i.e., analyzing) variances. More specifically, by partitioning the total variation into different sources (associated with the different effects in the design), we are able to compare the variance due to the between-groups (or treatments) variability with that due to the within-group (treatment) variability. Under the null hypothesis (that there are no mean differences between groups or treatments in the population), the variance estimated from the within-group (treatment) variability should be about the same as the variance estimated from between-groups (treatments) variability. 

Konfidensintervall 
Confidence Interval for the Mean: The confidence intervals for the mean give us a range of values around the mean where we expect the "true" (population) mean is located (with a given level of certainty, see also Elementary Concepts). In some statistics or math software packages (e.g., in STATISTICA) you can request confidence intervals for any p-level; for example, if the mean in your sample is 23, and the lower and upper limits of the p=.05 confidence interval are 19 and 27 respectively, then you can conclude that there is a 95% probability that the population mean is greater than 19 and lower than 27. If you set the p-level to a smaller value, then the interval would become wider thereby increasing the "certainty" of the estimate, and vice versa; as we all know from the weather forecast, the more "vague" the prediction (i.e., wider the confidence interval), the more likely it will materialize. Note that the width of the confidence interval depends on the sample size and on the variation of data values. The calculation of confidence intervals is based on the assumption that the variable is normally distributed in the population. This estimate may not be valid if this assumption is not met, unless the sample size is large, say n = 100 or more. 

P-värden 
Statistical Significance (p-level). The statistical significance of a result is an estimated measure of the degree to which it is "true" (in the sense of "representative of the population"). More technically, the value of the p-level represents a decreasing index of the reliability of a result. The higher the p-level, the less we can believe that the observed relation between variables in the sample is a reliable indicator of the relation between the respective variables in the population. Specifically, the p-level represents the probability of error that is involved in accepting our observed result as valid, that is, as "representative of the population." For example, the p-level of .05 (i.e.,1/20) indicates that there is a 5% probability that the relation between the variables found in our sample is a "fluke." In other words, assuming that in the population there was no relation between those variables whatsoever, and we were repeating experiments like ours one after another, we could expect that approximately in every 20 replications of the experiment there would be one in which the relation between the variables in question would be equal or stronger than in ours. In many areas of research, the p-level of .05 is customarily treated as a "border-line acceptable" error level. 
Comments