Er du ute etter

Tolke regresjonskoeffisientar

  • 22 June, 2013
  • 0
Er du ute etter

Lineær regresjon er en av de mest populære statistiske teknikker som brukes av forskere. Til tross for sin popularitet, tolkning av regresjonskoeffisientene av noe, men de enkleste modellene er noen ganger vanskelig. Denne artikkelen forklarer hvordan du skal tolke koeffisientene kontinuerlige og kategoriske variabler. Selv om eksempelet som brukes her er en lineær regresjonsmodell med to Predictor variabler, kan den samme tilnærmingen når man tolker koeffisienter fra en regresjonsmodell uten interaksjoner, inkludert logistikk og proporsjonal farer modeller.

En lineær regresjonsmodell med to prediktorforsterkning variabler kan uttrykkes med følgende ligning:

Y = B0 + B1 * X1 + B2 * X2 + E.

Variablene i modellen er Y, responsvariabelen, X1, den første prediktor variabel, X2, den andre prediktor variabel, og E, den gjenværende feil, noe som er en unmeasured variabel. Parametrene i modellen er B0, Y-aksen, B1, den første regresjonskoeffisient, og B2, den andre regresjonskoeffisient.

Tolke regresjonskoeffisienter. En lineær regresjonsmodell med to Predictor variabler kan uttrykkes med følgende formel.
Tolke regresjonskoeffisienter. En lineær regresjonsmodell med to Predictor variabler kan uttrykkes med følgende formel.

Ett eksempel ville være en modell av høyden av en busk (Y) basert på mengden av bakterier i jordsmonnet (X1) og om planten er plassert i delvis eller full sol (X2). Høyden måles i cm, er bakterier målt i tusen per ml av jord, og type sol = 0 dersom anlegget er i delvis sol og type sol = 1 dersom anlegget er i full solen. La oss si at det viste seg at regresjonsligningen ble estimert som følger:

Y = 42 + 2,3 * X1 + 11 * X2

Tolke interceptB0

Tolke skjæringspunktet
B0, Y-aksen, kan tolkes som verdien du vil spå for Y hvis begge X1 = 0 og X2 = 0. Vi forventer en gjennomsnittlig høyde på 42 cm for busker i delvis sol uten bakterier i jorda. Dette er imidlertid bare en meningsfylt tolkning hvis det er rimelig at både X1 og X2 kan være 0, og hvis datasettet faktisk inkludert for X1 og X2 som var nær 0. Hvis ingen av disse betingelsene er oppfylt, har da B0 egentlig ingen meningsfull tolkning. Det bare forankrer regresjon linje på rett sted. I vårt tilfelle, er det lett å se at X2 noen ganger er 0, men hvis X1, vår bakterier nivå, aldri kommer nær 0, da vår skjæringspunktet har ingen reell tolkning.

Tolkning av koeffisienter med kontinuerlig Predictor variabler
Siden X1 er en kontinuerlig variabel, B1 representerer forskjellen i den forventede verdi av Y for hver en-enhet forskjell i X1, X2 hvis forblir konstant. Dette betyr at hvis X1 varierte med én enhet, og X2 ikke var forskjellig, vil Y avviker med B1-enheter, i gjennomsnitt. I vårt eksempel, ville busker med en 5000 kimtall i gjennomsnitt være 2,3 cm høyere enn de med en 4000/ml kimtall, som likeledes vil være ca 2,3 cm høyere enn de med 3000/ml bakterier, så lenge de var i den samme type av solen. Legg merke til at siden kimtall ble målt i 1000 ml pr jord, 1000 bakterier representerer en enhet av X1.

Tolkning av koeffisienter av kategoriske Predictor variabler

Tilsvarende er B2 tolkes som forskjellen i den forventede verdi i Y for hver en-enhet forskjell i X2, hvis X1 forblir konstant. Men siden X2 er en kategorisk variabel kodet som 0 eller 1, representerer en en enhet forskjell veksling fra en kategori til en annen. B2 er da den gjennomsnittlige forskjellen i Y mellom den kategorien som X2 = 0 (referansegruppen) og kategorien som X2 = 1 (sammenligningsgruppen). Så sammenliknet med busker som var i delvis sol, ville vi forvente busker i full sol til å være 11 cm høyere, i gjennomsnitt, på samme nivå av jord bakterier.

Tolkning av koeffisienter av tilknyttede Predictor variabler
Det er viktig å huske på at hver koeffisient er påvirket av andre variabler i en regresjonsmodell. Fordi prediktor variablene er nesten alltid er forbundet, kan to eller flere variabler forklare den samme variasjon i Y. derfor ikke hver enkelt koeffisient ikke forklare den totale effekten på Y av den tilsvarende variabel, som det ville hvis det var den eneste variable i modellen. Snarere, representerer hver koeffisient ytterligere effekten av å legge den variabelen til modellen, hvis virkningene av alle andre variabler i modellen allerede er gjort rede for. Derfor vil hver koeffisienten endres når andre variabler er lagt til eller slettet fra modellen.

For en diskusjon om hvordan man skal tolke koeffisientene modeller med interaksjon vilkår, se Tolke Interaksjon i regresjon.

Karen Grace-Martin

Karen Grace-Martin, grunnleggeren av The Analysis Factor, har hjulpet samfunnsvitenskapelige forskere praksis statistikk for 9 år, som en statistisk konsulent ved Cornell University og i sin egen virksomhet. Hun vet hva slags ressurser og støtte som forskerne trenger å øve statistikk trygt, nøyaktig og effektivt, uansett hva deres statistisk bakgrunn. For å svare på spørsmål, få råd, og vise en liste over ressurser som hjelper deg å lære og anvende egnede statistikk på dine data, kan du gå www.analysisfactor.com.

Ranger denne artikkelen: stemmer