Homoscedasticity hvad er det, betydning og eksempler

3751
Basil Manning

Det homoscedasticitet i en forudsigende statistisk model forekommer det, hvis variansen af ​​modellen med hensyn til de forklarende (eller uafhængige) variabler forbliver konstant i alle datagrupperne for en eller flere observationer.

En regressionsmodel kan være homoscedastisk eller ej, i hvilket tilfælde vi taler om heteroscedasticitet.

Figur 1. Fem datasæt og regressionstilpasning af sættet. Variationen i forhold til den forudsagte værdi er den samme i hver gruppe. (upav-biblioteca.org)

En statistisk regressionsmodel med flere uafhængige variabler kaldes homoscedastisk, kun hvis variansen af ​​fejlen i den forudsagte variabel (eller standardafvigelsen for den afhængige variabel) forbliver ensartet for forskellige gruppeværdier af de forklarende eller uafhængige variabler.

I de fem datagrupper i figur 1 er variansen i hver gruppe beregnet med hensyn til den værdi, der er estimeret af regressionen, hvilket resulterer i at være den samme i hver gruppe. Det antages yderligere, at dataene følger den normale fordeling.

På det grafiske niveau betyder det, at punkterne er ligeligt spredt eller spredt omkring den værdi, der forudsiges af regressionstilpasningen, og at regressionsmodellen har den samme fejl og gyldighed for området for den forklarende variabel..

Artikelindeks

  • 1 Betydningen af ​​homoscedasticitet
    • 1.1 Homoscedasticitet versus heteroscedasticitet
    • 1.2 Homoscedasticitetstest
    • 1.3 Standardiserede variabler
    • 1.4 Ikke-grafiske tests af homoscedasticitet
  • 2 Referencer

Betydningen af ​​homoscedasticitet

For at illustrere vigtigheden af ​​homoscedasticitet i forudsigelig statistik er det nødvendigt at kontrastere med det modsatte fænomen, heteroscedasticity.

Homoscedasticitet versus heteroscedasticitet

I tilfælde af figur 1, hvor der er homoscedasticitet, er det rigtigt, at:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈… Var ((y4-Y4); X4)

Hvor Var ((yi-Yi); Xi) repræsenterer variansen, repræsenterer paret (xi, yi) data fra gruppe i, mens Yi er den værdi, der forudsiges af regressionen for middelværdien Xi for gruppen. Variansen af ​​n-dataene fra gruppe i beregnes som følger:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Tværtimod, når heteroscedasticitet opstår, er regressionsmodellen muligvis ikke gyldig for hele det område, hvor den blev beregnet. Figur 2 viser et eksempel på denne situation.

Figur 2. Datagruppe, der viser heteroscedasticitet. (Egen uddybning)

Figur 2 repræsenterer tre datagrupper og sætets pasform ved hjælp af en lineær regression. Det skal bemærkes, at dataene i den anden og tredje gruppe er mere spredte end i den første gruppe. Grafen i figur 2 viser også middelværdien af ​​hver gruppe og dens fejlbjælke ± σ med σ standardafvigelsen for hver datagruppe. Det skal huskes, at standardafvigelsen σ er kvadratroden af ​​variansen.

Det er klart, at i tilfælde af heteroscedasticitet ændres regressionsestimationsfejlen i værdiområdet for den forklarende eller uafhængige variabel, og i intervallerne, hvor denne fejl er meget stor, er regressionsforudsigelsen upålidelig eller ikke anvendelig.

I en regressionsmodel skal fejl eller rester (og -Y) fordeles med samme varians (σ ^ 2) i hele intervallet af værdier for den uafhængige variabel. Det er af denne grund, at en god regressionsmodel (lineær eller ikke-lineær) skal bestå homoscedasticitetstesten.. 

Homoscedasticitetstest

Punktene vist i figur 3 svarer til dataene i en undersøgelse, der ser efter et forhold mellem husernes priser (i dollars) som en funktion af størrelsen eller arealet i kvadratmeter.

Den første model, der skal testes, er en lineær regression. For det første bemærkes det, at bestemmelseskoefficienten R ^ 2 for tilpasningen er ret høj (91%), så det kan antages, at tilpasningen er tilfredsstillende..

Imidlertid kan to regioner skelnes tydeligt fra justeringsgrafen. En af dem, den til højre indesluttet i en oval, opfylder homoscedasticitet, mens regionen til venstre ikke har homoscedasticity.

Dette betyder, at forudsigelsen af ​​regressionsmodellen er tilstrækkelig og pålidelig i området mellem 1800 m ^ 2 til 4800 m ^ 2, men meget utilstrækkelig uden for denne region. I den heteroscedastiske zone er fejlen ikke kun meget stor, men også dataene ser ud til at følge en anden tendens end den, der er foreslået af den lineære regressionsmodel..

Figur 3. Boligpriser versus areal og forudsigelig model ved lineær regression, der viser homoscedasticitet og heteroscedasticitetszoner. (Egen uddybning)

Spredningsdiagrammet for dataene er den enkleste og mest visuelle test af deres homoscedasticitet, men ved lejligheder, hvor det ikke er så tydeligt som i eksemplet vist i figur 3, er det nødvendigt at ty til grafer med hjælpevariabler..

Standardiserede variabler

For at adskille de områder, hvor homoscedasticitet er opfyldt, og hvor den ikke er, introduceres de standardiserede variabler ZRes og ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Det skal bemærkes, at disse variabler afhænger af den anvendte regressionsmodel, da Y er værdien af ​​regressionsforudsigelsen. Nedenfor er spredningsdiagrammet ZRes vs ZPred for det samme eksempel:

Figur 4. Det skal bemærkes, at ZR'erne i homoscedasticitetszonen forbliver ensartede og små i forudsigelsesområdet (egen beskrivelse).

I grafen i figur 4 med de standardiserede variabler er det område, hvor den restfejl er lille og ensartet, klart adskilt fra det område, hvor den ikke er. I den første zone er homoscedasticitet opfyldt, mens i regionen, hvor den resterende fejl er meget variabel og stor, er heteroscedasticity opfyldt..

Regressionsjustering anvendes på den samme datagruppe i figur 3, i dette tilfælde er justeringen ikke-lineær, da den anvendte model involverer en potentiel funktion. Resultatet er vist i følgende figur:

Figur 5. Nye zoner med homoscedasticitet og heteroscedasticitet i data passer med en ikke-lineær regressionsmodel. (Egen uddybning).

I grafen i figur 5 skal homoscedastiske og heteroscedastiske zoner tydeligt bemærkes. Det skal også bemærkes, at disse zoner blev udskiftet med hensyn til dem, der blev dannet i modellen med lineær pasform.

I grafen i figur 5 er det tydeligt, at selv når der er en forholdsvis høj bestemmelseskoefficient for pasformen (93,5%), er modellen ikke tilstrækkelig til hele intervallet af den forklarende variabel, da dataene for værdier større end 2000 m ^ 2 nuværende heteroscedasticitet.

Ikke-grafiske tests af homoscedasticitet

En af de ikke-grafiske tests, der er mest brugt til at kontrollere, om homoscedasticitet er opfyldt eller ej, er Breusch-Pagan test.

Ikke alle detaljerne i denne test vil blive givet i denne artikel, men dens grundlæggende egenskaber og de samme trin er beskrevet i store træk:

  1. Regressionsmodellen anvendes på n-dataene, og deres varians beregnes i forhold til den værdi, der estimeres af modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. En ny variabel er defineret ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. Den samme regressionsmodel anvendes på den nye variabel, og dens nye regressionsparametre beregnes.
  4. Den kritiske værdi Chi kvadreret (χ ^ 2) bestemmes, dette er halvdelen af ​​summen af ​​kvadraterne nye rester i variablen ε.
  5. Chi-kvadratfordelingstabellen bruges i betragtning af signifikansniveauet (normalt 5%) og antallet af frihedsgrader (antal regressionsvariabler minus enheden) på x-aksen i tabellen for at opnå værdien af ​​tavlen.
  6. Den kritiske værdi opnået i trin 3 sammenlignes med værdien fundet i tabellen (χ ^ 2).
  7. Hvis den kritiske værdi er under den i tabellen, har vi nulhypotesen: der er homoscedasticitet
  8. Hvis den kritiske værdi er over den i tabellen, har vi den alternative hypotese: der er ingen homoscedasticitet.

De fleste af de statistiske softwarepakker som: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic og flere andre inkorporerer homoscedasticitetstesten af Breusch-Pagan. En anden test for at kontrollere ensartethed af varians Levene test.

Referencer

  1. Box, Hunter & Hunter. (1988) Statistik for forskere. Omvendte redaktører.
  2. Johnston, J (1989). Økonometriske metoder, Vicens -Vives-redaktører.
  3. Murillo og González (2000). Econometrics Manual. Universitetet i Las Palmas de Gran Canaria. Gendannet fra: ulpgc.es.
  4. Wikipedia. Homoscedasticitet. Gendannet fra: es.wikipedia.com
  5. Wikipedia. Homoscedasticitet. Gendannet fra: en.wikipedia.com

Endnu ingen kommentarer