Winkler Prins Encyclopedie

E. de Bruyne, G.B.J. Hiltermann en H.R. Hoetink (1947)

Gepubliceerd op 17-10-2024

REGRESSIE

betekenis & definitie

(1, psycho-analyse) is het begrip, krachtens hetwelk de geestelijke energie (libido*) zich vastzet op strevingen uit de eerste kinderjaren, wat tot perversiteiten kan leiden of, wanneer de strevingen onbewust blijven ten gevolge van de verdringing, tot neurosen*. Ook bij krankzinnigen ziet men verschijnselen van regressie, bijv. neiging om met de ontlasting te smeren.

(2, statistiek). Dit begrip werd het eerst gebruikt door Francis Galton. Bij de analyse van waarnemingen over de lichaamslengte van vaders en die van hun zoons constateerde Galton een „regressie” in de richting van de normale lengte, d.w.z. dat de zoons van lange vaders gemiddeld weliswaar eveneens langer zijn dan normaal, maar dat hun gemiddelde lengte toch minder van de normale afwijkt dan die van hun vaders.

De term wordt thans in een veel algemener betekenis gebruikt, namelijk in het algemeen bij statistische onderzoekingen welke ten doel hebben de waarde van een grootheid y te schatten uit de bijbehorende waarde van een andere grootheid x.

De geschatte waarde van_y (y*) wordt berekend uit de „regressie-vergelijking” y(y*), bijv. de lineaire vergelijking y* = ax + b, waarin a en b constanten voorstellen, a en b worden berekend uit een aantal waargenomen waarden x1y1, x2y2,xnyn,, veelal met behulp van de „methode der kleinste kwadraten”, d.w.z. zodanig dat de som van de kwadraten van de verschillen tussen de waargenomen waarden y1yn en de uit de vergelijking berekende waarden y1* … yn* zo klein mogelijk is. Op grond van de gevonden vergelijking kan dan voor elke waarde van x de bijbehorende waarde y* worden bepaald. Overeenkomstige berekeningen kunnen worden gemaakt in gevallen dat er meer dan 2 variabelen (x,y, z, . . .) bij het onderzoek zijn betrokken.

De aldus berekende regressievergelijking kan in bepaalde gevallen worden geïnterpreteerd als een benadering van een bestaand functioneel verband tussen y en x. Echter ook indien er geen sprake is van een functioneel verband kan men betekenis hechten aan de regressievergelijking. Bij het onderzoek van Galton bijv. kan men niet spreken van een functioneel verband tussen y en x; in dit geval is_y* een schatting van de gemiddelde lengte van een aantal zoons waarvan de vaders een gegeven (gelijke) lengte x hebben.

De hierboven geschetste wijze van berekening van a en b is alleen gerechtvaardigd indien de getallen xi als volkomen gedetermineerd kunnen worden beschouwd en de yi’s kunnen worden opgevat als trekkingen uit waarschijnlijkheidsverdelingen. M.a.w. x is een gewone variabele, y een stochastische variabele.

Zijn in dit opzicht de rollen van x en y omgekeerd dan dient de berekening te worden gewijzigd. Men moet dan in x* = cy + d, c en d zodanig bepalen dat de som van de kwadraten van de verschillen tussen de waargenomen waarden xi en de berekende waarden xi* zo klein mogelijk is. Toegepast op het onderzoek van Galton betekent dit dat men 2 verschillende vergelijkingen moet gebruiken indien men wil bepalen: (a) de gemiddelde lengte van zoons van vaders van een gegeven lengte, (b) de gemiddelde lengte van vaders van zoons van een gegeven lengte.

Opgemerkt zij ten slotte dat de geschetste methode geen oplossing geeft van bijv. het volgende probleem. Tussen twee variabelen x en y bestaat een verband y = px + q. Van x en y zijn een aantal bijeenbehorende waarden waargenomen, beide echter behept met meetfouten (bijv. metingen van de lengte van een staaf bij verschillende temperaturen). Gevraagd de coëfficiënten p en q uit de waarnemingen te schatten. De waargenomen lengte zowel als de waargenomen temperatuur moet als een stochastische variabele worden beschouwd, zodat geen juiste oplossing wordt verkregen door bepaling van het minimum van de som der kwadraten van hetzij yi - yi * hetzij xi - xi *. Het zou te ver voeren op dit vraagstuk nader in te gaan.

PROF. G. GOUDSWAARD

< >