Winkler Prins Encyclopedie

E. de Bruyne, G.B.J. Hiltermann en H.R. Hoetink (1947)

Gepubliceerd op 06-08-2022

Statistiek

betekenis & definitie

A. KARAKTER

De statistiek is een algemene methode van quantitatief wetenschappelijk onderzoek. Niet elk quantitatief onderzoek is echter van statistische aard. De statisticus houdt zich nl., als zodanig, niet bezig met de numerieke beschrijving van één bepaald object, maar hij is uitsluitend geïnteresseerd in kenmerken van verzamelingen van gelijksoortige objecten (elementen). We zouden de statistiek dus kunnen omschrijven als het quantitatief onderzoek van verzamelingen van gelijksoortige elementen. Om een voorbeeld te geven: een verzameling van quantitatieve kenmerken van één bepaald persoon (zijn lengte, zijn gewicht, enz.) vormt geen statistiek, wèl de lengten van een aantal personen. Dergelijke verzamelingen vertonen, als groep, eigenschappen die men aan de individuele elementen niet kan waarnemen, en het zijn deze groepseigenschappen die het object van het statistisch onderzoek vormen. Dit moge weer verduidelijkt worden aan de hand van enkele voorbeelden. Op grond van waarnemingen uit het verleden kent een maatschappij voor verzekering tegen ongevallen, althans bij benadering, het aantal ongevallen dat zich onder haar polishouders gedurende een jaar zal voordoen; welke individuele polishouders een ongeval zal overkomen is echter onbekend. Het aantal ongevallen is een groepseigenschap die min of meer constant en daardoor tot op zekere hoogte voorspelbaar is. Deze voorspelbaarheid strekt zich echter niet uit tot individuele elementen der groep. Ook het gemiddelde is een dergelijke groepseigenschap, bijv. de gemiddelde gezinsgrootte. Het eigen karakter van de groepseigenschap komt in dit voorbeeld onder meer hierin tot uiting dat de gemiddelde gezinsgrootte in het algemeen geen geheel getal zal zijn, de grootte van het individuele gezin uiteraard wel.

Behalve aan totalen en gemiddelden dient men echter ook aandacht te schenken aan de mate van spreiding, de variabiliteit, welke een verzameling vertoont. Stel dat de bedrijven in een bepaalde branche gemiddeld een winst hebben behaald van 10 pct van de omzet. Bedraagt de winst in een individueel bedrijf nu 7 pct dan zegt het verschil van 3 pct nog weinig omtrent de relatieve positie welke dat bedrijf ten opzichte van de andere inneemt. Varieert de winst der afzonderlijke bedrijven tussen een minimum van 6 pet en een maximum van 15 pct, dan moet 7 pct als een vrij pover resultaat worden beschouwd. Zijn deze minimum- en maximumpercentages echter resp. — 10 pct en 40 pct, dan behoort het bedrijf met 7 pct tot een middengroep. Eerst op grond van een analyse van de variabiliteit zal men kunnen komen tot een uitspraak van de volgende aard: voor 30 pct der bedrijven was het winstpercentage minder dan 7, voor 70 pct was de winst 7 pct of meer. Vaak zal het aanbeveling verdienen een verzameling met grote variabiliteit in meer homogene delen te splitsen. Zo heeft het weinig zin te spreken van de kosten van levensonderhoud voor „het” Nederlandse gezin. Wel bijv. van: de kosten van levensonderhoud voor een uit 4 personen bestaand arbeidersgezin met een inkomen tussen ƒ 2500 en ƒ3000.

Bij de tot nog toe behandelde voorbeelden kan het probleem in het algemeen zo worden gesteld: de verzameling op zodanige wijze te beschrijven dat op gemakkelijke wijze conclusies kunnen worden getrokken welke een inzicht geven in de aard van het onderzochte verschijnsel. Deze beschrijving kan bestaan uit het op overzichtelijke wijze groeperen van de gegevens in tabellen, het weergeven in grafieken, het berekenen van gemiddelden, van indexcijfers, van de variabiliteit, enz. In vele gevallen is het echter zo dat men slechts voor een deel van de te onderzoeken verzameling gegevens bezit, en dient de statisticus de vraag te beantwoorden welke conclusies men uit deze gedeeltelijke gegevens kan trekken ten aanzien van de samenstelling der verzameling.

Stel, bij wijze van voorbeeld, dat een partij flessen is geproduceerd en dat men wil controleren of het percentage uitval in deze partij binnen de toegestane grens, bijv. 3 pct blijft. Men kan uiteraard de flessen stuk voor stuk controleren; de samenstelling van de verzameling is dan geheel bekend. In de practijk zal een dergelijke volledige controle veelal te kostbaar zijn en dient men zich te beperken tot een steekproef. Trekken we echter uit het resultaat van de steekproef een conclusie over het percentage uitval in de gehele partij, dan is in een dergelijke conclusie onvermijdelijk een element van onzekerheid aanwezig. Vinden we in de steekproef 2 pct uitval, en concluderen daaruit dat de partij kan worden goedgekeurd, dan lopen we een zeker risico dat de partij in werkelijkheid meer dan 3 pct uitval bevat en dus afgekeurd had moeten worden. Men zal bereid zijn dit risico te aanvaarden zolang het voordeel van de vereenvoudiging der contrôle groter is dan het nadeel dat het gevolg is van de onjuiste beslissingen welke men soms op grond van het resultaat van de steekproef zal nemen.

Een regel die voorschrijft welke conclusie of welke beslissing — bijv. goedkeuren of afkeuren van een partij — men moet verbinden aan elk der mogelijke uitkomsten van een steekproefonderzoek, dient zodanig te zijn geconstrueerd dat het risico, hetwelk aan de toepassing er van is verbonden, bekend is. In de practijk zal men uiteraard eisen dat dit risico gering is; het wordt vaak op 5 pct gesteld, d.w.z. dat herhaalde toepassing van de betreffende regel in gemiddeld 5 op 100 gevallen tot een onjuiste beslissing zal leiden. De constructie van dergelijke regels is gebaseerd op de waarschijnlijkheidsrekening. De mate van onzekerheid der conclusies wordt geringer naarmate men over meer waarnemingsmateriaal beschikt. Volgens de zgn. „Wet van de grote getallen” zal nl. de samenstelling van de verzameling des te nauwkeuriger door de steekproef worden benaderd, naarmate het aantal elementen in de steekproef groter is.

Men vindt op het terrein der statistiek een vergaande specialisatie. In de eerste plaats heeft men de „verzamelende” statistici, die de maatschappelijke verschijnselen — voor zover deze quantificeerbaar zijn — quantitatief beschrijven. Vervolgens de wiskundigen die de statistische theorie in abstracto ontwikkelen. Ten slotte degenen die deze theorie toepassen op een bepaald gebied van wetenschap.

Voor het opstellen van een statistische theorie dient men wiskundig onderlegd te zijn. Wanneer men deze theorie toepast bijv. op een economisch vraagstuk, bedrijft men geen statistiek maar economie, en dient men economisch onderlegd te zijn. Ook voor het verzamelen van cijfermateriaal dient men uiteraard deskundig te zijn op het terrein van onderzoek. Het verzamelen van gegevens op maatschappelijk terrein vereist door de gewoonlijk grote omvang der werkzaamheden een aparte organisatie en een speciale techniek, welke tot de statistiek wordt gerekend. Indien de verzameling van gegevens echter bestaat uit het uitvoeren van een natuurwetenschappelijk experiment of van psychotechnische tests kan men dit niet tot de statistiek rekenen. Wel kan de statisticus hier nuttige adviezen geven omtrent de opzet van het experiment, ten einde er van verzekerd te kunnen zijn dat de resultaten daarvan geschikt zullen zijn voor statistische analyse („design of experiments”).

Hoewel statistische methoden door hun algemeen karakter niet gebonden zijn aan een bepaald toepassingsgebied, is het toch anderzijds zo dat op verschillende gebieden de problemen van sterk uiteenlopende aard zijn, waardoor niet steeds dezelfde methoden kunnen worden toegepast of relevant zijn. Ten einde een statistische methode te kunnen toepassen dient steeds aan een aantal vooronderstellingen te zijn voldaan, althans bij benadering. Het kan zijn dat bijv. bij een biologisch probleem aan deze hypothesen in voldoende mate is voldaan, maar bij een analoog economisch probleem niet.

Ter illustratie zij gewezen op een kenmerkend verschil tussen de natuurwetenschappen enerzijds en de sociale wetenschappen anderzijds. In de natuurkunde is het mogelijk experimenten in te stellen; men heeft daarbij de mogelijkheid bepaalde factoren die invloed hebben op het te meten verschijnsel constant te houden. Het verband tussen druk en volume van een gas bijv. kan men onderzoeken bij constante temperatuur. Men heeft daardoor contrôle over de variabiliteit. Op het terrein der sociale wetenschappen daarentegen is het vrijwel nooit mogelijk een of meer der oorzaken welke de variabiliteit van een verschijnsel bepalen, constant te houden, en de invloed dezer oorzaken daardoor uit te schakelen. Dit verklaart bijv. het feit dat in de toepassingen der statistiek op het gebied der sociale wetenschappen de correlatierekening een veel groter rol speelt dan in natuurwetenschappelijke toepassingen.

Een belangrijke functie van de statistiek is het confronteren van een theorie of van een hypothese met de feitelijke gegevens. Opgemerkt dient in dit verband dat de statistiek wel de onjuistheid van een theorie kan aantonen, maar nooit de juistheid (afgezien van het triviale geval dat de „hypothese” bestaat uit een feit dat zonder meer controleerbaar is indien men slechts genoeg waarnemingen verricht) . Dit kan worden toegelicht aan de hand van het reeds gebruikte voorbeeld van de partij flessen. Stel dat we de „hypothese” willen toetsen dat de partij 3 pct uitval bevat en — ten einde het genoemde triviale geval te vermijden— dat de partij niet volledig kan worden gecontroleerd, maar alleen door middel van een steekproef. Zelfs indien in deze steekproef precies 3 pct uitval wordt gevonden, is dit nog geen bewijs dat het uitvalpercentage der gehele partij daarmee overeenkomt.

B. GESCHIEDENIS

In de geschiedenis der statistiek kan men drie ontwikkelingslijnen onderscheiden, die zich eerst in de 19de eeuw tot een geheel hebben verenigd.

Reeds in de Oudheid verzamelde de overheid quantitatieve gegevens betreffende de samenleving. Volkstellingen werden bijv. in China en Egypte gehouden; ook in de Bijbel leest men daarvan op verscheidene plaatsen. De bedoeling was daarbij gegevens te verkrijgen welke van belang waren in verband met de recrutering van legers of de belastingheffing. In de Middeleeuwen verminderde de belangstelling voor dergelijke tellingen; eerst in de 17de eeuw kwam er weer een opleving.

De statistiek in de zin van het bestuderen van eigenschappen van verzamelingen gaat terug op John Graunt (1620-1674). In 1662 publiceerde deze zijn Natural and Political Observations upon the Bills of Mortality, waarin hij de wekelijkse doop- en begrafeniscijfers uit de in de 16de eeuw ingestelde kerkelijke registers der Londense parochies analyseerde. Ongeveer tegelijkertijd is in Frankrijk de waarschijnlijkheidsrekening ontstaan, een tak der wiskunde die thans nauw met de statistiek is verbonden, maar die zich gedurende bijna twee eeuwen geheel onafhankelijk daarvan heeft ontwikkeld. De „practische” toepassingen der waarschijnlijkheidsrekening lagen aanvankelijk geheel op het gebied der kansspelen.

Het is vooral Adolphe Quetelet (1796-1874) geweest die het verband heeft gelegd tussen de waarschijnlijkheidsrekening en het werk van de school van Graunt (de „politieke rekenkunde”), en die daarmee kan worden beschouwd als de grondlegger der moderne statistiek.

Etymologisch wordt het woord statistiek gewoonlijk teruggebracht tot het Latijnse „status” of het Italiaanse „stato”. Het werd in de 17de eeuw ingevoerd als aanduiding van een in die tijd aan Duitse universiteiten opgekomen nieuw leervak, de vergelijkende beschrijving van de toestand en de structuur van verschillende staten. Deze beschrijvingen waren echter aanvankelijk van geheel qualitatieve aard. Later kregen zij geleidelijk meer het karakter van quantitatieve beschrijvingen, waarop toen de aanduiding „statistiek” overging.

Na Quetelet begon de ontwikkeling van de theoretische statistiek, veelal aangeduid als mathematische statistiek. Begonnen met het onderzoek van gemiddelden, werden daarna ook spreidingsverschijnselen bestudeerd, en werd de grondslag der correiatierekening gelegd. De snelle groei begon echter eerst in het begin der 20ste eeuw, toen men zich ging bezighouden met de theorie van beperkte aantallen waarnemingen, waarbij men dus de onderzochte verzameling niet volledig kent. Zou men een bepaald jaartal willen aangeven voor de aanvang van deze ontwikkeling, dan zou men als zodanig kunnen noemen 1901, het jaar waarin door Karl Pearson het tijdschrift Biometrika werd opgericht. Tot ongeveer het einde van Wereldoorlog I vindt men verreweg de meeste belangrijke nieuwe bijdragen tot de mathematische statistiek in dit ene tijdschrift. Hieruit blijkt al dat de mathematische statistiek niet „autonoom” tot ontplooiing is gekomen, maar dat zij is gegroeid uit de behoeften van andere gebieden van wetenschap, aanvankelijk met name de biologie. Later heeft het gebruik van mathematisch-statistische methoden zich snel uitgebreid over andere takken van wetenschap, en hebben deze ook in toenemende mate toepassing gevonden in het bedrijfsleven bij de planning, de marktanalyse en de statistische qualiteitscontrole of qualiteitsbeheersing van massaproducten. De mathematische statistiek is daarbij uitgegroeid tot een niet zeer overzichtelijk geheel van min of meer los naast elkaar staande methoden. Eerst in de laatste jaren is men zich meer gaan bezinnen op de grondslagen der statistiek en heeft men pogingen in het werk gesteld een algemene theorie op te stellen — de theorie der beslissingsfuncties van Abraham Wald — die een groot aantal der gebruikelijke statistische methoden als bijzondere gevallen omvat.

Vooral sedert het begin der jaren dertig zijn ook de ambtelijke statistische bureau’s snel gegroeid, vnl. als gevolg van de behoeften aan cijfermateriaal welke ontstond door het toenemend overheidsingrijpen op sociaal-economisch terrein. De groei heeft daardoor vnl. betrekking op economische statistieken. Behalve van groei kunnen we echter ook spreken van een voortgaande synthese, in deze zin, dat de vroeger vrij los naast elkaar staande afzonderlijke economische statistieken meer en meer worden beschouwd als onderdelen van een quantitatieve beschrijving van het economische leven als geheel. Aanvankelijk kwam dit tot uitdrukking in berekeningen van het nationale inkomen en het nationale vermogen; later werden meer en meer deze analyses uitgebreid tot „nationale rekeningen”.

Ook de werkwijze der bureau’s heeft een snelle evolutie doorgemaakt. We wijzen daarbij op de invoering van steeds vernuftiger en steeds sneller machines voor de bewerking van het grondmateriaal, en voorts op het toenemend gebruik van steekproefonderzoekingen in plaats van volledige tellingen, hetgeen een aanzienlijke besparing van tijd en geld kan betekenen. Het steekproefonderzoek in moderne vorm houdt niet alleen in dat men in plaats van de gehele verzameling slechts een deel daarvan waarneemt, maar ook dat dit deel zodanig wordt gekozen dat een maximumgrens kan worden berekend voor de verschillen tussen het resultaat van de steekproef en het resultaat dat door volledige waarneming zou zijn verkregen.

c. ORGANISATIE

De organisatievorm der ambtelijke statistiek is een onderwerp van voortdurende discussie. Enerzijds worden de voordelen bepleit van centralisatie, anderzijds wordt betoogd dat het beter is indien de verschillende overheidsdiensten ieder over hun eigen statistische afdeling kunnen beschikken. In een klein land schijnen de voordelen van centralisatie te overwegen, terwijl het in de grote landen de voorkeur verdient de statistische werkzaamheden te verdelen over een aantal departementen, mits er ook een centraal coördinerend orgaan wordt ingesteld. Dit is het onder meer in Engeland en in de V.S. gevolgde systeem. In Nederland is de rijksstatistiek vrijwel volledig gecentraliseerd in het Centraal Bureau voor de Statistiek (zie hierna). Daarnaast bestaan er statistische bureau’s in enkele grote gemeenten, waarvan dat van Amsterdam het belangrijkste is.

Inzake het universitair onderwijs in de statistiek bestaat er een analoog dualisme: dient de statistiek te worden gedoceerd in afzonderlijke faculteiten, waarbij de nadruk kan vallen op de toepassingen in de tak van wetenschap welke in die faculteit wordt onderwezen, of is het beter het statistisch onderwijs interfacultair te organiseren. Dit laatste is nog slechts bij een gering, maar groeiend aantal universiteiten het geval.

Reeds vroegtijdig bestond er georganiseerd internationaal contact tussen statistici. In 1853 werd het eerste internationale statistisch congres gehouden, en in 1885 werd een permanente organisatie, het „Institut International de Statistique” opgericht, dat daarmee een der oudste internationale organisaties is. Sedert 1913 is Den Haag de zetel van het Instituut. Het doel was aanvankelijk het bevorderen van de vergelijkbaarheid der nationale statistieken en het publiceren van internationale statistische gegevens. Deze taken zijn echter langzamerhand overgenomen door de officiële internationale organisaties, thans de Verenigde Naties. Het werk van het Instituut werd daardoor meer en meer geconcentreerd op methodologische vraagstukken.

PROF. G. GOUDSWAARD

Lit.: H. Westergaard, Contributions to the History of Statistics (London 1932); F. E. Croxton and D. J. Cowden, Applied General Statistics (New York 1939); H. Cramer, Mathematical Methods of Statistics (Princeton 1946); O. Bakker, Statistiek (3 delen), 5de dr. (Purmerend 1947-1950); S. T. Bok, De gedachtengang van de statistica, 2de druk (Leiden 1948); P. de Wolff, Bedrijfsstatistiek (Alphen a/d Rijn 1950); G. U. Yule and M. G. Ken dal 1, An Introduction to the Theory of Statistics, 14de dr. (London 1950); R. A. Fisher, Statistical Methods for Research Workers, iide dr. (London 1950).