Riskante gewoonten en zorg voor eigen welzijn

(1963)–I. Gadourek– rechtenstatus

2.5 Coderen van gegevens

De grote hoeveelheid gegevens maakte mechanisatie van de bewerking noodzakelijk. Daar het op een tijdstip niet geheel zeker was of het onderzoek aan het Nederlands Instituut voor Praeventieve Geneeskunde geheel zou worden afgewerkt, zijn de voornaamste variabelen op de handsorteringskaarten overgebracht. Hiervoor zijn de kaarten gebruikt met 72 randperforaties. Het meeste sorteer- en tabelleerwerk is echter verricht met behulp van de Hollerith-kaarten. Oorspronkelijk zijn drie Hollerithkaarten ontworpen, elke behelzend de voornaamste variabelen op een bepaald gebied (het roken, het drinken, de houdingsvragen) en de voornaamste basisfactoren (leeftijd, geboorteplaats, opleiding enz.). De laatste waren in dezelfde kolommen op alle drie kaarten geponst, teneinde de mechanische ponsing mogelijk te maken. Op deze wijze hoopten we het tabelleren van gegevens die zich op twee afzonderlijke Hollerith-kaarten bevonden voor zover mogelijk te vermijden. Nadat de meeste schalen waren geconstrueerd en de voornaamste variabelen voor een globale analyse waren uitgezocht, werd tenslotte nog een vierde kaart ontworpen. Deze vormde als het ware een synthese van de gegevens meer analytisch behandeld op de afzonderlijke kaarten.

Zoals voor het interviewen is ook voor het coderen de hulp der studenten ingeroepen. Een negental personen ingeschreven aan de Leidse universiteit werd voor deze taak aangesteld onder leiding van de twee vaste leden van het onderzoeksteam. Daar de vragenlijst weinig open vragen bevatte en daar voornamelijk de vragen met van tevoren geformuleerde antwoordcategorieën voor de quantitatieve analyse werden bestemd, verwachtten wij een grote mate van uniformiteit bij het coderen. De codelijsten in gestencilde vorm zijn aan de codeurs rondgedeeld, die te zamen in één vertrek werkten. Slechts een betrekkelijk klein aantal variabelen is opengelaten (beroep, onderwijs, enz.). Hiervoor is gedurende het coderen zelf een aantal subcategorieën ontworpen door de codeurs. Eveneens toegevoegd aan de codelijsten is een aantal subcategorieën betreffende de combinatie van antwoorden die nogal vaak voorkwamen.

Over het algemeen is het proces van coderen minder bevredigend verlopen dan de enquête zelf. Reeds in de beginfase is nl. controlecodering ingevoerd; aanvankelijk is van elke vijf vragenlijsten één voor de tweede keer gecodeerd en de afwijkingen zijn vergeleken; later is de verhouding op 1 : 10 gesteld. In totaal zijn er 194 vragenlijsten gecontroleerd, dit is omstreeks 15% van het totaal. Er zijn gemiddeld 5,1 codeerfouten per

lijst gevonden, d.w.z. 3,3% van het totaal aantal coderingen (154) per vragenlijst.

	Gecodeerde vragenlijsten Schedules coded		Gecontroleerde vragenlijsten Check-coded schedules		Geconstateerde fouten Errors
Tabel 2.5.1 Spreiding van codeer-fouten over de negen codeurs Table 2.5.1 Distribution of errors as made by the nine coders
	1	2	3	4	5	6
Codeur Coder	Aantallen Numbers	Percentage van totaal Per cent	Aantallen Numbers	Percentage van kolom 1 Percent of 1	Aantallen Numbers	Aantallen per vragenlijst Number per interview-schedule
A	279	21,5	47	16,8	212	4,51
B	230	17,7	29	12,6	187	6,45
C	201	15,5	29	14,2	150	5,17
D	164	12,6	20	12,2	67	3,35
E	148	11,4	16	10,8	73	4,56
F	94	7,3	18	19,1	76	4,22
G	79	6,1	11	13,9	40	3,64
H	59	4,6	8	13,6	42	5,25
IGa naar voetnoot*	43	3,3	16	37,2	158	9,88
	1.297	100,0	194	14,0	1.005	5,18

Tabel 2.5.1 laat zien hoe de codeerfouten verdeeld zijn over de negen codeurs. Met uitzondering van codeur I die ongeschikt bleek voor het werk en wiens werk grotendeels is overgedaan, ligt het gemiddeld aantal fouten per vragenlijst ergens tussen 3,35 (codeur D) en 6,45 (codeur B). Het feit dat het aantal fouten bij beide codeurs, die grote aantallen hebben verwerkt (resp. 164 en 230) dermate verschillend is, suggereert reeds dat het proces van coderen meer dan van het te coderen materiaal van de persoonlijkheid van de codeur afhankelijk is geweest.

Een analyse der gemaakte ‘fouten’ toont eveneens dat het merendeel der vergissingen door aandachtverslapping is veroorzaakt. Veel van deze fouten zijn later opgespoord door middel van de consistentietests die consequent zijn toegepast: nadat het materiaal gecodeerd werd, heeft men alle kolommen gesorteerd. Alle kaarten die in andere regels ponsingen vertoonden dan op het codeschema aangeduid zijn stuk voor stuk opgezocht, vergeleken met de vragenlijsten en overgeponst. Hiernaast is ook de inherente-consistentiecontrole toegepast: twee of meerdere kolommen zijn in correlatietabellen tegen elkaar uitgezet; b.v. de vraag naar de rookgewoonten van de echtgenoten (73) heeft men vergeleken met de

vraag naar de burgerlijke staat (vraag 6); de vraag door middel waarvan men de niet-rokers identificeerde (50) is consequent met alle vragen omtrent roken vergeleken (de niet-rokers moesten immers in de meeste gevallen onder de categorie ‘niet van toepassing’ vallen). Hetzelfde is gedaan met de subcategorie van personen die verklaarden geen alcoholische dranken te gebruiken en een aantal andere vragen.

Het is gebleken dat de meeste codeerfouten op verwisseling van deze negatieve antwoordcategorieën berustten: ‘niet van toepassing’, ‘niet gesteld’, ‘(rookt of drinkt) nooit’, ‘niet ingevuld’.

Meer dan 4.000 kaarten zijn gedurende deze periode opgespoord en vernietigd dank zij de systematische controle van de heer G.W. Gemert, van de Afdeling Statistiek van het N.I.P.G. Niet alle fouten konden echter op deze wijze worden geïdentificeerd. Daar waar de beide consistentietests faalden, bleek de ‘check-coding’ een waardevol hulpmiddel te zijn. Deze maakt het ons mogelijk de spreiding van de codeerfouten over de variabelen te onderzoeken. Tabel 2.5.2 op blz. 348 geeft een overzicht van de variabelen die meer dan 5% fouten hebben opgeleverd.

Uit de bovengenoemde tabel blijkt dat er veel fouten ontstaan zijn door het samentrekken van meerdere vragen tot één ponsing of één index. Bij de sociale-participatie-index moesten de codeurs een groter aantal, over de gehele vragenlijst verspreide vragen inspecteren, aan de antwoorden een gewicht toekennen en alle gewichten optellen tot een gezamenlijke index. Allicht is hier het aantal verrichte handelingen medeverantwoordelijk voor het aantal fouten. Hetzelfde geldt voor de variabelen ‘tevredenheid met de huisvesting’, ‘contact met massacommunicatiemiddelen’, ‘drinkgewoontenpatroon’, ‘aanpassingsindex’ en nog andere. Alweer bleek de ‘zuinigheid’ in het ontwerpen van de code (het streven om het aantal kaarten per vragenlijst beperkt te houden) mede schuld hieraan: door combinatie van antwoordcategorieën trachtten we soms zelfs drie vragen op een kolom te plaatsen. Hierin zijn dan (bij het coderen van de ‘combinaties’) de meeste fouten gemaakt. Naast de (zoals blijkt: verkeerde) zuinigheid was echter ook het streven om tot een synthese van de over de drie ponskaarten verspreide informatie te komen, medeverantwoordelijk voor het werken met gecombineerde variabelen.

Uit de tabel kunnen we eveneens zien dat sommige variabelen aanzienlijk zijn gecorrigeerd na het testen van de consistentie der antwoorden. Het feit dat enkele variabelen met een groot aantal codeerfouten (variabelen 1, 2, 4, 5, in Tabel 2.5.2) aan de correctie zijn ontsnapt, is te verklaren uit het feit dat niet alle vragen voor de correctie vatbaar waren: wij beschikten over geen additionele informatie, behalve die vermeld in kolom twee van de tabel, om deze vragen mee te vergelijken. Terwijl de

	Variabele Variable	Vraag no. Question no.	Aantal Number	Percent van de 194 gecontroleerde vragenlijsten Per cent of the 194 checkcoded interview schedules	Gecorrigeerd na consistentie- tests Corrected after the consistency tests
Tabel 2.5.2 Variabelen gekenmerkt door meer dan vijf percent codeerfouten Table 2.5.2 Variables with more than five per cent coding mistakes
1.	Woondichtheid Housing- density	34,35	36	18,5	-
2.	Sociale participatie Social participation	31,146-150	35	18	-
3.	Het leren roken Source of smoking habits	65,66	27	14	48
4.	Tevredenheid huisvesting Satisfaction with housing	35,38,42	26	13	-
5.	Bronnen van informatie Sources of information	76	20	10	-
6.	Dagritme van drinken Daily rhythm of drinking	86b	20	10	11
7.	Contact communicatie- middelen Contacts with radio, television etc.	151,153,156	20	10	-
8.	Roken echtgeno(o)t(e) Smoking of wive or husband	73	19	10	15
9.	Hygiënisch inzicht Elementary knowledge of hygiene	32	18	9	6
10.	Drinkgewoonten- patroon Drinking- pattern	84,94,100	18	9	35
11.	Beroepsgroep Occupational category	9	16	8	7
12.	Financiële vooruitgang Financial progress	19	16	8	1
13.	Opleiding Education	5	15	8	1
14.	Wat men drinkt Beverage preferred	84	15	8	21
15.	Persoonlijkheids- evenwicht Symptoms of lack of well-being	136,138,139	15	8	-
16.	Levens- gerichtheid Purpose of life	137	15	8	-
17.	Pessimisme - optimisme Pessimism- optimism	117	14	7	4
18.	Vroegere rookgewoonten Earlier smoking habits	64	13	7	-
19.	Hoeveelheid gisteren gerookt Actual tobacco consumption	57	13	7	-
20.	Aanleiding om meer te roken Motives to smoke more than usually	54	12	6	31
21.	Beroep vader Father's occupation	10	12	6	4
22.	Mocht men roken Parents' attitude to smoking	67	12	6	75
23.	Bezwaren roken zoons Attitude to smoking of sons	83	12	6	-
24.	Bezwaren roken dochter Attitude to smoking of daughters	83	11	5,5	-
25.	Was- gelegenheid in huis Sanitary equipment	41	11	5,5	-
26.	Huishuur Rent of house	34,35	11	5,5	1

variabele ‘van wie het roken geleerd’ kon worden vergeleken met de vraag of men thans of vroeger heeft gerookt, stond de vraag naar het aantal personen per vertrek b.v. geheel ‘geïsoleerd’ in de vragenlijst.

Terwijl dus niet alle foutief gecodeerde variabelen, die door de ‘checkcoding’ zijn ontdekt bij de controle op de consistentie zijn opgevangen, waren er, aan de andere kant, ook variabelen als foutief gesignaleerd door middel van de consistentietest, die niet tijdens de controlecodering waren ontdekt. Dit is te verklaren uit het feit dat de ‘check-coding’ rechtstreeks van het begin af is ingesteld en noch bij het coderen noch bij het controlecoderen de differentiatie tussen de onderscheiden negatieve categorieën (‘niet ingevuld’, ‘niet van toepassing’ enz.) consequent is doorgevoerd. De belangrijkste correcties uitgevoerd door middel van consistentietests betreffen dan het aanbrengen van een nieuwe ponsing voor de categorie ‘niet ter zake doende’ waaronder de personen vielen die verklaarden niet-rokers en geheelonthouders te zijn. Deze differentiatie tussen de niet gestelde vragen en vragen ‘niet ter zake doende’ is vooral aangebracht bij de vragen 62 (237 correcties) en 63 (234 correcties) naar de vroegere rookgewoonten en naar de moeilijkheden die men ondervond bij de poging om op te houden met roken. Alle vragen verband houdend met roken zijn zodoende gecontroleerd: 50a: ‘hoe men rookt’ (64 correcties); 51: ‘hoeveel?’ (14 correcties); 53: ‘hoe laat men met roken begint’ (88 correcties) enz. tot vraag 80 (41 correcties). Wat het drinken betreft bracht vraag 86b: ‘wanneer men meestal drinkt’, het grootste aantal correcties op (51), gevolgd door vraag 94 (44 correcties); vrijwel alle vragen vanaf 86b tot 101 zijn op deze wijze gecorrigeerd.

Tenslotte willen we t.a.v. het betrekkelijk hoge foutenpercentage in Tabel 2.5.2 op het volgende wijzen: 1. de eerste twee variabelen (woondichtheid en sociale participatie) zijn vooral door de telfouten slecht gecodeerd; daar de vergissingen in de meeste gevallen echter een of twee teleenheden betreffen en daar het om een groot aantal subcategorieën gaat, blijken de codeerfouten minder zware consequenties te hebben voor het analytisch werk waarvoor zij zijn bestemd dan de hoge foutenpercentages (18,5% en 18%) schijnen te suggereren; 2. de variabelen die op de combinatie van meerdere vragen berusten, bevatten eveneens een groot aantal subcategorieën; het hoge percentage fouten deed ons afzien van gebruik van verfijnde analytische technieken; zij werden in twee- of driedelingen door middel van eenvoudige Chi-kwadraattests bewerkt; 3. het hoge percentage fouten bij sommige eenvoudige vragen met beperkt; 3. het hoge percentage fouten bij sommige eenvoudige vragen met beperkt aantal antwoordcategorieën (naar financiële vooruitgang - vraag 19; naar vroegere rookgewoonten - vraag 64; hygiënisch inzicht - vraag 32; en enkele andere) werd veroorzaakt door het feit dat bij deze vragen nogal veel losse opmerkingen van de ondervraagden zijn genoteerd, die zich niet

lieten dwingen in ons van tevoren voorgeschreven antwoordpatroon; deze opmerkingen hadden de enquêteurs volgens instructie letterlijk genoteerd; door ze terug te vertalen in de antwoordcategorieën hebben de codeurs nogal uiteenlopende resultaten bereikt; de nadere inspectie door de onderzoeksleider heeft echter aangetoond dat het hier meestal om gevallen van rationalisatie ging en dat de fouten meestal betroffen de middelste subcategorie en niet de beide belangrijkste uiteinden van een variabele; 4. de vraag naar de rookgewoonten van echtgenoten bleek slechts voor de rokers betrouwbare resultaten te hebben opgeleverd; door de ongelukkige plaats op de interviewlijst is zij bij de gesprekken met nietrokers vaak overgeslagen. De vraag naar de bronnen van informatie omtrent het verband roken-longkanker bevatte meerdere combinaties. De indeling van beroepen in de beroepsgroepen is door de niet uitgewerkte code met veel ‘fouten’ gepaard gegaan; 5. zonder de codeerfouten te willen ‘goedpraten’ moeten we er tevens op wijzen dat de door ons in Tabel 2.5.2 besproken 26 variabelen slechts een deel zijn van de meer dan 150 variabelen bij ons onderzoek betrokken, waarvan de meeste met minder fouten zijn bewerkt en dat de validiteitstest (de vergelijking van de steekproefresultaten met de C.B.S.-gegevens) niet slechts de betrouwbaarheid van het enquêteren, maar tevens die van het coderen meet. Desondanks zullen we bij de bespreking en de interpretatie van de niet gecorrigeerde variabelen in de Tabel 2.5.2 terdege met een afwijking rekening moeten houden; de zojuist gegeven toelichting kan als leidraad dienen bij het zoeken naar de richting en afmeting van deze afwijking.

voetnoot*: Het werk van I werd grotendeels door anderen overgemaakt.
The work of I has been for a good deal done over again.

Vorige Volgende

Riskante gewoonten en zorg voor eigen welzijn

2.5 Coderen van gegevens

Tabel 2.5.1 Spreiding van codeer-fouten over de negen codeurs
Table 2.5.1 Distribution of errors as made by the nine coders

Tabel 2.5.2 Variabelen gekenmerkt door meer dan vijf percent codeerfouten
Table 2.5.2 Variables with more than five per cent coding mistakes

2.5 Coderen van gegevens

Tabel 2.5.1 Spreiding van codeer-fouten over de negen codeurs Table 2.5.1 Distribution of errors as made by the nine coders

Tabel 2.5.2 Variabelen gekenmerkt door meer dan vijf percent codeerfouten Table 2.5.2 Variables with more than five per cent coding mistakes

Tabel 2.5.1 Spreiding van codeer-fouten over de negen codeurs
Table 2.5.1 Distribution of errors as made by the nine coders

Tabel 2.5.2 Variabelen gekenmerkt door meer dan vijf percent codeerfouten
Table 2.5.2 Variables with more than five per cent coding mistakes