Tècniques de recopilació de dades quantitatives: l’enquesta

  • Montserrat Martínez Melo

    Llicenciada en Sociologia i alumna de la primera promoció del màster de Tècniques d’investigació social aplicades (TISA), té més de 15 anys d’experiència en la realització d’estudis i plans estratègics, tant a nivell de recerca com de gestió, en empreses privades, grups d’investigació i l’administració pública. La seva especialització se centra en les metodologies i tècniques d’investigació social aplicades, havent dissenyat i desenvolupat diverses recerques. Combina la recerca amb l’assessoria metodològica i en l’explotació fonts de dades, i actualment és professora associada de la UAB en l’assignatura Investigar en Educació del grau de Pedagogia i del grau d’Educació Social, i consultora a la UOC, al grau de Criminologia, de l’assignatura Anàlisi de dades i mètodes quantitatius en investigació criminològica, i al grau de Psicologia, Tècniques d’anàlisi de dades quantitatives.

PID_00225348
Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada, reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com químic, mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització prèvia per escrit dels titulars del copyright.

Índex

Introducció

El mòdul que us presentem a continuació té la difícil funció de resumir de manera sintètica els principals coneixements que cal tenir per treballar des d’un enfocament quantitatiu i donar les pautes essencials per prendre les decisions metodològiques clau. Aquests coneixements i pautes us han de permetre, a més, entendre com d’altres autors i equips fonamenten les seves decisions i com utilitzar i interpretar els resultats que d’aquestes fonts se’n deriven.
L’estudi del mòdul, per tant, us ha de ser útil, ha d’ajudar-vos a prendre decisions i entendre les dels altres.
Presentem el mòdul des de la dificultat de fer aquesta síntesi, ja que si alguna cosa es pot afirmar és que, actualment, resulta pràcticament impossible passar un dia sense llegir informació basada en dades quantitatives de l’àmbit laboral. En l’era de les dades, les dades massives, la transparència institucional i empresarial, trobarem informació de base quantitativa en diversos suports i per molts canals. Al seu torn, sobre metodologia quantitativa hi ha un ampli ventall de materials, tant dins com fora del món acadèmic: manuals, articles, webs, etc. Les administracions posen al nostre abast una gran quantitat de dades, els instituts i centres de recerca, també, les empreses i fundacions d’empreses elaboren els seus estudis, i molts de vosaltres treballeu en ocupacions que requereixen utilitzar informació quantitativa i possiblement també la produïu.
D’aquesta manera, hi ha molts i diversos procediments per produir aquest tipus d’informació que parteix de la mirada quantitativa. La idea de mirada ens remet a la paraula clau metodologia, és a dir, els principis i supòsits epistemològics que regeixen la manera de fer recerca. Seguint aquests supòsits i principis, es desenvolupen mètodes que cal entendre com les diferents etapes per a aconseguir els nostres objectius, i finalment les tècniques, que també podem anomenar estratègies o instruments, per a materialitzar els nostres objectius.
La finalitat d’aquest mòdul és ajudar a construir aquests instruments i a utilitzar-los, de manera que centrarem l’atenció en les tècniques: experiments o quasi experiments, test i enquesta són els instruments principals, associats a la sociometria, psicometria o l’econometria. Específicament, dedicarem els esforços a la tècnica de l’enquesta.
Aquesta manera de classificar les diferències entre les paraules metodologia, mètode i tècnica, paraules molt utilitzades, pot ser molt senzilla d’entendre a primer cop d’ull. Tanmateix, sovint trobarem que s’utilitzen com a sinònims de manera que molts afirmen que fan metodologia d’investigació per enquesta i mètode d’enquesta. Com hem afirmat, però, no dedicarem gaire temps a discussions generals o transversals i ens centrarem en aprendre com es fa.
Amb aquesta finalitat, el mòdul comença introduint, contextualitzant i justificant la tècnica d’enquesta, presenta els passos clau que cal seguir per dur-la a terme i els exemples o casos aplicats que ens ajudaran en l’estudi. Molt ràpidament es donen algunes pautes sobre com fer la proposta teòrica i la necessària revisió metodològica, per dedicar més esforços al disseny de qüestionari. En el quart apartat, s’estudien els principis i procediments essencials del mostreig, seguit de les tasques de treball de camp i pretractament de dades. Finalitzem el mòdul amb l’estudi de les principals pautes per a l’anàlisi estadística de dades i unes breus consideracions finals.
En aquest mòdul us volem oferir, també, recursos per ampliar els vostres coneixements, recursos que, a més de la bibliografia i els materials complementaris de la UOC, inclouen programari.
En el mòdul següent, centrat en la construcció i anàlisi d’indicadors, s’abordaran moltes de les qüestions i debats que es deriven de l’estudi d’aquest, com són les dificultats per definir i mesurar conceptes, les fonts principals de les qual s’obtenen indicadors generals i específics o la localització i ús de fonts clau.

Objectius

En finalitzar l’estudi d’aquest mòdul, l’estudiant haurà assolit els objectius específics:
  1. Entendre el significat i la naturalesa de dur a terme recerca des de la perspectiva quantitativa en l’àmbit laboral

  2. Conèixer els diferents passos per dur a terme investigació per enquesta, específicament: elaboració del qüestionari, procediments de mostreig i anàlisi estadística de dades.

1.Introducció

1.1.La tècnica d’enquesta en el context de la metodologia quantitativa

1.1.1.Una mirada ràpida a la metodologia quantitativa i la perspectiva multiestratègica
Una aproximació molt lleugera a la metodologia quantitativa requereix assumir la creença que els fenòmens socials, com els naturals, tenen forma, estructura, geografia i segueixen models o pautes, i que aquestes es poden mesurar. Així, la realitat social és objectivable i tangible, de manera que si la fragmentem, la descomponem en variables, podem conèixer les parts i, més enllà, el tot. Allò que volem estudiar és extern a nosaltres, i ens acostarem a partir d’hipòtesis i deduccions empíriques, que permetran la demostració i discussió crítica racional. En conèixer la realitat en la seva forma es poden estimar prediccions probabilístiques en altres moments o contextos, i fins a cert punt controlar futurs escenaris. Per assegurar aquesta capacitat empírica i demostrativa el mètode ha de ser transparent i replicable, prefixat abans d’executar-lo. Aquests procediments prefixats mesuraran els fenòmens i serà habitual l’ús de tests o formularis, i cercaran, quan accedir al total de les poblacions o casos no sigui possible, la inferència, és a dir, la possibilitat de generalitzar amb validesa i fiabilitat estadística els resultats que se n’obtenen en cada recerca. La finalitat última és explicar els fenòmens, en aquest cas de l’àmbit laboral, per a formular lleis i teories universals.
Com en el mòdul inicial, centrat en les tècniques qualitatives, cal recordar que l’assignatura no té per finalitat aprofundir en el debat entorn a la diferenciació entre metodologies, però sí que volem apostar fermament per la perspectiva multiestratègica que es posiciona davant la complexitat de la realitat amb complexitat de mirades i estratègies per conèixer-la i comprendre-la, de manera que, ja sigui alhora o en seqüència, la combinació de mètodes és la gran oportunitat de la ciència social per esdevenir ciència.

“We should also try to use different kinds of evidence together and in sequence and look for ways of triangulating different measures on thesame research problem” (Tarrow, 1995)

1.1.2.Diferents tècniques associades a la metodologia quantitativa: característiques essencials de l’enquesta
Seguint aquest paradigma i metodologia es desenvolupen diversos procediments i tècniques entre els quals destaquen els experiments, els test i, molt, especialment l’enquesta. Fem una descripció molt breu d’aquests procediments.
1) Experiments
Un dels objectius clàssics des de la metodologia quantitativa és conèixer i demostrar els efectes d’una variable. Així, es dissenyen experiments o quasi experiments en què se sotmet a un grup experimental a aquest estímul, mentre que a un grup al més igual possible, o grup de control, no se’n veu afectat. S’obté una mesura abans de l’estímul (exante) i una després (expost) per tal de poder inferir fins a quin punt la presència de l’estímul és afecta als canvis que s’observen entre els dos moments. Per fer experiments socials es requereix una sòlida teoria i un disseny de recerca molt formalitzat així com tenir molta cura de les condicions de les aplicacions i mesures i de les característiques dels grups. En economia i econometria hi hamolts exemples relacionats amb l’experimentació. Un exemple clàssic entre els clàssics són els coneguts com experiments de Hawthorne sobre la productivitat, que han donat lloc a la tipificació de l’efecte Hawthorne.
2) Tests
La paraula test es refereix específicament al conjunt de preguntes de resposta tancada que permeten mesurar les característiques dels casos per tal de classificar-los en situacions. Les mesures dels diferents ítems es fa molt freqüentment en escales, i per fer les classificacions sovint es construeixen índexs. Es tracta, per tant, de formularis molt estandarditzats i estructurats que requereixen diversos processos de validació per ser acceptats per la comunitat acadèmica i professional. Com en el cas dels experiments,cal un cos teòric i metodològic molt sòlid per dissenyar-los i també per aplicar-los en contextos diferents. Els tests psicomètrics, com ara l’escala de personalitat d’Eysenck, són molt coneguts
Ara mateix és possible que determinats termes utilitzats per descriure tant breument aquestes grans famílies de tècniques us generin certa confusió: variable, resposta tancada, escala, formulari, estandardització, entre d’altres. Tanmateix, al llarg dels propers apartats quedaran clarament definits.
3) Enquesta
L’enquesta és, sense dubte,una de les tècniques més populars del segle passat i sembla que també ho és de l’actual. És utilitzada en molts àmbits acadèmics i professionals i el món de la comunicació hi sent una especial afició a difondre’n els resultats i també a produir-ne. No us resultarà difícil, per tant, trobar exemples d’aquests procediments, ja que la gran majoria de dades i estudis sobre els quals ens arriba informació han sigut produïts a partir d’enquestes.
La seva fama ha estat argumentada al·legant diversos factors: la creixent demanda d’informació empírica, la impossibilitat d’arribar a conèixer tantes qüestions sobre tota la població o casos, el desenvolupament d’eines, com l’enquesta telefònica i el processament tecnològic de dades (i més recentment l’enquesta en línia), que abarateixen despeses i agilitzen l’obtenció de resultats, la possibilitat de fer enquestes en què el mateix enquestat s’autoadministra el qüestionari, entre d’altres.
D’aquesta manera, s’han construït una gran quantitat de dissenys, és a dir, moltes maneres de procedir en les diferents decisions que cal prendre per fer una enquesta. Analitzem detingudament la definició següent sobre què és una enquesta i què ens faciliten els components clau sobre els quals hem de treballar:

“Consulta tipificada a persones (o casos) escollides segons principis estadístics” (Alvira, 2011)

1) Consulta: en general, el que farem serà consultar, preguntar (per escrit o oralment) sobre alguna cosa. Aquest fet ens remet a la idea que, en primer lloc,cal triar el tema i conceptualitzar-lo. Aquest exercici el treballarem a l’apartat 2.
2) Tipificada: de manera que a tothom se li consulti de la mateixa manera i amb el mateix procediment de selecció. Implica, així, el disseny d’un seguit de preguntes que responen als nostres interrogants i conceptes i que requereixen operativitzar els conceptes, és a dir, fer-los mesurables. En l’apartat 3 estudiarem com construir aquest formulari, o qüestionari, i quins tipus de formulacions bàsiques hi ha.
3) Persones o casos escollits sota principis estadístics: la gran majoria d’enquestes pretenen afirmar que els resultats que s’han obtingut de la mateixa són inferibles al conjunt de població sobre la qual es consulta, i que no són fets o opinions parcials que la resta de casos no comparteixen. En l’apartat 4 sobre disseny mostral explicarem les principals decisions i fonaments que cal prendre, i les possibilitats de fer també mostreig que no es regeix per principis estadístics.
Aquestes són les decisions fonamentals que cal prendre per a dissenyar una enquesta: què, com i a qui. Ara bé, serà necessari abordar moltes d’altres com ara com ho hem de fer per aconseguir la mostra o què fem després amb les dades que obtindrem. Els apartats 4 i 5 del mòdul ens orientaran sobre aquests passos.
A partir d’ara començarem a parlar de l’enquesta també com un mètode (i com a sinònim de mètode), ja que si bé és una tècnica o un instrument que es produeix sota els principis quantitatius ja revisats, estarem d’acord en què calen una sèrie de passos, i que cada pas comporta procediments. Així, sovint ens hi referirem com a metodologia d’investigació per enquesta, o similar. En recerca, doncs, cal aprendre a fer servir la mateixa paraula de manera diferent en diferents contextos i moments. Igualment succeirà amb les paraules qualitatiu i quantitatiu o la paraula variable. Cal afegir l’efecte d’altres llengües en el nostre vocabulari: surveyresearch, survey method. etc.
Seguint les tres característiques essencials destacades, a més de les diferències evidents amb el paradigma i metodologia qualitativa, podem distingir l’enquestes d’altres dissenys. D’una banda, de les dades de registre i dels censos: els registres de dades en principi registren tots els casos o operacions. Un exercici clàssic són els censos de població. Com estudiarem als mòduls següents, molta de la informació utilitzada en l’àmbit laboral, especialment en la construcció d’indicadors, prové de registre, per exemple de la Seguretat Social. Al seu torn, també són exercicis diferents de les entrevistes: encara que es compleixin la resta de característiques, una enquesta tendeix a tipificar al màxim les consultes (les mateixes preguntes, amb les mateixes possibilitats de resposta, en el mateix ordre), mentre que les entrevistes solen formular els interrogants de manera més oberta i, en general, també amb possibilitat de canvis d’ordre.
Podem caracteritzar, doncs, l’enquesta com:
1) Tècnica estructurada que utilitza un conjunt de procediments estandarditzats d’interrogació.
2) Per a obtenir sistemàticament mesures de les variables que es deriven d’una problemàtica d’investigació prèviament construïda.
3) En general, proporciona una gran quantitat d’informació.
4) Es basa habitualment en teoria matemàtica i en l’estadística.
5) Amb l’objectiu d’aconseguir mostres representatives i analitzar les dades.
A més, hi ha molts i diversos dissenys que violenten o són creatius en algun dels punts mencionats, com ara els panels, que fan la mateixa enquesta, o enquestes diferents,a la mateixa mostra reiteradament. Com veurem, és el cas de l’Enquesta de població activa, que serà un dels nostres casos d’ajuda a l’estudi.
1.1.3.Limitacions de la investigació per enquesta
L’enquesta és un procediment prou popular perquè sigui revisada, discutida i criticada des de diversos angles. D’aquestes diferents revisions cal destacar algunes limitacions importants quan decidim fer servir l’enquesta com a procediment de recerca:
1) La informació produïda prové d’un procés d’operativització, de construcció de les mesures que l’equip investigador considera adequades per donar compte de la realitat que vol estudiar. Així, aquest procés de decisió, en què sempre hi haurà alternatives, és àmpliament discutit, especialment en cas de discrepància amb els resultats o les intervencions que se’n puguin derivar.
2) No permet, per tant, l’espontaneïtat dels participants. Se cerca l’estandardització, tothom igual, de manera que és un procediment rígid que no permet canvis (o els mínims). Imagineu que un enquestat no se sent còmode amb les opcions de resposta que donem a una pregunta i en vol donar d’altres. És possible que no haguem previst aquest extrem i que ja portem 1.000 enquestes fetes. Què fem? Potser que de les 1.000 anteriors d’altres persones hagin tingutuna manera diferent d’entendre les possibilitats de resposta? En tot cas, no hi ha massa possibilitats de fer marxa enrere.
3) Aquesta necessitat d’operativitzar per poder mesurar, requereix de coneixement sòlid sobre el que es vol estudiar. Només preguntarem sobre el que haurem pensat abans, i formulat en el qüestionari. De manera que no és la millor opció si estem en una fase exploratòria o de descobriment.
4) En l’enquesta hi ha poc diàleg, encara que no ho sembli. La comunicació és unidireccional. En general, l’enquestador no pot incloure aportacions no previstes de l’enquestat. Podem tenir un apartat d’observacions o espais per a altres respostes, però no és una entrevista. A aquesta condició se li atribueix la menor riquesa en la informació produïda, ja que s’opta per més quantitat i precisió.
5) Presenta dificultats importants a l’hora de ser implementada en poblacions o universos petits, desconeguts o ocults. Com veurem, si cal dissenyar una mostra sobre una població petita sovint la mostra i la població seran molt semblants en nombre de casos. D’altra banda, per fer mostres representatives cal tenir una informació mínima sobre la població que cal estudiar. Si no en sabem res o en sabem molt poques coses, aquestes decisions es compliquen. Cal afegir que per a seleccionar els casos cal fer servir certa aleatorietat, el que és força difícil si la població sobre la qualfem la mostra està oculta. Un exemple d’univers o població oculta és, per exemple, el de treballadors sense permís de residència o treball, activitat econòmica no declarada, etc. Reprendrem aquest punt quan parlem de disseny mostral.
Aquestes són les limitacions principals que es poden atribuir a la metodologia d’investigació per enquesta. Moltes altres crítiques, però, provenen de l’ús indiscriminat amb decisions metodològiques molt febles, vinculades, en molts casos, a l’auge de l’enquesta telefònica i l’enquesta en línia. D’altres cal atribuir-les a l’ús intencionat i poc rigorós dels resultats que se’n deriven. En aquest cas, però, no es tracta tant d’una limitació metodològica com d’un problema ètic o polític.

1.2.Passos clau per fer una enquesta

Toca, doncs, començar a treballar i per fer-ho seguirem cinc passos clau:
1) Revisió de literatura i conceptualització
2) Disseny del qüestionari
3) Disseny mostral
4) Treball de camp i pretractament de les dades
5) Anàlisi i interpretació de dades quantitatives
Figura 1. Etapes clau en el procés d’enquesta
Font: elaboració pròpia
Font: elaboració pròpia
Cadascun dels apartats següents us guiarà en aquestes decisions, si bé cal tenir present que les diferents decisions estan molt interrelacionades: per exemple, si decidim fer una enquesta a treballadors dels serveis de neteja (univers i mostra) caldria valorar si l’enquesta en línia és la més adequada. O bé si l’enquesta està orientada a professionals especialitzats en ocupacions d’alt nivell, haurem de tenir molta cura de la formulació de les preguntes per a ser precisos en el que mesurem. Igualment, si en el nostre disseny optem per fer enquestes a alts càrrecs d’empreses i administracions, cal pensar que el treball de camp, és a dir, el temps per produir la informació, no serà breu ja que es tracta de persones a les quals tindrem un accés difícil i amb limitacions de temps i disponibilitat per atendre’ns.
Al seu torn, en ocasions caldrà tornar enrere per poder continuar. Si bé com a procediment estandarditzat i rígid que hem caracteritzat no sempre serà possible o serà impossible, es pot donar el cas que en dissenyar el qüestionari i fer una molt recomanable prova pilot, descobrim que ens falten opcions de resposta o conceptes no coberts, de manera que cal reprendre la revisió dels conceptes i el disseny del formulari.

1.3.Casos d’ajuda a l’estudi

Per a continuar el contingut d’aquest mòdul, us proposem fer servir 2 exemples d’enquesta. Consultar-los ens ajudarà a tenir exemples i també a veure decisions completes, ja que són recerques acabades.
Cas 1. Estadística oficial. Enquesta de població activa
L’EPA és, sense dubte, una de les operacions d’estadística oficial que més utilitzareu com a professionals de l’àmbit laboral. Per començar us ajudarà a introduir-vos en l’estudi si descarregueu la informació metodològica que ens ofereix l’Institut Nacional d’Estadística.
Entreu a la web del’Institut Nacional d’Estadística i cerqueu els documents:
  • Descripción de la encuesta, definiciones e instrucciones para la cumplimentación del cuestionario

  • Cuestionario EPA 2005

Actualment, aquests documents es localitzen seguint la ruta:
www.ine.es → inebase → mercado laboral → actividad, ocupación y paro → encuesta de población activa
A l’apartat “informació detallada metodologia”.
Lògicament aquesta ruta d’accés pot variar i també els documents poden ser revisats o actualitzats.
Sobre l’EPA hi ha molts altres documents d’interès: les classificacions que utilitza, els mòduls especials que ha fet servir per indagar sobre qüestions concretes(mercat de treball i immigració, accidentalitat i salut, transicions laborals, conciliació), etc.
Us recomano que reviseu totes les que vulgueu, i que les feu servir al llarg de la vostra vida acadèmica i professional, ja que si bé és una operació amb decisions qüestionables és una font sòlida i estable molt important, que ens permet comparatives europees i internacionals. Tanmateix, els documents que us hem indicat són suficients per il·lustrar el mòdul.
Al mateix temps, podeu disposar de les dades en diversos formats: podeu generar vosaltres mateixos resultats a través de la pàgina de l’INE, demanar que us els generi l’INE, que té un cost econòmic, o bé disposar de les matrius de dades per fer-vos vosaltres mateixos els resultats. Aprendrem més sobre què és una matriu de dades en l’apartat 6 d’aquest mòdul, encara que cal advertir que fer servir aquestes matrius requereix un cert coneixement o suport tant informàtic com estadístic.
Cas 2. Estudi Les condicions laborals dels professionals de la dansa a Catalunya (2009)
Aquest estudi no és d’estadística oficial ni de caràcter acadèmic. Es tracta d’una recerca a demanda del sector de la dansa a través d’una associació no lucrativa de professionals. La recerca es va dur a terme el 2009, i la va dirigir l’autora d’aquest mòdul, de manera que és un cas que ens pot ajudar a exemplificar les decisions que un equip de recerca aplicada pren per caracteritzar com són les condicions laborals d’un col·lectiu, petit i ocult, en un context de difícil delimitació com és la dansa i com és Catalunya.
Podeu descarregar l’informe de la recerca, tant en format abstract com en format íntegre, a la web de l’Associació de Professionals de la Dança de Catalunya.
Actualment seguint la ruta: Recursos i documentació estudis i diagnòstics
A més d’aquest informe, us lliurem com a material el qüestionari i una matriu de dades de l’enquesta. No es tracta de la matriu de dades completa sinó d’una selecció de variables, suficient per a exemplificar els exercicis estadístics bàsics de l’apartat 6. La matriu es lliura en format Excel i SPSS.
Activitat
Ara que teniu una visió dels principis i usos de les principals tècniques qualitatives i quantitatives, us recomanem fer l’exercici de dissenyar un procediment metodològic multiestratègic, combinant metodologia qualitativa i quantitativa, per donar resposta als vostres interrogants d’estudi.

2.Revisió de la literatura i conceptualització

2.1.Temes i conceptes

En tant que l’assignatura centra el seu interès en les tècniques, no dedicarem gaire temps a aquest apartat, si bé és un dels exercicis que més determina la resta de decisions, més valor té a l’hora de valorar la qualitat de la recerca acadèmica i més es pot qüestionar en la revisió crítica. És, també, una de les competències que cal interioritzar en formació superior. Cal dominar: la cerca de literatura, la tria, la seva anàlisi i el treball sistemàtic que s’hi faci, inclosa la citació correcta.
Partint del fet que ja hem dut a terme la dura tasca de triar un tema i acotar-lo mínimament, és el torn de documentar-nos per tal de definir què estudiarem. Aquest pas per determinar l’estat de l’art o de la qüestió compleix moltes funcions de les quals cal destacar la funció de precisar el problema de recerca per construir, així, quelcom abastable i cognoscible. Cercarem, doncs, articles acadèmics, llibres i altres publicacions que es relacionin amb el nostre tema i àmbit.
Aquesta presentació no varia de manera rellevant de qualsevol altra pauta de recerca que se us pugui indicar, tant en assignatures substantives com en metodologies no quantitatives. Ara bé, en metodologia quantitativa, i lògicament en investigació per enquesta, hi ha algunes particularitats que cal destacar.
D’una banda, en aquesta revisió pararem especial atenció a com s’ha produït la informació, especialment la informació quantitativa: quins dissenys (experiment, enquesta...), quines mostres, quins qüestionaris, quins tipus d’anàlisi estadística, quina accessibilitat a les dades hi ha (només a la publicació, la matriu de dades està disponible),amb el doble objectiu de determinar si ens interessa el procediment i el volem replicar totalment o en part, i així poder establir comparabilitat amb aquella operació; i determinar fins a quin punt és convenient fer servir les dades produïdes en aquestes recerques o operacions en la nostra cerca:
És exactament la funció que té la revisió de l’EPA (cas 1 proposat). Si revisem anàlisis fetes a partir d’aquesta font, podem determinar si hi volem establir comparatives. Aquest és l’exercici fet en el cas 2, no només amb l’EPA sinó amb d’altres fonts, com l’Enquesta de condicions de vida, per tal de mirar de formular preguntes iguals o similars i poder-les comparar. Al seu torn, com hem comentat, molts investigadors utilitzen aquesta operació per tal de contextualitzar els seus estudis o bé per produir resultats i contrastar les seves hipòtesis.
Una segona particularitat consisteix en que el procés d’operativització o operacionalització ha de ser el més complet possible. Fer operatiu un concepte consisteix en traduir-lo al llenguatge empíric, assignar variables que podrem mesurar per tal de poder observar empíricament, i específicament mesurar el que és un constructe teòric.
Cal diferenciar bàsicament tres etapes: conceptualització, dimensionalització i operacionalització. Seguim un exemple de cada etapa:
Taula 1. Exemple d’operativització

Tasca

Exemple/comentaris

1. Conceptualització (variable)

Què entenem per condicions laborals?

Revisió de diversos textos. Còpia d’una definició o integració de diverses definicions en una de nova.

Queden excloses altres maneres d’entendre el concepte.

2. Dimensionalització

Quins subcomponents té el concepte

Si revisem ràpidament l’índex del document podríem establir les dimensions de les condicions laborals següents:

1.1. Situació laboral

1.2. Condicions laborals

1.3. Atur

1.4.Lesions

1.5. Jubilació

La resta d’informació són per a caracterització, anàlisi i opinió, no formen part directament del concepte condicions laborals.

3. Operacionalització: indicadors (variable)

Com mesurem cada component

Posem un exemple en les condicions laborals

1.1. Situació laboral

Indicador 1.1.1. Relació amb l’activitat

Indicador 1.1.2. Situació laboral

1.2. Condicions laborals 2008-2009

Subdimensió 1. Situació laboral i nombre de projectes

Indicador 1.2.1. Relació amb l’activitat

Indicador 1.2.2. Nombre de projectes

Indicador 1.2.3. Mitjana de projectes

Indicador 1.2.4. Tipus de projectes segons la relació amb la dansa o no.

Així podríem seguir reconstruint l’operativització de cada concepte de l’estudi.

Aquest procediment és essencial per poder construir el qüestionari ja que per a cada indicador o variable caldrà formular, almenys, una o tantes preguntes com considerem.
Tant l’EPA com el cas 2 no estan acompanyats de marc teòric que posicioni la recerca en una determinada mirada al mercat laboral, ni que defineixin els conceptes i els referenciïn. Ara bé, l’EPA té molts altres documents que l’acompanyen i el treball de molts investigadors per harmonitzar conceptes i mesures en l’àmbit europeu. Serà un dels aspectes que es treballaran al mòdul següent.
Activitat
A partir del qüestionari de l’EPA i del qüestionari sobre les condicions laborals dels professionals de la dansa, podríeu reconstruir l’operativització dels conceptes. A més, aquesta construcció us permetrà determinar: quins s’han inclòs i quins no;a quina definició corresponen. A l’apartat de definicions de l’EPA també trobareu pistes sobre com es concep cada aspecte que es vol mesurar.
La proposta d’activitat que us proposem és un exercici inductiu (de com es mesura el que s’ha volgut mesurar), però abans l’equip de recerca ha fet el camí contrari, de la teoria a la mesura. Com a investigadors i investigadores aquest serà el procés per fer una enquesta.
Ara mateix, però,podríeu valorar per exemple la proposta del cas 2: en la vostra opinió, què queda fora? en la mesura de la relació amb l’activitat hi ha alguna cosa que us estranyi? En el cas 1, on queda el treball domèstic? i la formació no formal?
En aquest moment podem tenir una visió més afinada de per què es una tècnica estandarditzada. Uns conceptes clars i excloents, amb fragmentació de diferents aspectes i amb mesures específiques que caldrà formular.
Com podeu observar a la taula, hi ha la paraula variable en més d’un moment o etapa. Al final del mòdul, al bloc 6, es resumeixen aquestes accepcions de la mateixa paraula. En el moment que estem treballant sovint farem ús de la paraula variable com a fenomen per estudiar que pren formes diferents: hi ha diferents condicions laborals, fins i tot les dimensions poden fer servir aquest nom. La segona accepció, en tant que indicador o mesura del mateix, que són les possibilitats de cada subdimensió o del concepte.
Són molts els articles i documents que us faciliten operativitzacions de fenòmens i conceptes com ara pobresa, desigualtat, capital social, vulnerabilitat, exclusió. No tindreu cap problema a localitzar-los. La feina és triar i construir el propi esquema sense el qual no podem avançar en el disseny d’enquesta.
Recopilant, les dimensions són els factors o components del concepte que respon a com hem ferel marc teòric i la cerca bibliogràfica. Han de respondre als objectius de la recerca i ser independents entre sí, forçar la separació d’aspectes i elements, buscar poder abastar al màxim possible els conceptes que volem mesurar.
Els indicadors que han de donar compte de cada dimensió i, per tant, dels conceptes, es constitueixen en les referències observables que també pretenen donar compte de la màxima riquesa del concepte amb el mínim d’informació, fent valdre el principi de parsimònia. Tanmateix, cal tenir present que per molt que cerquem abastar al màxim els conceptes, la recerca en sí i l’operativització és un procés de triar i renunciar.

“Por muchas dimensiones que se consideren, nunca puede abarcarse la totalidad de un concepto”. (Cead’Ancona, 1996)

2.2.Poblacions i informants

Un segon exercici en la conceptualització que no podem obviar és que cal determinar quines poblacions formaran part de l’estudi i com es defineixen. Per entendre a què ens referim podem fer una ullada al manual de l’INE en què ens faciliten aquestes definicions. Una primera limitació de la població queda clara quan indica que l’EPA estudia la població que resideix en habitatges familiars principals.
A partir d’aquí es desgranen les diferents limitacions i implicacions de les decisions sobre qui s’estudia i qui no.
En el cas 2, observarem que una de les primeres declaracions inicials és la dificultat de definir què vol dir ser professional de la dansa, la multiplicitat i simultaneïtat de les professions en el món de la dansa i les imprecisions que cal admetre a l’hora de determinar què vol dir“a Catalunya”(haver-hi nascut o no, estar-hi treballant en el moment de l’estudi o no), en un mercat caracteritzat per la diversitat i temporalitat de situacions personals i laborals.
Una darrera qüestió que cal tenir present és la divergència entre les poblacions a estudiar i les poblacions informants. Un exemple d’aquestes situacions és quan pretenem estudiar els hàbits dels infants i les preguntes les femals seus pares. O quan per conèixer les condicions de treball dels treballadors interroguem els representats d’organitzacions.
En aquests casos, cal definir i delimitar ambdues poblacions i definir sobre quina farem el procediment de mostreig, és a dir, quina respondrà l’enquesta. Aquesta situació no és la més freqüent però cal tenir-la en compte per les repercussions que tindrà en el disseny mostral i també del qüestionari.
En resum, aquesta etapa clau que condiciona la resta de decisions consisteix afer un esforç de reducció de la complexitat i de fragmentació, en definitiva, d’aprimament (Anduiza et al.,2009), assumit que els volums i magnituds són rellevants malgrat la pèrdua consegüent de textura.
Figura 2. Figuració del procés d’operativització
Font: elaboració pròpia
Font: elaboració pròpia

3.Disseny del qüestionari

Un cop disposem d’una operativització pensem com aconseguirem la informació i com formularem les preguntes. És habitual, però, que molts equips novells comencin precisament per les preguntes, que és un gran error ja que sense una definició que determini què volem mesurar les preguntes són idees arbitràries, més o menys encertades, però amb poca coherència. Igualment, no és infreqüent que els encàrrecs comencin amb la indicació de com s’ha de fer el treball de camp: “volem fer una enquesta en línia” és la frase de moda en els darrers anys.
Mostrem, doncs, els passos que asseguren que avançarem amb correcció.

3.1.Tipus d’enquestes

Una de les decisions consisteix en com abordar els enquestats. Encara que no hem estudiat el tipus de mostreig que farem–ja ho farem al punt següent–, sabem que tard o d’hora tocarà determinar com ens hi posem en contacte. Comencem sintetitzant les tres grans famílies d’enquestes segons com organitzem el treball de camp.
Taula 2. Principals tipus d’enquesta

Tipus

Subtipus principals

Personal

  • Face to face

  • Hall-Test

  • A la llar

  • En el punt en què es produeix el fenomen

  • (en el punt de venda, a la porta de l’escola, a l’oficina...)

Si fem servir suport informàtic (tauleta digital, PDA, etc.) s’utilitza el terme CAPI(Computer Assisted Personal Interview).

Telefònica

CATI (Computer Assisted Telephone Interview)

Auto administrada

  • Correu

  • En línia

No cal dir que hi ha molts, i variats, dissenys i solucions en cada subtipus, combinació de tipus i subtipus, i que el desenvolupament de l’enquesta en línia ha generat una àmplia literatura sobre aquest procediment, i bàsicament sobre els inconvenients de diverses solucions poc rigoroses.
Abans però, detallem els avantatges i inconvenients principals de cada gran família.
1) Enquesta personal
Es caracteritza generalment per aconseguir més nivell de resposta, és a dir, de cada contacte que fem aconseguim que ens responguin més casos. La presència d’enquestador ajuda a adaptar la interrogació a la persona entrevistada; s’accedeix a més diversitat d’enquestats, ja que no només es limita al telèfon o internet, o que se senten còmodes amb aquests canals de diàleg. Així, es recomana en cas d’haver d’accedir a col·lectius minoritaris o de difícil accés. Permet,més que altres procediments, l’ús de material de suport(observació, de suport a la persona entrevistada com ara fitxes d’escales, fotografies, etc.) i també és més flexible per combinar amb altres tècniques (entrevistes autoadministrades, fitxes d’observació, etc.). La presència d’enquestador permet també tenir més control sobre el context de l’entrevista (influència de terceres persones, valoració del comportament de l’entrevistat, etc.) i recollir informació annexa. Cal valorar fins a quin punt és l’únic procediment possible, per exemple, en el cas que les persones enquestades presentin dificultats de parla, oïda o atenció, o per copsar informació no verbal.
No cal dir que també té inconvenients, segurament el més evident és el major cost econòmic del treball de camp i el major cost temporal. En general, distribuir persones enquestadores en el territori implica més temps i diners. Al seu torn, l’equip d’entrevistadors és menys supervisable que si estan tots en una sala de telèfons, per exemple. Cal posar més èmfasi, doncs, en assegurar que l’equip d’enquestació fa les enquestes i el contacte amb els entrevistats tal com hem dissenyat i que reporta els errors que es puguin donar.
2) Enquesta telefònica
L’enquesta telefònica va suposar una revolució a Espanya a partir de la dècada de 1970 amb la consolidació i generalització del telèfon a la llar. Es va veure així una via clara d’economitzar la despesa de desplaçament, localització i temps d’enquestació que suposava l’enquesta personal. A aquest tipus de procediment se li atribueix, per tant,més rapidesa, més facilitatde gestió del procés i menys cost. Altres avantatges són menys generalitzables per comparació especialment amb l’enquesta personal. Així, es destaca que fer les enquestes per telèfon facilita accedir a mostres amb elevat nivell d’ocupació o menys disponibilitat de temps. El fet que no tenir una entrevista cara a cara fomenta fins a cert punt més nivells de sinceritat, i el fet de tenir l’equip d’enquestació generalment en un espai controlat implica més supervisió del treball de camp i menys error en aquesta etapa. En relació amb l’enquesta postal tradicional, també s’obtenia una taxa de resposta més elevada.
Com a inconvenients generals, es considera que l’enquesta telefònica suposa més limitació de la durada dels qüestionaris,i es recomana un màxim de 15 minuts de conversa, si bé l’inconvenient més evident és que només es pot aplicar a persones que disposin de telèfon. Dificulta també l’ús de material auxiliar i la recollida d’informació addicional al qüestionari.
3) Enquesta autoadministrada
Una enquesta autoadministrada és aquella en la que l’enquestat respon per sí mateix el qüestionari, sense la interrogació de l’enquestador. L’opció per l’enquesta autoadministrada està lligada en general a dos factors: donar flexibilitat a la persona enquestada per participar en la recerca i poder accedir a poblacions amb més limitacions de participació. Així, en relació amb el primer aspecte, permet participar sense limitació d’horaris i es pot respondre el formulari en diversos moments, que facilita demanar per informació complexa que requereix elaboració. En la mateixa línia, la segona qüestió ens indica que és un bon procediment si volem accedir, per exemple, a càrrecs que tenen poc temps o temps fragmentats, o que ens han de facilitar informació que no es pot respondre espontàniament. En general, sol ser el procediment amb menys cost: no hi ha equip d’enquestació, no cal desplaçar-se, etc., i específicament al format en línia també se li atribueix més rapidesa de resposta.
Són moltes i variades les limitacions d’aquest procediment en què no hi ha enquestació activa (qui formula i s’assegura que es donen respostes coherents). En primer lloc, com s’ha comentat abans, tradicionalment se li atribueix una baixa taxa de participació o resposta (Díaz de Rada, 2010) i les dificultats que implica el control de la mostra (que respongui qui ha de respondre i no algú altre, que no hi hagi repeticions, etc.), i és complicat controlar la influència de segones persones. Resulta complicat fer servir material de suport, i cal pensar fins a quin punt es disposa d’una base de dades o llistat de participants potencials (el que anomenarem més endavant marc de mostreig) que ens asseguri una correcta cobertura de la població que es vol enquestar. Sigui com sigui, en línia o postal, hi ha moltes limitacions en el perfil de l’entrevistat: nivells formatius baixos, persones amb limitacions de temps o capacitat, etc. Especialment en l’enquesta en línia hi ha clares limitacions en la durada del qüestionari quan es tracta de població general, de manera que enquestes llargues de 5 o més minuts o massa planes provoquen cansament i abandó. En relació amb el qüestionari, aquest caldrà més esforç d’elaboració ja que no es disposarà d’enquestador que pugui ajudar a comprendre les preguntes i les formes de respondre, i específicament en l’enquesta postal no es pot controlar l’ordre de resposta, i, per tant, tampoc de la provocació del discurs de manera que no es pot garantir que tots els entrevistats hagin rebut el mateix estímul.
Activitat
Reviseu la documentació facilitada sobre el cas 1 i 2. Quin procediment d’enquestació s’ha dut a terme en cada cas? Considereu que és el més adequat? Quins efectes positius o negatius pot haver tingut en l’assoliment d’una mostra de qualitat?
De nou, cal remarcar que moltes recerques opten pel que anomenem enquestació multimètode, és a dir, combinar diversos procediments per accedir a perfils diferents. Així, davant la constatació que cada cop són més les persones i les llars que disposen com a única font de contacte de telèfon mòbil, es combinen enquestes personals i telefòniques (generalment al telèfon fix). O bé, enquesta en línia i telefònica.
Cal valorar quan la decisió que prenem pot intervenir de forma determinant en la composició de la mostra que volem aconseguir. Per exemple, si optem per enquesta telefònica arribarem a una bona mostra de joves o de persones immigrades? Si decidim fer enquesta autoadministrada en línia, quin perfil no hi podrà participar? Quina rellevància té aquest biaix?
Activitat
Si esteu dissenyant una recerca per enquesta: quina seria la vostra opció? Cal argumentar els avantatges i inconvenients esperats. I en finalitzar,valoreu l’efecte que la nostra tria hagi pogut tenir en la qualitat de la mostra aconseguida.

3.2.Definició, funcions i grans tipus

3.2.1.Definició i funcions
Un qüestionari és el suport per recollir/provocar la informació. També dit formulari, però cal evitar anomenar-lo enquesta (encara que en anglès s’hi refereixin també com a survey, optarem pel terme més precís questionnaire). No només s’utilitza en investigació per enquesta, sinó que com hem dit s’utilitza en altres procediments: els tests, l’observació, i com no són essencials per a tots els registres.
La particularitat en investigació per enquesta és que aquest formulari no és només un suport de registre, sinó que cal entendre’l com a eina d’interrogació i diàleg amb un informant. És per això que en ocasions ens referim a nombre d’entrevistes vàlides o parlem de l’enquestat com l’entrevistat.
El seu disseny es veu influenciat per totes les decisions prèvies del model d’investigació, però principalment pel tipus d’enquesta que es vol fer: personal, autoadministrada i telefònica;i per les característiques de l’informant: nivell formatiu, origen, disponibilitat de temps, etc.
De manera esquemàtica, les funcions atribuïbles al qüestionari són:
1) Registrar la informació.
2)Estructurar l’entrevista determinant un ordre.
3) Homogeneïtzar l’impacte: totes les unitats són interrogades de la mateixa manera i sobre el mateixos temes, amb la mateixa formulació (aquest punt pot ser relativament flexible).
Elaborem el qüestionari amb l’objectiu de:
1)Traduir dimensions i indicadors en preguntes.
2) Produir la informació amb qualitat: disseny, estructura, ordenació i aspecte formal contribueix eficaçment a que les persones proporcionin bona informació.
3) Homogeneïtzar l’obtenció d’informació i minimitzar l’error de resposta, que les preguntes es responguin en:
a) el mateix ordre
b) el mateix nivell (llenguatge, complexitat, opcions...)
c) la mateixa forma
d) les mateixes condicions
Com podem veure, fem un pas encara més ferm en l’estandardització del procés i en la rigidesa que caracteritza la metodologia quantitativa. Cal pensar, també, que la forma que pren el qüestionari, específicament la formulació de preguntes, és determinant en el tractament posterior de les dades, tal com estudiarem en l’apartat 6 d’aquest mòdul.
Malgrat les recomanacions que farem a partir d’ara sobre tipus, formulació i ordre, el cert és que la millor manera d’aprendre i tenir opcions i alternatives per a l’investigador novell és revisant qüestionaris. Actualment, aquest procediment és molt senzill ja que la major part de les fonts ofereixen els formularis utilitzats. Ja heu visitat la web de l’INE i heu revisat els formularis del cas 1 i 2. A l’INE podeu consultar molts altres qüestionaris, com també us ofereixen el Centre d’Investigacions Sociològiques, l’Institut d’Estadística de Catalunyao el Centre d’Estudis d’Opinió.
3.2.2.Tipus
Els qüestionaris se solen classificar bàsicament en 3 tipus d’acord amb la intensitat en la seva estructuració:
1) Estructurat
Totes les preguntes i les possibles respostes estan formalitzades i estandarditzades en la seva totalitat, seguint sempre un ordre idèntic. És el cas clarament dels test.
2) Semiestructurat
Hi ha un guió i un ordre, però conté diferents tipus de preguntes més o menys estandarditzades i tancades. També és el cas de qüestionaris en els quals es pot permetre variacions de l’ordre i enunciat de les preguntes.
3) No estructurats
En què es presenten preguntes obertes sobre temes i en què pot variar tant l’ordre com la formulació. Aquests tipus de qüestionaris són infreqüents en investigació quantitativa, ja que són formes molt similars a les entrevistes i violenten les finalitats d’estandardització.
D’aquesta manera, la gran majoria de qüestionaris que trobareu seran semiestructurats. Les indicacions següents sobre ordre i formulació de preguntes us ajudaran a entendre en major mesura com s’introdueixen aquests elements de flexibilitat.
Una altra consideració en aquest punt és el tipus de suport que utilitzarem per dur a terme el formulari.
1) Suport informatitzat
Hi ha moltes eines tecnològiques per informatitzar un qüestionari, des de Google forms, a Acrobat fins ales aplicacions d’empreses especialitzades. Optar per un formulari informatitzat ens ajudarà a ser més ràpids en el tractament de les dades, ens facilitarà el control dels perfils participants en el qüestionari (el que anomenarem control de quotes a partir del punt 4 i 5), i ens donarà més possibilitats de personalització (filtres, registres lingüístics, idiomes, etc.). Ara bé, cal aprendre a fer servir els programaris i aplicacions, i en cas de projectes per empreses o institucions, cal disposar de les infraestructures necessàries per poder-los fer servir: ordinadors, tauletes tàctils, etc. Aquest fet fa que sovint s’externalitzi aquest procés per reduir el cost que suposa disposar del personal necessari per dissenyar i usar els programaris.
2) Suport paper
La segona opció, més intuïtiva, és fer servir un formulari en paper. També hi ha programaris especialitzats per a aquesta funció, si bé és molt habitual dissenyar-los en qualsevol processador de textos. Lògicament, dissenyar un qüestionari en paper és més econòmic, encara que cal tenir sempre present les despeses d’impressió i gravació de dades. En enquestes personals, un paper sol intervenir menys en la interacció amb la persona enquestada que un ordinador, però fer servir paper implica sempre, o quasi sempre, el treball posterior d’informatització: gravar les dades. Aquest tasca té un cost econòmic i de temps que cal tenir en compte, però també és una de les grans fonts d’error. Ens obliga, doncs, a esforçar-nos molt en el disseny del qüestionari per tal de facilitar les tasques posteriors.

3.3.L’ordre de les preguntes

És difícil disposar d’una directriu clara sobre l’ordre en què han de ser formulades les preguntes en un qüestionari, ja que es tracta d’una conversa sobre diversos temes en el context d’una recerca i, per tant, la pertinença de l’ordre pot tenir solucions diferents. D’aquesta manera, l’ordre de les preguntes és al servei dels objectius i la metodologia de l’estudi.
Cal tenir present que l’objectiu de l’ordre és, generalment, aconseguir que les preguntes flueixin en un ordre natural i es produeixi una conversa. Així i tot, el disseny pot trencar aquest objectiu buscant un efecte o funció determinats. És el cas, per exemple, de les enquestes electorals (preguntar o no al principi per simpatia pels partits o per intenció de vot) o de les enquestes sobre coneixements i usos (per exemple, en l’ús de llengües), i específicament dels tests, en què l’ordre compleix una estratègica metodològica.
Us podem fer les recomanacions generals següents; podeu revisar el formulari del cas 2:
1) Introducció (objectius, motius de col·laboració, anonimat de respostes).
2) Preguntes filtre: que classifiquen l’entrevistat en candidat o no a l’enquesta o bé que dirigeixen a l’entrevistat a una part concreta del qüestionari o a un idioma, formulació, etc.
3) Preguntes inicials: començar l’enquesta amb preguntes senzilles i interessants ajudarà a involucrar l’enquestat en el tema.
4) Preguntes complexes o delicades: és recomanable ubicar-les a la meitat del qüestionari.
5) Preguntes de descompressió al final, poc abans d’arribar al final del qüestionari.
6) Finalitzar amb les preguntes classificatòries (nivell d’estudis, activitat principal, ingressos) al final del qüestionari. Aquesta estratègia es pot fer sempre que aquests aspectes no siguin filtre o objecte directe de l’operativització conceptual.
7) Per últim, agrair la col·laboració i oferir la possibilitat d’agregar observacions i comentaris. Passar a la resta de tràmits, si escau.
Figura 3. Proposta d’esquema d’ordre en el disseny d’un qüestionari
Font: elaboració pròpia
Font: elaboració pròpia
Altres recomanacions en relació amb l’ordre de les preguntes que poden ser útils per iniciar-se en aquesta tasca són: agrupar les preguntes o qüestions afins, és a dir, tractar un tema un sol cop; començar primer per les preguntes generals i després les específiques, contextualitzar els canvis de temes amb textos que incentivin l’enquestat a no desconnectar de la conversa; agrupar les preguntes de format similar: escales similars juntes, per exemple, de manera que si tenim diverses preguntes amb escala de resposta (per exemple, de 0 a 10, o de 1 a 5...) les agrupem en la mesura del possible per blocs; en el cas de tenir moltes formulacions similars, seccionar el qüestionari en parts trencant amb preguntes senzilles per variar el ritme de l’entrevista. Finalment, fora de la conversa, el qüestionari pot incloure preguntes d’observació a l’entrevistador, en el cas de l’enquesta presencial però també en l’enquesta telefònica, per exemple per a avaluar la sinceritat de l’entrevistat, descriure i valorar el context de l’entrevista, etc.

3.4.Formulacions

Finalment, us oferim un ventall de possibilitats de formulació de pes, preguntes d’un qüestionari amb exemples que us ajudaran a visualitzar-les. Us recomanem tenir a mà els qüestionaris del cas 1 i 2.
La classificació tradicional de les formulacions de preguntes en qüestionaris es fa a partir de tres criteris: el grau de llibertat, el nivell de premeditació de les respostes i el nombre de respostes admeses. Podeu observar les diferents formes que prenen en la taula següent:
Taula 3. Tipus de formulacions de preguntes

Nivell de classificació

Tipus i subtipus

1. Grau de llibertat

1.1. Preguntes obertes

1.2. Preguntes tancades

1.2.1. Dicotòmiques

1.2.2. Politòmiques

1.2.2.1. Escalars o ordinals

1.2.2.2. No escalars

1.3. Preguntes semiobertes

2. Premeditació de les respostes

2.1. Espontània

2.2. Suggerida

3. Nombre de respostes admeses

3.1. Simple

3.2. Múltiple

Addicionalment, trobarem classificacions que identifiquen les formulacions segons si es tracta de preguntes introductòries, filtre, de control, de comportaments, d’opinions, valoratives, descriptives, etc. Tanmateix, en general es tracta de classificacions que se centren més en la funció o objectius de l’investigador amb cada pregunta i no pas en la seva redacció. Per tant, una pregunta serà valorativa o d’actitud, de filtre o descriptiva, en funció de l’ús que la recerca li hagi atorgat.
Cal tenir present, però, que totes aquestes preguntes, les que vulguem fer servir de filtre, per classificar els enquestats, per controlar l’entrevista o la mostra, etc. és possible que no estiguin incloses en l’operativització de conceptes que s’ha fetal principi de la recerca. Per tant, ara toca incloure-les en el nostre esquema per poder fer un bon qüestionari.
Activitat
Si esteu avançant en el disseny del qüestionari és el moment de completar l’operativització amb la resta d’indicadors que donaran peu als filtres, controls i descripcions. En l’apartat dedicat a mostreig i treball de camp (punts 4 i 5) obtindrem també necessitats d’informació que caldrà incloure en el formulari.
3.4.1.Grau de llibertat
Classifiquen les preguntes segons si l’enquestat disposarà o no de les opcions de resposta i si aquestes seran úniques o podrà afegir-ne alguna.
1) Preguntes obertes
Exemple cas 2
P. 90. Segons la vostra opinió, com descriuríeu les condicions laborals dels/les professionals de la dansa? [LITERAL, MÚLTIPLE]
______________________
______________________
______________________
En el cas de l’enquesta telefònica o presencial, també seria una pregunta oberta si en comptes de tenir les opcions de resposta per al registre literal, disposéssim d’una llista de possibles respostes però l’enquestat no la pogués veure. En aquest cas, malgrat que les opcions estan preestablertes, la formulació és oberta i el registre no.
Aquesta formulació té l’avantatge de donar total llibertat de l’enquestat d’expressar-se amb les seves paraules, que seran registrades literalment, o no, en funció de si tenim o volem utilitzar una llista de possibles respostes. Per tant, en la classificació segons la premeditació de les respostes les preguntes obertes són exclusivament espontànies. Són fàcils de formular, i podem aconseguir certa riquesa de discurs i vocabulari, però no poden ser substitutives de la recerca qualitativa, ja que el context estandarditzat d’una enquesta no promou altres factors de flexibilitat i espontaneïtat. Es recomanen especialment en el cas de recerques exploratòries, quan l’equip de recerca no sent la confiança de tancar les possibilitats de resposta. Comporten, però, algunes complicacions importants:de registre de respostes: ja que escriure literalment respostes és complicat i sintetitzar-les en la rapidesa d’una conversa o assignar-les a respostes preestablertes també; d’anàlisi estadística: no són números, caldrà classificar i codificar les respostes tal com estudiarem en l’apartat 5. Aquestes formulacions solen donar peu a preguntes excessivament difoses i àmplies que comporten un percentatge alt de no resposta o de resposta imprecisa. Preguntes del tipus: què és per a vostè la cultura? o quines polítiques educatives posaria en marxa? solen patir aquests problemes.
2) Preguntes tancades
L’enquestat té un ventall de possibilitats per triar. Generalment se li suggereixen i n’ha de triar una.
a) Dicotòmiques
Exemple cas 2
P.75. La vostra formació de base, la doneu per finalitzada?

Sí, em considero un/a professional

1

No, em considero estudiant

2

Només hi ha dues opcions de resposta.
Quan formulem preguntes tancades les opcions de resposta solen ser clares i definides, i aquesta és la principal dificultat a l’hora de dissenyar-les, obtenir precodificacions, opcions de resposta clares i excloents. Com veurem en l’apartat 6, es tracta d’un tipus de formulació que limita l’anàlisi estadística. Específicament en el cas de les preguntes dicotòmiques, és complicat proposar només dues opcions. Per exemple: què passa en aquesta pregunta amb les opcions no ho sap o no contesta?
b) Politòmiques
Més de dues opcions de resposta.
Escalars o ordinals
Exemple cas 2
P.7. [P6=1]: Em podríeu indicar quants diners cobreu cada mes de la vostra pensió de jubilació (descomptant impostos i altres deduccions).

Menys de 150 euros al mes

0

De 1.501 a 1.800 euros al mes

9

De 151 a 300 euros al mes

1

De 1.801 a 2.400 euros al mes

10

De 301 a 450 euros al mes

2

De 2.401 a 3.000 euros al mes

11

De 451 a 600 euros al mes

3

De 3.001 a 3.600 euros al mes

12

De 601 a 750 euros al mes

4

De 3.601 a 4.200 euros al mes

13

De 751 a 900 euros al mes

5

De 4.201 a 4.800 euros al mes

14

De 901 a 1.050 euros al mes

6

Més de 4.800 euros al mes

15

De 1.051 a 1.200 euros al mes

7

(no llegir) Nc

99

De 1.201 a 1.500 euros al mes

8

Molt millors que la majoria de professionals de la dansa

1

Millors que la majoria de professionals de la dansa

2

Iguals que la majoria de professionals de la dansa

3

Pitjors que la majoria de professionals de la dansa

4

Molt pitjors que la majoria de professionals de la dansa

5

(no llegir) Nc

99

Exemple cas 2
P. 93. I personalment, considereu que la vostra situació i condicions laborals són? [LLEGIR, NOMÉS UNA RESPOSTA]
Les opcions de resposta tenen un ordre o gradació. Sobre la classificació de les variables i les seves implicacions en l’anàlisi, aprofundirem prou en l’apartat 6 del mòdul. Tanmateix, cal tenir present que la formulació d’escales és una de les dèries d’aquells que construïm qüestionaris i que, per tant, dedicarem un espai breu al final del present apartat a algunes informacions rellevants.
No escalars
Exemple cas 2
P.71.De les possibilitats següents, quina reflecteix millor la vostra situació actual? [LLEGIR, SIMPLE]

Em dedico exclusivament a l’activitat artística (dansa o altres)

1

Compagino l’activitat artística (dansa o altres) i la docència

2

Compagino l’activitat artística (dansa o altres) amb

altres activitats diferents a la docència

3

No em dedico a l’activitat artística (dansa o altres),

em dedico a d’altres activitats professionals

4

No em dedico a cap activitat ja que sóc inactiu (jubilat, etc.)

5

(no llegir) Nc

99

Les opcions no tenen un ordre, només són opcions diferents.
3) Preguntes semiobertes
Exemple cas 2
P.6. [P5= 2,3 o 4]: Actualment, quines pensions o ajudes de l’estat o d’altres administracions percebeu? En podeu marcar més d’una. [NO LLEGIR, MÚLTIPLE]

Pensió de jubilació (contributiva)

1

Ajudes complementàries a la viduïtat

2

Ajuda a l’alimentació

3

Pensió de viduïtat

4

Altres prestacions o ajudes (anotar) __________________________

No rep cap pensió o ajuda

97

(no llegir) Nc

99

[LES OPCIONS DE 2 A 99 PASSAR A P14]

Són iguals que en el cas anterior, però a més hi ha una opció oberta de resposta.
Tant les preguntes tancades como les semiobertes permeten més rapidesa de registre de les respostes que les obertes i, en general, són ràpides d’analitzar. A més de la ja mencionada limitació d’anàlisi i la dificultat per construir opcions de resposta precises i excloents, cal tenir present que no es recomanen les precodificacions llargues, com a màxim de 5 a 7 opcions, ja que més opcions generen desatenció de l’enquesta a les darreres opcions. Les dificultats per reduir el rang de respostes obliga sovint a convertir-les en preguntes semiobertes, i donar l’opció a l’entrevistat d’afegir respostes, o bé a rotar les opcions de resposta de manera que a cada enquestat se li ofereixin en un ordre diferent i intentar evitar, així, l’efecte ordre.
Específicament per a les preguntes semiobertes cal valorar si el fet de donar l’opció altres permet recollir amb més exactitud l’opinió de l’entrevistat o bé distorsiona les opcions de resposta. En qualsevol cas, si es decideix oferir l’opció altres cal fer-ho a tots els entrevistats per tal que tothom rebi el mateix impacte.
3.4.2.Premeditació de les respostes
Es refereix a si oferim les opcions de resposta o no.
1) Espontània
En aquest cas no oferim les opcions: formulem la pregunta i esperem la resposta de la persona enquestada. Podem fer servir el mateix exemple que en el cas de les preguntes obertes.
No oferir respostes implica limitar la influència de l’enquestador i millorar l’obtenció dels conjunts de referència dels enquestats. Imaginen que en comptes de preguntar obertament “com descriuria les condicions laborals dels/les professionals de la dansa” i deixar a la persona enquestada expressar-se, li donem una llista limitada d’opcions, limitant també les opcions de pensament de l’enquestat. Com a inconvenients principals, cal tenir present que poden generar gran quantitat i diversitat de respostes que a continuació caldrà tractar, codificar, que en alguns casos és en un exercici similar a l’anàlisi de dades qualitatives.
2) Suggerida
L’exemple ja donat com a pregunta d’escala (p93) és un cas de pregunta suggerida. En les indicacions a l’enquestat es demana llegir les opcions, de manera que aquest tindrà aquestes opcions per triar.
Donar les opcions de resposta ajuda a la memòria dels entrevistats i faciliten i agiliten la conversa. Cal preveure si amb aquesta finalitat, en el cas de l’enquesta presencial, la persona participant requereix material de suport com el que presentem a la imatge següent. Lògicament, limitar les opcions de resposta implica rigidesa en la conversa, i, com s’ha comentat en l’apartat anterior, hi ha un límit en el nombre d’opcions de resposta.
Figura 4. Exemple de material de suport per a respondre una escala de satisfacció
Font: elaboració pròpia
Font: elaboració pròpia
3.4.3.Nombre de respostes admeses
Una darrera caracterització de les formulacions és en funció de si permetem o demanem a la persona enquestada que doni una o més respostes.
1) Simple
Només permetrem una resposta. Són la formulació més freqüent. Podem parar atenció a les preguntes donades en els apartats anteriors: P7 i P93. Observem que en la segona opció indica “només una resposta” als enquestats.
Cal preveure la dificultat de simplificar a una sola resposta, i la necessitat de control de la lectura de les opcions de resposta. Com s’ha indicat, en la mesura del possible cal considerar rotar la lectura de les opcions, per evitar l’efecte d’odre de l’exposició.
2) Múltiple
En aquest cas, demanarem o permetrem que la persona enquestada doni més d’una opció. La pregunta donada com a exemple: P90. Com veureu, indica “múltiple”. Donar la possibilitat de donar més d’una resposta fomentarà obtenir una imatge més completa de les seves característiques i opinions, de tenir més precisió. Aquestes formulacions, però, impliquen més dificultats de codificació, de tabulació i anàlisi de dades.
Com s’ha comentat, supera els objectius d’aquest mòdul aprofundir en les formulacions d’escala, però ens detindrem adonar algunes indicacions generals. Les escales són instruments de mesura que volen donar resposta a fenòmens complexos amb precisió com ara sentiments, actituds, creences, opinions, etc. Són les formulacions més habituals per crear indicadors i índexs.
Les escales tenen l’objectiu d’identificar la intensitat i direcció de la mesura. Permeten mesurar fenòmens inconscients o que no es verbalitzen i, en general, són instruments validats per diferents disciplines (principalment econometria i psicometria). Ara bé, cal tenir present que construir escales lluny de ser un procés intuïtiu implica dificultats importants i requereix un procés de validació complex i llarg. Cal assegurar-se de les condicions d’ús: quina informació obtindrem i com el tractarem, fins a quin punt hi ha adequació entre l’escala i l’objecte de mesura amb validesa i fiabilitat. A continuació es presenta una llista de possibles enquestes sense abordar-ne cap en profunditat.
Bàsiques (de Stevens)
1) Nominal
2) Ordinal
3) D’interval
4) De raó (ràtio)
Comparatives
5) Comparacions aparellades
6) De classificació
7) De suma constant
8) De Guttman
9) De classes o similituds
10) De protocols verbals
No comparatives
11) De classificació contínua
12) Likert
13) Diferencial semàntic
14) Stapel
15) Thurstone
Arribar el moment, doncs, de posar fil a l’agulla per triar quina formulació tindrà cada un dels indicadors del nostre model d’operativització. Algunes recomanacions generals en encarar aquest tasca passen per procurar una redacció en llenguatge clar i vocabulari adequat a la població entrevistada. En població general, cal evitar tecnicismes. En població específica, s’aconsella explicar els tecnicismes per assegurar la comprensió mútua. Cal evitar enunciats o frases amb formulació negativa, enunciats llargs, excés de preguntes tipus examen excessivament abstractes o filosòfiques. Les preguntes poden ser contextualitzades per millorar la comprensió de la persona entrevistada i cal evitar sempre que es pugui redactar en una sola pregunta dues qüestions o indicadors.
En la mesura del possible, no formularem preguntes que obliguen a respostes poc acceptades socialment, o que impliquen respondre sobre la base de comportaments íntims, i procurarem que l’enunciat de la pregunta no influeixi en la resposta i controlarem el desig social: dissenys i formulacions que inclouen preguntes de control, contrast o provocació que evitin la resposta “políticament correcta”. També limitarem l’aquiescència: qüestionaris que per ordre o formulació de preguntes conviden a donar determinades respostes.
Aquest és un dels elements de discussió tradicional en relació amb moltes enquestes. Cal tenir present que en cap cas és possible evitar la manipulació de la interrogació, ja que, com hem explicat, els conceptes, la seva mesura i la seva formulació són decisió de l’equip de recerca que mantindrà una relació asimètrica amb l’enquestat i generalment una conversa unidireccional. Lògicament, malgrat aquests condicionants propis de la metodologia i de la tècnica existeixen nivells sostenibles i amb major correcció en la seva argumentació i d’altres més dèbils o clarament incorrectes.
Validació
La validació d’escales i de qüestionaris és un aspecte clau per a utilitzar-los. Sovint, però, fan referència a sistemes o models, i no a preguntes aïllades. El procés és llarg i pot resultar metodològicament complicat i costós, a més d’analíticament complex. Els exercicis en aquest sentit tenen per objectiu determinar i ampliar els nivells de validesa, és a dir, el grau en què la definició s’ajusta al concepte: Ens preguntarem per la validesa de contingut, de constructe, convergent i discriminant, concurrent i predictiva. També valorarem la fiabilitat de les mesures, especialment d’escala, amb tests estadístics i amb procediments de test i retest. Els procediments mencionats suposen un treball avançat en disseny de qüestionaris, motiu pel qual us convidem a treballar-hi en altres etapes de la vostra formació o carrera. Tanmateix és una de les estratègies més senzilles, el test o prova pilot del qüestionari i/o dels sistema d’escales, sobre el qual donarem algunes pautes a continuació.

3.5.Pretest o prova pilot

Arribats a aquest punt de la nostra recerca, i malgrat l’emoció que pot suposar voler començar al més aviat possible a fer enquestes i obtenir resultats, cal fer una parada més. Un cop disposem d’una primera versió del qüestionari preparada per fer el treball de camp (vegeu l’apartat 5), cal fer un seguit de proves prèvies per validar-lo mínimament, és a dir, per depurar errors i millorar-ne el disseny. Els objectius essencials són:
1) Validar el contingut de les preguntes: adequació, pertinença, són prou exhaustives?
2)Validar la formulació de les preguntes: llenguatge, tipus de pregunta, categories de resposta.
3) Validar el contingut.
4) Validar l’ordre de discurs provocat.
5)Validar el sistema de recollida/provocació de la informació: necessitat de material de suport.
6) Validar el format del formulari: utilitat per als diferents usuaris (entrevistadors o entrevistats, gravadors, depuradors, codificadors...). Poden llegir-lo, registrar les respostes, gravar les dades àgilment i amb pocs errors?
Amb aquesta finalitat, podem procedir de diferents maneres, és a dir, disposem de diversos mètodes. D’una banda, podem comptar amb la revisió d’altres experts en dissenys de qüestionaris, així com dels mateixos enquestadors i dels responsables de treball de camp si comptem amb equip especialitzat i amb experiència. Un segon exercici consisteix aquadrar les preguntes amb els objectius de l’estudi, assegurant-nos que estan tots coberts i que no hi ha redundàncies innecessàries. Finalment, és recomanable dissenyar un pla d’anàlisi, tal com us expliquem a l’apartat 5, que ens permetrà reflexionar sobre els diferents usos de cada pregunta i determinar què ens sobra i què ens falta, i quines formulacions permeten o no fer el que desitgem. Per exemple, imaginem que pensem analitzar si el salari de les persones amb doctorat és diferent de les persones amb grau universitari però no hem inclòs aquesta diferenciació en la nostra codificació. O bé, que no sabem què fer amb la pregunta situació civil, ja que en realitat si les persones estan casades, divorciades o solteres no forma part de cap dels objectius de la recerca ni serveix per controlar la qualitat mostral.
Finalment, l’exercici clau és el pilotatge del qüestionari que consisteix afer una prova de com funciona en contextos al més reals possible. Així, si fem una enquesta al personal de l’Administració pública mirarem de provar-lo abans de posar-lo en marxa, i fem enquestes a personal directiu d’empreses internacionals amb seu a Barcelona... què podem fer? Per dissenyar una prova pilot hi ha recomanacions més o menys estrictes quant al nombre d’enquestes que cal fer, si es poden o no incloure en la mostra final, el perfil de l’enquestador, etc. Trobarem que ens reclamen fer com a mínim 100 enquestes a una mostra al més semblant possible a la mostra dissenyada per a una escala de 100 enquestes, fer totes les tasques que us ensenyarem a continuació i validar el conjunt de processos abans de començar el treball de camp real. I així, i encara més, és com es fa en estadística oficial i en operacions complexes.
Ara bé, aquests tipus de pilotatges no sempre són viables en altres contextos. Com us proposàvem en el segon exemple, accedir a persones amb alts càrrecs d’empreses internacionals és un exercici força complicat com per fer-ho “de prova” en 100 ocasions. Cal trobar alternatives i no renunciar a fer la prova pilot o pretest del qüestionari, ja que un cop arribats a aquest punt del disseny de qüestionaris probablement no sereu capaços de veure errors de funcionament importants que poden afectar tot el procés. Recordem que es tracta d’una etapa sense retorn, ja que un cop enviades i més encara fetes les enquestes, els errors tenen difícil esmena. Optarem, doncs, per mostres petites de casos concrets que ens ajudin a provar cada decisió.

3.6.Resum i recomanacions generals

Recordem breument com hem arribat a aquest punt, en què disposem d’una de les peces fonamentals per tirar endavant la nostra recerca. Hem començat fent una recerca de la literatura sobre els nostres conceptes i decidint com mesurar-los d’acord, també, amb els objectius que volem assolir. A partir del procés d’operativització, per a cada indicador hem redactat una o diverses preguntes que seran les que finalment han de produir la informació. Preguntes que s’adeqüen al procediment de treball de camp i al registre de les persones que volem enquestar. Hem fet una prova pilot més o menys completa que ens permet afirmar que el formulari elaborat és útil i produeix la informació de manera controlada i estandarditzada. Hem elaborat, i ho hem considerat materials complementaris per a enquestadors i enquestats, instruccions, fitxes de resposta, etc., i hem concretat els sistemes de control i supervisió que farem sevir durant l’etapa de treball de camp.
Podem, doncs, fer una darrera revisió i assegurar-nos que totes les preguntes estan numerades de manera excloent, que les opcions de resposta de cada pregunta també ho estan, que les preguntes que en filtren d’altres estan clarament identificades per a totes les opcions possibles, que les preguntes tenen identificades clarament les condicions per a executar-les: espontània, suggerida, simple, múltiple, quantes possibilitats de resposta, rotació, etc. i que el personal entrevistador les pot fer servir sense pertorbar la lectura del qüestionari.
Activitat
Podem revisar el formulari del cas 2. Trobem indicats els filtres de les preguntes i les condicions per formular-les. Fem el mateix en el cas del qüestionari 1. Si adoptem el rol d’enquestador, sabríem com utilitzar els qüestionaris?
Cal tenir present que la qualitat en el disseny d’un qüestionari pot ser jutjada des de diversos angles, i amb més o menys component acadèmic i estadístic. Fem memòria dels conceptes de validesa i fiabilitat. Tanmateix, un qüestionari serà de millor qualitat si hem fet un bon treball bibliogràfic i hem repassat recerques amb enquesta i/o amb qüestionari per observar com d’altres han pres decisions similars, si fem servir formulacions estandarditzades (nivell d’estudis, situació laboral, formes de convivència...), i si hem fet un treball suficientment intens sobre com mesurar d’actituds, comportaments i opinions, si desitgem fer servir escales. En aquest sentit, podem fer servir instruments creats per altres equips que estiguin validats si justifiquem que són pertinents (tests, sistemes d’escala, etc.).
Podem procedir, doncs, a la producció sistemàtica i estructurada d’informació.
De manera simplificada entendrem per mesura fiable la que es produeix amb precisió, sense biaixos, i és consistent. La variabilitat que podem observar en la mesura no és atribuïble a l’instrument de mesura ni a la seva execució. Una mesura vàlida és aquella que mesura realment el que volem mesurar, hi ha coherència entre el concepte i la mesura, i complitud entre les diferents mesures del concepte. En el disseny del qüestionari aquestes dues dimensions clau poden ser argumentatives (literatura, experts, etc.) però en tant que tècnica quantitativa també podrem tenir mesures de validesa i fiabilitat estadística.

4.Disseny mostral

4.1.Conceptes clau

La decisió sobre com de gran serà la nostra mostra, quines característiques ha de tenir i com hem de seleccionar cada unitat és una de les etapes que més reptes implica en l’elaboració d’una enquesta. Cal recordar que en la gran majoria de casos fem una enquesta amb un objectiu estadístic inferencial, és a dir, amb la finalitat de poder atribuir al total de la nostra població les característiques de la mostra. Iniciem així el moment en què cal acostar-se, una mica almenys, a l’estadística com a branca de coneixement que fa de pont entre la matemàtica i les ciències socials.
Abans, però, cal que resumim de manera breu els grans conceptes que cal tenir clars en mostreig.
1) Univers o població
2) Mostra
3) Equilibri de la mostra
4) Error no mostral
5) Tipus de mostreig
6) Error mostral
7) Nivell de confiança
8) Grau d’homogeneïtat
9) Determinació de la grandària de la mostra
Podem estudiar tots aquests conceptes amb molta profunditat així com les seves íntimes interaccions i les raons estadístiques (teoremes, models, etc.). En aquest mòdul, però, ens limitarem a comprendre la idea clau i el que suposa en la nostra decisió.
En primer lloc, el nostre univers d’estudi o població és el conjunt de casos i individus d’interès per la recerca. En la definició dels objectius i procés d’operativització, com en el disseny del qüestionari, ja hem pensat a qui va dirigida l’enquesta. Ara toca escriure clarament qui són i quines característiques tenen. A més, de totes aquestes característiques de quines en tenim informació quantitativa: quants són, quants són d’un tipus o d’un altre, etc. Delimitarem clarament qui és població en estudi i qui no ho és,tal com ens informa el document sobre mostreig de l’EPA que us hem facilitat. Així, per exemple: empreses catalanes o empreses petites i mitjanes, què vol dir? Quines característiques han de complir? Quantes més coses sabem de la nostra població i més dades quantitatives en tinguem, en millors condicions estarem per dissenyar la nostra mostra.
La mostra és una part de la població o univers. Una unitat mostral és cada cas de la mostra i una submostra és una part de la mostra. Així, per exemple, en el cas 2 en estudi, cada persona enquestada és una unitat mostral i hi ha una submostra enquestada per telèfon i una submostra enquestada en línia. Quan desitgem un mostreig amb criteri estadístic el que pretenem és que la mostra sigui de grandària proporcionada o suficient, sense distorsió o biaix en la selecció, que ens permeti fer anàlisi estadística i contrast d’hipòtesi i, en definitiva, que sigui representativa, que permeti fer hipòtesis de generalització amb un nivell d’error acceptable. Aquesta noció de representativitat es construeix a partir de tots els components del disseny mostral, i no és fruit d’un sol criteri o mesura.
L’equilibri de la mostra fa referència fins a quin punt la nostra mostra s’assembla a l’univers d’estudi. En el moment del disseny haurem de determinar amb quines característiques o variables ho valorarem. Així, per exemple, podem voler fer una enquesta a Espanya, com l’EPA, i ens haurem d’assegurar que cada comunitat autònoma està ben representada, per exemple, d’acord amb el seu pes demogràfic. No pot ser que Catalunya tingui més mostra que Andalusia o que no hi hagi cap mostra d’Astúries, oi? En aquesta casos, pensaríem que és una mostra desequilibrada i que no representa bé la realitat espanyola. Quan seleccionem i disposem de la mostra final haurem de fer el mateix, comprovar que hem aconseguit aquest equilibri. En aquest sentit, un dels debats més intensos en metodologia d’enquestes se centra en les diferències que hi pot haver en funció de si fem l’enquesta personal, telefònica o en línia.
A més, hi ha l’error no mostral, també anomenat error sistemàtic, és a dir, qualsevol error que es produeix en el procés de disseny i execució de l’enquesta, fins a l’anàlisi i redacció dels resultats. Podem destacar les principals fonts d’error sistemàtic: de resposta i administratiu. L’error de resposta és qualsevol error en el procés de disseny i implementació del qüestionari: no aconseguir accedir a la mostra inicial, deixar casos fora per dificultats per exemple de comprensió, recursos per accedir-hi, etc. També, la falta d’adequació entre pregunta i indicador, errors d’ordre i filtre en el qüestionari, i errors que es produeixen en l’administració del qüestionari: inadequació entre entrevistat-entrevistador, ocultació, evitar respostes extremes, etc. Així, per exemple, imaginem que volem fer una enquesta sobre l’activitat econòmica submergida en el nostre municipi i ens presentem com a enquestadors d’Hisenda. L’error administratiu és tot aquell que es produeix en la tramitació de les dades: gravació, depuració, codificació, etc., tasques que abordarem a l’apartat 5.
Segurament, una de les decisions més importants és el tipus de mostreig que farem servir i la principal distinció consisteix en si farem un mostreig probabilístic o no probabilístic. Essencialment, el mostreig probabilístic és aquell en el qual desitgem aplicar les lleis i coneixements d’estadística inferencial, i, per tant, cal assegurar el compliment d’unes condicions mínimes. Molt específicament: tots els elements de la població han de tenir alguna possibilitat de ser seleccionats (probabilitat diferent de 0); la selecció dels casos es farà a través de sistemes aleatoris o d’atzar; el sistema de selecció ha de permetre controlar els errors o desviacions entre les característiques poblacionals i les mostrals; i disposem d’un marc de mostreig, és a dir, algun cens o llistat prou complet de l’univers d’estudi (cens, llistat telefònic, base de dades d’empreses, etc.).
Són molts els procediments per dur a terme mostreig probabilístic: mostreig aleatori simple, aleatori sistemàtic, estratificat, per conglomerats, per ruta aleatòria, etc. I en general, els dissenys són una combinació de diversos procediments en diverses etapes, de manera que és comú que els anomenem mostreig en etapes múltiples. Per aprofundir en els diferents procediments us derivem a bibliografia, ja que el seu estudi excedeix els nostres objectius. Ara bé, podem indicar que un mostreig aleatori simple implica un sorteig de casos, que un procediment sistemàtic implica l’establiment d’un sistema, per exemple en les enquestes a peu de carrer seleccionar 1 de cada 3 vianants, o que el mostreig estratificat implica estratificar la mostra primer (fer subparts a partir de variables, separar homes i dones, diferenciar per territoris, o combinacions de variables) que es mostrejaran de manera separada. Aquest és el cas de l’EPA, que indica que es tracta d’un mostratge en dues etapes estratificat. Els criteris d’estratificació s’expliquen al document sobre mostreig. Al seu torn, en el cas 2 el mostreig és aleatori simple, ja que en disposar d’un llistat de socis es van seleccionar a l’atzar.
Hi ha però, el mostreig no probabilístic, és a dir, aquell que no pretén respectar les lleis i models de la probabilitat i que, per tant, basarà els procediments de selecció i els arguments sobre la qualitat de la mostra en criteris substantius no matemàtics. Aquests tipus de procediments també s’utilitzen en investigació quantitativa i ens permetem aconseguir mostres sobre la informació quantitativa; ara bé, no podem calcular els errors que comentem i sovint dificulten les possibilitats de comparar els nostres resultats amb models de distribució que permetin contrastar hipòtesis. Molts d’aquests procediments són similars o idèntics als procediments en investigació qualitativa. És el cas del mostreig per conveniència, de judici o per criteri, quotes o de bola de neu. Tots ells comparteixen el fet que els elements de l’univers no tenen una probabilitat coneguda de pertànyer a la mostra, i no hi ha aleatorietat, o aquesta és molt dèbil en la seva selecció. En no poder establir els criteris probabilístics d’error i confiança, ni complir supòsits mínims, no podem valorar les desviacions dels resultats i, per tant, les estimacions no poden generalitzar-se estadísticament a la totalitat de la població. Hi pot haver una generalització argumentada però no estadística.

4.2.Mostreig probabilístic: confiança, error i grandària de la mostra

Arribats a aquest punt, si hem triat fer una enquesta amb un mostreig probabilístic, necessitem alguns conceptes rellevants de l’estadística. Tots són probabilitats i quantitats i estan interrelacionats, per tant,es poden escriure en una fórmula. En cap cas no ens dedicarem a l’aspecte formal de l’estadística ni a l’estudi dels models i teoremes que ens permeten fer aquests supòsits i càlculs, però sí que necessitem entendre la idea que hi ha darrere de cada component i com es relaciona amb la resta.
Per error mostral o marge d’error entenem el grau d’exactitud o precisió que estem disposats a acceptar en la lectura dels resultats finals. Com hem dit, es determina a partir de la grandària de l’univers (quantes unitats hi ha a la població), la grandària de la mostra (quantes unitats hi ha a la mostra), el nivell de confiança (o interval de confiança) i el nivell de dispersió de les respostes. Així, per exemple, quan en una mostra, per exemple en el cas 2, afirmem que les nostres dades, en general, ±5,87% per a les dades globals voldrà dir que si en la nostra mostra el 83,1% declara haver nascut a Espanya, en la realitat aquest percentatge podria variar entre 77,23% i 88,97%, aquest és el nostre interval de confiança de la dada de la mostra: 83,1%±5,87%. Així, el nostre error serà més petit com més mostra tinguem. De fet, els errors es calculen per a cada una de les dades observades a la mostra. Així és com treballen els equips estadístics. Aquest valor és indicador global d’error que ens ajuda a calcular una mostra inicial i valorar-la, però un cop disposéssim de la mostra final, podríem calcular tots els errors. Observem en el document de l’EPA el detall dels errors de mostreig. En general, el marge d’error màxim que voldrem acceptar serà del ±5%.
Però per calcular-lo necessitem saber la resta de components.
El nivell de confiança es refereix a la probabilitat d’obtenir el valor poblacional a partir de la mostra, el seu grau de certesa o validesa. Així, quan afirmem en el cas 2 que la nostra mostra ens permet tenir un error global ±5,87% per a les dades globals, per a un nivell de confiança de 95,5% estem afirmant que aquest error serà així en el 95,5% dels casos, però que hi ha un 4,5% dels casos de la nostra població que probablement no compleixin les característiques que observem a la mostra. Així, en la mostra del cas 2 aquest 4,5% dels casos podria fer variar l’estimació segons la qual entre el 77,23% i 88,97% dels professionals de la dansa a Catalunya és nascut a Espanya. Com més confiança vulguem tenir sobre les nostres dades, i aconseguir representar el màxim de població possible, inclosos els valors més extrems, més mostra necessitarem. El nivell de confiança mínim que voldrem acceptar és del 95%.
Un altre component del mostreig probabilístic és el grau d’homogeneïtat dels fenòmens que volem estudiar, també anomenat nivell de dispersió de la distribució d’una variable en l’univers. Així, si sabem que un fenomen és molt homogeni necessitarem menys mostra que si sabem que un fenomen és molt heterogeni. Posem un exemple didàctic. Si en una aula tothom ha tret un 5, amb poca mostra que faci segur que trobo casos que representin el paràmetre. Ara bé, si en una aula les notes tenen molta dispersió, són molt heterogènies, van de 2 a 9 per exemple, caldrà més mostra per assegurar-me que en la meva mostra hi ha representats el màxim de situacions possibles. Si coneixem aquesta dada podem fer-la servir, però generalment quan fem enquestes no sabem quina és la distribució de les nostres mesures. No sabem quant de temps estan els professionals de la dansa a l’atur, o quants tenen cobertura d’atur, per tant, treballem amb la màxima incertesa possible, és a dir, sota el criteri de màxima indeterminació que s’expressa p = 1- p (o q) = 50%, o bé p = q =50. És a dir desconec quina distribució tenen els paràmetres que vull estimar.
Com que ja coneixem què significa cada un dels components del mostreig probabilístic, podem calcular la grandària de la mostra o l’error mostral.
Observarem que les mostres que oferim a continuació són diferents en funció de si són per a poblacions finites o infinites. Una població finita vol dir una població petita. Com més petita sigui la població més mostra necessitarem, al contrari de si és gran. Posem un altre exemple extrem i típic per il·lustrar aquesta idea. Si tenim una aula formada per 10 persones, pràcticament hauré de parlar amb tothom per assegurar-me que a la meva mostra hi ha una bona representació de la població, incloure o no cada cas pot fer variar molt el resultat de la mostra. Ara bé, si la meva mostra són tots els estudiants de Catalunya, a partir d’un nombre determinat d’enquestes per molt que n’inclogui una de nova no variarà el resultat de manera rellevant. L’aportació marginal de cada cas al resultat total és poc rellevant. Una simplificació estadística consisteix a assumir que els universos són infinits a partir de 100.000 casos, i que són finits si estan per sota d’aquesta quantitat. Així, disposem de dues fórmules diferenciades segons aquest criteri, ja que les relacions entre els diferents components del mostreig són diferents estadísticament i, com veiem, en el cas de les mostres per universos infinits el valor de la població desapareix, deixa de ser rellevant.
Càlcul de la grandària mostral
Universos infinits:
n = z 2 p ( 1 p ) e 2
Universos finits:
n = z 2 p ( 1 p ) N e 2   p ( 1 p ) + e 2   ( N 1 )
On:
n = mostra
z = confiança amb la que volem treballar
e = error que volem cometre
p = nivell d’indeterminació dels paràmetres a estimar
Lògicament, per entendre el perquè d’aquestes fórmules i les relacions que s’hi estableixen cal aprofundir en les propietats de la distribució normal, el teorema del límit central i d’altres arguments matemàtics que no són objecte d’aquest mòdul. A més, cal que tinguem present que aquestes formulacions són una simplificació i que, com podem veure, en el document de l’EPA les fórmules s’han de desenvolupar a mida de cada dada o operació, incloent-hi els models ajustats. Aquesta és feina generalment de l’estadística. Tanmateix, amb la informació facilitada fins ara és suficient per determinar
En aquests moments estem decidint quina grandària mostral necessitem però podríem transformar aquestes fórmules per tal de donar resposta a altres preguntes del tipus: ja tinc una mostra, quin és l’error que comentem? quin és l’interval de confiança de les nostres dades? amb quina confiança treballem? com són de probables els nostres resultats? Depenent del moment de la recerca en què ens trobem o el rol que hi tinguem, serà una o altra la nostra pregunta. Sigui com sigui, és important destacar que necessitem informació sobre els components de la fórmula, o bé fer-ne supòsits. Així, suposem que volem reduir l’error, quanta mostra més necessitarem?; o si volem ampliar la confiança, quanta mostra més necessitarem?

4.3.Estructurar i estratificar una mostra

Una darrera qüestió essencial, per la importància que té el mostreig en ciències socials, és l’estructuració i estratificació del mostreig. Com hem estudiat al principi de l’apartat, cal que definim i delimitem l’univers d’estudi i decidim quines característiques o variables són importants per a caracteritzar-lo. En l’EPA se’ns indica, per exemple, que el territori és una característica rellevant que cal tenir en compte a l’hora d’obtenir una fotografia precisa i vàlida del que succeeix en termes de mercat de treball. Aquestes variables que són rellevants per conèixer com és una població es denominem variables estructurals. Algunes variables clàssiques són el territori (identificat amb la comunitat autònoma, amb la grandària del municipi, l’edat, la nacionalitat, etc.).
A més, un cop decidides quines són rellevants, estructurals, haurem de triar quines farem servir per a distribuir la nostra mostra i com ho farem. Aquestes variables que utilitzarem per a distribuir la nostra mostra són les variables d’estratificació. Així, quan l’EPA indica que ha estratificat la mostra segons la grandària del municipi, vol dir que la grandària del municipi és una variable prou important per assegurar-nos que a la nostra mostra hi ha una distribució adequada de cada tipus de municipi.
Encara que en el cas de l’EPA el procediment és força més complicat, el mètode més senzill per fer aquesta distribució és el proporcional, és a dir, assegurar-nos que si al nostre univers el percentatge d’empreses de serveis és del 70% a la nostra mostra també ho és. En bona part de les enquestes que dissenyarem o que revisarem aquest serà el procediment, que és força intuïtiu i fàcil de calcular. En el cas 2 que estudiem, no hi ha cap distribució inicial de la mostra per estrats, ja que tal com s’indica a la fitxa tècnica no hi ha afixació i tota la mostra s’ha aconseguit per mostreig aleatori simple.
Podem finalment reprendre la idea segons la qual la representativitat d’una mostra es construeix a partir de la qualitat dels diferents aspectes estudiats. Així, quina qualitat i representativitat tindria una mostra molt gran però esbiaixada? o en la qual les preguntes no haguessin sigut enteses pels enquestes?

4.4.Recomanacions i ajudes

En resum, l’exercici de dissenyar una mostra implica diverses decisions: definir l’univers d’anàlisi amb la màxima precisió, determinar la informació disponible sobre la població objecte d’estudi i les característiques/variables que es volen controlar en la mostra, triar el tipus de mostreig i determinar la grandària de la mostra. En el cas d’optar per mostreig probabilístic, cal calcular aquesta grandària d’acord amb la confiança i error que estem disposats a cometre. Si disposem d’una llista o marc de mostreig, caldrà extreure la mostra i procedir finalment amb el treball de camp sobre el qual donarem algunes pautes en l’apartat següent. El mostreig és un dels reptes d’una bona recerca quantitativa, tant probabilístic com no probabilístic. Cal no oblidar que les primeres condicions es defensen amb arguments substantius i informació de qualitat, motiu pel qual la nostra revisió bibliogràfica pararà atenció en les decisions metodològiques d’altres recerques i en les definicions de les poblacions en estudi; especialment en els mostrejos probabilístics les mesures d’error i confiança, per a la comprensió de les quals cal aprofundir en els models i teoremes de la probabilitat.

5.Treball de camp i pretractament de les dades

5.1.El treball de camp

Arriba el moment d’aconseguir la mostra. Així, anomenem treball de camp totes les accions que fem per a localitzar les persones que volem entrevistar, administrar el qüestionari, comprovar el funcionament de tot el procés i elaborar els suports per a l’anàlisi de la informació.
Es tracta de l’etapa de recerca que segurament més equips decideixen encarregar a empreses o equips especialitzats. Aquesta externalització, però, implica més atenció, si cal, a la qualitat del procés, ja que de què ens serviria un qüestionari excel·lent i una mostra sofisticada, si la producció d’enquestes es fa de manera esbiaixada? Cal, doncs, planificar amb molt detall el procés que es vol seguir i establir els mecanismes de control i supervisió necessaris, per evitar que la pèrdua de control afecti la qualitat de la informació.
Així, són moments clau en el treball de camp: la selecció de la mostra determinant el procediment de concertació i contacte i els mètodes de substitució; la selecció i formació de l’equip d’entrevistadors, la supervisió i validació inicial de la informació dels qüestionaris, el control del treball de camp i la gravació. Aquestes etapes es poden considerar treball de camp en sentit estricte.
Hi ha, però, altres tasques que estan vinculades a la producció de resultats com són la depuració i control de la depuració, l’anàlisi de la no resposta, la codificació i el seu control i el pla de tabulació o anàlisi, i la creació de noves variables. Dedicarem atenció exclusivament a aclarir les tasques relacionades amb la codificació, la depuració i el pla de tabulació.

5.2.Depuració

Durant el treball de camp, abans de fer i rebre el qüestionari, caldrà avaluar la completesa dels qüestionaris, és a dir, si la informació és completa, si es rebutja o no un qüestionari en funció de la informació que hi falti, si es pot deduir o completar tornant a contactar amb l’entrevistat. També, la consistència d’aquests qüestionaris, és a dir,la coherència de les respostes, resolent les incidències amb l’entrevistat i/o l’entrevistador. El més freqüent és que hi hagi inconsistències lògiques–incongruència entre respostes a diverses preguntes–, conceptuals –la resposta no s’adequa al concepte que s’interroga–, o d’administració del qüestionari –la formulació de la pregunta no ha estat adequada o no s’ha seleccionat la mostra adequadament. Totes aquestes tasques s’emmarquen en el procés de depuració. Com s’ha indicat, algunes tenen vies de solució, però d’altres difícilment es poden redreçar, com ara detectar en aquest punt de la recerca que hi ha errors en la formulació de preguntes o categorització de respostes. Ens adonem, doncs, que una enquesta és un procés rígid, ja que en aquest moment, excepte si són les primeres enquestes i podem refer les noves, ja no es pot solucionar un error d’operativització.

5.3.Codificació

Durant el treball de camp, o al final, procedirem, si escau, a les tasques de codificació. Aquesta tasca és necessària quan el nostre formulari inclou preguntes obertes o semiobertes. Així, aquests textos literals que recullen les respostes dels enquestats s’han de classificar de manera sistemàtica en categories excloents i exhaustives. Serà amb aquests codis numèrics que se’n farà l’anàlisi posterior. Per a codificar cal fer la gravació de les respostes literals en suport digital si disposem de qüestionaris en paper, llegir tots els literals, establir un sistema de categorització o utilitzar-ne un d’existent, i assignar codis numèrics a cada categoria de resposta, elaborar una llista de codis, que anomenem manual de codis, i controlar i supervisar tot el procés assegurant-nos, per exemple a partir de la revisió d’altres, que les respostes literals han estat ben assignades als codis numèrics.
Un exemple d’aquesta tasca el podem observar a la pregunta següent del cas 2:
P35. Quina era la vostra ocupació en cada activitat? Podeu posar més d’una ocupació.[NO LLEGIR, MÚLTIPLE]
Disposem d’una bateria de codis possibles per a aquestes activitats que inclou la possibilitat altres, de manera que la persona enquestada pot descriure la seva activitat. En tots aquests casos haurem de decidir si les activitats s’ajusten a algun dels codis ja disponibles, o si ens calen altres categories noves per aglutinar situacions no previstes.
En el cas de la pregunta:
P.125. Quines actuacions creieu que hauria de dur a terme l’Associació de Professionals de la Dansa de Catalunya per donar suport a la professió de la dansa? Si us plau, descriviu-les. [LITERAL, MÚLTIPLE]
No hi ha un sistema de codis previs, de manera que s’ha generat a mida de les respostes de les persones enquestades. A la taula 97 de l’informe complet s’analitzen els resultats i podeu observar el sistema de codis creat.
Les decisions que cal prendre durant la codificació són rellevants per a l’anàlisi i interpretació dels resultats i requereixen de coneixements de la problemàtica en estudi. Com s’ha comentat en apartats anteriors, el procediment s’assimila als mètodes d’anàlisi de la informació qualitativa, de manera que els coneixements que cal tenir de la teoria i objectius de la recerca, així com les decisions que cal prendre, són prou rellevants per formar part de les tasques de l’equip de recerca.

5.4.Pla de tabulació o anàlisi

Fa referència a les tasques de reflexió i documentació sobre quin tipus d’anàlisi es farà de les dades. Concretament, és recomanable elaborar un document en què especificarem la llista de variables que es deriven del qüestionari i el tractament que li volem donar. D’aquesta manera, plantejar les tasques i objectius d’anàlisi abans de donar per finalitzat el qüestionari ens ajudarà a supervisar-lo, és a dir, a controlar la falta de preguntes i l’eliminació de supèrflues. Si el tipus d’anàlisi buscat és complex (indicadors, classificació, dimensionalització o d’altres), cal tenir-ho en compte com a part de la fase de disseny ja que són objectius que requereixen formulacions específiques per poder fer els càlculs necessaris. La sistematització d’aquest document també facilita encarregar tabulació a una empresa, entitat o a un equip amb coneixements d’estadística.
A continuació, us oferim un exemple de pla d’anàlisi per al cas 2. Bona part de la informació que es demana en aquest model de document l’estudiarem en el proper apartat;es tracta d’un exemple en el qual es planteja la necessitat de calcular la taxa d’atur dels professionals de la dansa a Catalunya i analitzar les diferències que poguessin existir segons sexe, edat i nivell d’estudis.
Taula 4. Exemple de pla de tabulació o anàlisi

Nom variable

Descripció

Base

Tipus

Composició/càlculs

P4

Relació activitat actual

Total

Simple

Treballo o busco feina o estudio (actiu) - 1

No treballo, ni estudio, ni busco feina (inactiu) - 2

Càlculs:

Nombre de casos

% de casos

P8

Relació activitat actual

Total

Simple

Tots

Càlculs:

Nombre de casos

% de casos

P8

Relació activitat actual

Actius: p4 = 1

Simple

Tots

Càlculs:

Nombre de casos

% de casos

Taxa atur actual

Taxa atur actual

Actius: p4 = 1

Simple

Estic a l’atur: busco feina - 2

Resta

Càlculs:

Nombre de casos

% de casos

Anàlisi bivariable:

A. Encreuament segons

P1_sexe

P2_edat (intervals)

P3_Nivell d’estudis

Càlculs:

Nombre de casos

% de casos total, fila i columna

Test Chi2

B. Taxa atur actual: Càlcul mitjana d’edat (desviació, resum dels 5 nombres).

Test T-Student

5.5.La fitxa tècnica

Un cop finalitzat el treball de camp i de cara a l’elaboració dels documents metodològics i de difusió elaborarem una síntesi de les característiques essencials de la nostra recerca. Aquesta síntesi se sol expressar en format de fitxa tècnica, tal com es pot observar en l’exemple.
Figura5. Exemple de fitxa tècnica
Font: elaboració pròpia
Font: elaboració pròpia

6.Anàlisi de dades quantitatives

6.1.Context i informacions addicionals

6.1.1.L’estadística resumida i simplificada
Finalment arriba el moment d’analitzar les dades. Com hem advertit des del principi, l’anàlisi de dades quantitatives implica necessàriament anàlisi estadística.
No ens detindrem gaire temps a fer un repàs de què és l’estadística ni la seva derivació de la matemàtica. Tanmateix, us dediqueu a la branca que us dediqueu, segurament l’haureu fet servir. I és que es tracta probablement de l’àmbit de coneixement que més s’han apropiat d’altres disciplines. D’aquesta manera, sovint no som pas estadístics els que fem servir l’estadística. Encara més, potser no hem tingut gaire relació amb els números al llarg de la vida acadèmica però tanmateix fem servir l’estadística. Aquest fet, entre d’altres impactes, ha implicat que se simplifiquin conceptes i procediments (amb la lògica discussió acadèmica sobre les mancances i errors que comporta).
I això és exactament el que farem en aquest apartat. Explicar i il·lustrar de manera simplificada conceptes i procediments que tenen una base de coneixement complex. Per tant, com en l’apartat dedicat al mostreig, alguna imprecisió i vaguetat haurem d’assumir, necessitat que cal excusar sense coneixements més avançats.
6.1.2.El programari estadístic
Una altra qüestió a la qual cal referir-se abans d’entrar en matèria és el programari informàtic que es fa servir en estadística. Tot el que s’explica a continuació es pot fer amb paper i llapis (i si ens volem estirar una mica més, amb llapis de colors). Ara bé, comporta una feinada considerable. D’aquesta manera, des de programari general d’Office, de tractament de textos i tractament de dades, a programes específics per a tècniques concretes, s’han desenvolupat aplicacions informàtiques específiques que ens ajuden a fer la feina més fàcil i amb més precisió (a vegades, no sempre, més bonica també). Per tant, podem fer tractament de dades amb Excel, per exemple, o fer servir SPSS o R, o molts altres programes.
En anàlisi estadística bàsica, quin programari es fa servir és una decisió particular (1) , que sovint depèn de la tradició de cada disciplina o fins i tot de cada grup de recerca, empresa o universitat. Així, alguns de vosaltres haureu fet servir SPSS, d’altres STATA o SPAD, que són segurament els programes més generalitzats en l’entorn proper. En la darrera dècada s’han desenvolupat, a més, diversos programes de programari lliure, entre els quals destaca R.
(1) En una anàlisi més avançada a la que explicarem aquí, el programari estadístic més adequat pot ser un o altre o un més específic encara, fins i tot un de fet a mida. Tanmateix, totes les anàlisis que es proposen en aquest mòdul es poden fer pràcticament amb qualsevol dels programes existents.
Vegeu també
Les anàlisis que es presenten en aquest mòdul s’han produït amb SPSS. La UOC ha desenvolupat diferents mòduls específics sobre tractament de dades amb R que us recomanem com a part de la bibliografia. Específicament els mòduls “El entorno estadístico R” i “Análisis de datos y estadística descriptiva con R y R-Commander”, dins del manual Matemáticas y estadística con R. Cal dir, però, que a la xarxa hi ha molts manuals i exercicis sobre la majoria de programes estadístics.
La tria de quina eina fem servir és, ara per ara, poc rellevant, ja que independentment del programari pel qual optem, el més important és saber què estem fent. Encara més, si sabem què volem fer en qualsevol programari trobarem la manera de fer-ho.
6.1.3.Les diferenciacions clau
Finalment, en el procés de simplificació enunciat cal que tingueu presents les qüestions clau següents a l’hora de treballar l’anàlisi estadística bàsica.
1) Les variables estadístiques segons la seva classificació determinen els tipus d’anàlisi que es volen fer.
2) Es poden sintetitzar tres grans nivells d’anàlisi de dades.
3) Cal distingir entre estadística descriptiva i estadística inferencial, que serà diferent en funció de tipus de variable que es tracti.
4) Es poden distingir tres grans famílies de resums de dades.
5) L’estadística: tot un món per descobrir i fer descobriments.
A continuació desglossem mínimament cada qüestió, seguint els exemples que estem treballant.

6.2.Característiques de les variables estadístiques: classificació segons criteri i escala de mesura

De la mateixa manera que un concepte s’ha transformat en un indicador, i aquest s’ha volgut mesurar a través d’una formulació específica en un qüestionari, el darrer pas consisteix a reconèixer com és aquesta informació en termes estadístics: s’ha transformat en el que anomenem variable estadística.
Repassem les diferents accepcions que hem utilitzat de la paraula variable:
1) En l’etapa conceptual definíem variable com el fenomen a estudiar (i cal la justificació teòrica i acadèmica pertinent).
2) En el moment de l’operativització el nom de variable el fem servir per fer referència a les possibilitats que pren el fenomen i les mesures possibles. Què inclourem i què no? Com es mesurarà?
3) Caldrà, doncs, si estem fent un formulari o qüestionari, formular una o diverses preguntes (vegeu l’exemple pres del cas 1, en el quadre que hi ha a continuació).
4) Finalment, i aquest era l’objectiu metodològic específicament quantitatiu, disposarem d’una mesura, és a dir, la característica o atribut registrat amb un nombre, i en ocasions específiques en text. Generalment a la matriu de dades o base de dades.
Taula 5. Significat de la paraula variable, en els principals moments metodològics

Moment

Accepció del terme Variable

Exemple

1

Conceptual

Definíem variable com el fenomen a estudiar que pot prendre diferents formes

Activitat econòmica: definició i justificació teòrica del terme

Què vol dir activitat econòmica? Quins tipus hi ha?

2

Operativització

Possibilitats que pren el fenomen conceptual

Una o més d’una?

Com mesurem estar actiu/activa?

Quines possibilitats pot prendre?

3

Formulació

Una o diverses preguntes per mesurar aquest/s indicador/s

Concretament és...?

Treballo actualment - 1

Estic a l’atur: busco feina - 2

Només estudio:

No busco feina ni vull treballar - 3

Estic de baixa (anoteu la raó) - 4

Altres situacions (anoteu-les)

(no llegir) NS - 98

(no llegir) NC - 99

4

Mesura estadística

Registre específic numèric o textual

En la matriu de dades disposarem de cada cas amb la seva característica identificada amb un nombre.

Quan fem servir el terme matriu de dades o base de dades, sense massa rigor, tot s’ha de dir, ens referim al document en què es guarden les dades específiques de cada qüestionari o registre. Generalment, en les files tindrem els casos i en les columnes, les variables estadístiques. Exemple: en la fila disposarem de les dades de la persona 1 (o del municipi, empresa, etc.,que és unitat mostral o poblacional de la nostra recerca) i en les columnes, si són homes o dones, l’edat, la formació, etc. Podeu revisar un exemple en la matriu de dades facilitada en els formats: Excel i SPSS
En estadística, quan llegim en un conjunt de variables o la variable aleatòria pren valors de... no ens estem referint al fenomen gènere, formació o a activitat econòmica, sinó a la mesura específica d’aquest fenomen: si hem posat un 1 per als homes i un 2 per a les dones, o si hem mesurat l’edat en anys complerts de la persona, en mesos, o en grups de mesos, o en grans grups d’edat, o bé l’activitat econòmica en ingressos bruts, grups de salari, tipus de relació amb el mercat de treball i l’estat (1. Treballa, 2. Està a l’atur, 3. Estudia, 4. Està de baixa. etc.). El com es mesura estadísticament cada variable en determina les possibilitats d’anàlisi.
La classificació de les variables estadística és diversa. És a dir, com en el cas de les formulacions en els qüestionaris, no hi ha només una manera de classificar variables, i, per tant, cada variable podria tenir diversos noms i cognoms depenent de la classificació o classificacions que fem servir. De totes les classificacions en destacarem dues.
La primera i fonamental, el que s’anomena criteri estadístic, diferencia si una variable estadística és qualitativa o quantitativa (de nou aquestes paraules prenen accepcions diferents a les utilitzades fins ara). Aquesta classificació ho determina quasi tot.
En segon lloc, és escala de mesura (o classificació de Stevens, 1951), que distingeix bàsicament entre variable nominal, ordinal, d’interval i de raó.
Descrivim les característiques de cada classificació i vegem-ne un exemple aplicat.
1) Criteri estadístic
Una variable qualitativa és aquella en què cada categoria de resposta/registre equival a un atribut. També es poden anomenar nominals o categòriques, si bé són termes que porten a més confusió. Els seus valors poden o no variar en grau o quantitat, però el més important és que són qualitativament diferents. Poden ser de registre simple o múltiple. El més important per distingir-les de les variables quantitatives és que numerem les categories de resposta, però la variable no s’expressa amb un número, el número només identifica la categoria. Així, en l’exemple següent, a jornada partida li podríem haver posat els valors 30 o 50, o al NC el valor 33 o 78, ja que el nombre triat només és un instrument per fer altres coses que aprendrem més endavant.
Exemple cas 2
Pregunta de qüestionari. Tipus de jornada.
P41. Quin tipus de jornada?

Contínua

1

Partida

2

NC

99

Una variable quantitativa s’expressa amb un número i aquest té sentit i valor, i representa la mesura del que estem registrant. En l’exemple que hi ha a continuació, si l’edat és 18 anys, no s’expressa de cap altra manera que amb el nombre 18, i amb aquest podem càlculs.
Exemple cas 2
Pregunta de qüestionari. Edat de la persona entrevistada
P2. Quina edat teniu?
_ _ anys
Les variables quantitatives tenen una subdivisió que no afecta gaire l’anàlisi estadística essencial però que cal conèixer ja que sí ho fa en altres casos. Distingim entre variables quantitatives contínues i discretes.
Una variable quantitativa és contínua si entre dos valors de la variable, per pròxims que estiguin, hi pot haver valors infinits. Es poden registrar decimals de manera que es mesuren amb un alt grau de precisió, les diferències mínimes queden registrades. No disposem de cap exemple en el qüestionari de l’exemple 2, però podem proposar el següent:
Exemple
Ingressos anuals bruts declarats en l’exercici de la renda 2011
Indiqueuels seus ingressos anuals bruts declarats en l’exercici de la renda 2011
_.._ _ _ . _ _ _, _ _ €/bruts anuals 2011
Un altre exemple clàssic d’aquestes variables són el registre temperatura, pes...
En canvi, les variables quantitatives són discretes si entre dos valors successius de la variable no hi ha cap valor. No es poden registrar decimals. Quan calculen dades sí que apareixen decimals, però en el registre no. L’exemple ja donat de variable quantitativa és del subtipus discreta ja que no permet indicar els decimals, l’edat es en nombre sencer. Un altre exemple clàssic és el nombre de fills, que no podem registrar els decimals si es tracta de persones o parelles. O les escales de valoració de 0 a 10 en què la persona enquestada només pot dir 0 però no 0,2.
2) Classificació escala de Stevens
En la classificació clàssica més utilitzada, les variables qualitatives es divideixen segons si són d’escala nominals o ordinals. Les nominals tenen les mateixes característiques ja descrites per a les variables qualitatives en general. L’exemple ja facilitat és igualment vàlid. En canvi, les variables ordinals a més de classificar els subjectes segons les opcions de resposta entre les categories hi ha algun tipus d’ordre. La distància entre cada categoria pot ser un constructe, és a dir, no té per què ser de la mateixa magnitud entre cada categoria. Un exemple molt usat i del qual tenim exemple en el nostre cas 2 és el nivell d’estudis.
Exemple cas 2
P43. Quin és el nivell màxim d’estudis que heu assolit?

Sense estudis

1

Elementals (sap llegir i escriure)

2

Primaris(incomplets: va anar a l’escola 5 anys o més però sense completar l’EGB, la primària,ESO...)

3

Batxiller elemental, EGB, FP1 o equivalent

4

Batxiller superior, BUP, FP2 o equivalent

5

Universitari grau mitjà(diplomatura, arquitectura o enginyeria tècnica)

6

Universitari grau superior (llicenciatura, enginyeria o arquitectura o equivalent)

7

Formació de tercer cicle (màster, postgrau, doctorats)

8

Altres?_________________

Nc

99

Al seu torn, les variables quantitatives es divideixen en variables interval i variables raó. Cal fer notar que les variables quantitatives són per lògica ordinals, ara bé, en les que són quantitatives d’escala interval els diversos punts o valors tenen una distància entre ells igual i és pot interpretar. El 0 no existeix o no significa absència del fenomen mesurat. L’exemple ja facilitat de l’edat compleix aquest criteri. La distància entre els diversos anys és idèntica en termes de temps.
La diferència principal amb l’escala de raó és que aquestes mesures tenen un valor 0 que indica absència del fenomen, de manera que el 0 no és un punt arbitrari d’inici. Per exemple, com hem comentat abans, el valor 0 en la pregunta nombre de fills, el 0 seria un 0 real, que mesuraria l’absència del fenomen mesurat.
Dediquem tant de temps a aquestes dues classificacions ja que del tipus de variable depèn el tipus d’anàlisi que es pot fer. Especialment del criteri. Tanmateix, com hem après, en ciències socials, i en altres ciències, les variables estadístiques són resultat d’un procés d’operativització i, per tant, no sempre és fàcil identificar propietats matemàtiques més complexes, com ara si les mesures són discretes o contínues o les escales de mesura, d’interval i de raó. Per distingir una variable d’interval o de raó podem preguntar-nos si permet valors negatius, llavors se sap que el 0 no és absència de l’atribut i no un punt més en l’escala. Per tant, és una variable d’interval (per exemple, la temperatura). Tanmateix, resulta sempre complex determinar si el 0 és natural o arbitrari quan les escales que construïm són, per exemple, d’opinió. Penseu en una escala de 0 a 10, en què el 0 és gens d’acord i el 10 totalment d’acord, tenir0 acord no vol dir no tenir ‘algun grau d’acord’, sinó un valor d’acord mínim. Una altra qüestió important és que, en ocasions, les preguntes formulades en escala (de 1-4 o d’1-5, o d’1-7) semblen quantitatives. Ho són si l’escala demana quantitat (per exemple, quan fem una valoració de 0 a 10 o, per exemple, demanem una freqüència de 0 a 100). Però no ho són si hem donat a totes les categories un atribut,com en l’exemple següent:
Exemple cas 2
P120. En la vostra opinió, estar disposat a marxar fora és una actitud necessària per a desenvolupar la carrera professional de la dansa? Digueu-nos si està...

Totalment d’acord

1

Força d’acord

2

Poc d’acord

3

Gens d’acord

4

(no llegir) Nc

99

6.3.Nivells d’anàlisi: univariable, bivariable i multivariable

Abans de fer coses amb les dades, el que anomenem vulgarment tabular, explotar dades, podem distingir tres nivells d’anàlisi.
1) Univariable: quan analitzem cada variable una a una. Per exemple, si volem analitzar quantes persones estan a l’atur, quantes tenen diferents nivells d’estudi, quina és la mitjana d’edat de les persones a l’atur, etc.
2) Bivariable:anem un pas més enllà i volem conèixer l’existència, sentit i magnitud de la relació entre les dues variables. Així, voldrem saber si les dones i els homes tenen el mateix nivell educatiu o si les persones que estan a l’atur tenen una mitjana d’edat diferent de les que estan treballant.
3) Multivariable: estudiarem les possibles relacions que es poden establir entre 3 o més variables. Al final d’aquest apartat es presenten algunes característiques essencials a aquests procediments a mode d’invitació.
En aquest mòdul ens centrarem en els dos primers nivells d’anàlisi. Com podeu deduir, en fer servir la paraula nivell suposem que hi ha passos bàsics i superiors. Així, primer faríem una anàlisi univariable, després bivariable i després multivariable. Aquest és un hàbit molt recomanat i ensenyat. Tanmateix, us recomanem reflexionar sobre si aquests passos ens permeten descobrir les relacions clau entre les variables o bé només donen una visió fragmentada de la realitat que mesurem, de manera que fer anàlisi multivariable ens permetria, per exemple, descobrir estructures latents i relacions inesperades.

6.4.Estadística descriptiva i estadística inferencial

Finalment, abans de manipular dades, cal distingir entre aquests tipus d’objectius. Quan es fa estadística descriptiva produïm mesures i gràfics que resumeixen la informació i permeten tenir una imatge del comportament de les variables. Ho podem fer amb qualsevol conjunt de dades, ja siguin mostrals o de registre,sobre totes les empreses de la nostra ciutat o sobre una mostra,sobre tots els casos atesos pel nostre servei o sobre una mostra de possibles casos.
En canvi, quan fem estadística inferencial tenim l’objectiu de determinar i mesurar fins aq uin punt les dades que observem, que descrivim, són inferibles, atribuïbles al total de població. Hem fet estadística inferencial quan hem calculat una mostra. En preguntar-nos quantes enquestes calen per fer una mostra suficientment precisa i fiable hem determinat el nombre necessari i calculat l’error i confiança que globalment obtindrem. Específicament en el moment de l’anàlisi, el que pretenem és determinar que allò que observem a la mostra és atribuïble al conjunt de la població. Per tant, fem estadística descriptiva i, a més, estadística inferencial. Per exemple, primer determinarem l’edat de les persones a l’atur i després calcularem l’interval d’edats més probable en la nostra població total.
Per fer-ho, tenim dues opcions: 1) disposar de les dades de total o quasi total de la població,que ens permetria saber fins a quin punt la meva mostra s’assembla al total de la població. Aquesta situació no es dóna pràcticament mai en ciències socials. Imaginem que sabem el patró d’edat de les persones a l’atur de tota la població europea. Podríem determinar si els resultats de la nostra mostra són molt diferents o no (2) 2) la situació més habitual, però, és que no disposem d’aquestes dades i, per tant, ens hem de fixar en patrons o models, que es repeteixen en determinades circumstancies i que fem servir de miralls. Alguns exemples són els models distribució normal, Chi Quadrat, T-Student, etc., que els aplicarem en determinats supòsits. En el punt 6.6 aplicarem aquests models.

6.5.Estadística descriptiva: resums i gràfics essencials

Com hem indicat, la funció de l’estadística descriptiva és resumir el comportament de les nostres variables estadístiques a partir d’estadístics resum (mitjana, desviació, etc.) i la seva representació gràfica. Hi ha diversos procediments per a fer aquest exercici i en aquest mòdul donarem les pautes clau dels que són essencials per iniciar-se en l’anàlisi de dades quantitativa posant exemples senzills basats en el cas 2.
6.5.1.Freqüències: gràfics de barres, sectors i histogrames
En primer lloc, de qualsevol variable que tinguem podem calcular la freqüència de casos de cada resposta, és a dir, el nombre de casos que han respost cada una de les categories d’una pregunta: quants són homes o dones, quants tenen 23 anys o quants tenen estudis superiors. A partir d’aquesta freqüència podem establir càlculs bàsics com ara la freqüència relativa, sent la més habitual el percentatge però n’hi ha d’altres, com el tant per 1, el tant per 1.000 o 10.000 (molt habitual en el càlcul d’indicadors) o qualsevol altra raó.
Com podem observar a les taules següents, la pregunta p2 edat ha donat lloc a una variable quantitativa en què tenim registrada l’edat de tots els participants. Així, a la nostra mostra tenim 10 persones de 25 anys que representen el 3,4% de les 290 enquestes. La variable també s’ha transformat en una de qualitativa ordinal, classificant les diferents edats en intervals. L’anàlisi de les seves freqüències ens permet afirmar que a la nostra mostra el grup més nombrós és el de persones de 30 a 34 anys, 65 casos, que representen el 22,4%.
Taula 6. Taula de freqüències absolutes i relatives d’una variable quantitativa

P2. Quina és la vostra edat?

Freqüència

Percentatge

Percentatge vàlid

Percentatge acumulat

Vàlids20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

1

1

4

5

10

10

5

8

12

13

13

11

17

14

10

11

14

8

6

0,3

0,3

1,4

1,7

3,4

3,4

1,7

2,8

4,1

4,5

4,5

3,8

5,9

4,8

3,4

3,8

4,8

2,8

2,1

0,3

0,3

1,4

1,7

3,4

3,4

1,7

2,8

4,1

4,5

4,5

3,8

5,9

4,8

3,4

3,8

4,8

2,8

2,1

0,3

0,7

2,1

3,8

7,2

10,7

12,4

15,2

19,3

23,8

28,3

32,1

37,9

42,8

46,2

50,0

54,8

57,6

59,7

Taula 7. Taula de freqüències absolutes i relatives d’una variable qualitativa

p2_rec1 P2_rec1. Quina és la vostra edat?

Freqüència

Percentatge

Percentatge vàlid

Percentatge acumulat

Vàlids 1 20-24

2 25-29

3 30-34

4 35-39

5 40-44

6 45-49

7 50-54

8 55-59

9 60-64

10 65 o més

Total

21

48

65

46

40

30

17

12

7

4

290

7,2

16,6

22,4

15,9

13,8

10,3

5,9

4,1

2,4

1,4

100,0

7,2

16,6

22,4

15,9

13,8

10,3

5,9

4,1

2,4

1,4

100,0

7,2

23,8

46,2

62,1

75,9

86,2

92,1

96,2

98,6

100,0

Aquest exercici es pot dur a terme per a qualsevol variable, tant qualitativa com quantitativa, i a partir d’aquestes variables fer diverses representacions gràfiques:
1) Histogrames
Es tracta del resum i representació gràfica indicat per a variables quantitatives, especialment contínues. Situa a l’eix horitzontal el nombre de casos agrupats per intervals i l’alçada de cada àrea correspon al nombre de casos, és a dir, professionals de la dansa. Així, en la figura següent observem que la primera barra indica que hi ha aproximadament 93 casos entre els 20 i els 32 anys. A l’hora de llegir un histograma us recomanem indicar què representa cada eix, què conté cada barra i com s’interpreta, quins són els valors mínim i màxim de l’eix x i de y, la forma que pren la distribució, com ara simètrica, amb puntes, centrada, amb extrems, etc., així com què hi ha en cada tram que descrivim (inici, mig i final).
Figura6. Exemple d’histograma de la variable p2_edat
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
2) Gràfic de barres i sectors
Es tracta de gràfics que representen variables qualitatives. El gràfic de barres representa en l’eix vertical la freqüència (nombre de repeticions) i en l’eix horitzontal les opcions de la variable, en aquest cas qualitativa ordinal edat. Podem elaborar també un gràfic de sectors; representa el mateix que en el cas anterior, però en termes de proporció o percentatge, ja que situa totes les dades en una sola àrea. Els gràfics de barres solen representar freqüències absolutes de les variables, mentre que els gràfics de sectors mostren generalment els percentatges o freqüències relatives. També es poden fer servir per mostrar freqüències absolutes, però no és el més habitual. El gràfic de barres indica, per tant, quants casos hi ha en cada situació, mentre que el gràfic de sectors permet visualitzar la magnitud o proporció de cada tipus de situació, de cada categoria de la variable qualitativa, posant-les en valor 100.
En l’exemple facilitat observem que el més freqüent és tenir de 30 a 39 anys, i en el gràfic de sectors s’observa clarament que aquest col·lectiu representa la major proporció.
Figura7. Exemple de gràfic de barres de la variable p2_rec2_edat
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Figura 8. Exemple de gràfic de sectors de la variable p2_rec2_edat
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
6.5.2.Mitjana i desviació
Aquests exercicis que hem fet fins al moment és pràcticament tot o quasi tot el que podem fer per descriure variables qualitatives. És per això que en apartats anteriors, com la formulació de preguntes, s’ha indicat que estadísticament presenten força limitacions. Lògicament, es poden fer transformacions d’altres representacions gràfiques però calen altres coneixements que excedeixen l’objectiu d’aquest mòdul. En canvi, per a les variables quantitatives hi ha altres resums essencials que cal conèixer. Com en apartats anteriors, ens centrarem en el significat i no en el càlcul. En primer lloc, la mitjana i la desviació.
La mitjana aritmètica o valor mitjà és la suma de totes les puntuacions dividit pel total de casos. En el nostre cas, la suma de totes les edats dels 290 participants i dividit per 290. Així, les edats dels nostres enquestats van de 20 a 72 anys, i la mitjana d’edat dels professionals de la dansa és de 37,57 anys.
Fórmula de la mitjana aritmètica:
X ¯ = 1 n i = 1 n X i (3)
Associat a aquest primer valor podem calcular la desviació estàndard. Consisteix essencialment a calcular com es desvia cada cas de la mitjana. Si sumem totes aquestes desviacions obtindríem la variància total i si la dividim entre tots els casos, la mitjana de la desviació. Per tant, la desviació estàndard l’hem d’interpretar com la mitjana de les desviacions. Així, si aquesta és molt gran haurem d’assumir que la mitjana no reflecteix amb precisió com es distribueixen les nostres dades, mentre que si aquesta és petita podrem dir que la mitjana és un bon resum del que succeeix amb la nostra mesura. És, per tant, una mesura que ens indica la dispersió de les nostres dades i la validesa de la mitjana per representar-les.
Fórmula de la desviació estàndard:
s 2 = x 2 n x 2 n 1 (4)
En el nostre cas, de mitjana els casos es desvien 10,34 anys d’aquesta mitjana, de manera que podem afirmar que hi ha certa dispersió en les edats dels professionals de la dansa de Catalunya.
Taula 8. Exemple mitjana i desviació de la variable p2_edat

N

Mínim

Màxim

Mitjana

Desv. típ.

P2. Quina és la vostra edat?

290

20

72

37,57

10,349

N Vàlid (segons la llista)

290

6.5.3.Resum dels cinc nombres: gràfic de caixes
Una altra manera de resumir els valors de la nostra variable és el conegut com el resum dels cinc nombres. Està format pel valor mínim, el primer quartil, la mediana (el segon quartil), el tercer quartil i el màxim, i se sol completar amb el càlcul del rang (màxim - mínim) total i el rang interquartílic (quartil 3 - quartil1).
El mínim i el màxim són valors molt intuïtius, i la distància entre aquests s’anomena rang total i ens diu el ventall de possibilitats que s’han donat. En el nostre cas, les edats dels professionals de la dansa van de 20 a 72 anys, o sigui, una distància de 52 anys entre el mínim i màxim. Estarem d’acord que es tracta d’una gran dispersió de situacions.
El pas següent serà calcular els punts o posicions que divideixen els casos en grups. Una posició possible és la mediana: el valor que divideix la nostra mostra en dos. Consisteix a ordenar tots els casos de menys a més i observar quin valor divideix els casos per la meitat deixant el 50% per sota i el 50% per sobre.
Fórmula de la mediana:
n + 1 2 (5)
D’acord amb els nostres resultats, la meitat dels professionals de la dansa té menys de 35,5 anys i l’altra meitat els supera. Com que del mínim, 20 a 35,5 anys, hi ha 15 anys, de la mitjana al màxim, 72 anys, hi ha 35 anys, podem afirmar que els menors de 35 tenen menys dispersió, tenen edats més properes, que els majors de 35.
Els quartils són igual que la mitjana un valor de posició, però si la mediana és el punt que divideix per la meitat, el primer quartil és el punt que marca el primer 25% dels casos i el tercer quartil que marca el 75% dels casos. Així, en les nostres dades 1 de cada 4 professionals (25%) està per sota dels 30 anys. I un de cada 4 supera els 44 anys (del tercer quartil en endavant). La distància entre el primer i tercer quartil és de 14 anys i indica com de variables són les situacions entorn de la mediana i com de simètriques.
Taula 9. Exemple de resum dels 5 nombres per a la variable p2_edat

p2 P. Quina és la seva edat?

N

Vàlids

290

Perduts

0

Mitjana

35,50

Mínim

20

Màxim

72

Percentils

25

30,00

50

35,50

75

44,00

Una de les representacions gràfiques més associada a aquests resums numèrics és el gràfic o diagrama de caixes. Com s’observa a la figura següent, es poden establir les puntuacions analitzades anteriorment i visualitzar les distàncies que hi ha entre els diferents punts, de manera que podem observar si es tracta d’una distribució molt dispersa o no i si existeix o no asimetria. L’alçada de la caixa no té significat.
Figura9. Exemple de gràfic de caixes de la variable p2_edat
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Font: elaboració pròpia a partir dels resultats de l’ECLPDC2010
Com en el cas de l’histograma, les recomanacions per llegir un diagrama de caixa passarien per identificar bé què hi ha representat: quin és el subjecte, què hi ha a l’eix y, valors màxims i mínims, on és la mediana i què significa, el rang total, rang interquartílic, simetria del gràfic, casos extrems.
Si bé us hem de recomanar no triar quin resum és més adient per a les nostres, si la mitjana i la desviació o el resum dels cinc nombres, sovint cal economitzar esforços ja que tindrem un gran volum de dades. Algunes recomanacions en aquest sentit que us poden ajudar a elegir:d’una banda, la desviació estàndard és un nombre que és suficient si la distribució és simètrica, en cas contrari necessitarem el resum dels cinc nombres per analitzar què passar per sobre i per sota. D’altra banda, la mitjana aritmètica no és un bon indicador de resum si tenim molta dispersió, i optarem en aquest cas pel resum dels cinc nombres.
Activitat
Disposeu de les dades sobre els mesos a l’atur al final del mòdul. Podríeu identificar la informació i escriure una narració sobre com és la situació d’atur dels professionals de la dansa a Catalunya?
Aquests són els exercicis essencials per a descriure la informació d’una població o mostra. Tanmateix, especialment en el cas d’una mostra, ens formularem preguntes més complexes sobre la similitud de les nostres dades i les poblacionals. Caldrà aplicar, doncs, els principis de l’estadística inferencial. Centrarem l’estudi únicament en el cas de l’estadística bivariable, concretament en la relació entre dues variables qualitatives i una variable qualitativa independent i una variable quantitativa dependent, ja que els objectius de l’assignatura limiten altres possibilitats.

6.6.Estadística inferencial: models essencials i prova de significació en anàlisi bivariable

Les bases estadístiques de la inferència es fonamenten en la teoria de la probabilitat i els models de distribució. Per aquells que us inicieu en aquesta pràctica pot resultar laboriós estudiar-la en profunditat. Aquest apartat, però, com la resta del mòdul centrarà l’interès a explicar els conceptes bàsics i mostrar l’aplicació pràctica. Malgrat que la inferència és una eina utilitzada en molts contextos, en aquesta ocasió només abordarem l’anàlisi bivariable i específicament la relació entre dues variables qualitatives i una qualitativa independent amb una qualitativa independent.
La definició més essencial de variable dependent és aquella que considerem que es veu afectada per una altra, és a dir, que varia en variar la variable independent. Així, la variable independent és aquella que considerem que afecta, fa variar la variable dependent. Es tracta d’un criteri de classificació teòric i metodològic i que no està vinculat directament amb el concepte de causalitat, ja que moltes relacions observades no són atribuïbles a una causa.
6.6.1.La prova de significació
Com s’ha introduït en apartats anteriors, una part important de l’aportació de l’estadística a la resta de ciències ha estat el desenvolupament de models teòrics de distribució. Aquests models, des dels més bàsics com el binomial o el de Poisson, fins a d’altres més complexos com Chi2, F o T-Student i els no paramètrics, ens permeten comparar –contrastar–un resultat observat amb un d’esperat, si es complissin els supòsits de la distribució que volem utilitzar. Així, actuen com a mirall.
El procediment de comparació i contrast entre les dades observades (les nostres, de la nostra mostra), i el model teòric de distribució requereixen, doncs, dels passos essencials següents:
1) Determinar quina variable o conjunt de variables estem analitzant i les seves propietats (qualitatives, quantitatives, com es relacionen, provinents de mostres aleatòries grans o pertites, per a analitzar la relació entre resultats de mostres dependents o independents, etc.).
2) Triar el model de distribució que més s’ajusta a aquesta situació.
3) Formular hipòtesis (nul·la i alternativa o alternatives).
4) Decidir el nivell de confiança amb què volem prendre la decisió.
5) Calcular els estimadors observats (per exemple,valor de Chi2 en la mostra observada).
6) Comparar-los amb els teòrics (per exemple, cercant-los en taules de distribució o en programaris).
7) Decidir si les nostres dades són molt o poc probables d’acord amb com serien en la realitat si seguissin el model triat.
Com veieu es tracta de moltes decisions, i complexes si no es tenen els coneixements estadístics suficients. Tanmateix, una de les eines més potents de l’estadística ha estat el desenvolupament del que anomenem prova de significació, que consisteix en un procediment abreujat de decisió, que ens permet afirmar o rebutjar si el que observem en una mostra pot ser generalitzat en la població (o infinites mostres) amb un nivell de confiança o probabilitat determinada.
Aquest procediment simplificat ha estat àmpliament desenvolupat pels programaris estadístics i ha fet molt accessible l’ús i la presa de decisions a partir de dades estadístiques. Així, des d’un punt de vista aplicat i per a aquells que no estiguin en condicions de fonamentar les decisions en coneixements estadístics més complexos, consisteix bàsicament en l’observació del valor p.
Cal interpretar aquest valor com la probabilitat que el nostre resultat (mitjana, diferència de mitjanes, etc.) o un de més extrem, sigui fals (3) . Aquesta probabilitat, basada en el nivell de confiança, se sol expressar en tant per 1. Si desitgem que aquesta probabilitat estigui per sota del 0,05, el que volem és afirmar que els resultats que nosaltres observem són molt probables, és a dir, que hi ha 0,05 o menys de probabilitats que ens equivoquem.
Com més a prop de 0 estigui la nostra probabilitat d’equivocar-nos millor. Convencionalment, en ciències socials s’estableix un llindar màxim del 0,5 (un 5%, en tant per cent). Així, si ens marquem aquest llindar de 0,05 qualsevol valor p per sota de 0,05 el considerarem significatiu. D’aquesta manera, quan fem servir la paraula significatiu (estadísticament significatiu) volem afirmar que el que hem observat, a la nostra mostra, és molt probable que sigui cert (o és improbable que sigui fals).
Si assumim aquesta simplificació com una eina útil per a prendre decisions ràpidament, només ens caldrà decidir quin model de probabilitat cal aplicar en cada cas. Cada model de probabilitat correspon a una situació d’observació específica. El triem en funció del tipus de variables que es relacionen, qualitativa i qualitativa, qualitativa i quantitativa, etc., el paràmetre a contrastar (proporció, diferència de proporcions, mitjanes, medianes, etc.); si hi ha o no direcció o dependència en aquesta relació (si establim quina és la variable dependent i quina la independent), el tipus de relacions que establíem (lineals, etc.); si ens interessen les relacions globals (entre variables) o locals (entre parells de categories); si analitzem dues o més mostres, si aquestes són independents o estan relacionades, si es compleixen els supòsits dels models (normalitat, igualtat de variància, etc.); altres criteris d’elecció.
De nou, però, simplificarem aquesta decisió centrant-nos en dues situacions molt freqüents i remetent-vos a materials més específics per aprofundir en altres situacions.
6.6.2.Relació entre dues variables qualitatives: taules de contingència i test de Chi2
Ja hem aprés alguns procediments essencials d’anàlisi descriptiva de dades. Tanmateix, amb tota seguretat una de les intencions habituals de fer anàlisi quantitativa és relacionar variables, observant com covarien o es correlacionen. Atès que en ciències socials moltes de les variables estadístiques que construïm són qualitatives, ens trobarem habitualment analitzant la relació entre dues variables qualitatives a través de taules de contingència.
Com a exemple farem servir la taula de contingència que relaciona l’edat dels professionals de la dansa de Catalunya (simplificada en tres categories), i la resposta a la pregunta de fins a quin punt creuen que en el futur hauran de marxar per desenvolupar la seva carrera professional (resumida en si creuen que és totalment o força segur o si creuen que és poc o gens segur). Ens preguntem si hi ha alguna relació entre l’edat i que creuen que és necessari marxar per desenvolupar-se professionalment en el món de la dansa.
El primer que podem fer és observar les freqüències o casos en els quals coincideixen cada parell de categories. Observem que 55 declaren tenir de 20 a 29 anys i creuen que hauran de marxar, 51 de 30 a 39 anys i 28 de 40 a 64 anys. Si avancem en l’anàlisi podem calcular el percentatge total: observem que el 23,4% dels professionals tenen de 20 a 29 anys i creuen que hauran de marxar, el 21,7% del total de professionals tenen de 30 a 39 anys i hauran de marxar, etc. Podem fer la lectura de totes les combinacions.
Un altra lectura de la taula consisteix a analitzar els percentatges per fila: entre tots els que creuen que hauran de marxar, el 41% tenen de 20 a 29 anys;en canvi, entre els que opinen que no hauran de marxar només el 4,3% té aquesta edat. Comencem a veure més clar que en la nostra mostra l’edat sembla estar relacionada amb pensar que cal marxar fora per desenvolupar la carrera. Finalment, si analitzem el percentatge per columna, observem que el 84,6% dels processionals menors de 30 creu que marxarà fora per desenvolupar la carrera professional, percentatge que es redueix a mesura que decreix l’edat de l’enquestat.
Així, l’anàlisi de taules de contingència es posiciona com una eina clau i molt potent d’anàlisi de la relació entre dues variables qualitatives (4) Si situem aquesta anàlisi en el plànol descriptiu podem afirmar que entre els més joves la creença d’haver de marxar fora és més freqüent (84,6% ho creu) que entre els que tenen entre 30 i 39 anys, encara que és un ampli 58,6%, i es redueix a 1 de cada 3, 33,7%, a partir dels 40 anys.
Però aquesta diferència entre els grups (les combinacions de categories), observada en una mostra representativa, fins a quin punt és probable que es doni en el total de la població? Per donar una resposta a aquesta pregunta podem contrastar els nostres resultats amb el model de Chi2, que compara les freqüències observades i esperades (5)
Taula 10. Passos en l’anàlisi de la taula de contingència que relaciona la variable edat i la variable creença que en el futur marxarà per desenvolupar la carrera professional

Freqüències

CAP2 CAP2_Quina és la vostra edat?

Total

1 20-29

2 30-39

3 40-64

p122_rec P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

1 Totalment of força segur

55

51

28

134

3 Poc o gens segur

10

36

55

101

Total

65

87

83

235

Taula 11. Passos en l’anàlisi de la taula de contingència que relaciona la variable edat i la variable creença de que en el futur marxarà per desenvolupar la carrera professional

% total

CAP2 CAP2_Quina és la vostra edat?

Total

1 20-29

2 30-39

3 40-64

p122_rec P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

1 Totalment of força segur

Recompte

55

51

28

134

% del total

23,4%

21,7%

11,9%

57,0%

3 Poc o gens segur

Recompte

10

36

55

101

% del total

4,3%

15,3%

23,4%

43,0%

Total

Recompte

65

87

83

235

% del total

27,7%

37,0%

35,3%

100,0%

Taula 12. Passos en l’anàlisi de la taula de contingència que relaciona la variable edat i la variable creença que en el futur marxarà per desenvolupar la carrera professional

% fila

CAP2 CAP2_Quina és la vostra edat?

Total

1 20-29

2 30-39

3 40-64

p122_rec P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

1 Totalment of força segur

Recompte

55

51

28

134

% dins de p122_red P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

41,0%

38,1%

20,9%

100,0%

3 Poc o gens segur

Recompte

10

36

55

101

% dins de p122_red P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

9,9%

35,6%

54,5%

100,0%

Total

Recompte

65

87

83

235

% dins de p122_red P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

27,7%

37,0%

35,3%

100,0%

Taula 13. Passos en l’anàlisi de la taula de contingència que relaciona la variable edat i la variable creença que en el futur marxarà per desenvolupar la carrera professional

% columna

CAP2 CAP2_Quina és la vostra edat?

Total

1 20-29

2 30-39

3 40-64

p122_rec P122_rec_Creu que en el futur marxarà fora per desenvolupar la seva carrera professional?

1 Totalment of força segur

Recompte

55

51

28

134

% dins de CAP2

CAP2_Quina és la vostra edat?

84,6%

58,6%

33,7%

57,0%

3 Poc o gens segur

Recompte

10

36

55

101

% dins de CAP2

CAP2_Quina és la seva edat?

15,4%

41,4%

66,3%

43,0%

Total

Recompte

65

87

83

235

% dins de CAP2

CAP2_Quina és la seva edat?

100,0%

100,0%

100,0%

100,0%

Podem fer el test de significació i observar, exclusivament, probabilitat associada a equivocar-nos. La taula següent ens indica el valor de Chi2 observat a les nostres dades (i que en aquests moments no significa res per a nosaltres) i el nivell de significació de la prova, és a dir, la probabilitat d’equivocar-nos és 0,000.
Si apliquem el criteri 0,05, i com que 0,000 està per sota, afirmarem que és molt probable que hi hagi relació entre l’edat i la creença que caldrà marxar per a desenvolupar la carrera professional. O el que és el mateix, que és poc probable que ens equivoquem en fer a aquesta afirmació.
Segurament, però, construirem una frase una mica més interessant, del tipus: “hi ha una relació estadísticament significativa entre l’edat dels professionals de la dansa i creure que cal marxar per a desenvolupar la carrera professional”.
Taula 14. Test de Chi2 per a la relació entre la variable edat i la variable creença que en el futur marxarà per desenvolupar la carrera professional

Proves de chi-quadrat

Valor

gl

Sig. asimptòtica (bilateral)

Chi-quadrat de Pearson

38,651(a)

2

0,000

Raó de verosimilituds

41,192

2

0,000

Associació lineal por lineal

38,480

1

0,000

N de casos vàlids

235

(a) 0 caselles(0,0%) tenen una freqüència esperada inferior a 5. La freqüència mínima esperada es 27,94

En resum, en l’anàlisi de la relació entre dues variables qualitatives podem fer servir l’estudi de les taules de contingència i el contrast de Chi2. En procediment abreujat de la prova de significació el valor d’aquest estadístic no s’interpreta, sinó la seva significació que, establint un nivell de confiança del 95%, cal que sigui inferior a 0,05.
Cal tenir present que Chi2 indica si hi ha associació global o no, és a dir, en el conjunt de dades de la taula. Però no indica quin és el sentit de l’associació, és a dir, quina variable influeix en quina variable, quina és la intensitat de l’associació, ni entre quin parell de categories es produeix la relació. A més, és un estadístic sensible al nombre de files i columnes, i al nombre de casos en cada casella, de manera que hi ha altres estadístics i correccions que ens poden ajudar a ser més precisos en les nostres afirmacions: Phi, V, solució de Yates, etc.
6.6.3.Relació entre una variable qualitativa i una quantitativa: ANOVA i test T-Student
Una segona situació habitual en recerca social és analitzar la relació entre una variables qualitativa i una variable quantitativa. En aquest cas, per a cada categoria de la variable qualitativa podem calcular els estadístics de resum ja apresos (mitjana, desviació, mediana, etc.). Observem la relació entre la variable edat (resumida en tres categories, per tant, qualitativa) i la variable nombre de vegades que ha marxat fora per exercir la seva professió. D’acord amb la taula següent, els menors de 30 anys han marxat de mitjana 3,83 vegades per exercir la seva professió. Entre els 30 i 39 anys és 14,69 vegades de mitjana. A partir dels 30 anys observem també que hi ha molta variabilitat de situacions (desviació típica dels 30 als 39 anys, 31,71).
Així, ens preguntem si aquesta diferència en les mitjanes dels diferents grups és inferible al conjunt de la població. Aquest procediment s’anomena ANOVA, de l’anglès ANalysis Of VAriance, anàlisi de la variància. El model de distribució associat a aquest procediment i condicions és rel model F.
De nou, fent servir el procediment abreujat del contrast a través de la prova de significació, i marcant un llindar de 0,05, observem que el nostre és de 0,014, per sota de 0,05;afirmemque és molt probable que hi hagi relació entre l’edat i el nombre de vegades que s’ha marxat a exercir la professió fora. O el que és el mateix, que és poc probable que ens equivoquem en fer a aquesta afirmació.
Una frase més interessant:“hi ha una relació estadísticament significativa entre l’edat dels professionals de la dansa i les vegades que s’ha marxat fora a exercir la professió”.
Taula 15. Test ANOVA per a la relació entre la variable edat i la variable nombre de vegades que ha marxat fora per exercir la seva professió

p118_1_other P118s. Nombre de vegades que ha marxat fora de Catalunya per exercir la seva professió

Interval de confiança pera la mitjana al 95%

N

Mitjana

Desviació típica

Error típic

Límit inferior

Límit superior

Mínim

Màxim

1 20-29

46

3,83

3,743

0,552

2,71

4,94

1

20

2 30-39

59

14,69

31,715

4,129

6,43

22,96

1

200

3 40-64

57

50,39

139,209

18,439

13,45

87,32

1

900

Total

162

24,17

86,610

6,805

10,73

37,60

1

900

Taula 16. Test ANOVA per a la relació entre la variable edat i la variable nombre de vegades que ha marxat fora per exercir la seva professió – ANOVA d’un factor

p118_1_other P118s. Nombre de vegades que ha marxat fora de Catalunya per exercir la seva professió

Suma de quadrats

gl

Mitjana quadràtica

F

Sig.

Intergrups

63.509,874

2

31.754,937

4,413

0,014

Intragrups

1.144.208,626

159

7.196,281

Total

1.207.718,500

161

Recordem que som davant la relació d’una variable qualitativa i una quantitativa i que volem estudiar la variància, desviació entorn de la mitjana. Com Chi2, ens indica si hi ha una relació global, però no entre quin o quins parells de categories es dóna aquesta diferència, i no indica quin és el sentit de l’associació, quina variable influeix en quina ni quina és la intensitat de l’associació. ANOVA s’utilitza quan la variable qualitativa té treso més categories.
En el cas que la variable qualitativa tingui dues categories utilitzaríem el model T-Student, seguint els mateixos criteris. Observem l’exemple següent: els professionals de la dansa de Catalunya de 30 a 39 anys, durant la temporada 2008-2009 han passat de mitjana 2,17 mesos a l’atur i els que tenen de 40 a 64 anys, 0,96.
Ens preguntem si aquesta diferència és probable que es doni en el conjunt de la població. La prova de significació situa aquesta probabilitat en 0,002, per sota de 0,05;afirmarem que és molt probable que aquesta diferència es doni també en el conjunt de la població, i és improbable que ens equivoquem en fer a aquesta afirmació.
La traducció menys tècnica és“els menors de 40 anys han passat significativament més temps a l’atur que els majors de 40”.
Taula 17. Test T-Student per a la diferència entre la mitjana de mesos a l’atur entre els professionals de 30 a 39 anys i de 40 a 64 anys

Estadístics de grup

CAP2 CAP2_Quina és la vostra edat?

N

Mitjana

Desviació típica

Error típic de la mitjana

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

2 30-39

103

2,17

3,249

,320

3 40-64

97

,96

2,263

,230

Taula 18. Test T-Student per a la diferència entre la mitjana de mesos a l’atur entre els professionals de 30 a 39 anys i de 40 a 64 anys

Prova de mostres independents

Prova de Levene pera la igualtat de variàncies

Prova T para la igualtat de variàncies

F

Sig.

t

gl

Sig. (bilateral)

Diferència de mitjanes

Error típic de la diferència

95% Interval de confiança per a la diferència

Inferior

Superior

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

S’han assumit variàncies iguals

16,179

0,000

3,053

198

0,003

1,216

0,398

0,431

2,001

No s’han assumit variàncies iguals

3,085

182,669

0,002

1,216

0,394

0,438

1,994

Nota
Per a practicar aquestes anàlisis essencials disposeu de dades al final del mòdul.

6.7.Més enllà

No podem passar per alt la importància de conèixer els procediments d’anàlisi multivariable i invitar-vos a aplicar-los. Són tots aquells procediments per a l’anàlisi simultània d’un conjunt de dades amb tres variables o més. Com podem imaginar, els fonaments matemàtics d’aquests procediments són complexos, i malgrat que es vulguin simplificar requereixen d’un cert nivell de base matemàtica per a poder-los comprendre en profunditat. Però es poden simplificar si parem atenció principalment als seus usos, és a dir, per a què serveixen, quin requisits tenen (per a quines variables).
En la majoria de casos, si es vol aplicar aquestes tècniques és recomanable dissenyar el qüestionari de forma apropiada, ja que són molt exigents quant a tipus de variables i categories que es poden incloure. L’objectiu d’aquestes tècniques és detectar les formes del comportament de les dades, no taula a taula, a partir d’encreuaments bivariables sinó reduint i simplificant el conjunt d’interrelacions. Una possible manera de classificar les tècniques és en funció de la pregunta que es fan. Es poden classificar, a més, en funció de les variables involucrades, si volem determinar una relació de dependència entre les variables o no, i d’altres. Però no es poden considerar classificacions excloents ja que l’evolució accelerada de l’estadística i la computació fan aparèixer cada cop més procediments, impuls a què s’afegeixen les exigències del mercat i la disponibilitat de dades massives, desenvolupant així l’enginyeria de negoci, l’anàlisi del risc, la modelització, etc.
D’acord amb l’objectiu de l’anàlisi es poden destacar algunes tècniques clàssiques, que poden donar resposta a més d’un interès:
1) Reduir la dimensionalitat:és la funció essencial de l’anàlisi factorial, ja sigui confirmatori o exploratori, que inclou procediments diversos, entre els quals cal destacar l’anàlisi de correspondències, per a variables quantitatives, i el de components principals, per a les variables qualitatives. L’objectiu, per tant, és passar de 20, 30, 40... variables possibles d’anàlisi a localitzar factors latents, és a dir, les combinacions de variables que més discriminen els individus o subjectes (persones, municipis, clients...). Es vol donar resposta, per tant, a la pregunta general: a part del gènere, l’edat, la classe, els ingressos... Hi ha alguna combinació de variables que expliqui més que cada variable per separat les probabilitats d’estar a l’atur?
2) Classificar i agrupar: en aquest cas no treballem amb les variables sinó amb els casos. Un exemple és l’anàlisi de classificació (Clúster), que pretén agrupar els casos (persones, empreses, etc.) en grups que són internament homogenis, és a dir, els membres d’un grup són persones molt similars entre sí, i heterogenis entre sí, és a dir, els membres d’un grup són molt diferents dels membres d’un altre. Hi ha diversos procediments: jeràrquics o ascendents, descendent, etc., que generen tipologies i que volen respondre a la pregunta general: quins grups de persones o casos hi ha? Que siguin grups de casos molt iguals entre ells i molt diferents dels altres. Creem tipologies. En el nostre segon cas d’estudi: ateses aquestes condicions laborals, quins grups de professionals hi ha? És una recerca no feta, així que podeu incloure-la en la vostra llista de desitjos.
Cal mencionar, ja que s’utilitza molt freqüentment, l’anàlisi de regressió múltiple. S’utilitza per a estudiar la relació entre més de dues variables quantitatives (també hi ha la versió simple quan s’analitza la relació de dues variables), amb l’objectiu de determinar quines covariacions de x expliquen y? i més precisament, trobar la funció (lineal o no) que permeti calcular aquesta relació. Un exemple que podem fer servir és quan volem donar resposta a la pregunta general quines variables fan variar (augmentar o reduir) el salari? Ens preguntarem diverses qüestions si volem fer una anàlisi de regressió lineal: Hi ha una funció lineal entre aquestes variables, a més d’una variable (edat, anys estudiats, ingressos d’altres membres de la llar...). Aquesta relació, quina part dels ingressos explica? Quines variables afecten i quines no? l amb quina intensitat cadascuna d’elles?

7.Resum i consideracions finals

L’estudi d’aquest mòdul ha de tenir la utilitat d’introduir-vos en la investigació quantitativa i donar-vos les eines essencials per a la producció d’informació a través de la investigació per enquesta, un dels procediments més populars i del qual deriven bona part de les dades sobre el mercat de treball i els seus indicadors essencials. Com a part d’aquest procediment, volem destacar la importància de l’operativització dels conceptes en mesures, el disseny del qüestionari i l’anàlisi de dades. Els aprenentatges sobre operativització us seran útils en qualsevol procés de recerca, mentre que el disseny de qüestionaris, en la valoració de qualsevol formulari. Al seu torn, l’anàlisi de dades és aplicable a la major part de conjunts de dades de què disposeu, encara que no procedeixin de mostres o enquestes, en una etapa que les dades i les dades massives prenen un gran protagonisme. Us animem a continuar amb l’estudi aplicat de les tècniques quantitatives així com en els fonaments dels coneixements que molt simplificadament hem abordat en aquest mòdul.

Activitats

Activitat 1. Anàlisi de dades descriptiva de la pregunta p57_mesos que va estar a l’atur durant la temporada 2008-2009

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

Freqüència

Percentatge

Percentatge vàlid

Percentatge acumulat

Vàlids

1

2

3

4

5

6

7

8

9

10

11

12

Total

6

22

8

10

6

12

5

8

2

3

1

6

89

2,1

7,6

2,8

3,4

2,1

4,1

1,7

2,8

,7

1,0

,3

2,1

30,7

6,7

24,7

9,0

11,2

6,7

13,5

5,6

9,0

2,2

3,4

1,1

6,7

100,0

6,7

31,5

40,4

51,7

58,4

71,9

77,5

86,5

88,8

92,1

93,3

100,0

Perduts

0

99 N.C.

888 No estava actiu

Total

169

21

11

201

58,3

7,2

3,8

69,3

Total

290

100,00

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

Freqüència

Percentatge

Percentatge vàlid

Percentatge acumulat

Vàlids

0 No va estar a l’atur

1 1 a 5

2 6 a 12

99 N.C.

Total

169

52

37

21

279

58,3

17,9

12,8

7,2

96,2

60,6

18,6

13,3

7,5

100,0

60,6

79,2

92,5

100,0

Perduts

888 No estava actiu

11

3,8

Total

290

100,0

m0050_m2_010.gif
m0050_m2_011.gif
m0050_m2_012.gif

N

Mínim

Màxim

Mitjana

Desv. típic

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

89

1

12

5,01

3,157

N vàlid (segons la llista)

89

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

N

Vàlids

89

Perduts

201

Mitjana

4,00

Mínim

1

Màxim

12

Percentils

25

2,00

50

4,00

75

7,00

m0050_m2_013.gif
Activitat 2. Relació entre dues variables qualitatives

CAP1 CAP1_Sexe de l’entrevistat

1 Home

2 Dona

Total

p121_rec

P121_rec_Vostè personalment, fins a quin punt està disposat a marxar fora per desenvolupar la seva carrera professional

1 Totalment o força disposat

Recompte

40

130

170

% dins de p121_rec

P121_rec_Vostè personalment, fins a quin punt està disposat a marxar fora per desenvolupar la seva carrera professional

23,5%

76,5%

100,0%

% dins de CAP1 CAP1_Sexe de l’entrevistat

85,1%

58,0%

62,7%

% del total

14,8%

48,0%

62,7%

3 Poc o gens disposat

Recompte

7

94

101

% dinsde p121_rec

P121_rec_Vostè personalment, fins a quin punt està disposat a marxar fora per desenvolupar la seva carrera professional

6,9%

93,1%

100,0%

% dins de CAP1 CAP1_Sexe de l’entrevistat

14,9%

42,0%

37,3%

% del total

2,6%

34,7%

37,3%

Total

Recompte

47

224

271

% dins de p121_rec

P121_rec_Vostè personalment, fins a quin punt està disposat a marxar fora per desenvolupar la seva carrera professional

17,3%

82,7%

100,0%

% dins de CAP1 CAP1_Sexe de l’entrevistat

100,0%

100,0%

100,0%

% del total

17,3%

82,7%

100,0%

Proves de chi-quadrat

Valor

gl

Sig. asimptòtica (bilateral)

Sig. exacta (bilateral)

Sig. exacta (unilateral)

Chi-quadrat de Pearson

12,177 (a)

1

0,000

Correcció per continuïtat(b)

11,047

1

0,001

Raó de verosimilituds

13,643

1

0,000

Estadístic exacte de Fisher

0,000

0,000

Associació lineal per lineal

12,132

1

0,000

N de casos vàlids

271

(a) 0 caselles (0,0%) tenen una freqüència esperada inferior a 5. La freqüència mínima esperada es 17,52.

(b) Calculat només per a una taula de 2x2.

Activitat 3. Relació entre una variable qualitativa i una quantitativa

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

Interval de confiança pera la mitjana 95%

N

Mitjana

Desviació típica

Error típic

Límit inferior

Límit superior

Mínim

Màxim

1 Formació mixta FR i FNR

116

1,52

2,906

0,270

0,98

2,05

0

12

2 Centrat en FR

88

1,94

3,045

0,325

1,30

2,59

0

12

5 Centrat en FNR

40

1,75

3,136

0,496

0,75

2,75

0

12

Total

244

1,71

2,989

0,191

1,33

2,09

0

12

ANOVA d’un factor

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

Suma de quadrats

gl

Mitjana quadràtica

F

Sig.

Intergrups

9,159

2

4,579

0,511

0,601

Intragrups

2.161,181

241

8,968

Total

2.170,340

243

Estadístics de grup

CAP5 CAP5_CLASS3_BASE

CLASS5_NOU

N

Mitjana

Desviació típica

Error típic de la mitjana

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

2 Centrat en FR

88

1,94

3,045

0,325

5 Centrat en FNR

40

1,75

3,136

0,496

Prova de mostres independents

Prova de Levene pera la igualtat de variàncies

Prova T pera la igualtat de variàncies

F

Sig

t

gl

Sig. (bilateral)

Diferència de mitjanes

Error típic de la diferència

95% Interval de confiança per a la diferència

Inferior

Superior

P57. Durant la temporada 2008-2009, en total quants mesos va estar a l’atur? Mesos

S’han assumit variàncies iguals

0,60

0,807

0,330

126

0,742

0,193

0,586

-0,967

1,353

No s’han assumit variàncies iguals

0,326

73,541

0,745

0,193

0,593

-0,988

1,374

Observacions variable qualitativa: Tipus de formació realitzada: 1. Formació mixta Formació reglada i no reglada. 2. Centrada en formació reglada. 5. Centrada en formació no regalada.

Bibliografia

Bibliografia citada
Alvira-Martín, F. (2004). La encuesta: una perspectiva general metodológica. Madrid: CIS. Cuadernos Metodológicos
Anduiza, E., Crespo,I., Crespo-Martínez, I., Méndez-Lago, M. (2009). Metodología de la ciencia política. Madrid: CIS Cuadernos
Cead’Ancona, M. (1996). Metodología cuantitativa: estrategias y técnicas de investigación social. Madrid: Ed. Síntesis
Corbetta, P. (2003). Metodologías y técnicas de investigación social. Madrid: McGraw-Hill.
Couper, M. (2000). Web Surveys: A Review of Issues and Approaches. The Public Opinion Quarterly, Vol. 64, No. 4. http://www.goethe-university-frankfurt.de/47929851/Couper_2000.pdf
Couper, M. (2005). Technology Trends in Survey Data Collection. Social Science Computer. Winter 2005 23: 486-501
doi: 10.1177/0894439305278972
DíazdeRada, V. (2012). Ventajas e inconvenientes de la encuesta por Internet. Papers. 2012, 97/1. http://www.raco.cat/index.php/Papers/article/download/248512/332636
Hand, D. J. (2009). Modern statistics: the myth and the magic. Journal of the Royal Statistical Society: Series A (Statistics in Society), 172: 287–306. doi: 10.1111/j.1467-985X.2009.00583.x
Kothari, C. R. (2004). Research Methodology: Methods and Techniques. New Delhi: New Age International.
López-Roldán, P., Lozares-Colina, C. (1999). Anàlisi bivariable de dades estadístiques. Bellaterra: Universitat Autònoma de Barcelona.
López-Roldán, P., Lozares-Colina, C. (2000). Anàlisi multivariable de dades estadístiques. Bellaterra: Universitat Autònoma de Barcelona.
Tarrow, S. (1995). Review: Bridging the quantitative-qualitative divide in political science. Reviewedwork: Designing Social Inquiry: Scientific Inference in Qualitative Research by Gary King, Robert O. Keohane, Sidney Verba. American Political Science Review. Vol. 89, No. 2, Juny. http://www.jstor.org/stable/2082444?origin=crossref&seq=1#page_scan_tab_contents
Bibliografia general
Aguilera del Pino, A.M. (2001). Tablas de contingencia bidimensionales. Madrid: La Muralla. Cuadernos de Estadística.
Aguilera del Pino, A.M. (2006). Modelización de tablas de contingencia multidimensionales. Madrid: La Muralla. Cuadernos de Estadística.
APA (2009). Publication Manual of American Psychological Association (Sixth Edition). Washington, DC: APA.
Azofra- Marquez, M.J. (1999). Cuestionarios. Madrid: CIS. Cuadernos Metodológicos.
Creswell, J. (2003). Research Design: Qualitative&Quantitative and Mixed Methods Approaches. (2a edició). ThousandOaks (CA), Londres, Nova Delhi: Sage.
DíazdeRada, V. (2010). Comparación entre los resultados proporcionados por encuestas telefónicas y personales: el caso de un estudio electoral. Madrid: CIS. Opiniones y Actitudes, núm. 66.
Friedman, D.; Sunder, S. (1994). Experimental Methods. A Primer for Economists. Cambridge: Cambridge University Press.
Garcia-Ferrando, M. (1994). Socioestadística. Introducción a la estadística en sociología. Madrid: Alianza. Alianza Universidad Textos, 96.
Hair, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C. (1999). Análisis multivariante. Madrid: Prentice-Hall.
Lago Peñas, I. (2008). La lógica de la explicación en las ciencias sociales: una introducción metodológica. Madrid: Alianza Editorial.
Levy, J. P.; Valera, J. (2003). Análisis multivariado para ciencias sociales. Madrid: Prentice-Hall.
López-Roldán, P.; Fachelli. S. (2015). Metodología de la investigación social cuantitativa. Bellaterra (Cerdanyola del Vallès): Dipòsit Digital de Documents, Universitat Autònoma de Barcelona. 1a edició. Edició digital: http://pagines.uab.cat/plopez/content/manual-misc
Newbold, P. (2008). Estadística para administración y economía. Madrid: Pearson, Prentice Hall.
Quivy, R.; Van-Campenhoudt, L. (1999). Manual de investigación en ciencias sociales. Méjico: Limusa.
Ritchey, F. J. (2006). Estadística para las ciencias sociales. Mèxic: McGrawHill.
Sánchez-Carrión, J. J. (1995). Manual de análisis de datos. Madrid: Alianza.
Stevens, S.S. (ed.) (1951). Handbook of Experimental Psychology. Nova York: Wiley.
Materials complementaris de la UOC
Marc teòric i disseny:
Santana-Leitner, A. (2012). El disseny de la recerca. Barcelona: Fundació UOC.
Santana-Leitner, A. (2012). Marc teòric i disseny empíric. Barcelona: Fundació UOC.
Disseny de qüestionari:
Meneses, J. (2012). El qüestionari. Barcelona: Fundació UOC.
Estadística i anàlisi de dades:
Grenacre, M. (2012). Estadística I. Barcelona: Fundació UOC.
Fornieles, A.; Domènech, J.M.;Bonillo, A. (2010). Tutorial de l’Excel XP. Barcelona: Fundació UOC.
Liviano-Solís, D.; Pujol-Jover, M. (2010). Matemáticas y estadística con R. Barcelona: Fundació UOC.
Observacions: la UOC disposa de molts altres documents que us poden ser d’ajuda en l’ampliació de coneixements i pràctica en aquesta matèria. Aquesta només pretén ser una breu selecció.
Llistat de programari específic per a l’anàlisi de dades
Programari de pagament
SAS
StatisticalAnalysis System
SPAD
SystèmePourl’Analyse des Données
SPSS
Statistic Package for Social Science
STATA
Data Analysis and Statistical Software
Programari lliure
R
PSPP
Nota:
És important que us animeu a descarregar-vos i treballar amb programari especialitzat. Tanmateix us facilitem un manual d’Excel XP que també permet fer anàlisi de dades, si bé amb més limitacions o complicacions que els programaris específics. Trobareu la referència a l’apartat dedicat a materials de la UOC.