Distribuciones de frecuencia

Atrás

¿Cómo se disponen normalmente los datos epidemiológicos?

Ver tabla

Para lograr sus diferentes metas, los epidemiólogos recopilan los datos sobre las características de un cierto número de individuos. Estos datos entran en muchas formas y tamaños, pero una de las formas más comunes es la base de datos rectangular. El tamaño de la base de datos depende del número de registros y del número de variables. Una variable es un atributo o suceso que puede adquirir diferentes valores. Una base de datos pequeña puede caber en una sola hoja de papel, mientras que las bases de datos grandes, con miles de registros y cientos de variables, son más fáciles de manejar en una computadora.

Observación de los datos

Una vez recogidos, los datos generalmente se transcriben en una lista de registros, que incluye sus casos y variables característicos. Si la lista contiene pocos registros, es posible reunir la información directamente de los datos que están a la vista. Esto resulta más difícil con bases de datos más grandes, y resulta más conveniente resumir las variables en cuadros llamados "distribuciones de frecuencia".

Ver tabla

Las distribuciones de frecuencia muestran los valores que una variable puede tomar y el número de personas o registros con cada valor. Para construir una distribución de frecuencias, enumeramos en primer lugar, todos los valores –de menor a mayor– que una variable dada puede tomar. Luego, se incluye el número de veces (frecuencia) que aparece cada valor en la lista de registros. Esto permite determinar qué valores aparecen más a menudo. Las distribuciones de frecuencia se pueden presentar en forma tabular o gráfica.

¿Qué rango de valores puede tomar una variable?

Según el valor (o escala) que una variable puede tomar, puede clasificarse como:

  1. dicotómica, cuando los valores pueden organizarse en cualquiera de las dos categorías mutuamente excluyentes;
  2. nominal, cuando se pueden organizar en categorías cualitativas o por nombres no ordenados;
  3. ordinal, si los valores siguen un rango en una escala cualitativa, pero no existe ninguna distancia natural entre los valores; o,
  4. intervalo, si incluye un intervalo igual con una distancia natural entre los valores, así la distancia en una región de la escala representa la misma distancia en otra región de esa escala y el valor cero que asume es arbitrario; y
  5. de razón o continua, cuando existe un valor de cero real, así las razones entre los valores son más significativas.

¿Qué clase de medidas de frecuencia pueden usarse para describir o resumir los datos dicotómicos o categóricos?

En Epidemiología, es útil tener formas alternativas para describir las variables dicotómicas más allá de la presentación de las distribuciones de frecuencia. Estas variables tienen sólo dos categorías posibles que son mutuamente excluyentes. Por ejemplo, vivo o muerto, caso o control, expuesto o no expuesto, etc. Las medidas de frecuencia que pueden usarse con variables dicotómicas son recuentos, razones, proporciones y tasas.

Los recuentos permiten determinar la magnitud absoluta o la frecuencia de una característica en una población. Por ejemplo, el número de mujeres, el número de fumadores o el número de niños con sarampión en un grupo de población. Los indicadores basados en recuentos proporcionan información sobre la magnitud absoluta de una medición en un grupo. Esta información puede ser útil para hacer planes con una finalidad de programación, pero puede ser limitada para las comparaciones. Por ejemplo, al comparar la mortalidad infantil entre Colombia y Estados Unidos, basándonos sólo en el número de defunciones, podríamos concluir erróneamente que existe un mayor problema en Estados Unidos, si no hemos considerado antes que la población en Estados Unidos es mayor en dicha comparación.

Las razones se usan para evaluar la frecuencia de una característica en un grupo que no presenta tal característica; en esta comparación, el denominador no incluye numerador. Las razones, generalmente, expresan varias observaciones en una categoría respecto a otra. La razón urbana de población en relación con la rural en Colombia es 3:1, lo que indica que para cada persona en las áreas rurales, hay tres en las áreas urbanas.

Una proporción es un tipo especial de razón donde el numerador forma parte del denominador. A veces, se expresa como porcentajes, que se obtienen al multiplicar la proporción por una constante (100). Por ejemplo, la proporción de mujeres analfabetas, como porcentaje de la población total de Colombia es de un 22% en el periodo comprendido entre 1992 y 1994.

Las tasas son similares a las proporciones –en las primeras el numerador forma parte del denominador–; sin embargo, difieren conceptualmente porque, en las tasas, el denominador incluye una dimensión dinámica de cambio en el tiempo. Para hacerlas más significativas, tienden a ser multiplicadas por un factor constante. Por ejemplo, la tasa de mortalidad por enfermedades transmisibles en Colombia durante el periodo 1992-1994 en mujeres fue de 61 por 100.000 personas.

Los indicadores que se basan en las razones, las proporciones, y las tasas, son más informativos y más útiles para identificar las diferencias entre grupos, ya que son indicadores de la magnitud relativa.

¿Qué clase de mediciones de frecuencia pueden aplicarse para resumir y describir los datos numéricos?

Cuando describimos los datos numéricos (continuos), podemos usar las medidas de tendencia central y las medidas de dispersión.

Propiedades de las distribuciones de frecuencia. Las distribuciones de frecuencia también pueden ilustrarse como gráficos, que muestran diferentes propiedades: la ubicación central, la dispersión o variación, y la curtosis o inclinación.

Ver diapositiva

Cuando dibujamos la frecuencia de los sucesos de salud, a menudo nos encontramos con que el gráfico muestra una gran parte de las observaciones agrupadas en torno a un valor central. Esta agrupación se conoce como la tendencia central o ubicación central de una distribución de frecuencias. Una medida de ubicación central es el valor único que representa mejor una característica. En la figura, la frecuencia más alta, aquella que indica un valor central, está cerca de la edad de 5 años. Sin embargo, existen diferentes métodos para calcular una medida de ubicación central, que también puede producir, de algún modo, diferentes valores. Las más importantes en epidemiología son la media aritmética (promedio), la mediana y la moda.

Una segunda propiedad de las distribuciones de frecuencia es la variación o dispersión, que es la propagación de una distribución fuera de su valor central. En la misma cifra, es posible reconocer que existen otros valores menos frecuentes, que forman una cola a cada lado del valor central. Algunas medidas de dispersión utilizadas en epidemiología son el rango, la varianza y la desviación estándar. Una medida de dispersión cuantifica cuántas observaciones varían en un grupo una de otra y de la medida de ubicación central. Podréis determinar posteriormente que la dispersión es independiente de la ubicación central.

Una tercera propiedad de una distribución de frecuencias es su forma, que puede ser simétrica o inclinada (o asimétrica) según su ubicación central. Una distribución es simétrica cuando tiene dos mitades iguales a cada lado de la ubicación central; una distribución se inclina positivamente, o se inclina a la derecha, si tiene una ubicación central a la izquierda y hay una cola a la derecha; y se inclina negativamente, o a la izquierda, si tiene una ubicación central a la derecha y una cola a la izquierda.

Ver diapositiva

Si una distribución es simétrica y tiene forma de campana también se conoce como distribución normal, que es la base para muchas pruebas de inferencia que se usan para sacar conclusiones o generalizar datos. La figura muestra la distribución en forma de campana o curva de Gauss. Para poder usar ciertas pruebas, es importante definir la conformación de nuestros datos respecto a esta distribución.

¿Cómo seleccionar y determinar una medida específica de tendencia central?

Ver diapositiva

Calculamos las medidas de tendencia central cuando necesitamos un único valor para resumir una colección de datos. La decisión para seleccionar la alternativa que representa mejor nuestros datos depende tanto de las características de la distribución, como de su forma. Para cualquier distribución simétrica, el promedio, la mediana y la moda serán idénticas. Estos índices variarán con una distribución asimétrica, –el promedio es el más distorsionado por las observaciones extremas.

Arriba