Inicio Atrás

Coeficiente de correlación lineal de Pearson

De los diferentes coeficientes de correlación que hay, en este módulo estudiamos el de Pearson, que es, posiblemente, el que más se utilza en estudios superiores.

El coeficiente de correlación de Pearson mide numéricamente la tendencia a una asociación entre las dos variables que pueda ser explicada mediante una relación lineal. Esto se constatará sobre la nube de puntos por el agrupamiento de los puntos muy cerca de una línea recta.

Ya sabemos cuál es el rango de valores posibles de este coeficiente; los valores extremos, +1 y –1, indican el tipo de asociación perfectamente definidos por una línea recta (creciente o decreciente, respectivamente). Entre estos dos valores extremos, el coeficiente de correlación mide si los puntos representados en la nube tienden a agruparse alrededor de una línea recta de manera muy estricta o con mucha variabilidad.

Se puede observar que coinciden el signo del coeficiente de correlación lineal y la pendiente de la recta, alrededor de la que se pueden considerar agrupados los puntos de la distribución. Pero, la coincidencia no se extiende a los valores absolutos de la pendiente de la recta y del coeficiente de correlación.

Para calcular el coeficiente de correlación correspondiente a un conjunto de bivariante de n datos aparejados, (x1, y1),(x2, y2),... , (xn, yn) se empiezan a calcular las medias y desviaciones tipo, considerando de manera independiente cada una de las dos variables:

x ÿ σx σy.

Contenido complementario

Se calcula seguidamente la covariancia, que mide la variación conjunta global de las dos variables.

La covariancia mide variablidad "absoluta" y es fuertemente dependiente de las unidades con que se expresan las dos variables (con las cuales también hay que expresar la covariancia).

Por lo tanto, de manera parecida a como se realiza con el proceso de estandarización, conviene pasar a otro valor que mida la relación intrínseca entre las variables, independientemente de las unidades. Por esta razón es por lo que se calcula la covariancia entre las variables estandarizadas, se simplifica la expresión que se obtiene y se calcula el coeficiente de correlación lineal (de Pearson) mediante la fórmula siguiente:

Seguidamente, damos algunas observaciones sobre el coeficiente de correlación lineal de Pearson:

  • El coeficiente de correlación de Pearson (como la media y la desviación típica) está fuertemente influido por la existencia de valores anómalos, sobre todo si la distribución no es muy numerosa.
  • El coeficiente de correlación de Pearson es un coeficiente de correlación lineal. Cuando se quiera dar la interpretación se tendrá, pues, que tener presente que mide únicamente la tendencia a un determinado tipo de relación entre dos variables: la lineal.
  • Un coeficiente de correlación lineal pequeño o nulo puede indicar una total dispersión de las dos variables. Pero, también se obtendrá este resultado en algún caso de variables "muy relacionadas", en el caso de que la función que expresa la tendencia a la relación no sea de primer grado o no sea polinómica.
  • Un coeficiente de correlación alto no nos debe llevar necesariamente a la conclusión de que hay una relación real entre las variables: puede haber falsas interpretaciones.

Ejemplo

Hay que ir con mucho cuidado en la interpretación de coeficiente de correlación si hay subpoblaciones muy diferenciadas en el conjunto de datos que se estudia. Este caso puede dar valores extraños para el coeficiente de correlación.

Inicio Atrás

Arriba