Regresión, modelos y métodos Código:  M0.156    :  5
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

En ciencia es muy habitual intentar construir modelos que sirvan para explicar la relación entre varias variables o para predecir el comportamiento de un sistema. El paradigma de los modelos matemáticos nos lo ofrece la física clásica, en donde por ejemplo podemos predecir un eclipse dentro de muchos años a partir de la masa y posición de la tierra, la luna y el sol.

La estadística nos permite construir modelos en situaciones en donde las relaciones no son tan claras, es decir no busca establecer relaciones funcionales del tipo Y=f(X) sino que permite trabajar con relaciones aproximadas y=f(X)+E, donde "E" representa" el error de aproximación que cometemos al suponer que la relación entre X e Y viene descrita por el modelo "f". La única restricción que impondremos es que el error sea aleatorio con unas ciertas condiciones y se ajuste a un tipo de distribución.

En esta asignatura vamos a trabajar con la situación más sencilla posible entre los modelos estocásticos en la que se supone que "f" es una función lineal -es decir del tipo: b0+b1*X1+b2*X2+...-.

Veremos como a partir de suponer una relación lineal entre una variable respuesta cuantitativa y unas variables explicativas continuas (regresión), categóricas (análisis de la varianza) o mixtas (análisis de la covarianza) es posible ajustar un modelo que nos permita describir la relación entre las variables con fines explicativos o predictivos.

Amunt

Esta asignatura  se fundamenta en los modelos probabilísticos y la inferencia. Plantea un tipo de relación sencillo (lineal)- que más adelante se presenta en modelos de regresión más complejos como la regresión logística o la de Cox, en versiones multivariantes de las pruebas introducidas como el MANOVA o en la utilización de modelos lineales para la clasificación como el análisis discriminante

Amunt

Tanto los modelos de regresión como los de análisis de la varianza se utilizan de forma exhaustiva en las multiples variantes de la bioestadística:

  • En análisis de microarrays o ultrasecuenciación (bioinformática)
  • En estudios clínicos y epidemiológicos (bioestadística clínica y epidemiología)
  • En farmacología agricultura, psicometría y practicamente cualquier disciplina que aplique la estadística a las ciencias de la vida.

En todos los ejercicios que se pedirán habrá enunciados de todos los campos mencionados para que los alumnos tengan una visión general de la aplicabilidad de la metodología desarrollada.

Amunt

 En principio es posible que se pueda seguir la asignatura sin conocimientos previos, pero se hará mucho mejor con una buena base de estadística como la que proporcionan las asignaturas de Inferencia Estadística y Software Estadístico.

Amunt

 El objetivo de esta asignatura es que el alumno alcance a conocer las herramientas necesarias para estudiar la relación  entre  variables cuando ésta se puede expresar como una función lineal de una de la variables respecto a las otras. Este estudio se concreta en  identificar el  modelo, establecer los mecanismos necesarios para estimar el valor de los parámetros desconocidos del mismo,  verificar  las cuestiones que se puedan plantear así como los mecanismos que permitan diagnosticar la adecuación del modelo y finalmente decidir qué pasos realizar cuando alguno de los requisitos no se cumpla.

  Las competencias a adquirir a lo largo de la asignatura serán:

  • Ser capaz de identificar las variables del problema: cuál es la variable respuesta y cuáles son las variables explicativas.
  • Saber estimar los parámetros de los modelos de regresión y saber determinar la precisión de la estimación.
  • Saber plantear las cuestiones de interés en términos de contrastes de hipótesis y saber resolverlos.
  • Saber utilizar correctamente los mecanismos de diagnosis del modelo y saber cómo actuar cuando se presenten problemas en alguno de los requisitos de la metodología.
  • Saber resolver los contrastes de hipótesis planteados.
  • Saber cuando se debe utilizar un diseño u otro para capturar adecuadamente la información de un experimento planeado

Amunt

1. Introducción

1.1 Un ejemplo
1.2 Ajuste a unos datos: recta de regresión
1.3 El modelo lineal
1.4 Las condiciones de Gauss-Markov
1.5 Historia


2. Estimación

2.1 Representación matricial del modelo lineal
2.2 Estimación por mínimos cuadrados
2.3 Un ejemplo
2.4 La descomposición QR (opcional)
2.5 Caso de rango no máximo
2.6 Funciones paramétricas estimables
2.7 Teorema de Gauss-Markov
2.8 Ortogonalidad (opcional)


3. Inferencia

3.1 Contraste de modelos
3.2 Contraste con hipótesis paramétricas. Ejemplos
3.3 Contraste con funciones paramétricas estimables
3.4 Test de permutaciones
3.5 Intervalos de confianza para los coeficientes de regresión
3.6 Intervalos de confianza con bootstrap (opcional)


4. Regresión

4.1 Regresión lineal simple.

  • Estimación de los coeficientes
  • Medidas de ajuste
  • Inferencia sobre los parámetros de regresión
  • Recta de regresión que pasa por el origen
  • Correlación
  • Carácter lineal de la regresión simple
  • Ejemplo de Anscombe

4.2 Comparación de rectas

  • Paralelismo
  • Coincidencia

4.3 Regresión lineal múltiple

  • Medidas de ajuste
  • Inferencia sobre los parámetros de regresión
  • Extrapolación oculta
  • Contraste de significación
  • Significación parcial
  • Coeficientes de regresión estandarizados

4.4 Predicciones

  • Intervalos de confianza para las predicciones
  • Regiones de confianza

4.5 Autoregresión

4.6 Extrapolación


5. Diagnosis

5.1 Tipos de residuos

5.2 Hipótesis del error

  • Homocedasticidad
  • Normalidad
  • Correlación

5.3 Observaciones inusuales

  • Leverage
  • Residuos atípicos (outliers)
  • Medidas de la influencia

5.4 Contrastes sobre el modelo

5.5 Multicolinealidad


6. Métodos alternativos

6.1 Cambios de escala
6.2 Transformación de las variables
6.3 Polinomios
6.4 Regresión a trozos
6.5 Mínimos cuadrados generalizados
6.6 Mínimos cuadrados con pesos
6.6 Una recta resistente
6.7 Regresión robusta
6.8 Regresión logística

7. Selección de variables y regularización

7.1 Selección paso a paso
7.2 Selección por criterio
7.3 Regresión con componentes principales
7.4 PLS
7.5 Ridge Regression
7.6 LASSO


8. Variables predictoras categóricas

8.1 Un factor con dos niveles
8.2 Un factor multinivel
8.3 Codificación de los niveles
8.4 ANOVA
8.5 ANCOVA

Amunt

Introducción al modelo lineal Audiovisual
Introducció al model lineal Audiovisual
Estimación del modelo lineal Audiovisual
Estimació del model lineal Audiovisual
Inferencia en el modelo lineal Audiovisual
Inferència en el model lineal Audiovisual
Regresión lineal simple y múltiple Audiovisual
Regressió lineal simple i múltiple Audiovisual
Diagnósticos: comprobando las suposiciones (Presentación) Audiovisual
Diagnòstics: comprovant les suposicions (Presentació) Audiovisual
Métodos alternativos Audiovisual
Mètodes alternatius Audiovisual
Selección de variables y regularización Audiovisual
Selecció de variables i regularització Audiovisual
Variables predictoras categóricas Audiovisual
Variables predictores categòriques Audiovisual
Análisis de la covarianza (ANCOVA) Audiovisual
Anàlisi de la covariància (ANCOVA) Audiovisual
Análisis de la varianza (ANOVA) Audiovisual
Anàlisi de la variança (ANOVA) Audiovisual
Diagnosi: exemples Audiovisual
Models lineals amb matriu de disseny sense rang màxim Audiovisual
Contraste de hipótesis lineales Audiovisual
Diagnosis: elementos Audiovisual
El modelo lineal Audiovisual
Diagnòstics: comprovant les suposicions Audiovisual
El model lineal Audiovisual
Diagnosis: ejemplos Audiovisual
Modelos lineales con matriz de diseño sin rango máximo Audiovisual
Contrast d'hipòtesis lineals Audiovisual
Contraste de hipótesis PDF
Regressió lineal simple PDF
Regresión lineal múltiple PDF
Teorema del límit central PDF
Intervalos de confianza PDF
Contrast d'hipòtesis PDF
Regressió lineal múltiple PDF
Regresión lineal simple PDF
Intervals de confiança PDF
Teorema del límite central PDF
El análisis de la varianza (ANOVA) PDF
L'anàlisi de la variància (ANOVA) PDF
5. Diagnosi del model. Regressió: models i mètodes PDF
2. Estimación. Regresión: modelos y métodos PDF
3. Contraste de hipótesis. Regresión: modelos y métodos PDF
4. Regresión simple y múltiple. Regresión: modelos y métodos PDF
1. El model lineal. Regressió: models i mètodes PDF
5. Diagnosis del modelo. Regresión: modelos y métodos PDF
2. Estimació. Regressió: models i mètodes PDF
4. Regressió simple i múltiple. Regressió: models i mètodes PDF
1. El modelo lineal. Regresión: modelos y métodos PDF
3. Contrast d'hipòtesis. Regressió: models i mètodes PDF

Amunt

El equipo docente aportará un video de presentación de cada módulo.

El material básico para esta asignatura es el libro de Julian Faraway. Linear Models with R que tenéis disponible en el campus. También utilizaremos otros textos cuya referencia más precisa tenéis en el apartado de bibliografía. Además de la bibliografía, entre los recursos de cada módulo existen algunos tutoriales específicos en formato PDF, scripts con instrucciones de R y vídeos.

Cada módulo tendrá un buen conjunto de ejercicios, algunos opcionales y con diferentes niveles de dificultad. Los ejercicios son esenciales para el aprendizaje de los métodos de regresión.

Los marcados con (*) serán opcionales.

Los marcados con (**), además de opcionales, son de mayor dificultad.

Referencias complementarias principales

  • El libro de Francesc Carmona, "Modelos Lineales", es parecido al de Faraway, aunque en algunos aspectos es más detallado y otros estan ausentes. Como veréis muchos de los ejercicios planteados se extraen de este libro por lo que también dispondréis de algunos capítulos en el campus.
  • Los materiales del curso "Regression Methods" de la Penn State University:  https://onlinecourses.science.psu.edu/stat501/

Podéis ver el libro "Modelos lineales" como una fuente en la que ampliar algunos conceptos y donde encontrar mayor detalle que en el libro de Faraway, mientras que las notas de la Penn State son más como unos apuntes que podéis leer para aclarar los conceptos que discute el libro de Faraway.

Materiales complementarios auxiliares

  • El libro de Irizarry y Love es un texto completamente diferente. Basado en una serie de cursos (MOOC) impartidos a través de la plataforma edX desde la Universidad de Harvard, este libro es la mejor ilustración de la relación entre las dos discplinas que dan nombre al Master. En este curso utilizaremos los capítulos relacionados con uno de los cursos, que indico a continuación, pero si os lo miráis podréis encontrar relación con todas y cada una de las asignaturas del máster. 
  • El libro de Garet, Hastie y T., Tibshirani, R. An Introduction to Statistical Learning. Springer. que pdoeéis descargar gratuítamente de su web : http://www-bcf.usc.edu/~gareth/ISL/

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt