Regressió, models i mètode Codi:  M0.156    :  5
Consulta de les dades generals   Descripció   L'assignatura en el conjunt del pla d'estudis   Camps professionals en què es projecta   Coneixements previs   Objectius i competències   Continguts   Consulta dels recursos d'aprenentatge de què disposa l'assignatura   Recursos d'aprenentatge i eines de suport   Informacions sobre l'avaluació a la UOC   Consulta del model d'avaluació  
Aquest és el pla docent de l'assignatura. Us servirà per planificar la matrícula (consulteu si l'assignatura s'ofereix aquest semestre a l'espai del Campus Més UOC / La Universitat / Plans d'estudis). Un cop comenci la docència, heu de consultar-lo a l'aula. (El pla docent pot estar subjecte a canvis.)

En ciència és molt habitual intentar construir models que serveixin per explicar la relació entre diverses variables o per predir el comportament d'un sistema. El paradigma dels models matemàtics ens ho ofereix la física clàssica, on per exemple podem predir un eclipsi d'avui a molts anys a partir de la massa i posició de la terra, la lluna i el sol.

L'estadística ens permet construir models en situacions on les relacions no són tan clares, és a dir no busca establir relacions funcionals del tipus I=f(X) sinó que permet treballar amb relacions aproximades I=f(X)+E, on "E" representa" l'error d'aproximació que cometem en suposar que la relació entre X i I ve descrita pel model "f". L'única restricció que imposarem és que l'error sigui aleatori amb unes certes condicions i s'ajusti a un tipus de distribució.

En aquesta assignatura anem a treballar amb la situació més senzilla possible entre els models estocàstics en la qual se suposa que "f" és una funció lineal -és a dir del tipus: b0+b1*X1+b2*X2+...-.

Veurem com a partir de suposar una relació lineal entre una variable resposta quantitativa i unes variables explicatives contínues (Regressió),  categòriques (Análisi sde la variància) o mixtes (Anàlisis de la covariància) és possible ajustar un model que ens permeti descriure la relació entre les variables amb finalitats explicatives o predictives.

Amunt

Aquesta assignatura es fonamenta en models probabilístics i en la inferència estadística. 

Des de l'assignatura es planteja l'estudi d'un tipus de relació senzill (lineal) que més endavant es pot estendre a models de regressió més complexes (com la regressió logística o la de Cox), a versions multivariants de les proves introduïdes (com el MANOVA) o a la utilització de models lineals per la classificació (com l'anàlisi discriminant).

Amunt

Tant els models de regressió com els d'anàlisi de la variància s'utilitzen de forma exhaustiva en les múltiples variants de la bioestadística:

  • En anàlisi de microarrays o ultraseqüenciació (bioinformàtica)
  • En estudis clínics i epidemològics (bioestadística clínica i espidemologia)
  • En farmacologia, agricultura, psicometria i pràcticament en qualsevol disciplina que apliqui l'estadística a les ciències de la vida.

En tots els exercicis que es demanaran hi haurà enunciats de tots els camps mencionats per tal que els alumnes tinguin una visió general de l'aplicabilitat de la metodologia desenvolupada.

Amunt

En principi és possible que es pugui seguir l'assignatura sense coneixements previs, però es podrà seguir molt millor amb una bona base d'estadística com la que proporcionen les assignatures d'Inferència estadística i Software estadístic.

Amunt

 L'objectiu d'aquesta assignatura és que l'alumne aconsegueixi conèixer les eines necessàries per estudiar la relació  entre  variables quan aquesta es pot expressar com una funció lineal d'una de la variables respecte a les altres. Aquest estudi es concreta a  identificar el  model, establir els mecanismes necessaris per estimar el valor dels paràmetres desconeguts del mateix,  verificar  les qüestions que es puguin plantejar així com els mecanismes que permetin diagnosticar l'adequació del model i finalment decidir què passos realitzar quan algun dels requisits no es compleixi.

  Les competències a adquirir al llarg de l'assignatura seran:

  • Ser capaç d'identificar les variables del problema: quin és la variable resposta i quins són les variables explicatives.
  • Saber estimar els paràmetres dels models de regressió i saber determinar la precisió de l'estimació.
  • Saber plantejar les qüestions d'interès en termes de contrastos d'hipòtesis i saber resoldre'ls.
  • Saber utilitzar correctament els mecanismes de diagnosis del model i saber com actuar quan es presentin problemes en algun dels requisits de la metodologia.
  • Saber resoldre els contrastos d'hipòtesis plantejats.
  • Saber quan s'ha d'utilitzar un disseny o un altre per capturar adequadament la informació d'un experiment planejat

Amunt

1. Introducció

1.1 Un exemple
1.2 Ajust a unes dades: recta de regressió
1.3 El model lineal
1.4 Les condicions de Gauss-Markov
1.5 Història


2. Estimació

2.1 Representació matricial del model lineal
2.2 Estimació per mínims quadrats
2.3 Un exemple
2.4 La descomposició QR (opcional)
2.5 Cas de rang no màxim
2.6 Funcions paramètriques estimables
2.7 Teorema de Gauss-Markov
2.8 Ortogonalidad (opcional)


3. Inferència

3.1 Contrast de models
3.2 Contrast d'hipòtesis paramètriques. Exemples
3.3 Contrast amb funcions paramètriques estimables
3.4 Test de permutacions
3.5 Intervals de confiança per als coeficients de regressió
3.6 Intervals de confiança amb bootstrap (opcional)

4. Regressió

4.1 Regressió lineal simple.

  • Estimació dels coeficients
  • Mesures d'ajust
  • Inferència sobre els paràmetres de regressió
  • Recta de regressió que pasa per l'origen
  • Correlació
  • Caràcter lineal de la regressió simple
  • Exemple d'Anscombe

4.2 Comparació de rectas

  • Paral.lelisme
  • Coincidència

4.3 Regressió lineal múltiple

  • Mesures d'ajust
  • Inferència sobre els paràmetres de regressió
  • Extrapolació oculta
  • Contrast de significació
  • Significació parcial
  • Coeficients de regressió estandarizats

4.4 Prediccions

  • Intervals de confiança per a les prediccions
  • Regions de confiança

4.5 Autoregressio¿

4.6 Extrapolació

5. Diagnosi

5.1 Tipus de residus

5.2 Hipòtesi de l'error

  • Homocedasticitat
  • Normalitat
  • Correlació

5.3 Observacions inusuals

  • Leverage
  • Residus atípics (outliers)
  • Mesures de la influència

5.4 Contrasts sobre el model

5.5 Multicolinealitat


6. Mètodes alternatius

6.1 Canvis d'escala
6.2 Transformació de les variables
6.3 Polinomis
6.4 Regressió a trossos
6.5 Mínims quadrats generalitzats
6.6 Mínims quadrats amb pesos
6.6 Una recta resistent
6.7 Regressió robusta
6.8 Regressió logística


7. Selecció de variables i regularització

7.1 Selecció pas a pas
7.2 Selecció per criteri
7.3 Regressió amb components principals
7.4 PLS
7.5 Ridge Regression
7.6 LASSO


9. Variables predictoras categòriques

9.1 Un factor amb dos nivells
9.2 Un factor multinivell
9.3 Codificació dels nivells
9.4 ANOVA
9.5 ANCOVA

Amunt

Introducción al modelo lineal Audiovisual
Introducció al model lineal Audiovisual
Estimación del modelo lineal Audiovisual
Estimació del model lineal Audiovisual
Inferencia en el modelo lineal Audiovisual
Inferència en el model lineal Audiovisual
Regresión lineal simple y múltiple Audiovisual
Regressió lineal simple i múltiple Audiovisual
Diagnósticos: comprobando las suposiciones (Presentación) Audiovisual
Diagnòstics: comprovant les suposicions (Presentació) Audiovisual
Métodos alternativos Audiovisual
Mètodes alternatius Audiovisual
Selección de variables y regularización Audiovisual
Selecció de variables i regularització Audiovisual
Variables predictoras categóricas Audiovisual
Variables predictores categòriques Audiovisual
Análisis de la covarianza (ANCOVA) Audiovisual
Anàlisi de la covariància (ANCOVA) Audiovisual
Análisis de la varianza (ANOVA) Audiovisual
Anàlisi de la variança (ANOVA) Audiovisual
Diagnosi: exemples Audiovisual
Models lineals amb matriu de disseny sense rang màxim Audiovisual
Contraste de hipótesis lineales Audiovisual
Diagnosis: elementos Audiovisual
El modelo lineal Audiovisual
Diagnòstics: comprovant les suposicions Audiovisual
El model lineal Audiovisual
Diagnosis: ejemplos Audiovisual
Modelos lineales con matriz de diseño sin rango máximo Audiovisual
Contrast d'hipòtesis lineals Audiovisual
7. Contraste de hipótesis PDF
10. Regressió lineal simple PDF
11. Regresión lineal múltiple PDF
5. Teorema del límit central PDF
6. Intervalos de confianza PDF
7. Contrast d'hipòtesis PDF
11. Regressió lineal múltiple PDF
10. Regresión lineal simple PDF
6. Intervals de confiança PDF
5. Teorema del límite central PDF
12. El análisis de la varianza (ANOVA) PDF
12. L'anàlisi de la variància (ANOVA) PDF

Amunt

L'equip docent aportarà un vídeo de presentació de cada mòdul.

El material bàsic per a aquesta assignatura és el llibre de Julian Faraway. Linear Models with R que teniu disponible al campus. També farem servir altres textos la referència més precisa teniu a l'apartat de bibliografia. A més de la bibliografia, entre els recursos de cada mòdul hi ha alguns tutorials específics en format PDF, scripts amb instruccions de R i vídeos.

Cada mòdul tindrà un bon conjunt d'exercicis, alguns opcionals i amb diferents nivells de dificultat. Els exercicis són essencials per a l'aprenentatge dels mètodes de regressió.

Els marcats amb (*) seran opcionals.

Els marcats amb (**), a més d'opcionals, són de major dificultat.

Referències complementàries principals

  • El llibre de Francesc Carmona, "Models Lineals", és semblat al de Faraway, encara que en alguns aspectes és més detallat i altres estan absents. Com veureu molts dels exercicis plantejats s'extreuen d'aquest llibre pel que també disposareu d'alguns capítols al campus.
  • Els materials del curs "Regression Methods" de la Penn State University:  https://onlinecourses.science.psu.edu/stat501/

Podeu veure el llibre "Models lineals" com una font en la qual ampliar alguns conceptes i on trobar major detall que en el llibre de Faraway, mentre que les notes de la Penn State són més com unes anotacions que podeu llegir per aclarir els conceptes que discuteix el llibre de Faraway.

Materials complementaris auxiliars

  • El llibre d'Irizarry i Love és un text completament diferent. Basat en una sèrie de cursos (MOOC) impartits a través de la plataforma edX des de la Universitat d'Harvard, aquest llibre és la millor il·lustració de la relació entre les dues discplinas que donen nom al Master. En aquest curs utilitzarem els capítols relacionats amb un dels cursos, que indico a continuació, però si us ho mireu podreu trobar relació amb totes i cadascuna de les assignatures del master. 
  • El llibre de Garet, Fastiguegi i T., Tibshirani, R. An Introduction to Statistical Learning. Springer. que pdoeéis descarregar gratuítamente del seu web : http://www-bcf.usc.edu/~gareth/ISL/

Amunt

El procés d'avaluació es fonamenta en el treball personal de l'estudiant i pressuposa l'autenticitat de l'autoria i l'originalitat dels exercicis realitzats.

La manca d'autenticitat en l'autoria o d'originalitat de les proves d'avaluació; la còpia o el plagi; l'intent fraudulent d'obtenir un resultat acadèmic millor; la col·laboració, l'encobriment o l'afavoriment de la còpia, o la utilització de material o dispositius no autoritzats durant l'avaluació, entre d'altres, són conductes irregulars que poden tenir conseqüències acadèmiques i disciplinàries greus.

D'una banda, si es detecta alguna d'aquestes conductes irregulars, pot comportar el suspens (D/0) en les activitats avaluables que es defineixin en el pla docent –incloses les proves finals– o en la qualificació final de l'assignatura, sigui perquè s'han utilitzat materials o dispositius no autoritzats durant les proves, com ara xarxes socials o cercadors d'informació a internet, perquè s'han copiat fragments de text d'una font externa (internet, apunts, llibres, articles, treballs o proves d'altres estudiants, etc.) sense la citació corresponent, o perquè s'ha practicat qualsevol altra conducta irregular.

De l'altra, i d'acord amb les normatives acadèmiques, les conductes irregulars en l'avaluació, a més de comportar el suspens de l'assignatura, poden donar lloc a la incoació d'un procediment disciplinari i a l'aplicació, si escau, de la sanció que correspongui.

Amunt

Aquesta assignatura només es pot superar a partir de l'avaluació contínua (AC). La nota final d'avaluació contínua esdevé la nota final de l'assignatura. La fórmula d'acreditació de l'assignatura és la següent: AC.

 

Amunt