Machine Learning Código:  M0.163    Créditos:  5
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los materiales que dispone la asignatura   Materiales y herramientas de apoyo   Bibliografía y fuentes de información   Metodología   Información sobre la evaluación en la UOC   Consulta del modelo de evaluación   Evaluación Contínua   Evaluación final   Feedback  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Machine learning nació como una rama de la inteligencia artificial con el objetivo de que una maquina pudiera aprender a base de ejemplos usando algún algoritmo de aprendizaje automático. Por tanto, se necesita tener ejemplos, es decir datos, un algoritmo que ayude a aprender, basada en métodos estadísticos, y una máquina, ordenador en general, con suficiente potencia de cálculo y capacidad de memoria.

En el mundo actual se tiene una gran disponibilidad de datos, en particular en el mundo de la bioinformática. Esto hace que las técnicas de machine learning se apliquen cada vez con mayor frecuencia, como por ejemplo parala anotación automática de genomas y el análisis de los datos omicos obtenidos en experimentos con tecnologías de alto rendimiento.

En este curso de machine learning se presentan conceptos básicos, algoritmos y aplicaciones del machine learning en el ámbito de la bioinformática. En particular, se estudiaran las siguientes metodologías de aprendizaje supervisado: 

  • Algoritmo de k-vecinos más cercanos (kNN)
  • Naïve Bayes
  • Redes Neuronales Artificiales
  • Support Vector Machines (SVM)
  • Árboles de decisión y Random Forests
  • Hidden Markov Models (HMM)

En cada una de las anteriores metodologías haremos una introducción de los conceptos subyacentes y luego se implementa una aplicación usando el software R, dando importancia a la generación de informes dinámicos para la presentación de los resultados. Con esta finalidad se han seleccionado ejemplos reales en bioinformática o biomedicina que se tratarán durante el curso.

Además de los algoritmos hay una unidad didáctica, la III, de carácter transversal, dónde se estudiará la evaluación del rendimiento de un modelo. En esta unidad se presentan los métodos de evaluación de los clasificadores, como son las medidas de rendimiento: especificidad, sensibilidad, etc y las métodos de remuestreo: cross-validation, bootstrap, etc.

Amunt

Esta asignatura optativa refuerza el conocimiento en análisis predictivo e introuduce al estudiante al mundo del data science y el big data.

Amunt

En acabar aquesta assignatura l'estudiant coneixerà les eines bàsiques de data science que li habilitaran per incorporar-se en grups/empreses que desenvolupin activitat a l'àrea del machine learning i les ciències òmiques.

Exemples de perfils professionals que fan un ús important dels conceptes i tècniques desenvolupats en aquesta assignatura són els següents:

  • Investigadors de qualsevol àmbit de ciències de la vida que hagin d'analitzar dades d'experiments i presentar els resultats en informes reproduïbles.
  • Personal de suport en hospitals, laboratoris o centres de recerca que pugui necessitar tractar la informació generada per l'activitat pròpia del centre.
  • Analistes de dades, «data scientists», terme de recent aparició que es refereix a professionals amb coneixement d'anàlisi de dades però també d'informàtica i gestió de dades a la web entre altres habilitats.

Amunt

Esta asignatura puede afrontarse con los siguientes conocimientos previos.

  • Sería aconsejable cierta formación matemática -un curso de álgebra y cálculo y alguno de estadística básica- para poder avanzar rápidamente y fundamentar los conceptos que quizás se hayan adquirido desde una perspectiva práctica.
  • Conocimientos básicos en R.
  • Conocimientos básicos de Biologia Molecular.

Si en algún momento del curso, el estudiante precisa reforzar algún área se le facilitará las referencias en las cuales acudir para su formación, además de contar con las explicaciones del docente del aula.

Amunt

Es recomendable que el estudiante haya superado Regresión, Modelos y Métodos antes de cursar esta asignatura, y también que tenga adquiridas las competencias que se tratan en la asignatura Biología Molecular.

Amunt

 

Esta asignatura muestra un conjunto de técnicas de machine learning supervisado para el análisis de datos propios de las ciencias omicas.

Durante el curso se adquiriran las siguientes capacidades:

  • Identificar los distintos tipos de problemas de clasificación que surgen a partir de datos de origen biológico.
  • Conocer los principios básicos de las técnicas de de clasificación.
  • Comprender los métodos para el entreno de clasificadores.
  • Conocer las medidas de evaluación de clasificadores y saber evaluar cuándo un clasificador es mejor que otro y por qué.
  • Conocer los posibles problemas que pueden ocurrir en el aprendizaje de un clasificador, saber si se  pueden solucionar y saber cuáles son las soluciones que se pueden aplicar.
  • Ser capaces de entrenar y testear clasificadores.
  • Conocer y ser capaz, a nivel general, de utilizar los principales métodos de minería de datos, así como sus aplicaciones biológicas
  • Ser capaz de crear informes dinámicos que garanticen la reproducibilidad de los análisis.

 

Según la memoria del Máster Universitario en Bioinformática y Bioestadística, aprobada por las Agencias Oficiales de Calidad Docente Universitaria (AQU), en esta asignatura se garantizan las siguientes competencias:

  • Capacidad de iniciativa, de automotivación y de trabajar de forma independiente.
  • Capacidad para la comunicación oral y escrita para la vida académica y profesional.
  • Capacidad para proponer soluciones innovadoras y tomar de decisiones.
  • Capacidad para la comprensión, el análisis y la síntesis.
  • Conocer las principales bases de datos biológicas públicas y saber cómo explotar la información.
  • Tener la capacidad de entender y aplicar métodos de investigación de estadística y aprendizaje automático en el contexto de la bioinformática.
  • Capacidad de analizar un problema de bioinformática y ser capaz de identificar y definir los requerimientos informáticos y estadísticos apropiados para resolverlo.
  • Todas las competencias básicas y generales listadas en la memoria del Máster Universitario en Bioinformática y Bioestadística

 

Amunt

Los contenidos se organizan por temas, los cuales se agrupan en unidades, que es el bloque de información tal como se ve en el aula.

 

Unidad I. Introducción a Machine Learning

1.1. Los orígenes del Machine Learning.

1.2. ¿Cómo aprenden las máquinas?

1.3. Pasos en la implementación de Machine Learning.

1.4. La elección del algoritmo de Machine Learning

1.5. Elementos básicos de R.

1.6. Machine Learning con R e informes dinámicos.

 

Unidad II: Algoritmo de k-vecinos más cercanos (kNN)

2.1. Comprender la clasificación con los vecinos más cercanos.

2.2 El algoritmo kNN.

2.3 Distancias entre datos.

2.4 Elección de una k adecuada.

2.5. Preparando los datos

2.6. Ejemplo de aplicación.

 

Unidad III: Evaluación del rendimiento del modelo.

3.1. Medidas del rendimiento de un clasificador.

3.2. Matriz de confusión. Medidas asociadas

3.3. Curvas ROC

3.4. Técnicas de muestreo para la evaluación del rendimiento del modelo.

 

Unidad IV: Clasificación usando Naive Bayes.

4.1. Comprender la clasificación con Naive Bayes.

4.2. Conceptos básicos de los métodos Bayesianos.

4.3. El Algoritmo de Naive Bayes.

4.4. Ejemplo de aplicación.

 

Unidad V: Redes neuronales artificiales.

5.1. Comprender las redes neuronales artificiales.

5.2. Topologia de la red.

5.3. Backpropagation.

5.4. Ejemplo de aplicación.

5.5. Deep Learning

 

Unidad VI: Support Vector Machines (SVM).

6.1. Clasificación con hiperplanos.

6.2. Encontrar el hiperplano de margen máximo.

6.3. El uso de funciones kernel en problemas no lineales.

6.4. Ejemplo de aplicación.

 

Unidad VII: Árboles de decisión y Random Forests.

7.1. Comprender los árboles de decisión.

7.2. Poda del árbol de decisión.

7.3 Ejemplo de aplicación.

7.4. Comprender el Random Forests.

7.5. Ejemplo de aplicación.

 

Unidad VIII: Hidden Markov Models (HMM)

8.1 Comprender los Hidden Markov Models.

8.2 Algoritmos para Hidden Markov Models.

8.3 Ejemplo de aplicación.

Amunt

Material Soporte
Introducció a l'aprenentatge automàtic (Notebook) Código fuente
Aprenentatge supervisat: problemes de classificació (Notebook) Código fuente
Aprenentatge supervisat: problemes de regressió (Notebook) Código fuente
Xarxes neuronals: fonaments i intuïcions (Notebook) Código fuente
Neuronal networks examples (Notebook) Código fuente
Introducción al machine learning Audiovisual
Introducció al machine learning Audiovisual
Algoritmos de machine learning Audiovisual
Algorismes de machine learning Audiovisual
Python: introducción al lenguaje de programación Audiovisual
Python: introducció al llenguatge de programació Audiovisual
Ús de Google Colaboratory per a Machine Learning Audiovisual
Uso de Google Colaboratory para Machine Learning Audiovisual
Biaixos de sexe i gènere en intel·ligència artificial i salut Audiovisual
Sesgos de sexo y género en inteligencia artificial y salud Audiovisual

Amunt

En esta asignatura se usa como manual del curso el siguiente libro:

Lantz (2015) Machine learning with R. Second edition. Ed. Packt

Esta disponible como libro electonico en la biblioteca.

 

Tambíen se usaran materiales elaborados por el equipo docente, que estaran disponibles en el aula.

Amunt

Bibliografía complementaria

 

1. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani. (2013). An Introduction to Statistical Learning (with Applications in R): http://www-bcf.usc.edu/~gareth/ISL/ 

 

2. Hastie, R. Tibshirani and J. Friedman (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Edition). Springer.

 

3. Bishop (2006). Pattern Recognition and Machine Learning. Springer

 

4. Schölkopf, A. J. Smola (2002). Learning with Kernels: Support Vector Machines, Regularization, Optimization and Beyond. MIT press.·

Amunt

Para cada unidad se suministrará una guía de estudio en donde se señalará los materiales de lectura correspondientes al tema, con indicaciones sobre qué puntos del material se corresponden con cada punto del tema y con qué detalle deben tratarse. Los materiales de lectura pueden consistir en capítulos o apartados del material docente de Bioinformática de la UOC o bien en tutoriales, manuales o artículos que se proporcionaran en formato .pdf o bien en forma de hiperenlaces.

Durante el curso se irán realizando las siguientes actividades:

1. Lectura del material didáctico: esta lectura se debe hacer siguiendo las orientaciones de la guía y conforma la primera actividad de cada bloque que deberá realizar el estudiante de forma individual. Con ello se pretende que el estudiante se familiarice con el contenido de la materia así como con el material en sí mismo, el cual se transformará en material de consulta para el estudiante durante el desarrollo del módulo. Lógicamente esta actividad se debe desarrollar en los primeros días del bloque, para poder abordar posteriormente el debate y la PEC.

2. Debates: esta segunda actividad que repetiremos en los unidades en donde no se realice una PEC, consistirá en un debate abierto sobre los aspectos complementarios de la unidad. El debate debe ser el foro en donde se ponga de manifiesto la comprensión y valoración crítica del material estudiado (artículos, reviews, etc). 

3. PECs (Pruebas de Evaluación Contínua): a lo largo de la asignatura deberán resolverse tres PECs, una tras las tres primeras unidades, otra tras la séptima unidad y otra hacia el final de la asignatura. Las PECs pueden combinar ambos objetivos, es decir, desarrollar conceptos y habilidades, e incluir resolución de problemas de modelización y de análisis de datos.

 

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.


Ponderación de las calificaciones

Opción para superar la asignatura: EC

Nota final de asignatura: EC

Amunt

Para superar esta asignatura es condición necesaria (no suficiente): 

  • Realizar y entregar en el plazo fijado dos de las tres primeras pruebas de evaluación propuestas: PEC1, PEC2 y Debate.
  • Realizar y entregar en el plazo fijado la última prueba de evaluación continuada: PEC3.
  • Participar en los debates asociados a dichas PEC, siguiendo las orientaciones del consultor, y que servirán para complementar la nota de cada PEC.

En la calificación final la dos primeras pruebas de evaluación tendrán un peso del 30% cada una.La PEC3 cuenta un 40%.

Durante la corrección de las PECs se valorará especialmente: 

  • Comprensión y relación de los conceptos trabajados. 
  • Capacidad de presentación, elaboración de informes dinámicos y redacción de los conceptos y análisis contenidos en las pruebas de evaluación continuada. 
  • Dominio de la argumentación on-line como mecanismo de confrontación y creación de conocimiento, demostrada a través de la participación en el foro de debates. 

Soluciones de las PEC: 

  • Las soluciones a las PEC se harán públicas al mismo tiempo que las notas obtenidas. De este modo podréis contrastar vuestras respuestas con las soluciones correctas y así modificar ideas erróneas o incidir en el estudio de los puntos más flojos. 
  • Se presentará, como solución, una PEC mosaico con las respuestas más completas o con un mejor enfoque de vuestras propias PEC.

La planificación propuesta se desarrolla a lo largo de quince (±1) semanas (5 créditos) a las que el estudiante debe ajustarse para un adecuado seguimiento de la asignatura. Dentro de estas semanas existen cuatro fechas clave que se comunicaran tras el inicio de la asignatura, correspondientes a las entregas de las PEC y del Debate de la asignatura.

Amunt

Esta asignatura se supera a través de la Evaluación Continua. Así pues, la Nota Final de la Asignatura será la nota de Evaluación Continua.

Amunt

 

El consultor le guiará y orientará a través del Tablón del aula para que puedas hacer un buen seguimiento de la asignatura. También responderá las dudas que vayan saliendo en el Foro del aula así como las consultas y comentarios enviados a su buzón personal.

El consultor también hará un seguimiento personalizado de la evaluación continua, revisará todas las PAC entregadas y las comentará de forma cualitativa a nivel grupal y / o individual la resolución. Estos comentarios le ayudarán a progresar en su aprendizaje y adquirir el conjunto de las competencias.

Amunt