Machine Learning Código:  M0.163    :  5
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura. Os servirá para planificar la matrícula (consultad si la asignatura se ofrece este semestre en el espacio del Campus Más UOC / La Universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).

Machine learning nació como una rama de la inteligencia artificial con el objetivo de que una maquina pudiera aprender a base de ejemplos usando algún algoritmo de aprendizaje automático. Por tanto, se necesita tener ejemplos, es decir datos, un algoritmo que ayude a aprender, basada en métodos estadísticos, y una máquina, ordenador en general, con suficiente potencia de cálculo y capacidad de memoria.

En el mundo actual se tiene una gran disponibilidad de datos, en particular en el mundo de la bioinformática. Esto hace que las técnicas de machine learning se apliquen cada vez con mayor frecuencia, como por ejemplo parala anotación automática de genomas y el análisis de los datos omicos obtenidos en experimentos con tecnologías de alto rendimiento.

En este curso de machine learning se presentan conceptos básicos, algoritmos y aplicaciones del machine learning en el ámbito de la bioinformática. En particular, se estudiaran las siguientes metodologías de aprendizaje supervisado: 

  • Algoritmo de k-vecinos más cercanos (kNN)
  • Naïve Bayes
  • Redes Neuronales Artificiales y Deep Learning
  • Support Vector Machines (SVM)
  • Árboles de decisión y Random Forests

En cada una de las anteriores metodologías haremos una introducción de los conceptos subyacentes y luego se implementa una aplicación usando el software R, dando importancia a la generación de informes dinámicos para la presentación de los resultados. Con esta finalidad se han seleccionado ejemplos reales en bioinformática o biomedicina que se tratarán durante el curso. Algunas unidades también se desarrollarán usando el lenguaje Python.

Además de los algoritmos hay una unidad didáctica, la III, de carácter transversal, dónde se estudiará la evaluación del rendimiento de un modelo. En esta unidad se presentan los métodos de evaluación de los clasificadores, como son las medidas de rendimiento: especificidad, sensibilidad, etc y las métodos de remuestreo: cross-validation, bootstrap, etc.

Amunt

Esta asignatura optativa refuerza el conocimiento en análisis predictivo e introuduce al estudiante al mundo del data science y el big data.

Amunt

Al finalizar esta asignatura el estudiante conocerá las herramientas básicas de fecha science que le habilitarán para incorporarse en grupos / empresas que desarrollen actividad en el área del machine learning y las ciencias ómicas.

Ejemplos de perfiles profesionales que hacen un uso importante de los conceptos y técnicas desarrollados en esta asignatura son los siguientes:

  • Investigadores de cualquier ámbito de ciencias de la vida que deban analizar datos de experimentos y presentar los resultados en informes reproducibles.
  • Personal de apoyo en hospitales, laboratorios o centros de investigación que pueda necesitar tratar la información generada por la actividad propia del centro.
  • Analistas de datos, «data scientists», término de reciente aparición que se refiere profesionales con conocimiento de análisis de datos pero también de informática y gestión de datos en la web entre otras habilidades.

Amunt

Esta asignatura puede afrontarse con los siguientes conocimientos previos.

  • Sería aconsejable cierta formación matemática -un curso de álgebra y cálculo y alguno de estadística básica- para poder avanzar rápidamente y fundamentar los conceptos que quizás se hayan adquirido desde una perspectiva práctica.
  • Conocimientos básicos en R y/o python.

Si en algún momento del curso, el estudiante precisa reforzar algún área se le facilitará las referencias en las cuales acudir para su formación, además de contar con las explicaciones del docente del aula.

Amunt

Para cursar esta assignatura se recomienda haber superado las siguientes asignaturas:

  • Biologia molecular
  • Regressión, modelos i método

Amunt

 

Esta asignatura muestra un conjunto de técnicas de machine learning supervisado para el análisis de datos propios de las ciencias omicas.

Durante el curso se adquiriran las siguientes capacidades:

  • Identificar los distintos tipos de problemas de clasificación que surgen a partir de datos de origen biológico.
  • Conocer los principios básicos de las técnicas de de clasificación.
  • Comprender los métodos para el entreno de clasificadores.
  • Conocer las medidas de evaluación de clasificadores y saber evaluar cuándo un clasificador es mejor que otro y por qué.
  • Conocer los posibles problemas que pueden ocurrir en el aprendizaje de un clasificador, saber si se  pueden solucionar y saber cuáles son las soluciones que se pueden aplicar.
  • Ser capaces de entrenar y testear clasificadores.
  • Conocer y ser capaz, a nivel general, de utilizar los principales métodos de minería de datos, así como sus aplicaciones biológicas
  • Ser capaz de crear informes dinámicos que garanticen la reproducibilidad de los análisis.

 

Según la memoria del Máster Universitario en Bioinformática y Bioestadística, aprobada por las Agencias Oficiales de Calidad Docente Universitaria (AQU), en esta asignatura se garantizan las siguientes competencias:

  • Capacidad de iniciativa, de automotivación y de trabajar de forma independiente.
  • Capacidad para la comunicación oral y escrita para la vida académica y profesional.
  • Capacidad para proponer soluciones innovadoras y tomar de decisiones.
  • Capacidad para la comprensión, el análisis y la síntesis.
  • Conocer las principales bases de datos biológicas públicas y saber cómo explotar la información.
  • Tener la capacidad de entender y aplicar métodos de investigación de estadística y aprendizaje automático en el contexto de la bioinformática.
  • Capacidad de analizar un problema de bioinformática y ser capaz de identificar y definir los requerimientos informáticos y estadísticos apropiados para resolverlo.
  • Todas las competencias básicas y generales listadas en la memoria del Máster Universitario en Bioinformática y Bioestadística

 

Amunt

Los contenidos se organizan por temas, los cuales se agrupan en unidades, que es el bloque de información tal como se ve en el aula.

 

Unidad I. Introducción a Machine Learning

1.1. Los orígenes del Machine Learning.

1.2. ¿Cómo aprenden las máquinas?

1.3. Pasos en la implementación de Machine Learning.

1.4. La elección del algoritmo de Machine Learning

1.5. Elementos básicos de R.

1.6. Machine Learning con R e informes dinámicos.

 

Unidad II: Algoritmo de k-vecinos más cercanos (kNN)

2.1. Comprender la clasificación con los vecinos más cercanos.

2.2 El algoritmo kNN.

2.3 Distancias entre datos.

2.4 Elección de una k adecuada.

2.5. Preparando los datos

2.6. Ejemplo de aplicación.

 

Unidad III: Evaluación del rendimiento del modelo.

3.1. Medidas del rendimiento de un clasificador.

3.2. Matriz de confusión. Medidas asociadas

3.3. Curvas ROC

3.4. Técnicas de muestreo para la evaluación del rendimiento del modelo.

 

Unidad IV: Clasificación usando Naive Bayes.

4.1. Comprender la clasificación con Naive Bayes.

4.2. Conceptos básicos de los métodos Bayesianos.

4.3. El Algoritmo de Naive Bayes.

4.4. Ejemplo de aplicación.

 

Unidad V: Redes neuronales artificiales.

5.1. Comprender las redes neuronales artificiales.

5.2. Topologia de la red.

5.3. Backpropagation.

5.4. Ejemplo de aplicación.

5.5. Deep Learning

 

Unidad VI: Support Vector Machines (SVM).

6.1. Clasificación con hiperplanos.

6.2. Encontrar el hiperplano de margen máximo.

6.3. El uso de funciones kernel en problemas no lineales.

6.4. Ejemplo de aplicación.

 

Unidad VII: Árboles de decisión y Random Forests.

7.1. Comprender los árboles de decisión.

7.2. Poda del árbol de decisión.

7.3 Ejemplo de aplicación.

7.4. Comprender el Random Forests.

7.5. Ejemplo de aplicación.

 

Unidad VIII: Aplicación abierta de Machine Learning

8.1 Búsqueda de bases de datos públicas.

8.2 Implementación de un pipeline de Machine Learning en una base de datos pública.

Amunt

Introducció a l'aprenentatge automàtic (Notebook) Web
Aprenentatge supervisat: problemes de classificació (Notebook) Web
Aprenentatge supervisat: problemes de regressió (Notebook) Web
Xarxes neuronals: fonaments i intuïcions (Notebook) Web
Casos d'ús en xarxes neuronals (Notebook) Web
Introducción al machine learning Audiovisual
Introducció al machine learning Audiovisual
Algoritmos de machine learning Audiovisual
Algorismes de machine learning Audiovisual
Python: introducción al lenguaje de programación Audiovisual
Python: introducció al llenguatge de programació Audiovisual
Ús de Google Colaboratory per a Machine Learning Audiovisual
Uso de Google Colaboratory para Machine Learning Audiovisual
Biaixos de sexe i gènere en intel·ligència artificial i salut Audiovisual
Sesgos de sexo y género en inteligencia artificial y salud Audiovisual

Amunt

En esta asignatura se usa como manual del curso el siguiente libro:

Lantz (2015) Machine learning with R. Second edition. Ed. Packt

Esta disponible como libro electonico en la biblioteca.

 

Tambíen se usaran materiales elaborados por el equipo docente, que estaran disponibles en el aula.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente –incluidas las pruebas finales– o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt