Modelos avanzados de minería de datos Código:  M2.855    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
ATENCIÓN: Este es el plan docente de la asignatura para el primer semestre del curso 2020-2021. Os servirá para planificar la matrícula. Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).

El objetivo de la minería de datos es extraer conocimiento en forma de patrones, reglas y otros modelos matemáticos y algorítmicos que describen la naturaleza subyacente a un problema concreto. Es sabido que no existe un modelo universal que funcione mejor que el resto para cualquier problema o conjunto de datos (el llamado "no free lunch theorem"), sino que es necesario analizar la naturaleza de dicho problema e intentar aplicar el mejor método posible, o bien una combinación de ellos.

En la actualidad, la investigación frontera en el ámbito de la minería de datos se basa, por una parte, en mejorar los algoritmos conocidos mediante el fine-tuning de sus parámetros, lo cual puede permitir obtener resultados ligeramente mejores para un conjunto de datos dado. En el escenario actual Big Data, debido a la aparición de conjuntos de datos masivos, de alta dimensionalidad y mayoritariamente categóricos, es necesario también ajustar los algoritmos tradicionales para incrementar su eficacia, dado que se incumplen muchas de las premisas en las cuales están basados (normalidad, suavidad, distancias bien definidas, etc.).

Por otra parte, también es posible mejorar los resultados obtenidos mediante la combinación de diferentes clasificadores, creando sistemas de decisión complejos a partir de cientos o miles de clasificadores más sencillos. Esto incluye el uso de esquemas de votación, la generación aleatoria de clasificadores a partir de un modelo preestablecido y la reutilización de decisiones tomadas anteriormente para mejorar la predicción actual.

Por lo tanto, en esta asignatura se describen algunos de los modelos y algoritmos considerados el estado del arte en minería de datos y se introduce el concepto de combinación de clasificadores, de forma que el estudiante comprenda la necesidad de analizar el problema a resolver desde diferentes perspectivas analíticas y proponga una solución que combine uno o más modelos en función de los objetivos a alcanzar.

Amunt

Esta asignatura pertenece al conjunto de asignaturas obligatorias dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura antes que el resto de asignaturas de análisis de datos, que se ofrecen como optativas dentro del máster.

Amunt

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y la minería de datos (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

Para la realización de esta asignatura se presuponen conocimientos de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente la asignatura de "minería de datos", que introduce los conceptos básicos sobre los algoritmos supervisados y no supervisados.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Amunt

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

  • Aplicar técnicas de extracción de características para reducir la dimensionalidad y capturar la estructura subyacente de los datos.
  • Avanzar en el conocimiento de diferentes modelos de clasificación, predicción y clustering: support vector machines, neural networks, deep learning, decision trees y random forests.
  • Determinar qué modelo o combinación de modelos es más adecuado para la resolución de un problema en función de la naturaleza de los datos.
  • Profundizar en el conocimiento de modelos basados en árboles de decisión y sus combinaciones. 
  • Entender el concepto de "ensemble" y sus propiedades.
  • Crear clasificadores complejos mediante la combinación de clasificadores sencillos.

Amunt

Introducción

  • Introducción a la minería de datos
  • Conceptos preliminares
  • Preparación de los datos

Validación y evaluación de resultados

  • Protocolos de validación
  • Evaluación de resultados

Extracción y selección de atributos

  • Extracción y selección de atributos

Métodos no supervisados

  • Agrupamiento jerárquico
  • El método k-means y derivados
  • Canopy clustering algorithm

Métodos supervisados

  • Algoritmo k-NN
  • Máquinas de soporte vectorial
  • Redes neuronales
  • Árboles de decisión
  • Métodos probabilísticos

Combinación de clasificadores

  • Combinación de clasificadores

Amunt

Redes neuronales artificiales (ANN) Audiovisual
Algoritmo k-NN Audiovisual
Evaluacion de resultados Audiovisual
Árboles de decisión Audiovisual
Agrupamiento jerárquico Audiovisual
Tipología de problemas y métodos Audiovisual
Entreno y test Audiovisual
Objetivos PLA1 Audiovisual
Algoritmo de agrupamiento Canopy Audiovisual
Objetivos PLA3 Audiovisual
Combinación de clasificadores Audiovisual
Espacio de recursos de ciencia de datos Web
Support Vector Machines (SVM) Audiovisual
Objetivos PLA4 Audiovisual
El método k-means y derivados Audiovisual
Ou aglutinador: Acceso a bases de datos de artículos de congresos y revistas de minería de datos y machine learning Web
Objetivos PLA2 Audiovisual

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt