Modelos avanzados de minería de datos	Código: M2.855 : 6

Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Objetivos y competencias Contenidos Consulta de los recursos de aprendizaje de los que dispone la asignatura Consulta del modelo de evaluación

ATENCIÓN: Esta información recoge los apartados del plan docente de la asignatura durante el último semestre con docencia. Al iniciar el periodo de matrícula, podrás consultar el calendario y modelo de evaluación para el siguiente semestre en Trámites / Matrícula / Horarios de las pruebas de evaluación final.

Descripción

El objetivo de la minería de datos es extraer conocimiento en forma de patrones, reglas y otros modelos matemáticos y algorítmicos que describen la naturaleza subyacente a un problema concreto. Es sabido que no existe un modelo universal que funcione mejor que el resto para cualquier problema o conjunto de datos (el llamado "no free lunch theorem"), sino que es necesario analizar la naturaleza de dicho problema e intentar aplicar el mejor método posible, o bien una combinación de ellos.

En la actualidad, la investigación frontera en el ámbito de la minería de datos se basa, por una parte, en mejorar los algoritmos conocidos mediante el fine-tuning de sus parámetros, lo cual puede permitir obtener resultados ligeramente mejores para un conjunto de datos dado. En el escenario actual Big Data, debido a la aparición de conjuntos de datos masivos, de alta dimensionalidad y mayoritariamente categóricos, es necesario también ajustar los algoritmos tradicionales para incrementar su eficacia, dado que se incumplen muchas de las premisas en las cuales están basados (normalidad, suavidad, distancias bien definidas, etc.).

Por otra parte, también es posible mejorar los resultados obtenidos mediante la combinación de diferentes clasificadores, creando sistemas de decisión complejos a partir de cientos o miles de clasificadores más sencillos. Esto incluye el uso de esquemas de votación, la generación aleatoria de clasificadores a partir de un modelo preestablecido y la reutilización de decisiones tomadas anteriormente para mejorar la predicción actual.

Por lo tanto, en esta asignatura se describen algunos de los modelos y algoritmos considerados el estado del arte en minería de datos y se introduce el concepto de combinación de clasificadores, de forma que el estudiante comprenda la necesidad de analizar el problema a resolver desde diferentes perspectivas analíticas y proponga una solución que combine uno o más modelos en función de los objetivos a alcanzar.

La asignatura en el conjunto del plan de estudios

Esta asignatura pertenece al conjunto de asignaturas obligatorias dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura antes que el resto de asignaturas de análisis de datos, que se ofrecen como optativas dentro del máster.

Campos profesionales en el que se proyecta

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y la minería de datos (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Conocimientos previos

Para la realización de esta asignatura se presuponen conocimientos de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente la asignatura de "minería de datos", que introduce los conceptos básicos sobre los algoritmos supervisados y no supervisados.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Objetivos y competencias

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

Aplicar técnicas de extracción de características para reducir la dimensionalidad y capturar la estructura subyacente de los datos.
Avanzar en el conocimiento de diferentes modelos de clasificación, predicción y clustering: support vector machines, neural networks, deep learning, decision trees y random forests.
Determinar qué modelo o combinación de modelos es más adecuado para la resolución de un problema en función de la naturaleza de los datos.
Profundizar en el conocimiento de modelos basados en árboles de decisión y sus combinaciones.
Entender el concepto de "ensemble" y sus propiedades.
Crear clasificadores complejos mediante la combinación de clasificadores sencillos.

Contenidos

Introducción

Introducción a la minería de datos
Conceptos preliminares
Preparación de los datos

Validación y evaluación de resultados

Protocolos de validación
Evaluación de resultados

Extracción y selección de atributos

Extracción y selección de atributos

Métodos no supervisados

Agrupamiento jerárquico
El método k-means y derivados
Canopy clustering algorithm

Métodos supervisados

Algoritmo k-NN
Máquinas de soporte vectorial
Redes neuronales
Árboles de decisión
Métodos probabilísticos

Combinación de clasificadores

Combinación de clasificadores

Consulta de los recursos de aprendizaje de los que dispone la asignatura


Entreno y test	Audiovisual
Objetivos PLA2	Audiovisual
El método k-means y derivados	Audiovisual
Support Vector Machines (SVM)	Audiovisual
Tipología de problemas y métodos	Audiovisual
Redes neuronales artificiales (ANN)	Audiovisual
Combinación de clasificadores	Audiovisual
Evaluacion de resultados	Audiovisual
Algoritmo de agrupamiento Canopy	Audiovisual
Objetivos PLA3	Audiovisual
Árboles de decisión	Audiovisual
Objetivos PLA4	Audiovisual
Ou aglutinador: Acceso a bases de datos de artículos de congresos y revistas de minería de datos y machine learning	Web
Objetivos PLA1	Audiovisual
Agrupamiento jerárquico	Audiovisual
Algoritmo k-NN	Audiovisual
Repositorio de recursos sobre ciencia de datos	Web

Consulta del modelo de evaluación

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.