Modelos avanzados de minería de datos Código:  M2.855    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2022-2023. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

El objetivo de la minería de datos es extraer conocimiento en forma de patrones, reglas y otros modelos matemáticos y algorítmicos que describen la naturaleza subyacente a un problema concreto. Es sabido que no existe un modelo universal que funcione mejor que el resto para cualquier problema o conjunto de datos (el llamado "no free lunch theorem"), sino que es necesario analizar la naturaleza de dicho problema e intentar aplicar el mejor método posible, o bien una combinación de ellos.

En la actualidad, la investigación frontera en el ámbito de la minería de datos se basa, por una parte, en mejorar los algoritmos conocidos mediante el fine-tuning de sus parámetros, lo cual puede permitir obtener resultados ligeramente mejores para un conjunto de datos dado. En el escenario actual Big Data, debido a la aparición de conjuntos de datos masivos, de alta dimensionalidad y mayoritariamente categóricos, es necesario también ajustar los algoritmos tradicionales para incrementar su eficacia, dado que se incumplen muchas de las premisas en las cuales están basados (normalidad, suavidad, distancias bien definidas, etc.).

Por otra parte, también es posible mejorar los resultados obtenidos mediante la combinación de diferentes clasificadores, creando sistemas de decisión complejos a partir de cientos o miles de clasificadores más sencillos. Esto incluye el uso de esquemas de votación, la generación aleatoria de clasificadores a partir de un modelo preestablecido y la reutilización de decisiones tomadas anteriormente para mejorar la predicción actual.

Por lo tanto, en esta asignatura se describen algunos de los modelos y algoritmos considerados el estado del arte en minería de datos y se introduce el concepto de combinación de clasificadores, de forma que el estudiante comprenda la necesidad de analizar el problema a resolver desde diferentes perspectivas analíticas y proponga una solución que combine uno o más modelos en función de los objetivos a alcanzar.

Amunt

Esta asignatura pertenece al conjunto de asignaturas obligatorias dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura antes que el resto de asignaturas de análisis de datos, que se ofrecen como optativas dentro del máster.

Amunt

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y la minería de datos (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

Para la realización de esta asignatura se presuponen conocimientos de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente la asignatura de "minería de datos", que introduce los conceptos básicos sobre los algoritmos supervisados y no supervisados.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Amunt

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

  • Aplicar técnicas de extracción de características para reducir la dimensionalidad y capturar la estructura subyacente de los datos.
  • Avanzar en el conocimiento de diferentes modelos de clasificación, predicción y clustering: support vector machines, neural networks, deep learning, decision trees y random forests.
  • Determinar qué modelo o combinación de modelos es más adecuado para la resolución de un problema en función de la naturaleza de los datos.
  • Profundizar en el conocimiento de modelos basados en árboles de decisión y sus combinaciones. 
  • Entender el concepto de "ensemble" y sus propiedades.
  • Crear clasificadores complejos mediante la combinación de clasificadores sencillos.

Amunt

Introducción

  • Introducción a la minería de datos
  • Conceptos preliminares
  • Preparación de los datos

Validación y evaluación de resultados

  • Protocolos de validación
  • Evaluación de resultados

Extracción y selección de atributos

  • Extracción y selección de atributos

Métodos no supervisados

  • Agrupamiento jerárquico
  • El método k-means y derivados
  • Canopy clustering algorithm

Métodos supervisados

  • Algoritmo k-NN
  • Máquinas de soporte vectorial
  • Redes neuronales
  • Árboles de decisión
  • Métodos probabilísticos

Combinación de clasificadores

  • Combinación de clasificadores

Amunt

Objetivos PLA1 Audiovisual
Tipología de problemas y métodos Audiovisual
Evaluacion de resultados Audiovisual
Entreno y test Audiovisual
Objetivos PLA2 Audiovisual
El método k-means y derivados Audiovisual
Algoritmo de agrupamiento Canopy Audiovisual
Objetivos PLA3 Audiovisual
Algoritmo k-NN Audiovisual
Support Vector Machines (SVM) Audiovisual
Redes neuronales artificiales (ANN) Audiovisual
Objetivos PLA4 Audiovisual
Combinación de clasificadores Audiovisual
Árboles de decisión Audiovisual
Ou aglutinador: Acceso a bases de datos de artículos de congresos y revistas de minería de datos y machine learning Web
Espacio de recursos de ciencia de datos Web
Introducción al análisis de series temporales PDF
Sesgos de sexo y género en inteligencia artificial y salud Audiovisual

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt