Modelos avanzados de minería de datos Código:  M2.855    Créditos:  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los materiales que dispone la asignatura   Metodología   Consulta del modelo de evaluación   Evaluación Contínua   Evaluación final   Feedback  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

El objetivo de la minería de datos es extraer conocimiento en forma de patrones, reglas y otros modelos matemáticos y algorítmicos que describen la naturaleza subyacente a un problema concreto. Es sabido que no existe un modelo universal que funcione mejor que el resto para cualquier problema o conjunto de datos (el llamado "no free lunch theorem"), sino que es necesario analizar la naturaleza de dicho problema e intentar aplicar el mejor método posible, o bien una combinación de ellos.

En la actualidad, la investigación frontera en el ámbito de la minería de datos se basa, por una parte, en mejorar los algoritmos conocidos mediante el fine-tuning de sus parámetros, lo cual puede permitir obtener resultados ligeramente mejores para un conjunto de datos dado. En el escenario actual Big Data, debido a la aparición de conjuntos de datos masivos, de alta dimensionalidad y mayoritariamente categóricos, es necesario también ajustar los algoritmos tradicionales para incrementar su eficacia, dado que se incumplen muchas de las premisas en las cuales están basados (normalidad, suavidad, distancias bien definidas, etc.).

Por otra parte, también es posible mejorar los resultados obtenidos mediante la combinación de diferentes clasificadores, creando sistemas de decisión complejos a partir de cientos o miles de clasificadores más sencillos. Esto incluye el uso de esquemas de votación, la generación aleatoria de clasificadores a partir de un modelo preestablecido y la reutilización de decisiones tomadas anteriormente para mejorar la predicción actual.

Por lo tanto, en esta asignatura se describen algunos de los modelos y algoritmos considerados el estado del arte en minería de datos y se introduce el concepto de combinación de clasificadores, de forma que el estudiante comprenda la necesidad de analizar el problema a resolver desde diferentes perspectivas analíticas y proponga una solución que combine uno o más modelos en función de los objetivos a alcanzar.

Amunt

Esta asignatura pertenece al conjunto de asignaturas obligatorias dentro del Máster universitario en Ciencia de datos (Data Science).

Se recomienda cursar esta asignatura antes que el resto de asignaturas de análisis de datos, que se ofrecen como optativas dentro del máster.

Amunt

El objetivo del máster es la formación de profesionales en la ciencia de datos. Esta asignatura, específicamente, se focaliza en los campos relacionados con el análisis, la estadística avanzada y la minería de datos (o machine learning).

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Responsables, jefes de proyecto o analistas en proyectos de minería o análisis de datos.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de ciencia de datos o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

Para la realización de esta asignatura se presuponen conocimientos de programación, principalmente en lenguaje Python.

Por lo que respecta a conocimientos teóricos o matemáticos, se presupone que los estudiantes que cursan esta asignatura han cursado previamente la asignatura de "minería de datos", que introduce los conceptos básicos sobre los algoritmos supervisados y no supervisados.

Además, como la metodología incluye estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Finalmente, dada la naturaleza de la asignatura, es necesario utilizar herramientas y procedimientos descritos en lengua inglesa, por lo que un nivel básico de lectura y comprensión de textos técnicos es imprescindible.

Amunt

Los objetivos que se pretende que el estudiante alcance mediante esta asignatura son los siguientes:

  • Aplicar técnicas de extracción de características para reducir la dimensionalidad y capturar la estructura subyacente de los datos.
  • Avanzar en el conocimiento de diferentes modelos de clasificación, predicción y clustering: support vector machines, neural networks, deep learning, decision trees y random forests.
  • Determinar qué modelo o combinación de modelos es más adecuado para la resolución de un problema en función de la naturaleza de los datos.
  • Profundizar en el conocimiento de modelos basados en árboles de decisión y sus combinaciones. 
  • Entender el concepto de "ensemble" y sus propiedades.
  • Crear clasificadores complejos mediante la combinación de clasificadores sencillos.

Amunt

Introducción

  • Introducción a la minería de datos
  • Conceptos preliminares
  • Preparación de los datos

Validación y evaluación de resultados

  • Protocolos de validación
  • Evaluación de resultados

Extracción y selección de atributos

  • Extracción y selección de atributos

Métodos no supervisados

  • Agrupamiento jerárquico
  • El método k-means y derivados
  • Canopy clustering algorithm

Métodos supervisados

  • Algoritmo k-NN
  • Máquinas de soporte vectorial
  • Redes neuronales
  • Árboles de decisión
  • Métodos probabilísticos

Combinación de clasificadores

  • Combinación de clasificadores

Amunt

Material Soporte
Objetivos PLA1 Audiovisual
Tipología de problemas y métodos Audiovisual
Evaluacion de resultados Audiovisual
Entreno y test Audiovisual
Objetivos PLA2 Audiovisual
El método k-means y derivados Audiovisual
Algoritmo de agrupamiento Canopy Audiovisual
Objetivos PLA3 Audiovisual
Algoritmo k-NN Audiovisual
Support Vector Machines (SVM) Audiovisual
Redes neuronales artificiales (ANN) Audiovisual
Objetivos PLA4 Audiovisual
Combinación de clasificadores Audiovisual
Árboles de decisión Audiovisual
Ou aglutinador: Acceso a bases de datos de artículos de congresos y revistas de minería de datos y machine learning Web
Espacio de recursos de ciencia de datos Web
Introducción al análisis de series temporales PDF
Sesgo algorítmico PDF
Sesgos de sexo y género en inteligencia artificial y salud Audiovisual

Amunt

Para entender el enfoque metodológico general se recomienda la lectura de este apartado y el siguiente, respecto el modelo de evaluación.

Además de lo que se ha explicado anteriormente, el consultor recordará al comienzo de cada semana los objetivos y competencias a desarrollar, así como los modelos de aprendizaje y de evaluación para cada parte cuando proceda. También se recomienda el seguimiento y participación en todas las discusiones y preguntas publicadas en el foro del aula.

Más concretamente, recomendamos el siguiente ciclo de estudios:

  • Leer y estudiar cuidadosamente cada módulo de aprendizaje y/o lectura recomendada.
  • Participar en el foro, iniciar debates formales o publicar informalmente mensajes y opiniones. El método de enseñanza promueve la colaboración entre los miembros del grupo. El consultor y el profesor responsable pueden participar excepcionalmente o para cerrar el debate en partes o en su totalidad.
  • Comenzar a preparar las pruebas y/o actividades con antelación. Se requerirá la consulta de diferentes materiales y, por lo general, no tienen una solución única. Justificar y argumentar la solución o las soluciones propuestas es más importante para la evaluación que tener una respuesta correcta.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.


Ponderación de las calificaciones

Opción para superar la asignatura: EC

Nota final de asignatura: EC

Amunt

Este curso se evalúa únicamente a través de la evaluación continua porque no hay examen final presencial. Todas las actividades, tanto teóricas como prácticas, y la participación en las discusiones en el foro virtual son obligatorios.

La evaluación continua presenta:

  • Cinco (5) pruebas de evaluación continua (PEC) con la siguiente ponderación:
    • PEC1 = 10%
    • PEC2 = 25%
    • PEC3 = 25%
    • PEC4 = 20%
    • PEC5 = 10%
  • Un (1) conjunto de tests autocorregidos sobre la teoria asociada a cada módulo. Se accede a estos tests a través del enlace a la plataforma Moodle integrada en el aula. Las condiciones de realización de los tests son las siguientes:
    • Hay un test distinto para cada uno de los módulos didácticos de esta asignatura (cinco en total).
    • El estudiante dispone de un máximo de 2 intentos en cada test.
    • Cada test tiene un límite de tiempo de 10 minutos para su realización.
    • La nota de cada test será la nota máxima obtenida de ambos intentos.
    • La nota final de todos los tests representa el 10% de la nota final de la asignatura. Por lo tanto, cada test individual representa el 2% de la nota final de la asignatura.

Advertencia: Es importante mencionar que la resolución de las pruebas, casos y prácticas propuestas se debe realizar de forma individual excepto cuando se indique lo contrario. El equipo docente tendrá en cuenta la lógica de las respuestas, el pensamiento individual y la capacidad de expresarse por escrito. Cualquier fuente externa usada para resolver las cuestiones y casos deberá indicarse claramente y ser referenciada adecuadamente. Si no fuera el caso, las actividades se evaluarán con una D. Por otro lado, siempre a criterio de la Universidad, el incumplimiento de esta obligación será comunicada a la gestión de los estudios, con el fin de evaluar si el estudiante está autorizado para aprobar cualquier otra materia o mediante una evaluación continua en el semestre o el siguiente.

Amunt

Esta asignatura únicamente se puede superar a través de la realización y entrega de las PEC propuestas a lo largo del semestre. La nota final de evaluación continua (EC) será la media ponderada de todas las actividades, según los pesos indicados en el apartado anterior.

Por otra parte, a lo largo del semestre, el consultor puede proponer discusiones o debates formales. La participación en calidad y cantidad en dichos debates también puede influir en la calificación final del semestre.

Recuperación de las Pruebas de Evaluación Continua (PEC)

La recuperación de las actividades se realizará de forma individual para cada actividad que no se haya entregado o aprobado.

Detalles del proceso de recuperación:

  • No existe una PEC de recuperación final. Las actividades se recuperan de forma individual.
  • Puede optar a la recuperación cualquier estudiante que: (1) no haya presentado la PEC dentro del plazo de entrega definido o (2) tenga una nota inferior a 5. Es decir, cualquier estudiante que tenga una nota de C-, D o N en esta actividad.
  • La nota máxima que puede obtener una PEC de recuperación es de 5 puntos (C+)
  • Cualquier actividad entregada fuera de plazo (más allá de las 23:59 de la fecha límite propuesta) se considerará una entrega de recuperación.
  • Los estudiantes podrán entregar las PEC fuera de plazo en cualquier momento durante el semestre a través de la herramienta de la REC, hasta la fecha límite (improrrogable) de las PECs de recuperación indicada en el calendario del aula.
  • Sólo es posible realizar una única entrega de recuperación, como máximo, de cada una de las PEC propuestas durante el curso.
  • Las correcciones de las PEC de recuperación no se van a realizar hasta el final del semestre, después de la fecha límite de entrega.

Amunt

A lo largo del semestre, el consultor os proporcionará retorno de vuestro progreso a través de diferentes medios:

  • Publicación de las soluciones de las actividades teóricas y prácticas antes de finalizar el semestre. Cuando una prueba no tenga una solución única, se publicarán aquellas indicaciones que puedan ayudar a entender como evaluar una solución.
  • Publicación de las actividades destacadas de algunos estudiantes, en parte o en su totalidad.
  • Comunicación individual a aquellos estudiantes en riesgo de no superar el curso, según su evolución.

En todo caso, podéis solicitar al consultor un retorno individual, tanto de vuestra evolución dentro del semestre, como de cada prueba individual. Por el hecho de ser una evaluación mayoritariamente individual y continuada, se recomienda hacer esta petición después de cada prueba sobre la que tengáis dudas o necesidades de aclaración y no esperar a las calificaciones medias o finales.

También es posible ponerse en contacto con el profesor responsable del curso académico, si los comentarios y sugerencias recibidos por parte del consultor no son satisfactorios o no se está de acuerdo con ellos.

Amunt