Minería de datos Código:  75.584    Créditos:  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los materiales que dispone la asignatura   Materiales y herramientas de apoyo   Bibliografía y fuentes de información   Metodología   Información sobre la evaluación en la UOC   Consulta del modelo de evaluación   Evaluación Contínua   Feedback  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Minería de Datos es una asignatura de aplicación de los conocimientos previos que habéis aprendido a Estadística y Bases de Datos y de presentación de algunos de nuevos. Se presentan un conjunto de métodos procedentes de la Inteligencia Artificial, que forman el núcleo esencial de la disciplina conocida como Data Mining. Los conceptos estadísticos son muy útiles en esta asignatura y permitirán evaluar mejor algunas de las técnicas que se estudiarán.

Amunt

Dentro del Grado de Ingeniería Informática, esta asignatura es optativa y está pensada para realizarla tras haber adquirido los conocimientos necesarios de estadística, bases de datos y programación, como punto final de una trayectoria orientada al análisis de información.

Por otra parte, esta asignatura también se ofrece como complemento de formación en otros programas, de forma que los estudiantes adquieran los conocimientos básicos propios del ámbito de la minería de datos.

Amunt

Hoy en día se considera crucial  el análisis de datos para lograr información.

Las opciones profesionales de esta asignatura son, por una parte, el mundo del I+D tanto en la industria informática como en la empresa orientada a negocio, y por otra parte, la investigación en un contexto más académico.

Esta asignatura pretende preparar a futuros analistas de información, los cuales tendrán que descubrir conocimiento en forma de patrones escondidos en cantidades ingentes de datos que hoy en día genera cualquier proceso industrial o económico. Un ejemplo seria  prever cómo reaccionará el mercado ante de una campaña de marketing en función de los datos guardados de experiencias anteriores.

Amunt

Esta asignatura requiere conocimientos básicos de estadística, así como conocimientos de programación y bases de datos. También es necesario ser capaz de leer documentación en inglés

Amunt

Para cursar esta asignatura hace falta haber superado Estadística y se recomienda haber superado Base de Datos I.

Amunt

Objetivos

1. Saber en qué consiste el proceso de minería de datos y conocer sus fases.

2. Conocer las tareas a que se puede dirigir un proceso de minería de datos.

3. Conocer los principales modelos que se pueden extraer de los datos y sirven para traer adelante las tareas anteriores.

4.  Conocer las técnicas que permiten construir los modelos mencionados: cuando se pueden aplicar y bajo cuáles condiciones, qué clase de resultados dan, como se deden preparar los datos por poderlas utilizar y como se ha de evaluar y comparar su calidad.

5.  Decidir ante un problema práctico concreto qué tarea de minería de datos conviene utilizar, qué modelo se quiere obtener, qué técnica resultaría más adecuada de utilizar y como evaluar los resultados obtenidos.

6.  Practicar con un producto comercial que implementa algunas tecnologías de las tratadas a lo largo del curso.

7. Practicar con un producto de código abierto de ámbito académico que implementa algunas tecnologías de las tratadas a lo largo del curso.

Competencias transversales

2. Uso y aplicación de las TIC en el ámbito académico y profesional.

5. Capacidad para adaptarse a las tecnologías y a los futuros entornos actualizando las competencias profesionales.

6. Capacidad para innovar y generar nuevas ideas.

Competencias específicas

1. Capacidad para planificar y gestionar proyectos en el entorno de las TIC.

3. Capacidad para evaluar soluciones tecnológicas y elaborar propuestas de proyectos teniendo en cuenta los recursos, las alternativas disponibles y las condiciones de mercado.

6. Capacidad de analizar un problema en el nivel de abstracción adecuado a cada situación y aplicar las habilidades y los conocimientos adquiridos para abordarlo y resolverlo.

11. Capacidad de diseñar y construir aplicaciones informáticas mediante técnicas de desarrollo, integración y reutilización.

13. Capacidad para aplicar las técnicas específicas de tratamiento, almacenamiento y administración de datos.

14. Capacidad para proponer y evaluar diferentes alternativas tecnológicas para resolver un problema concreto.

Amunt

El material didáctico de la asignatura en soporte papel se divide en nueve módulos que presentan cierta interrelación entre ellos. El noveno es un caso de estudio que se puede utilizar para ver cómo los métodos explicados en los otros ocho se aplican en un caso concreto y real.

A continuación podéis ver los módulos que se tienen que trabajar para poder alcanzar los objetivos de la asignatura. En negrita se indican los módulos de estudio obligatorio y evaluables.

Módulo 1: El proceso de Minería de Datos.
  1. Descubrimiento de conocimiento a partir de datos.
  2. Las fases del proceso de extracción de conocimiento.
  3. Las herramientas de Minería de Datos.
  4. Caso de estudio de todo el curso: Hyper-Gym.
Módulo 2: Preparación de datos.
  1. Preliminares: repaso de conceptos estadísticos.
  2. Preliminares: tipo de atributos.
  3. Operaciones de preparación de datos.
  4. Tratamiento de la falta de datos.
  5. Reducción de dimensionalidad.
  6. Métodos de reducción de casos.
Módulo 3: Clasificación: árboles de decisión.
  1. Introducción: la estructura de los árboles de decisión.
  2. Métodos de construcción de árboles de decisión por clasificación: ID3 y C4.5.
  3. Construcción de árboles de decisión para regresión y clasificación: CART.
  4. Construcción de árboles de decisión por predicción numérica: CHAID.
  5. Métodos de construcción de árboles de decisión multivariantes: LMDT.
  6. Ponderación final de los árboles de decisión.
Módulo 4: Clasificación: redes neuronales.
  1. ¿Qué son las redes neuronales?
  2. Algoritmos de entrenamiento de redes neuronales.
  3. Ponderación final de las redes neuronales.
Módulo 5: Métodos de agregación.
  1. La similaridad, base para la agrupación de objetos.
  2. Espacio, distancia y semblanza.
  3. Métodos de agregación basados en semblanza y métodos probabilistas.
  4. Interpretación de los modelos obtenidos.
  5. Ponderación de los métodos de agregación.
Módulo 6: Reglas de asociación.
  1. ¿Qué son las reglas de asociación?
  2. Construcción de reglas de asociación simples.
  3. Ponderación de las reglas de asociación.
Módulo 7: Redes bayesianas.
  1. Qué son las redes bayesianas.
  2. Métodos de construcción de redes bayesianas a partir de datos.
  3. Clasificación con redes bayesianas.
Módulo 8: Evaluación de modelos.
  1. Evaluación de modelos clasificatorios.
  2. Validación cruzada ("K Cross-Validation").
  3. Comparación de rendimientos.
  4. Otras formas de estimar la calidad de modelos predictivos.
  5. Coste.
Módulo 9: Caso de Estudio.
  1. 1. El caso de los pozos de petróleo.
  2. 2. Preparación de datos.
  3. 3. Obtención de modelos.
  4. 4. Evaluación y comparación.

Amunt

Material Soporte
2. Preprocesado de datos PDF
4. Modelos no supervisados PDF
6. Evaluación de modelos PDF
1. El proceso de minería de datos PDF
3. Gestión de características PDF
7. Caso de estudio PDF
0. Prólogo PDF
5. Modelos supervisados PDF

Amunt

El material didáctico asociado a la asignatura comprende:

  1. Este Plan Docente.
  2. Los módulos didácticos que acabamos de describir que están disponibles en formato papel.
    El Material Didáctico en formato papel está constituido por nueve módulos. Para alcanzar los objetivos de la asignatura, no es necesario trabajar todos estos módulos. El estudiante se podrá mover fácilmente por los materiales que tiene que estudiar siguiendo las indicaciones de este plan docente. Sin embargo, el estudiante es libre de ampliar sus conocimientos sobre el Data Mining con la lectura de los módulos no obligatorios de la asignatura.
    El módulo 9 es la descripción de un caso real de aplicación y permite contextualizar los conceptos que se van explicando a lo largo de los otros módulos. Por lo tanto se considera que es un complemento de los otros módulos y se puede consultar en paralelo a los otros durante el curso.
  3. El software utilizado en  la asignatura y su documentación.
  4. El espacio wiki de Mineria de Datos en el apartado Recursos.

Amunt

 Robust Data Mining

Petros Xanthopoulos, Panos M. Pardalos, Theodore B. Trafalis

ISBN: 978-1-4419-9877-4

 

Data Mining and Business Analytics with R

Johannes Ledolter

ISBN: 978-1-118-44714-7

 

Data Mining: Concepts and Techniques

Jiawei Han, Micheline Kamber and Jian Pei.

Morgan Kaufmann Publishers

ISBN 978-0123814791

 

Principles of Data Mining

Max Bramer

Springer

ISBN 13: 9781447148838

 

Data Mining: Practical Machine Learning Tools and Techniques

Witten

Morgan Kaufmann Publishers

ISBN: 978-0-12-374856-0

 

Introducción a la Mineria de Datos

Jose Hernandez Orallo

Mª José Ramirez Quintana

Cesar Ferri Ramirez

Pearson Prentice Hall

ISBN: 84-205-4091-9

Amunt

 

Los conocimientos teóricos se refuerzan por el trabajo práctico. Intentando extraer nuevos conocimientos de los datos con el software disponible podréis tener una visión más clara de los méritos y debilidades de cada técnica que se implementa. Y no sólo eso, practicando con los datos podréis interiorizar el proceso de la Minería de Datos, desde el momento en que os planteáis la necesidad de emprender un proyecto de este tipo hasta que tengáis que valorar sus resultados e intentar integrarlos en un sistema mayor.

Temporalización e itinerarios formativos

En el calendario del aula, el estudiante dispondrá de una distribución orientativa del tiempo que se propone para el estudio de cada módulo. Además, el calendario incluye las fechas clave del semestre, como la publicación y la entrega de las Pruebas de Evaluación continua (PEC) y de la práctica. Las fechas de entrega de las PEC y de la práctica se tienen que respetar estrictamente. Por lo tanto, es muy recomendable que se siga la temporización propuesta y se intenten respetar las fechas indicadas para el estudio de cada módulo didáctico.

El estudiante podrá acceder a los enunciados de las PEC y de la práctica en el espacio de Planificación del Aula Virtual, en la fecha del calendario señalada como publicación de la actividad en cuestión.

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC), nota que se combina con una nota de prácticas (Pr) para obtener la nota final de la asignatura. No se prevé hacer ninguna prueba de evaluación final. La fórmula de acreditación de la asignatura es la siguiente: EC + Pr.


Ponderación de las calificaciones

Opción para superar la asignatura: EC + Pr

Nota final de asignatura = Final Continuada (FC) = EC+Pr

EC = 50%

Pr = 50%

Notas mínimas:

· Pr = 5

En caso de no conseguir la nota mínima en la Pr, la nota obtenida en la fórmula corresponde a la obtenida en la Pr, o el que indique el modelo de evaluación.

Amunt

La Evaluación continua (EC) se compone de cinco pruebas de evaluación continua (PEC) y de una práctica.

La nota final de EC se determinará en función de las calificaciones obtenidas parcialmente, la participación del estudiante en el foro y haber demostrado un dominio suficiente en los aspectos fundamentales de la asignatura durante el semestre.

Para poder superar la evaluación continua hay que entregar a cada uno de las cinco PEC y la práctica dentro de los plazos establecidos.

Según la normativa vigente, está establecido que si no entregáis el 50% de las PEC (tres) obtendréis una calificación de No Presentado (N). Es decir, si entregáis 0 o 1 o 2 PEC obtendréis una N. Si presentáis sólo  3 o 4 obtendréis una D. Si entregáis las 5 PEC y éstas son evaluadas con una C- o más, obtendréis la nota ponderada que corresponda.

A continuación se presenta un cuadro donde, para cada PEC, podéis ver los contenidos asociados y el peso aproximado en la nota final.

 

Contenido

Peso

PEC 1

Módulo didáctico 1 - El proceso de descubrimiento de conocimiento a partir de datos. Instalación del Software

20%

PEC 2

Módulo didáctico 2 - Preparación de datos. Práctica con el Software

20%

PEC 3

Módulo didáctico 3 - Clasificación: árboles de decisión. Práctica con el Software

20%

PEC 4

Módulo didáctico 5 Agregación (clustering). Práctica con el Software

20%

PEC 5

Módulo didáctico 6. Reglas de Asociación. Práctica con el Software

20%

En la práctica se trabajan los contenidos trabajados durante todo el curso, con el software de código abierto. El objetivo de esta práctica es facilitar el aprendizaje de los conceptos que se explican a lo largo de toda la asignatura. La realización de la práctica supondrá una carga de trabajo más elevada que la necesaria para una PEC. Por eso, se dispondrá de más tiempo entre la publicación del enunciado y la entrega de la práctica que en el caso de las PEC.

La calificación de las PEC y la práctica se cruzarán según la tabla que aparece en este Plan Docente en el apartado de modelo de evaluación.

Los enunciados de las PEC y de la práctica se publicarán a través del calendario del espacio de Planificación del Aula Virtual de la asignatura, a las fechas que aparecen destacadas. Las PEC solucionadas se tienen que entregar al buzón de entrega de actividades y la práctica se tiene que entregar al buzón de entrega de prácticas del espacio de Evaluación del aula virtual. Una vez transcurrido el tiempo dedicado a la resolución de cada ejercicio, se publicará, igualmente al calendario y a la fecha señalada, una propuesta de solución de cada una de las pruebas.

NOTA IMPORTANTE:

El seguimiento correcto de la asignatura os compromete a realizar las actividades propuestas de manera individual y según las indicaciones que pauta este Plan Docente. En caso de que no sea así, la nota final de evaluación continúa o la nota de práctica se evaluarán con una D.  

Por otra parte, y siempre a criterio de los Estudios, el incumplimiento de este compromiso puede suponer que no se os permita superar ninguna otra asignatura mediante evaluación continuada ni en el semestre en curso ni en los siguientes.

Amunt

Tal y como se ha indicado en la metodología de la asignatura, el consultor os guiará y orientará a través del Tablón del aula para qué podais hacer un buen seguimiento de la asignatura. También responderá las dudas que vayan saliendo en el Foro del aula así como las consultas y comentarios enviados a su buzón personal.

El consultor también hará un seguimiento personalizado de la evaluación continua, revisará todas las PEC y prácticas entregadas y comentará de forma cualitativa a nivel de grupo y/o individual su resolución. Estos comentarios os ayudarán a progresar en vuestro aprendizaje y adquirir el conjunto de las competencias.

Amunt