Minería de datos Código:  75.584    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Minería de Datos es una asignatura de aplicación de los conocimientos previos que habéis aprendido a Estadística y Bases de Datos y de presentación de algunos de nuevos. Se presentan un conjunto de métodos procedentes de la Inteligencia Artificial, que forman el núcleo esencial de la disciplina conocida como Data Mining. Los conceptos estadísticos son muy útiles en esta asignatura y permitirán evaluar mejor algunas de las técnicas que se estudiarán.

Amunt

Dentro del Grado de Ingeniería Informática, esta asignatura es optativa y está pensada para realizarla tras haber adquirido los conocimientos necesarios de estadística, bases de datos y programación, como punto final de una trayectoria orientada al análisis de información.

Por otra parte, esta asignatura también se ofrece como complemento de formación en otros programas, de forma que los estudiantes adquieran los conocimientos básicos propios del ámbito de la minería de datos.

Amunt

Hoy en día se considera crucial  el análisis de datos para lograr información.

Las opciones profesionales de esta asignatura son, por una parte, el mundo del I+D tanto en la industria informática como en la empresa orientada a negocio, y por otra parte, la investigación en un contexto más académico.

Esta asignatura pretende preparar a futuros analistas de información, los cuales tendrán que descubrir conocimiento en forma de patrones escondidos en cantidades ingentes de datos que hoy en día genera cualquier proceso industrial o económico. Un ejemplo seria  prever cómo reaccionará el mercado ante de una campaña de marketing en función de los datos guardados de experiencias anteriores.

Amunt

Esta asignatura requiere conocimientos básicos de estadística, así como conocimientos de programación y bases de datos. También es necesario ser capaz de leer documentación en inglés

Amunt

Para cursar esta asignatura se recomienda haber cursado con anterioridad Estadística, Fundamentos de Programación y Uso de Bases de Datos.

Amunt

Objetivos

1. Saber en qué consiste el proceso de minería de datos y conocer sus fases.

2. Conocer las tareas a que se puede dirigir un proceso de minería de datos.

3. Conocer los principales modelos que se pueden extraer de los datos y sirven para traer adelante las tareas anteriores.

4.  Conocer las técnicas que permiten construir los modelos mencionados: cuando se pueden aplicar y bajo cuáles condiciones, qué clase de resultados dan, como se deden preparar los datos por poderlas utilizar y como se ha de evaluar y comparar su calidad.

5.  Decidir ante un problema práctico concreto qué tarea de minería de datos conviene utilizar, qué modelo se quiere obtener, qué técnica resultaría más adecuada de utilizar y como evaluar los resultados obtenidos.

7. Practicar con un producto de código abierto de ámbito académico que implementa algunas tecnologías de las tratadas a lo largo del curso.

Competencias transversales

2. Uso y aplicación de las TIC en el ámbito académico y profesional.

5. Capacidad para adaptarse a las tecnologías y a los futuros entornos actualizando las competencias profesionales.

6. Capacidad para innovar y generar nuevas ideas.

Competencias específicas

1. Capacidad para planificar y gestionar proyectos en el entorno de las TIC.

3. Capacidad para evaluar soluciones tecnológicas y elaborar propuestas de proyectos teniendo en cuenta los recursos, las alternativas disponibles y las condiciones de mercado.

6. Capacidad de analizar un problema en el nivel de abstracción adecuado a cada situación y aplicar las habilidades y los conocimientos adquiridos para abordarlo y resolverlo.

11. Capacidad de diseñar y construir aplicaciones informáticas mediante técnicas de desarrollo, integración y reutilización.

13. Capacidad para aplicar las técnicas específicas de tratamiento, almacenamiento y administración de datos.

14. Capacidad para proponer y evaluar diferentes alternativas tecnológicas para resolver un problema concreto.

Amunt

El material didáctico de la asignatura se divide en nueve módulos que presentan cierta interrelación entre ellos. El noveno es un caso de estudio que se puede utilizar para ver cómo los métodos explicados en los otros ocho se aplican en un caso concreto y real.

A continuación podéis ver los módulos que se tienen que trabajar para poder alcanzar los objetivos de la asignatura. En negrita se indican los módulos de estudio obligatorio y evaluables.

Módulo 1: El proceso de Minería de Datos.

  1. Descubrimiento de conocimiento a partir de datos.
  2. Las fases del proceso de extracción de conocimiento.
  3. Las herramientas de Minería de Datos.
  4. Caso de estudio de todo el curso: Hyper-Gym.

Módulo 2: Preparación de datos.

  1. Preliminares: repaso de conceptos estadísticos.
  2. Preliminares: tipo de atributos.
  3. Operaciones de preparación de datos.
  4. Tratamiento de la falta de datos.
  5. Reducción de dimensionalidad.
  6. Métodos de reducción de casos.

Módulo 3: Clasificación: árboles de decisión.

  1. Introducción: la estructura de los árboles de decisión.
  2. Métodos de construcción de árboles de decisión por clasificación: ID3 y C4.5.
  3. Construcción de árboles de decisión para regresión y clasificación: CART.
  4. Construcción de árboles de decisión por predicción numérica: CHAID.
  5. Métodos de construcción de árboles de decisión multivariantes: LMDT.
  6. Ponderación final de los árboles de decisión.

Módulo 4: Clasificación: redes neuronales.

  1. ¿Qué son las redes neuronales?
  2. Algoritmos de entrenamiento de redes neuronales.
  3. Ponderación final de las redes neuronales.

Módulo 5: Métodos de agregación.

  1. La similaridad, base para la agrupación de objetos.
  2. Espacio, distancia y semblanza.
  3. Métodos de agregación basados en semblanza y métodos probabilistas.
  4. Interpretación de los modelos obtenidos.
  5. Ponderación de los métodos de agregación.

Módulo 6: Reglas de asociación.

  1. ¿Qué son las reglas de asociación?
  2. Construcción de reglas de asociación simples.
  3. Ponderación de las reglas de asociación.

Módulo 7: Redes bayesianas.

  1. Qué son las redes bayesianas.
  2. Métodos de construcción de redes bayesianas a partir de datos.
  3. Clasificación con redes bayesianas.

Módulo 8: Evaluación de modelos.

  1. Evaluación de modelos clasificatorios.
  2. Validación cruzada ("K Cross-Validation").
  3. Comparación de rendimientos.
  4. Otras formas de estimar la calidad de modelos predictivos.
  5. Coste.

Módulo 9: Caso de Estudio.

  1. 1. El caso de los pozos de petróleo.
  2. 2. Preparación de datos.
  3. 3. Obtención de modelos.
  4. 4. Evaluación y comparación.

Amunt

2. Preprocesado de datos PDF
4. Modelos no supervisados PDF
6. Evaluación de modelos PDF
1. El proceso de minería de datos PDF
3. Gestión de características PDF
7. Caso de estudio PDF
0. Prólogo PDF
5. Modelos supervisados PDF

Amunt

El material didáctico asociado a la asignatura comprende:

  1. Este Plan Docente.
  2. Los módulos didácticos que acabamos de describir que están disponibles en el aula. El material docente está constituido por nueve módulos. Para alcanzar los objetivos de la asignatura, no es necesario trabajar todos estos módulos. El estudiante se podrá mover fácilmente por los materiales que tiene que estudiar siguiendo las indicaciones de este plan docente. Sin embargo, el estudiante es libre de ampliar sus conocimientos sobre el Data Mining con la lectura de los módulos no obligatorios de la asignatura.
    El módulo 9 es la descripción de un caso real de aplicación y permite contextualizar los conceptos que se van explicando a lo largo de los otros módulos. Por lo tanto se considera que es un complemento de los otros módulos y se puede consultar en paralelo a los otros durante el curso.
  3. El software utilizado en  la asignatura y su documentación.
  4. El laboratorio de Minería de Datos asociado.
  5. Diferentes recursos docentes que se iran enlazando en el aula a lo largo del semestre.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente –incluidas las pruebas finales– o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC), nota que se combina con una nota de prácticas (Pr) para obtener la nota final de la asignatura. No se prevé hacer ninguna prueba de evaluación final. La fórmula de acreditación de la asignatura es la siguiente: EC + Pr.

 
 

Amunt