Minería de datos Código: 75.054    Créditos: 6
Consulta de los datos generales   Descripción   Objetivos   Contenidos   Consulta de los materiales de que dispone la asignatura   Consulta de la bibliografía disponible en la biblioteca   Materiales y herramientas de soporte   Consulta del modelo de evaluación   Evaluación continua  
Nota importante: La información de esta página tiene valor orientativo, no es vinculante en ninguno de sus apartados y corresponde a las características de la asignatura en el último semestre activo con docencia. Para poder concretar la información en lo referente a los objetivos, los contenidos, los materiales, la metodología, la evaluación y las fechas clave de esta asignatura debéis consultar el Plan docente, que tendréis disponible en el aula correspondiente coincidiendo con el inicio del semestre, dentro del apartado Planificación.

Enfoque conceptual de la asignatura

Minería de Datos es una asignatura de aplicación de los conocimientos adquiridos en Estadística y Bases de Datos y de presentación de algunos de nuevos. Se presentan un conjunto de métodos procedentes de la Inteligencia Artificial, que forman el núcleo esencial de la disciplina conocida como Data Mining. Los conceptos estadísticos son muy útiles en esta asignatura y permitirán evaluar mejor algunas de las técnicas que se estudiarán.

Información previa a la matrícula

Para cursar esta asignatura hace falta haber superado Estadística y se recomienda haber superado Base de Datos I

Subir

    1. Saber en qué consiste el proceso de minería de datos y conocer sus fases.
    2. Conocer las tareas a que se puede dirigir un proceso de minería de datos.
    3. Conocer a los principales modelos que se pueden extraer de los datos y sirven para realizar las tareas anteriores.
    4. Conocer las técnicas que permiten construir los modelos mencionados: cuando se pueden aplicar y bajo cuáles condiciones; qué tipo de resultados dan; como hace falta preparar los datos para poder utilizarlos y como se tiene que evaluar y comparar su calidad.
    5. Decidir ante un problema práctico concreto qué tarea de minería de datos conviene emprender, qué modelo se quiere obtener, qué técnica resultaría más adecuada de utilizar y como evaluar los resultados obtenidos.
    6. Practicar con un producto comercial que implementa algunas tecnologías de las tratadas a lo largo del curso: Synera.

Subir

El material didáctico de la asignatura en soporte papel se divide en nueve módulos que presentan cierta interrelación entre ellos. El noveno es un caso de estudio que se puede utilizar para ver cómo los métodos explicados en los otros ocho se aplican en un caso concreto y real.

A continuación podéis ver los módulos que se tienen que trabajar para poder alcanzar los objetivos de la asignatura. En negrita se indican los módulos de estudio obligatorio y evaluables.

    Módulo 1: El proceso de Minería de Datos.
    1. Descubrimiento de conocimiento a partir de datos.
    2. Las fases del proceso de extracción de conocimiento.
    3. Las herramientas de Minería de Datos.
    4. Caso de estudio de todo el curso: Hyper-Gym.

    Módulo 2: Preparación de datos.
    1. Preliminares: repaso de conceptos estadísticos.
    2. Preliminares: tipo de atributos.
    3. Operaciones de preparación de datos.
    4. Tratamiento de la falta de datos.
    5. Reducción de dimensionalidad.
    6. Métodos de reducción de casos.

    Módulo 3: Clasificación: árboles de decisión.
    1. Introducción: la estructura de los árboles de decisión.
    2. Métodos de construcción de árboles de decisión por clasificación: ID3 y C4.5.
    3. Construcción de árboles de decisión para regresión y clasificación: CART.
    4. Construcción de árboles de decisión por predicción numérica: CHAID.
    5. Métodos de construcción de árboles de decisión multivariantes: LMDT.
    6. Ponderación final de los árboles de decisión.

    Módulo 4: Clasificación: redes neuronales.
    1. ¿Qué son las redes neuronales?
    2. Algoritmos de entrenamiento de redes neuronales.
    3. Ponderación final de las redes neuronales.

    Módulo 5: Métodos de agregación.
    1. La similaridad, base para la agrupación de objetos.
    2. Espacio, distancia y semblanza.
    3. Métodos de agregación basados en semblanza y métodos probabilistas.
    4. Interpretación de los modelos obtenidos.
    5. Ponderación de los métodos de agregación.

    Módulo 6: Reglas de asociación.
    1. ¿Qué es las reglas de asociación?
    2. Construcción de reglas de asociación simples.
    3. Ponderación de las reglas de asociación.

    Módulo 7: Redes bayesianas.
    1. Qué es las redes bayesianas.
    2. Métodos de construcción de redes bayesianas a partir de datos.
    3. Clasificación con redes bayesianas.

    Módulo 8: Evaluación de modelos.
    1. Evaluación de modelos clasificatorios.
    2. Validación cruzada ("K Cross-Validation").
    3. Comparación de rendimientos.
    4. Otras formas de estimar la calidad de modelos predictivos.
    5. Coste.

    Módulo 9: Caso de Estudio.
    1. 1. El caso de los pozos de petróleo.
    2. 2. Preparación de datos.
    3. 3. Obtención de modelos.
    4. 4. Evaluación y comparación.
Material Soporte
Minería de datos  
Minería de datos CD-ROM
Software  

Subir

  • Data mining / Pieter Adriaans, Dolf Zantinge
    Adriaans , Pieter
    0006-86460
  • Data mining : practical machine learning tools and techniques with Java implementations / Ian H. Witten, Eibe Frank
    Witten , Ian H.
    0006-97060

Subir

El material didáctico asociado a la asignatura comprende:

    1. Este Plan Docente.
    2. Los módulos didácticos que acabamos de describir que están disponibles en formato papel.
        El Material Didáctico en formato papel está constituido por nueve módulos. Para alcanzar los objetivos de la asignatura, no es necesario trabajar todos estos módulos. El estudiante se podrá mover fácilmente por los materiales que tiene que estudiar siguiendo las indicaciones de este plan docente. Sin embargo, el estudiante es libre de ampliar sus conocimientos sobre el Data Mining con la lectura de los módulos no obligatorios de la asignatura.
        El módulo 9 es la descripción de un caso real de aplicación y permite contextualizar los conceptos que se van explicando a lo largo de los otros módulos. Por lo tanto se considera que es un complemento de los otros módulos y se puede consultar en paralelo a los otros durante el curso.
    3. CD de la asignatura con material web complementario y el software Synera y su documentación

Subir

La bibliografía recomendada se encuentra indicada en los materiales didácticos.

Con el fin de alcanzar los objetivos de la asignatura se propone el siguiente método de trabajo:

    1. 1. Leer las explicaciones contenidas a cada módulo. Sería bueno leer completamente cada módulo, ejemplos incluidos, con el fin de hacerse una idea lo bastante exacta de su contenido.
    2. 2. Hacer un estudio esmerado de los ejemplos e intentar reproducirlos.

Los conocimientos teóricos se refuerzan por el trabajo práctico. Intentando extraer nuevos conocimientos de los datos con el software disponible podréis tener una visión más clara de los méritos y debilidades de cada técnica que se implementa. Y no sólo eso, practicando con los datos podréis interiorizar el proceso de la Minería de Datos, desde el momento en que os planteáis la necesidad de emprender un proyecto de este tipo hasta que tengáis que valorar sus resultados e intentar integrarlos en un sistema mayor.

Temporalización e itinerarios formativos

En el calendario del aula, el estudiante dispondrá de una distribución orientativa del tiempo que se propone para el estudio de cada módulo. Además, el calendario incluye las fechas clave del semestre, como la publicación y la entrega de las Pruebas de Evaluación continua (PEC) y de la práctica. Las fechas de entrega de las PEC y de la práctica se tienen que respetar estrictamente. Por lo tanto, es muy recomendable que se siga la temporización propuesta y se intenten respetar las fechas indicadas para el estudio de cada módulo didáctico.

El estudiante podrá acceder a los enunciados de las PEC y de la práctica en el espacio de Planificación del Aula Virtual, en la fecha del calendario señalada como publicación de la actividad en cuestión.

Esta asignatura se puede superar mediante una doble vía: por un lado, a partir de la evaluación continua, cuya calificación final se confirma mediante una prueba de validación, y de otro lado, a partir de la realización de un examen final (presencial). La fórmula de acreditación de la asignatura es la siguiente: EC + Práctica.

 
Modelo de cruce prácticas y evaluación continua
   
Calif.teórica
  C a l i f. p r á c t i c a
A
B
C+
C-
D
N
A
A
B
B
C-
D
D
B
B
B
C+
C-
D
D
C+
B
C+
C+
C-
D
D
C-
C-
C-
C-
C-
D
D
D
D
D
D
D
D
D
N
D
D
D
D
D
N
 
Modelo de calificaciones finales a partir de la evaluación continua
   
C. Ev. continua
  Calif. final
A
B
C+
C-
D
N
F
M/EX
NO
A
SU
SU
NP

M/SB Matrícula de honor o sobresaliente
NO Notable
A Aprobado
SU Suspenso
NP No presentado

Subir

La Evaluación continua (EC) se compone de cuatro pruebas de evaluación continua (PEC) y de una práctica.

La nota final de EC se determinará en función de las calificaciones obtenidas parcialmente, la participación del estudiante en el foro y haber demostrado un dominio suficiente en los aspectos fundamentales de la asignatura durante el semestre.

Para poder superar la evaluación continua hay que entregar a cada uno de las cuatro PEC y la práctica dentro de los plazos establecidos.

El hecho de entregar cualquier actividad de evaluación continua implica que obtendréis una nota final de evaluación continua. Por lo tanto, la valoración de “No Presentado" sólo se obtendrá si no se entrega ninguna actividad de evaluación.

A continuación se presenta un cuadro donde, para cada PEC, podéis ver los contenidos asociados y el peso aproximado en la nota final.

 

Contenido

Valoración en la evaluación continua*

PEC 1

Módulo didáctico 1 El proceso de descubrimiento de conocimiento a partir de datos. Synera

20%

PEC 2

Módulo didáctico 2 Preparación de datos. Synera

20%

PEC 3

Módulo didáctico 3 Clasificación: árboles de decisión. Weka

20%

PEC 4

Módulo didáctico 5 Agregación (clustering). Synera y Weka

20%

En la práctica se trabajan los contenidos del módulo 6: Reglas de asociación y la herramienta Synera. El objetivo de esta práctica es facilitar el aprendizaje de los conceptos que se explican en este último módulo de la asignatura. La realización de la práctica supondrá una carga de trabajo más elevada que la necesaria para una PEC. Por eso, se dispondrá de más tiempo entre la publicación del enunciado y la entrega de la práctica que en el caso de las PEC.

La calificación de las PEC y la práctica se calcularán según la tabla que aparece en este plan docente en el apartado de modelo de evaluación.

Los enunciados de las PEC y de la práctica se publicarán a través del calendario del espacio de Planificación del Aula Virtual de la asignatura, en las fechas que aparecen destacadas. Las PEC solucionadas se tienen que entregar al buzón de entrega de actividades y la práctica se tiene que entregar al buzón de entrega de prácticas del espacio de Evaluación del aula virtual. Una vez transcurrida el tiempo dedicado a la resolución de cada ejercicio, se publicará, igualmente al calendario y a la fecha señalada, una propuesta de solución de cada uno de las pruebas.

El seguimiento correcto de la asignatura os compromete a realizar las actividades propuestas de manera individual y según las indicaciones que pauta este Plan Docente. En caso de que no sea así, las actividades se evaluarán con una D.

Por otra parte, y siempre a criterio de los Estudios, el incumplimiento de este compromiso puede suponer que no se os permita superar ninguna otra asignatura mediante evaluación continua ni en el semestre en curso ni en los siguientes.

Subir