Minería de datos Código:  75.584    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2022-2023. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

Los datos son el nuevo petróleo. Por lo tanto, Minería de Datos es una asignatura de aplicación de los conocimientos previos que habéis aprendido a Estadística y Bases de Datos y de presentación de algunos de nuevos más específicos del ámbito de extracción de conocimiento. Se presentan un conjunto de métodos procedentes de la Inteligencia Artificial, que forman el núcleo esencial de la disciplina conocida como Data Mining. Los conceptos básicos de las asignaturas mencionadas son muy útiles en esta asignatura y permitirán evaluar mejor algunas de las técnicas que se estudiarán.

Amunt

Dentro del Grado de Ingeniería Informática, esta asignatura es optativa y está pensada para realizarla tras haber adquirido los conocimientos necesarios de estadística, bases de datos y programación, como punto final de una trayectoria orientada al análisis de información.

Por otra parte, esta asignatura también se ofrece como complemento de formación en otros programas, de forma que los estudiantes adquieran los conocimientos básicos propios del ámbito de la minería de datos.

Amunt

Hoy en día se considera crucial  el análisis de datos para lograr información.

Las opciones profesionales de esta asignatura son, por una parte, el mundo del I+D tanto en la industria informática como en la empresa orientada a negocio, y por otra parte, la investigación en un contexto más académico.

Esta asignatura pretende preparar a futuros analistas de información, los cuales tendrán que descubrir conocimiento en forma de patrones escondidos en cantidades ingentes de datos que hoy en día genera cualquier proceso industrial o económico. Un ejemplo seria  prever cómo reaccionará el mercado ante de una campaña de marketing en función de los datos guardados de experiencias anteriores.

Amunt

Esta asignatura requiere conocimientos básicos de estadística, así como conocimientos de programación y bases de datos. También es necesario ser capaz de leer documentación en inglés.

Amunt

Para cursar esta asignatura se recomienda haber cursado con anterioridad Estadística, Fundamentos de Programación y Uso de Bases de Datos.

Amunt

Objetivos

1. Saber en qué consiste el proceso de minería de datos y conocer sus fases.

2. Conocer las tareas a que se puede dirigir un proceso de minería de datos.

3. Conocer los principales modelos que se pueden extraer de los datos y sirven para traer adelante las tareas anteriores.

4.  Conocer las técnicas que permiten construir los modelos mencionados: cuando se pueden aplicar y bajo cuáles condiciones, qué clase de resultados dan, como se deden preparar los datos por poderlas utilizar y como se ha de evaluar y comparar su calidad.

5.  Decidir ante un problema práctico concreto qué tarea de minería de datos conviene utilizar, qué modelo se quiere obtener, qué técnica resultaría más adecuada de utilizar y como evaluar los resultados obtenidos.

7. Practicar con un producto de código abierto de ámbito académico que implementa algunas tecnologías de las tratadas a lo largo del curso.

Competencias transversales

2. Uso y aplicación de las TIC en el ámbito académico y profesional.

5. Capacidad para adaptarse a las tecnologías y a los futuros entornos actualizando las competencias profesionales.

6. Capacidad para innovar y generar nuevas ideas.

Competencias específicas

1. Capacidad para planificar y gestionar proyectos en el entorno de las TIC.

3. Capacidad para evaluar soluciones tecnológicas y elaborar propuestas de proyectos teniendo en cuenta los recursos, las alternativas disponibles y las condiciones de mercado.

6. Capacidad de analizar un problema en el nivel de abstracción adecuado a cada situación y aplicar las habilidades y los conocimientos adquiridos para abordarlo y resolverlo.

11. Capacidad de diseñar y construir aplicaciones informáticas mediante técnicas de desarrollo, integración y reutilización.

13. Capacidad para aplicar las técnicas específicas de tratamiento, almacenamiento y administración de datos.

14. Capacidad para proponer y evaluar diferentes alternativas tecnológicas para resolver un problema concreto.

Amunt

El material didáctico de la asignatura se divide en seis módulos y un prólogo que presentan una notable interrelación entre ellos. El sexto es un caso de estudio que se puede utilizar para ver cómo los métodos explicados en los otros módulos se aplican en un caso concreto y real.

A continuación podéis ver los módulos que se tienen que trabajar para poder alcanzar los objetivos de la asignatura. 

Módulo 1: El proceso de Minería de Datos.

  1. Descubrimiento de conocimiento a partir de datos.
  2. Las fases del proceso de extracción de conocimiento.
  3. Las herramientas de Minería de Datos.
  4. Caso de estudio de todo el curso: New Diagnosis.

Módulo 2: Preprocesado de datos y gestión de características.

  1. Preliminares: repaso de conceptos estadísticos.
  2. Preliminares: tipo de atributos.
  3. Operaciones de preparación de datos.
  4. Tratamiento de la falta de datos.
  5. Reducción de dimensionalidad.
  6. Métodos de reducción de casos.

Módulo 3: Modelos no supervisados

  1. La similitud, base para la agrupación de objetos
  2. Espacio, distancia y similitud
  3. Métodos de agregación basados en la similitud y métodos probabilísticos
  4. Interpretación de los modelos obtenidos
  5. Ponderación de métodos de agregación

Módulo 4: Modelos supervisados

  1. Introducción: Estructura de árboles de decisión
  2. Métodos de construcción de árboles de decisión para clasificación: ID3 i C4.5
  3. Construcción de árboles de decisión por regresión y clasificación: CART
  4. Construcción de árboles de decisión por predicción numérica: CHAID
  5. Mètodos de construcción de árboles de decisión multivariantes: LMDT
  6. Ponderación final de árboles de decisión

Módulo 5: Evaluación de modelos.

  1. Evaluación de modelos clasificatorios.
  2. Validación cruzada ("K Cross-Validation").
  3. Comparación de rendimientos.
  4. Otras formas de estimar la calidad de modelos predictivos.
  5. Coste.

Módulo 6: Caso de Estudio.

  1. 1. El caso de los pozos de petróleo.
  2. 2. Preparación de datos.
  3. 3. Obtención de modelos.
  4. 4. Evaluación y comparación.

Amunt

2. Preprocesado de datos PDF
4. Modelos no supervisados PDF
6. Evaluación de modelos PDF
1. El proceso de minería de datos PDF
3. Gestión de características PDF
7. Caso de estudio PDF
0. Prólogo PDF
5. Modelos supervisados PDF

Amunt

El material didáctico asociado a la asignatura comprende:

  1. Este Plan Docente.
  2. Los módulos didácticos que están disponibles en el aula.
  3. El software utilizado en  la asignatura y su documentación.
  4. El laboratorio de Minería de Datos asociado.
  5. Diferentes recursos docentes que se iran enlazando en el aula a lo largo del semestre (datasets, ejemplos de buenas prácticas, ...).

 

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC), nota que se combina con una nota de prácticas (Pr) para obtener la nota final de la asignatura. No se prevé hacer ninguna prueba de evaluación final. La fórmula de acreditación de la asignatura es la siguiente: EC + Pr.

 
 

Amunt