|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en que se proyecta Conocimientos previos Objetivos y competencias Contenidos Consulta de los materiales que dispone la asignatura Consulta del modelo de evaluación | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data. Iniciaremos esta asignatura analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster. Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Veremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark. Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Esta asignatura pertenece al conjunto de asignaturas optativas del Máster universitario en Ciencia de datos (Data Science). |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan conocimientos de programación (preferiblemente en lenguaje Python), así como conocimientos de análisis de datos, aprendizaje automático (machine learning) y redes de computadores. Asimismo también es necesario que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La asignatura consta de 5 bloques temáticos, cada uno de los cuales apoyado por un material didáctico. El contenido asociado a cada bloque temático es el que se detalla a continuación: 1) Introducción al Big Data En este primer módulo se introduce el concepto de Big Data y se discute el cambio de modelo y paradigma que implica dicho concepto. 2) Tipologías y arquitecturas de un sistema Big Data Entender las diferentes tipologías y arquitecturas de un sistema Big Data, siendo capaz de indentificar qué arquitectura se debería desarrollar según las características de cada problema, incluyendo las especificidades de datos y entornos. Introduciremos los dos sistemas principales de cálculo distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. Seguidamente definiremos las tareas que realizan los gestores de recursos, centrándonos en Apache Mesos y YARN. 3) Captura, pre-procesamiento y almacenamiento de datos masivos Conocer las características básicas de los procesos de captura, pre-procesamiento y almacenamiento de datos en entornos Big Data. Es decir, ser capaz de entender las peculiaridades que implica el Big Data en cada una de estas fases del análisis de datos y conocer las principales herramientas y tecnologías Big Data que lo apoyan. Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL. 4) Análisis de datos masivos Conocer y entender las las principales técnicas y herramientas de minería de datos y machine learning para datos masivos. Saber qué las diferencia de las técnicas y herramientas minería de datos tradicionales, y cuándo y cómo hay que utilizarlas. Veremos las herramientas para procesamiento en batch, haciendo especial énfasis en los ecosistemas Apache Hadoop y Apache Spark. Seguiremos con las herramientas para procesamiento en streaming, donde veremos los frameworks Apache Flume, Apache Kafka, Spark Streaming y Apache Storm. 5) Visualización de datos masivos Entender cuáles son las principales problemáticas en la visualización de los datos masivos y conocer las principales técnicas y herramientas que permiten superar estas limitaciones y que son utilizadas para la visualización de datos masivos. Nos centraremos en las herramientas que integran los distintos ecosistemas para la visualización de datos masivos. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ponderación de las calificaciones
Opción para superar la asignatura: EC
Nota final de asignatura: EC |