|
||||||||||||||||||||||||||||||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Objetivos y competencias Contenidos Consulta de los materiales de los que dispone la asignatura Consulta del modelo de evaluación | ||||||||||||||||||||||||||||||||
ATENCIÓN: Esta información recoge los apartados del plan docente de la asignatura durante el último semestre con docencia. Al iniciar el periodo de matrícula, podrás consultar el calendario y modelo de evaluación para el siguiente semestre en Secretaría/ Matrícula / Horarios pruebas de evaluación final. | ||||||||||||||||||||||||||||||||
Esta asignatura constituye una introducción a las tecnologías relacionadas con los sistemas de Big Data. Iniciaremos esta asignatura analizando la estructura tecnológica que se encuentra detrás de un proyecto de Big Data, y que incluye aspectos relevantes, como por ejemplo, el sistema de almacenamiento y cálculo distribuido o la gestión de los recursos hardware del cluster. Continuaremos viendo los tres principales modelos de procesamiento distribuido: procesamiento batch, real-time o streaming y basado en eventos complejos. Veremos las principales funciones y características de los frameworks más utilizados en la actualidad, prestando especial atención a los dos grandes estándares de la industria: Apache Hadoop y Apache Spark. Finalizaremos esta asignatura revisando las principales librerías de análisis de datos, incluyendo temas de aprendizaje automático (machine learning), análisis de grafos y visualización de datos masivos.
|
||||||||||||||||||||||||||||||||
Esta asignatura pertenece al conjunto de asignaturas optativas del Máster universitario en Ciencia de datos (Data Science). |
||||||||||||||||||||||||||||||||
La asignatura proporciona conocimientos que serán de utilidad en diferentes ámbitos profesionales, como son la programación de sistemas que requieran el uso de datos masivos, la ciencia de datos o la dirección o consultoría de proyectos basados en sistemas Big Data, entre otros. |
||||||||||||||||||||||||||||||||
El curso requiere que los estudiantes tengan conocimientos de programación (preferiblemente en lenguaje Python), así como conocimientos de análisis de datos, aprendizaje automático (machine learning) y redes de computadores. Asimismo también es necesario que los estudiantes tengan la capacidad de leer y comprender el idioma inglés puesto que una parte de los materiales adicionales y otros recursos, están en dicho idioma. |
||||||||||||||||||||||||||||||||
Los objetivos que se desea que el estudiante alcance mediante esta asignatura son los siguientes:
|
||||||||||||||||||||||||||||||||
La asignatura consta de 5 bloques temáticos, cada uno de los cuales apoyado por un material didáctico. El contenido asociado a cada bloque temático es el que se detalla a continuación: 1) Introducción al Big Data En este primer módulo se introduce el concepto de Big Data y se discute el cambio de modelo y paradigma que implica dicho concepto. 2) Tipologías y arquitecturas de un sistema Big Data Entender las diferentes tipologías y arquitecturas de un sistema Big Data, siendo capaz de indentificar qué arquitectura se debería desarrollar según las características de cada problema, incluyendo las especificidades de datos y entornos. Introduciremos los dos sistemas principales de cálculo distribuido, MapReduce y Apache Spark, haciendo énfasis en sus fortalezas y debilidades. Seguidamente definiremos las tareas que realizan los gestores de recursos, centrándonos en Apache Mesos y YARN. 3) Captura, pre-procesamiento y almacenamiento de datos masivos Conocer las características básicas de los procesos de captura, pre-procesamiento y almacenamiento de datos en entornos Big Data. Es decir, ser capaz de entender las peculiaridades que implica el Big Data en cada una de estas fases del análisis de datos y conocer las principales herramientas y tecnologías Big Data que lo apoyan. Discutiremos el almacenaje y gestión de la información, centrándonos en el sistema de ficheros distribuido HDFS y las bases de datos NoSQL. 4) Análisis de datos masivos Conocer y entender las las principales técnicas y herramientas de minería de datos y machine learning para datos masivos. Saber qué las diferencia de las técnicas y herramientas minería de datos tradicionales, y cuándo y cómo hay que utilizarlas. Veremos las herramientas para procesamiento en batch, haciendo especial énfasis en los ecosistemas Apache Hadoop y Apache Spark. Seguiremos con las herramientas para procesamiento en streaming, donde veremos los frameworks Apache Flume, Apache Kafka, Spark Streaming y Apache Storm. 5) Visualización de datos masivos Entender cuáles son las principales problemáticas en la visualización de los datos masivos y conocer las principales técnicas y herramientas que permiten superar estas limitaciones y que son utilizadas para la visualización de datos masivos. Nos centraremos en las herramientas que integran los distintos ecosistemas para la visualización de datos masivos. |
||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||
|