Tipología y ciclo de vida de los datos Código:  M2.851    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Consulta del modelo de evaluación  
ATENCIÓN: Esta información recoge los apartados del plan docente de la asignatura durante el último semestre con docencia. Al iniciar el periodo de matrícula, podrás consultar el calendario y modelo de evaluación para el siguiente semestre en Trámites / Matrícula / Horarios de las pruebas de evaluación final.

La asignatura de Tipología y ciclo de vida de los datos se centra en las distintas visiones y dimensiones de los datos. Se presentan las principales características de los datos, como por ejemplo los principales tipos y formatos de datos que se pueden encontrar, y que por tanto serán (potencialmente) parte de las fuentes en los procesos de análisis de los datos.

 A continuación,  se muestran los principales métodos en la adquisicion y captura de datos, como por ejemplo el web scraping, el acceso a los datos mediante API o SPARQL.

Finalmente, se explica los procesos relacionados con los datos, como la integración, validación, agregación, limpieza y el enriquecimiento.

 

Amunt

La asignatura forma parte del conjunto de asignaturas obligatorias del máster, y se recomienda que sea cursada durante el primer o segundo semestre de estudios.

Amunt

En la realización de las actividades prácticas es recomendable conocimientos básicos de R y Python.

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Amunt

Competencias básicas

  • Saber aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • Adquirir las habilidades de aprendizaje que permitan continuar estudiando de manera auto-dirigida o autónoma.
  • Adquirir la capacidad para extraer, interpretar y analizar los datos de distintos entornos.
  • Adquirir la capacidad de búsqueda, gestión y uso de la información y los recursos en el ámbito de la ciencia de datos.

Competencias transversales

  • Adquirir la capacidad de iniciativa, automotivación y trabajo de forma independiente.
  • Adquirir la capacidad de comunicación oral y escrita para la vida académica y profesional.
  • Adquirir la capacidad para proponer soluciones innovadores y tomar decisiones.
  • Adquirir la capacidad para trabajar en equipos multidisciplinares.

Competencias específicas

  • Adquirir la destreza necesaria para la manipulación de datos, conversión de formatos y almancenamiento de los mismos.
  • Aprender el uso avanzado de las herramientas de software estadístico adecuadas para los distintos problemas de modelización, análisis y visualización de datos.
  • Aprender a capturar datos de distintas fuentes de datos (tales como redes sociales, web de datos o repositorios) y mediante diferentes mecanismos (tales como queries, API y scraping).
  • Saber actuar con los principios éticos y legales relacionados con la manipulación de datos en función del ámbito de aplicación.

Objetivos específicos

  • Conocer los distintos tipos de datos con que nos podemos encontrar y saber sus peculiaridades.
  • Ser capaz de identificar las restricciones de privacidad que puedan tener los datos.
  • Conocer los repositorios de datos más representativos.
  • Ser capaz de extraer datos de distintos orígenes de datos de forma eficiente, mayoritariamente en el contexto web y empresarial.
  • Ser capaz de procesar los datos (validarlos, integrar datos de distintas fuentes, mejorar su calidad, etc.) para su posterior análisis.
  • Ser capaz de definir los processos de extracción, transformación y carga para automatizar el pre-procesamiento de los datos.

Amunt

1. Características de los datos

  1. Tipos
  2. Formatos

2. Orígenes de los datos

  1.  Master Data Management
  2.  Web de datos

3. Adquisición de los datos

  1. Web Scrapping
  2. API
  3. SPARQL

4. Procesamiento de datos

  1. Integración
  2. Validación
  3. Agregación
  4. Data cleansing
  5. Enriquecimiento mediante metadatos
  6. Análisis

Amunt

El lenguaje Python PDF
Repositorio de recursos sobre ciencia de datos Web
Fundamentos de Data Science PDF

Amunt

La asignatura está estructurada en tres bloques. El consultor os indicará en cada bloque cuales son los capítulos que tendréis que leer de los siguientes recursos de aprendizaje:

Bloque 1: Preliminares

  • Minguillon, J. (2016). Fundamentos de Data Science. Editorial UOC.
  • Subirats, L., Calvo, M.(2019). Web Scraping. Editorial UOC. Capítol 1 i 6.


Bloque 2: Web Scraping

  • Subirats, L., Calvo, M. (2019). Web Scraping. Editorial UOC.
  • Masip, David (2010). Llenguatge Python. Editorial UOC.
  • Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. ISBN: 978-1-118-83481-7, 474 pages, December 2014.
  • Tutorial de Github: https://guides.github.com/activities/hello-world.


Bloque 3: Limpieza y validación de datos

  • Squire, Megan (2015). Clean Data. Packt Publishing Ltd. 272 p. ISBN 9781785289033
  • Jiawei Han, Micheine Kamber, Jian Pei (2012). Data mining: concepts and techniques. Morgan Kaufmann.
  • Jason W. Osborne (2010). Data Cleaning Basics: Best Practices in Dealing with Extreme Scores. Newborn and Infant Nursing Reviews; 10 (1): pp. 1527-3369.
  • Kristin H. Jarman. The art of data analysis: how to answer almost any question using basic statistics. John Wiley & Sons, Inc.. 0p. ISBN 9781118413357
  • Dalgaard, Peter. Introductory statistics with R (Second Edition). New York : Springer, 2002. ISBN 038722632X
  • Wes McKinney. Python for Data Analysis. O'Reilly Media, 2012. 466 p. ISBN: 9781449323592.
  • Tutorial de Github: https://guides.github.com/activities/hello-world.

Amunt

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt