Tipología y ciclo de vida de los datos Código:  M2.851    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

La asignatura de Tipología y ciclo de vida de los datos se centra en las distintas visiones y dimensiones de los datos. Se presentan las principales características de los datos, como por ejemplo los principales tipos y formatos de datos que se pueden encontrar, y que por tanto serán (potencialmente) parte de las fuentes en los procesos de análisis de los datos.

A continuación, se muestran los principales métodos en la adquisición y captura de datos, como por ejemplo el web scraping, el acceso a los datos mediante API o SPARQL.

Finalmente, se explica los procesos relacionados con los datos, como la integración, validación, agregación, limpieza y el enriquecimiento.

 

Amunt

La asignatura forma parte del conjunto de asignaturas obligatorias del máster, y se recomienda que sea cursada durante el primer o segundo semestre de estudios.

Amunt

Esta asignatura se proyecta en los diferentes perfiles de científicos de datos cómo son el científico/a de datos, el analista de datos, el ingeniero/a de datos, el estadístico/a, el administrador/a de base de datos o el/la líder de ciencia de datos.

Amunt

En la realización de las actividades prácticas es recomendable conocimientos básicos de R y Python.

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Amunt

Competencias básicas

  • Saber aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio.
  • Adquirir las habilidades de aprendizaje que permitan continuar estudiando de manera auto-dirigida o autónoma.
  • Adquirir la capacidad para extraer, interpretar y analizar los datos de distintos entornos.
  • Adquirir la capacidad de búsqueda, gestión y uso de la información y los recursos en el ámbito de la ciencia de datos.

Competencias transversales

  • Adquirir la capacidad de iniciativa, automotivación y trabajo de forma independiente.
  • Adquirir la capacidad de comunicación oral y escrita para la vida académica y profesional.
  • Adquirir la capacidad para proponer soluciones innovadoras y tomar decisiones.
  • Adquirir la capacidad para trabajar en equipos multidisciplinares.

Competencias específicas

  • Adquirir la destreza necesaria para la manipulación de datos, conversión de formatos y almacenamiento de los mismos.
  • Aprender el uso avanzado de las herramientas de software estadístico adecuadas para los distintos problemas de modelización, análisis y visualización de datos.
  • Aprender a capturar datos de distintas fuentes de datos (tales como redes sociales, web de datos o repositorios) y mediante diferentes mecanismos (tales como queries, API y scraping).
  • Saber actuar con los principios éticos y legales relacionados con la manipulación de datos en función del ámbito de aplicación.

Objetivos específicos

  • Conocer los distintos tipos de datos con que nos podemos encontrar y saber sus peculiaridades.
  • Ser capaz de identificar las restricciones de privacidad que puedan tener los datos.
  • Conocer los repositorios de datos más representativos.
  • Ser capaz de extraer datos de distintos orígenes de datos de forma eficiente, mayoritariamente en el contexto web y empresarial.
  • Ser capaz de procesar los datos (validarlos, integrar datos de distintas fuentes, mejorar su calidad, etc.) para su posterior análisis.
  • Ser capaz de definir los procesos de extracción, transformación y carga para automatizar el pre-procesamiento de los datos.

Amunt

1. Introducción al ciclo de vida de los datos

  1. ¿Qué son los datos?
  2. Ciclo de vida de los datos

2. Web Scraping

  1. ¿Por qué y cómo realizar web scraping?
  2. Primeros pasos para realizar web scraping
  3. Web scraping de contenido gráfico y audiovisual
  4. Almacenamiento y compartición de datos
  5. Prevención del web scraping
  6. Resolución de obstáculos en web scraping
  7. Aspectos legales
  8. Mejores prácticas y consejos
  9. Ejemplos de web scraping y casos de éxito

3. Introducción a la limpieza y análisis de los datos

  1. Limpieza de datos
  2. Análisis de datos
  3. Visualización de datos

Amunt

Espacio de recursos de ciencia de datos Web

Amunt

La asignatura está estructurada en tres bloques. El consultor os indicará en cada bloque cuales son los capítulos que tendréis que leer de los siguientes recursos de aprendizaje:

Bloque 1: Preliminares

  • Subirats, L., Pérez, D., Calvo, M.(2019). Introducción al ciclo de vida de los datos. Editorial UOC. 
  • Subirats, L., Calvo, M.(2019). Web Scraping. Editorial UOC. Capítulos 1 y 6.


Bloque 2: Web Scraping

  • Subirats, L., Calvo, M. (2019). Web Scraping. Editorial UOC.
  • Masip, David (2010). Llenguatge Python. Editorial UOC.
  • Simon Munzert, Christian Rubba, Peter Meissner, Dominic Nyhuis. Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. ISBN: 978-1-118-83481-7, 474 pages, December 2014.
  • Tutorial de Github: https://guides.github.com/activities/hello-world.


Bloque 3: Limpieza y validación de datos

  • Calvo, M., Pérez, D., Subirats, L. (2019). Introducción a la limpieza y análisis de datos. Editorial UOC. 
  • Squire, Megan (2015). Clean Data. Packt Publishing Ltd. 272 p. ISBN 9781785289033
  • Tutorial de Github: https://guides.github.com/activities/hello-world.

Amunt

En la UOC, la evaluación generalmente es virtual. Se estructura en torno a la evaluación continua, que incluye diferentes actividades o retos; la evaluación final, que se lleva a cabo mediante pruebas o exámenes, y el trabajo final de la titulación.

Las actividades o pruebas de evaluación pueden ser escritas y/o audiovisuales, con preguntas aleatorias, pruebas orales síncronas o asíncronas, etc., de acuerdo con lo que decida cada equipo docente. Los trabajos finales representan el cierre de un proceso formativo que implica la realización de un trabajo original y tutorizado que tiene como objetivo demostrar la adquisición competencial hecha a lo largo del programa.

Para verificar la identidad del estudiante y la autoría de las pruebas de evaluación, la UOC se reserva la potestad de aplicar diferentes sistemas de reconocimiento de la identidad y de detección del plagio. Con este objetivo, la UOC puede llevar a cabo grabación audiovisual o usar métodos o técnicas de supervisión durante la ejecución de cualquier actividad académica.

Asimismo, la UOC puede exigir al estudiante el uso de dispositivos electrónicos (micrófonos, cámaras u otras herramientas) o software específico durante la evaluación. Es responsabilidad del estudiante asegurar que estos dispositivos funcionan correctamente.

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de las actividades académicas. La web sobre integridad académica y plagio de la UOC contiene información al respecto.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; la suplantación de identidad; la aceptación o la obtención de cualquier actividad académica a cambio o no de una contraprestación; la colaboración, el encubrimiento o el favorecimiento de la copia, o el uso de material, software o dispositivos no autorizados en el plan docente o el enunciado de la actividad académica, incluida la inteligencia artificial y la traducción automática, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden conllevar el suspenso (D/0) en las actividades evaluables definidas en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, ya sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas (como el uso de inteligencia artificial no permitida, redes sociales o buscadores de información en internet), porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, por la compraventa de actividades académicas, o porque se ha llevado a cabo cualquier otra conducta irregular.

Asimismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto en la evaluación continua como en la evaluación final, a través de una entrevista oral síncrona, que puede ser objeto de grabación audiovisual, o por los medios establecidos por la UOC. Estos medios tienen el objetivo de verificar los conocimientos y las competencias que garanticen la identidad del estudiante. Si no es posible garantizar que el estudiante es el autor de la prueba, esta puede ser calificada con una D, en el caso de la evaluación continua, o con un suspenso, en el caso de la evaluación final.

Inteligencia artificial en el marco de la evaluación

La UOC reconoce el valor y el potencial de la inteligencia artificial (IA) en el ámbito educativo y, a su vez, pone de manifiesto los riesgos que supone si no se utiliza de forma ética, crítica y responsable. En este sentido, en cada actividad de evaluación se informará al estudiantado sobre las herramientas y los recursos de IA que se pueden utilizar y en qué condiciones. Por su parte, el estudiantado se compromete a seguir las indicaciones de la UOC a la hora de realizar las actividades de evaluación y de citar las herramientas utilizadas y, concretamente, a identificar los textos o imágenes generados por sistemas de IA, los cuales no podrá presentar como si fueran propios.

Respecto a usar o no la IA para resolver una actividad, el enunciado de las actividades de evaluación indica las limitaciones en el uso de estas herramientas. Debe tenerse en cuenta que usarlas de manera inadecuada, como por ejemplo en actividades en las que no están permitidas o no citarlas en las actividades en las que sí lo están, puede considerarse una conducta irregular en la evaluación. En caso de duda, se recomienda que, antes entregar la actividad, se haga llegar una consulta al profesorado colaborador del aula.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt