Tipología y fuentes de datos Código:  22.514    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
ATENCIÓN: Este es el plan docente de la asignatura para el primer semestre del curso 2020-2021. Os servirá para planificar la matrícula. Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).
En tipología y orígenes de datos estudiaremos las características de captura y tipología de los datos asociados a cada origen así como los diferentes orígenes de datos que se pueden usar en proyectos de ciencia de datos. Trabajaremos como agregar datos de múltiples fuentes en un mismo espacio de almacenamiento, manteniendo la coherencia entre ellos, al mismo tiempo que veremos diferentes métodos para la captura de datos provenientes de múltiples orígenes.

Amunt

Esta es la primera asignatura de la materia de tratamiento de datos del Grado de Ciencia de los Datos Aplicada. En esta asignatura aprovecharemos para ver las características de captura y tipología de los datos asociados a los diferentes orígenes de datos que se pueden usar en proyectos de ciencia de datos.

Amunt

Esta asignatura se proyecta en los diferentes perfiles de científicos de datos cómo son el científico/a de datos, el analista de datos, el ingeniero/a de datos, el estadístico/a, el administrador/a de base de datos o el/la líder de ciencia de datos.

Amunt

En la realización de las actividades prácticas es necesario conocimientos de programación.

Amunt

Algunos de los contenidos de esta asignatura deben estudiarse a partir de materiales y recursos escritos en inglés.

Amunt

Competencias básicas 
  • Que los estudiantes hayan demostrado poseer y comprender conocimientos en un área de estudio que parte de la base de la educación secundaria general, y se suele encontrar a un nivel que, si bien se apoya en libros de texto avanzados, incluye también algunos aspectos que implican conocimientos procedentes de la vanguardia de su campo de estudio
  • Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio
  • Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética
  • Buscar, gestionar y usar la información más adecuada para modelizar problemas concretos y aplicar adecuadamente procedimientos teóricos para su resolución de manera autónoma y creativa.
  • Comunicar y transmitir los conocimientos, habilidades y destrezas de la profesión en el marco de la ciencia de datos. 

Competencias transversales: 
  • Uso y aplicación de las TIC en el ámbito académico y profesional. 
  • Comunicarse en una lengua extranjera. 
  • Expresarse de forma escrita de forma adecuada al contexto académico y profesional.

Competencias especificas: 
  • Diseñar un marco experimental teniendo en cuenta los métodos más adecuados para la captura, el procesamiento, el almacenamiento, el análisis y la visualización de datos.
  • Utilizar de forma combinada los fundamentos matemáticos, estadísticos y de programación para desarrollar soluciones a problemas en el ámbito de la ciencia de los datos.
  • Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructurados, semi-estructurados y no estructurados.

Objetivos específicos: 
  • Conocer los distintos tipos de datos con que nos podemos encontrar y saber sus peculiaridades. 
  • Ser capaz de identificar las restricciones de privacidad que puedan tener los datos. 
  • Conocer los repositorios de datos más representativos. Ser capaz de extraer datos de distintos orígenes de datos de forma eficiente. 
  • Ser capaz de procesar los datos (validarlos, integrar datos de distintas fuentes, mejorar su calidad, etc.) para su posterior análisis. 
  • Ser capaz de definir los procesos de extracción, transformación y carga para automatizar el pre-procesamiento de los datos.

Amunt

La asignatura consta de 4 bloques/retos: 

  1. ¿Cómo pueden ser los datos?
  2. Caso práctico de tipología de datos
  3. ¿Pueden las máquinas leer e interpretar automáticamente páginas web?
  4. Caso práctico de origen de datos

1. ¿Cómo pueden ser los datos?

Internet ha cambiado el modo de tratar y generar la información. En las últimas décadas, nos hemos movido de un escenario donde los datos estaban guardados en ordenadores independientes y no interrelacionados usando principalmente modelos propios de base de datos relacionales, a una red donde cualquier dispositivo o individuo están interconectados. En este ecosistema de ordenadores, sensores, humanos y otros dispositivos se generan y gestionan cantidades ingentes de datos que fluyen de forma libre usando diferentes estructuras. Entender las diferentes formas que los datos pueden adoptar (tipos de datos) es clave para desenvolverse de forma ágil en el mundo de la ciencia de los datos.

Este primer reto nos permitirá familiarizarnos con conceptos clave de tipología y orígenes de datos, y trabajar con software específico del ámbito.

2. Caso práctico de tipología de datos

Como no es lo mismo explicarlo que hacerlo, en este reto nos vamos a poner manos a la obra con un caso práctico de trabajo y uso de tipología de los datos. Este segundo reto nos permitirá desarrollar un proyecto complejo y completo. Con este lograremos afianzar los conceptos estudiados, seguir familiarizándonos con el software, y practicar las habilidades de comunicación escrita.

3. ¿Pueden las máquinas leer e interpretar automáticamente páginas web?

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Sin embargo, sólo se analiza un 0.5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características distintas, pero gran parte de ellos tienen algo en común: que pueden ser de interés para terceros y acaban no compartiéndose. Este gran volumen de datos presenta un gran potencial para extraer conocimiento útil que dé soporte a la toma de decisiones en las organizaciones, pero también a resolver preguntas multidisciplinares, preguntas científicas antes irresolubles o la personalización de servicios de usuario entre otros. Para poder hacer todo esto los datos generados deben ser públicos, pero aún siendo públicos los datos no dejan de representar silos de información si no los conectamos con otros datos. Por tanto son necesarias técnicas y tecnologías que nos permitan enlazar datos de distintos orígenes para representar las relaciones que encontramos en el mundo real. ¿Cómo lo podemos hacer?

Este tercer reto nos permitirá responder esta pregunta mientras vamos profundizando en los conceptos clave y procedimientos de tipología y orígenes de datos.

4. Caso práctico de origen de datos

Nos volveremos a poner manos a la obra con un caso práctico de trabajo y uso de diferente orígenes de datos. Este cuarto reto nos permitirá desarrollar un proyecto complejo y completo. Con este lograremos afianzar los conceptos estudiados, seguir familiarizándonos con el software, y practicar las habilidades de comunicación escrita.

Amunt

Fundamentos de data science PDF

Amunt

La Normativa académica de la UOC dispone que el proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de originalidad en la autoría o el mal uso de las condiciones en las que se hace la evaluación de la asignatura es una infracción que puede tener consecuencias académicas graves.

El estudiante será calificado con un suspenso (D/0) si se detecta falta de originalidad en la autoría de alguna actividad evaluable (práctica, prueba de evaluación continua (PEC) o final (PEF), o la que se defina en el plan docente), ya sea porque ha utilizado material o dispositivos no autorizados, ya sea porque ha copiado de forma textual de internet, o ha copiado de apuntes, de materiales, manuales o artículos (sin la citación correspondiente) o de otro estudiante, o por cualquier otra conducta irregular.

La calificación de suspenso (D/0) en la evaluación continua (EC) puede conllevar la obligación de hacer el examen presencial para superar la asignatura (si hay examen y si superarlo es suficiente para superar la asignatura según indique este plan docente).

Cuando esta mala conducta se produzca durante la realización de las pruebas de evaluación finales presenciales, el estudiante puede ser expulsado del aula, y el examinador hará constar todos los elementos y la información relativos al caso.

Además, esta conducta puede dar lugar a la incoación de un procedimiento disciplinario y la aplicación, si procede, de la sanción que corresponda.

La UOC habilitará los mecanismos que considere oportunos para velar por la calidad de sus titulaciones y garantizar la excelencia y la calidad de su modelo educativo.

Amunt

Esta asignatura sólo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt