Captura y preparación de datos Código:  22.515    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

En captura y preparación de datos estudiaremos el proceso de captura de datos, así como el proceso de limpieza de datos y la preparación de estas mediante técnicas de ingeniería de características. Trabajaremos diferentes metodologías para hacer web scraping y profundizaremos en los procedimientos de limpieza de datos, utilizando diferentes librerías de Python. Seguidamente, haremos ingeniería de características para dejar preparados los datos, incluyendo eliminación de outliers o valores extremos, reducción de dimensionalidad, y transformaciones de los datos, entre otros procedimientos.

Amunt

Esta es la segunda asignatura de la materia de tratamiento de los datos del Grado de Ciencia de los Datos Aplicada. En esta asignatura estudiaremos las características y la metodología para la captura de datos y el proceso de limpieza y preparación de estas. Las técnicas y procedimientos trabajados en esta asignatura serán utilizados en proyectos de ciencia de los datos.

Amunt

Esta asignatura se proyecta a los diferentes perfiles de científicos de datos como son el científico/a de datos, el analista de datos, el ingeniero/a de datos, el estadístico/a, el administrador/a de base de datos o el/la líder de ciencia de datos.

Amunt

Es necesario conocimientos de programación para la realización de las actividades prácticas.

Amunt

Algunos de los contenidos de esta asignatura se estudiarán a partir de los materiales y recursos escritos en inglés.

Amunt

COMPETENCIAS BÁSICAS

  • Que los estudiantes hayan demostrado tener y entender conocimientos en un área de estudio que parte de la base de la educación secundaria general, y que se pueda encontrar a un nivel que pueda ser reforzado con libros de texto avanzados y que también implican conocimientos procedentes de la vanguardia de su campo de estudio.
  • Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y que tengan competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio.
  • Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente de su área de estudio) para realizar juicios que incluyen una reflexión sobre temas relevantes de índole social, científico o ético.
  • Buscar, gestionar y utilizar la información más adecuada para modelar problemas concretos y aplicar adecuadamente procedimientos teóricos para su resolución de manera autónoma y creativa.
  • Comunicar y transmitir conocimientos, habilidades y destrezas de la profesión en el marco de la ciencia de datos.


COMPETENCIAS TRANSVERSALES

  • Utilización y aplicación de las TIC en el ámbito académico y profesional.
  • Comunicarse en una lengua extranjera.
  • Expresarse de forma escrita de forma adecuada al contexto académico y profesional.


COMPETENCIAS ESPECÍFICAS

  • Diseñar un marco experimental teniendo en cuenta los métodos más adecuados para la captura, el procesamiento, el almacenamiento, el análisis y la visualización de datos.
  • Utilización de forma combinada los fundamentos matemáticos, estadísticos y de programación para desarrollar soluciones a problemas del ámbito de la ciencia de datos.
  • Aplicar técnicas específicas de captura, tratamiento y análisis de datos estructuradas, semi-estructuradas y no estructuradas.


OBJETIVOS ESPECÍFICOS

  • Conocer qué son los datos y cuál es su ciclo de los datos
  • Conocer los diferentes tipos de datos con las que nos podemos encontrar y saber sus particularidades.
  • Conocer los diferentes procesos o técnicas que nos permitió hacer captura de datos.
  • Ser capaz de llevar a cabo captura de datos. Conocer y ser capaz de realizar con éxito el pre-procesado y limpieza de los datos.
  • Entender cuál es la finalidad de realizar ingeniería de características a un conjunto de datos.
  • Ser capaz de realizar satisfactoriamente ingeniería de características sobre un conjunto de datos de estudio.

Amunt

La asignatura consta de 4 bloques o retos:

RETO 1: ¿Qué son los datos y cuál es su ciclo de vida?
Una de las características de la sociedad de la información y el conocimiento es el número creciente de datos generados, tanto a nivel de individuos como de empresas. Un ejemplo de este hecho es la estimación del Computer Sciences Corporation de que en el año 2020 habrá 44 veces más datos de los que había en 2009.
A partir de los datos, obtendremos información que se transformará en conocimiento que permitirá acceder a la sabiduría. Para poder llevar a cabo este proceso y, por tanto, extraer conocimiento de los datos, se definen seis fases o etapas que forman parte del ciclo de vida de los datos. En este reto profundizaremos en este proceso y podremos responder a la pregunta de qué son los datos y cuál es su ciclo de vida.

RETO 2: ¿Cómo podemos capturar los datos de la web?
Internas es actualmente el mayor repositorio de datos, accesibles de forma gratuita en su mayoría. La interoperabilidad, y la colaboración en la red han hecho que los usuarios pasan a formar parte activa de la red, no sólo utilizando internet como una herramienta de búsqueda de información, sino también como un medio para comunicarse y generar contenido y conocimiento. De este modo, la World Wide Web se ha convertido en una fuente inagotable de información.
Aunque en algunos casos es posible recuperar información de forma estructurada, la mayoría de los datos en internet se encuentran integradas en la estructura y estilo de las diferentes páginas web. Como podemos, por tanto, acceder a estos datos y trabajar con ellas? Pues, en este punto es donde toma protagonismo la web scraping o rastreo de la web.
En este reto profundizaremos en este proceso y podremos aprender diferentes maneras de hacer web scraping y capturar los datos contenidos en la web para luego procesarlas y analizarlas.


RETO 3: Es necesario pre-procesar los datos? Como realizamos la limpieza de datos?
En la actualidad, grandes cantidades de datos son almacenados a diario; por tanto, la aplicación de métodos robustos para analizar y extraer información de estos datos es relevante en el campo de la ciencia de datos.
Para dotar de robustez a análisis aplicados con el objetivo de obtener conocimiento a partir de los datos, es clave la calidad de los datos. Por ello, la limpieza de los datos es una etapa importante y determinante en el ciclo de vida de los datos. Durante este proceso, se identifican datos incompletos, incorrectos, inexactos o no pertinentes, con el fin de eliminarlos o corregirlos para obtener así bases de datos de mayor calidad.
En este reto nos adentraremos en la limpieza de los datos y conoceremos las diferentes técnicas y procedimientos necesarios para llevarla a cabo. Además, comprobaremos por qué es tan relevante este proceso en la obtención de conocimiento a partir de los datos.

RETO 4: ¿Cuál es el último paso? Preparación de datos
El destino de los datos preprocessades y del dataset obtenido tras el proceso de limpieza, en la mayoría de los casos, es la aplicación de algoritmos de aprendizaje automático. Antes de ser utilizados por estos algoritmos, hay que llevar a cabo una preparación de éstas mediante una fase conocida como ingeniería de características.
La ingeniería de características intenta aumentar la eficiencia de los algoritmos de aprendizaje automático creando características, seleccionando o filtrando características, realizando transformaciones, etc., dependiendo de lo que sea más adecuado en cada caso. Por lo tanto, realizar de forma apropiada y adecuada esta fase, garantiza el éxito de la aplicación posterior de los diversos algoritmos.
Pero, como realizar una buena praxis haciendo ingeniería de características? En este reto vamos a descubrirlo!

Amunt

Fundamentos de data science PDF

Amunt

En la UOC, la evaluación generalmente es virtual. Se estructura en torno a la evaluación continua, que incluye diferentes actividades o retos; la evaluación final, que se lleva a cabo mediante pruebas o exámenes, y el trabajo final de la titulación.

Las actividades o pruebas de evaluación pueden ser escritas y/o audiovisuales, con preguntas aleatorias, pruebas orales síncronas o asíncronas, etc., de acuerdo con lo que decida cada equipo docente. Los trabajos finales representan el cierre de un proceso formativo que implica la realización de un trabajo original y tutorizado que tiene como objetivo demostrar la adquisición competencial hecha a lo largo del programa.

Para verificar la identidad del estudiante y la autoría de las pruebas de evaluación, la UOC se reserva la potestad de aplicar diferentes sistemas de reconocimiento de la identidad y de detección del plagio. Con este objetivo, la UOC puede llevar a cabo grabación audiovisual o usar métodos o técnicas de supervisión durante la ejecución de cualquier actividad académica.

Asimismo, la UOC puede exigir al estudiante el uso de dispositivos electrónicos (micrófonos, cámaras u otras herramientas) o software específico durante la evaluación. Es responsabilidad del estudiante asegurar que estos dispositivos funcionan correctamente.

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de las actividades académicas. La web sobre integridad académica y plagio de la UOC contiene información al respecto.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; la suplantación de identidad; la aceptación o la obtención de cualquier actividad académica a cambio o no de una contraprestación; la colaboración, el encubrimiento o el favorecimiento de la copia, o el uso de material, software o dispositivos no autorizados en el plan docente o el enunciado de la actividad académica, incluida la inteligencia artificial y la traducción automática, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden conllevar el suspenso (D/0) en las actividades evaluables definidas en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, ya sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas (como el uso de inteligencia artificial no permitida, redes sociales o buscadores de información en internet), porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, por la compraventa de actividades académicas, o porque se ha llevado a cabo cualquier otra conducta irregular.

Asimismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto en la evaluación continua como en la evaluación final, a través de una entrevista oral síncrona, que puede ser objeto de grabación audiovisual, o por los medios establecidos por la UOC. Estos medios tienen el objetivo de verificar los conocimientos y las competencias que garanticen la identidad del estudiante. Si no es posible garantizar que el estudiante es el autor de la prueba, esta puede ser calificada con una D, en el caso de la evaluación continua, o con un suspenso, en el caso de la evaluación final.

Inteligencia artificial en el marco de la evaluación

La UOC reconoce el valor y el potencial de la inteligencia artificial (IA) en el ámbito educativo y, a su vez, pone de manifiesto los riesgos que supone si no se utiliza de forma ética, crítica y responsable. En este sentido, en cada actividad de evaluación se informará al estudiantado sobre las herramientas y los recursos de IA que se pueden utilizar y en qué condiciones. Por su parte, el estudiantado se compromete a seguir las indicaciones de la UOC a la hora de realizar las actividades de evaluación y de citar las herramientas utilizadas y, concretamente, a identificar los textos o imágenes generados por sistemas de IA, los cuales no podrá presentar como si fueran propios.

Respecto a usar o no la IA para resolver una actividad, el enunciado de las actividades de evaluación indica las limitaciones en el uso de estas herramientas. Debe tenerse en cuenta que usarlas de manera inadecuada, como por ejemplo en actividades en las que no están permitidas o no citarlas en las actividades en las que sí lo están, puede considerarse una conducta irregular en la evaluación. En caso de duda, se recomienda que, antes entregar la actividad, se haga llegar una consulta al profesorado colaborador del aula.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt