|
|||||
Consulta de los datos generales Descripción La asignatura en el conjunto del plan de estudios Campos profesionales en el que se proyecta Conocimientos previos Información previa a la matrícula Objetivos y competencias Contenidos Consulta de los recursos de aprendizaje de los que dispone la asignatura Informaciones sobre la evaluación en la UOC Consulta del modelo de evaluación | |||||
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios. | |||||
En captura y preparación de datos estudiaremos el proceso de captura de datos, así como el proceso de limpieza de datos y la preparación de estas mediante técnicas de ingeniería de características. Trabajaremos diferentes metodologías para hacer web scraping y profundizaremos en los procedimientos de limpieza de datos, utilizando diferentes librerías de Python. Seguidamente, haremos ingeniería de características para dejar preparados los datos, incluyendo eliminación de outliers o valores extremos, reducción de dimensionalidad, y transformaciones de los datos, entre otros procedimientos. | |||||
Esta es la segunda asignatura de la materia de tratamiento de los datos del Grado de Ciencia de los Datos Aplicada. En esta asignatura estudiaremos las características y la metodología para la captura de datos y el proceso de limpieza y preparación de estas. Las técnicas y procedimientos trabajados en esta asignatura serán utilizados en proyectos de ciencia de los datos. | |||||
Esta asignatura se proyecta a los diferentes perfiles de científicos de datos como son el científico/a de datos, el analista de datos, el ingeniero/a de datos, el estadístico/a, el administrador/a de base de datos o el/la líder de ciencia de datos. | |||||
Es necesario conocimientos de programación para la realización de las actividades prácticas. | |||||
Algunos de los contenidos de esta asignatura se estudiarán a partir de los materiales y recursos escritos en inglés. | |||||
COMPETENCIAS BÁSICAS
COMPETENCIAS TRANSVERSALES
COMPETENCIAS ESPECÍFICAS
OBJETIVOS ESPECÍFICOS
|
|||||
La asignatura consta de 5 bloques o retos: RETO 1: ¿Qué son los datos y cuál es su ciclo de vida? Una de las características de la sociedad de la información y el conocimiento es el número creciente de datos generados, tanto a nivel de individuos como de empresas. Un ejemplo de este hecho es la estimación del Computer Sciences Corporation de que en el año 2020 habrá 44 veces más datos de los que había en 2009. RETO 2: ¿Cómo podemos capturar los datos de la web? Internas es actualmente el mayor repositorio de datos, accesibles de forma gratuita en su mayoría. La interoperabilidad, y la colaboración en la red han hecho que los usuarios pasan a formar parte activa de la red, no sólo utilizando internet como una herramienta de búsqueda de información, sino también como un medio para comunicarse y generar contenido y conocimiento. De este modo, la World Wide Web se ha convertido en una fuente inagotable de información. Aunque en algunos casos es posible recuperar información de forma estructurada, la mayoría de los datos en internet se encuentran integradas en la estructura y estilo de las diferentes páginas web. Como podemos, por tanto, acceder a estos datos y trabajar con ellas? Pues, en este punto es donde toma protagonismo la web scraping o rastreo de la web. RETO 3: Es posible capturar los datos en tiempo real? Como no es lo mismo contarlo que hacerlo, este reto será un caso práctico de trabajo y utilización de la web scraping, particularmente con un caso de web scraping en streaming. RETO 4: Es necesario pre-procesar los datos? Como realizamos la limpieza de datos? En la actualidad, grandes cantidades de datos son almacenados a diario; por tanto, la aplicación de métodos robustos para analizar y extraer información de estos datos es relevante en el campo de la ciencia de datos. Para dotar de robustez a análisis aplicados con el objetivo de obtener conocimiento a partir de los datos, es clave la calidad de los datos. Por ello, la limpieza de los datos es una etapa importante y determinante en el ciclo de vida de los datos. Durante este proceso, se identifican datos incompletos, incorrectos, inexactos o no pertinentes, con el fin de eliminarlos o corregirlos para obtener así bases de datos de mayor calidad. RETO 5: ¿Cuál es el último paso? Preparación de datos El destino de los datos preprocessades y del dataset obtenido tras el proceso de limpieza, en la mayoría de los casos, es la aplicación de algoritmos de aprendizaje automático. Antes de ser utilizados por estos algoritmos, hay que llevar a cabo una preparación de éstas mediante una fase conocida como ingeniería de características. La ingeniería de características intenta aumentar la eficiencia de los algoritmos de aprendizaje automático creando características, seleccionando o filtrando características, realizando transformaciones, etc., dependiendo de lo que sea más adecuado en cada caso. Por lo tanto, realizar de forma apropiada y adecuada esta fase, garantiza el éxito de la aplicación posterior de los diversos algoritmos. |
|||||
|
|||||
El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados. La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves. Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente incluidas las pruebas finales o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular. Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda. |
|||||
|