SQL para Análisis de Datos Código:  B0.472    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura. Os servirá para planificar la matrícula (consultad si la asignatura se ofrece este semestre en el espacio del Campus Más UOC / La Universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. (El plan docente puede estar sujeto a cambios).

Las bases de datos son el mecanismo más habitual que las organizaciones utilizan para almacenar y procesar de manera no volátil los datos necesarios para su actividad diaria. A su vez, las bases de datos son gestionadas y manipuladas mediante un software altamente especializado y complejo denominado sistema gestor de bases de datos. Desde un punto de vista de uso, las bases de datos nos permiten gestionar el día a día de las organizaciones y por ello también se las conoce bajo la denominación de bases de datos operacionales. Por otro lado, tenemos los almacenes de datos (data warehouse) que integran datos de diferentes fuentes, entre las que se encuentran las bases de datos operacionales, y que tienen como objetivo principal dar apoyo a la toma de decisiones.

Para poder guardar los datos de interés de una organización, hay que disponer de algún modelo de datos que permita su representación en un ordenador en forma de bases de datos. Este modelo de datos tiene que permitir, por un lado, definir la estructura de la base de datos y las reglas de integridad que garantizan que la base de datos sea consistente. Por otro lado, el modelo de datos también tiene que proporcionar operaciones que permitan la consulta y actualización de la base de datos. A pesar de que existen diferentes modelos de datos, nosotros nos centraremos en el modelo de datos relacional, dado que es el más utilizado.

Esta  asignatura tiene por objetivo adquirir conceptos, procedimientos y buenas prácticas para la creación y manipulación de las bases de datos que dan soporte a la construcción de almacenes de datos. Para ello se introduce el lenguaje SQL, extendiéndolo mediante el estudio del lenguaje procedimental PL/pgSQL, y en el diseño físico de bases de datos, así como en bases de datos orientadas a columnas. Estas bases de datos también se basan en el modelo relacional y se caracterizan por el almacenamiento de los datos en forma de columnas. Esta característica las hace especialmente idóneas para entornos OLAP.

Amunt

Actualmente la gran mayoría de las organizaciones intentan basarse en datos y evidencias para tomar mejores decisiones y mirar de conseguir una ventaja ante sus competidores. Es por eso que cada vez se hace más necesario para cualquier profesional poder adquirir unas habilidades básicas en el ámbito del análisis de datos (data literacy).

Este curso presenta los aspectos básicos del análisis de datos y sirve de apoyo para aquellos profesionales interesados en adentrarse en el análisis de datos utilizando bases de datos relacionales. Durante la formación se profundiza en el aprendizaje del lenguaje SQL, en el diseño físico de bases de datos e introduce algunas alternativas al clásico modelo relacional para el análisis de datos. 

Amunt

El objetivo de la especialidad de Sistemas de información de inteligencia de negocio (data warehouse) es formar aquellos perfiles tecnológicos (diseñadores, analistas, programadores, configuradores y responsables de los servicios técnicos) que componen las soluciones de Inteligencia de negocio: bases de datos, almacenamiento, extracción, tratamiento y carga de datos, construcción de aplicaciones de usuario, etc.

En concreto, en el caso de esta asignatura, los campos profesionales en los que se proyecta son "Programador SQL", "Programador de Sistemas de BI", "Consultor de Proyectos BI" y "Desarrollador ETL".

Amunt

Esta especialidad se dirige a perfiles técnicos e ingenieros informáticos o de telecomunicación, analistas de datos en departamentos de control de gestión u otros, matemáticos o candidatos con una experiencia profesional equivalente.

Amunt

Las principales competencias que el estudiante tiene que adquirir en el contexto de la asignatura son las que se indican a continuación:

  • Ser capaz de consultar y actualizar de manera eficiente una base de datos mediante SQL estándar.
  • Ser capaz de codificar procedimientos almacenados utilizando lenguajes procedimentales.
  • Ser capaz de implementar diferentes técnicas de disparadores en una base de datos.
  • Ser capaz de entender y aplicar conceptos avanzados de SQL como funciones analíticas, transacciones o Common Table Expression.
  • Ser capaz de realizar el diseño físico de bases de datos relacionales.
  • Conocer las características de las bases de datos orientadas a columnas, y saberlas situar en el contexto del área de bases de datos.
  • Entender las principales técnicas que implementa un sistema gestor de bases de datos orientado a columnas.
  • Ser capaz de aplicar los conocimientos anteriores dentro del contexto del data warehouse/OLAP.

Amunt

La asignatura consta de 5 bloques didácticos, cuyo contenido se detalla a continuación:

Bloque 1. Las bases de datos relacionales: una historia de éxito sin precedentes

El modelo relacional es lo que nos permite representar una base de datos en un ordenador. Debemos conocer qué estructuras nos proporciona, e identificar sus ventajas. Finalmente, el modelo relacional también nos da mecanismos para definir reglas de integridad. Aprenderemos a especificar reglas de integridad que nos permitirán definir las condiciones que nuestra base de datos debe cumplir si queremos que los datos en ella contenidos sean consistentes.

Bloque 2. De la creación a la manipulación de una base de datos relacional

En este bloque didáctico se presentan los conceptos más básicos asociados al SQL estándar. En primer lugar se presentan las principales sentencias de definición de datos (cómo seria, por ejemplo, tablas y vistas). A continuación se presentan las sentencias básicas de manipulación de datos (SELECT, INSERT, DELETE y UPDATE de tablas y vistas). Finalmente, se introducen las sentencias de concesión y revocación de privilegios sobre los datos, primitivas de gestión de transacciones, y otras modalidades de trabajo con el lenguaje SQL.

Bloque 3. Procedimientos almacenados y disparadores, ¿para qué son necesarios?

En este bloque didáctico se presentan los conceptos más avanzados asociados al SQL estándar. En primer lugar, se presenta la estructura básica de componentes de un entorno SQL, revisando los conceptos de servidores, catálogos y esquemas, para continuar una introducción a los conceptos de conexión, sesión y transacción. A continuación, se completará el estudio de los componentes lógicos vistos mediante la introducción de procedimientos almacenados y disparadores. Finalmente, se introducen el lenguaje procedimental PL/pgSQL y las sentencias que ofrece PostgreSQL para definir estos componentes.

Bloque 4. Ampliando la caja de herramientas: common table expressions y funciones analíticas

En este bloque didáctico se presentan conceptos avanzados de SQL de aplicación en entornos Data Warehouse. En primer lugar, se presenta el concepto de clave subrogada y las diferentes posibilidades de implementar esta técnica mediante SQL. A continuación, se introducirán dos conceptos avanzados para la creación de consultas SQL, las Common Table Expression y las funciones analíticas, cómo aplicar estas funcionalidades y los beneficios asociados. Por último, se verán técnicas de tratamiento de valores nulos en bases de datos operacionales y Data Warehouse, y se concluirá con una introducción a las transacciones, sus propiedades, la problemática asociada a éstas, mecanismos de implementación de transacciones en PostgreSQL y la importancia de éstas en entornos de bases de datos operacionales y Data Warehouse.

Bloque 5. El diablo está en los detalles: optimización de la base de datos en función de su uso

Este bloque didáctico analizará los principales métodos y construcciones que se utilizan en el diseño físico de bases de datos. Conceptualmente, podemos definir el diseño físico de una base de datos como el proceso que, a partir del diseño lógico de la base de datos y de información sobre su uso esperado, creará una configuración física de la base de datos adaptada al entorno donde se alojará y que permita el almacenamiento y la explotación de los datos con un rendimiento adecuado.

Bloque 6. Esto es sólo el principio: hay numerosas soluciones alternativas, como las Bases de datos orientadas a columnas

Este bloque didáctico presentará las principales características y utilidad de las bases de datos orientadas a columnas (más habitualmente conocidas como column stores), así como las diferencias que presentan con las bases de datos relacionales más tradicionales (denominadas row stores). Asimismo se explicarán las principales técnicas que permiten implementar dichas características. Finalmente se proporcionará una visión de los principales productos disponibles en el mercado.

Los materiales de interés están indicados en cada uno de los bloques temáticos del aula.

Amunt

Convención de nombres: Componentes Audiovisual
Convención de nombres: Convenciones en SQL Audiovisual
Convención de nombres: restricciones PDF
Buenas prácticas: codificación de transacciones PDF
Convención de nombres: componentes PDF
Complementos de SQL para procedimientos almacenados PDF
Convención de nombres: convenciones en SQL PDF
Buenas prácticas: codificación de procedimientos y funciones PDF
Almacenes de columnas: contextualización PDF
Buenas prácticas: codificación de consultas PDF
Almacenes de columnas: procesamiento de consultas PDF
Almacenes de columnas: características PDF
Contextualización de disparadores PDF
Buenas prácticas: codificación SQL PDF
Contextualización de procedimientos PDF
Almacenes de columnas: compresión de datos PDF
Almacenes de columnas: Procesamiento de consultas (Parte I) Audiovisual
Almacenes de columnas: Procesamiento de consultas (Parte II) Audiovisual
Almacenes de columnas: Procesamiento de consultas (Parte III) Audiovisual
Almacenes de columnas: Procesamiento de consultas (Parte IV) Audiovisual
Almacenes de columnas: Compresión de datos (Parte VIII) Audiovisual
Almacenes de columnas: Compresión de datos (Parte VII) Audiovisual
Almacenes de columnas: Compresión de datos (Parte VI) Audiovisual
Almacenes de columnas: Compresión de datos (Parte V) Audiovisual
Almacenes de columnas: Compresión de datos (Parte IV) Audiovisual
Almacenes de columnas: Compresión de datos (Parte III) Audiovisual
Almacenes de columnas: Compresión de datos (Parte II) Audiovisual
Almacenes de columnas: Compresión de datos (Parte I) Audiovisual
Almacenes de columnas: Características III Audiovisual
Almacenes de columnas: Características II Audiovisual
Almacenes de columnas: Características I Audiovisual
Almacenes de columnas: Contextualización Audiovisual
Contextualización de procedimientos Audiovisual
Buenas prácticas: Codificación de procedimientos y funciones Audiovisual
Buenas prácticas: Codificación de consultas Audiovisual
Buenas prácticas: Codificación SQL Audiovisual
Convención de nombres: Restricciones Audiovisual
Buenas prácticas: codificación de transacciones Audiovisual
Contextualización de disparadores Audiovisual
Espacio de recursos de ciencia de datos Web

Amunt

El material principal de apoyo de la asignatura son los módulos didácticos previamente descritos.

Para lograr las competencias relativas al aprendizaje del lenguaje SQL usaremos el sistema gestor de bases de datos PostgreSQL. Para poder instalarlo, debéis de realizar la descarga desde: http://www.postgresql.org/download/. Si tenéis instalado en vuestro equipo versiones superiores podéis trabajar con ellas.

Finalmente, también se proporcionará material complementario, a través de los diferentes espacios del aula. Entre este material se destacan las guías de instalación de software, colecciones de ejercicios y cursos de Datacamp.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente –incluidas las pruebas finales– o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

Amunt

Esta asignatura solo puede superarse a partir de la evaluación continua (EC). La nota final de evaluación continua se convierte en la nota final de la asignatura. La fórmula de acreditación de la asignatura es la siguiente: EC.

 

Amunt