Fundamentos de Data Science Código:  B0.477    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de los que dispone la asignatura   Recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

La inteligencia de negocio y el análisis de datos, bajo diferentes nombres (Business Intelligence, Business Analytics, Data Science, Big Data), es actualmente la mayor área de demanda de profesionales cualificados, la mayor fuente de inversión de las empresas en sistemas de información y la mayor causa de creación de negocios de productos y servicios en todo el mundo.

El data science surge en un escenario en el que convergen tres circunstancias que caracterizan enormemente nuestro tiempo:

  • Por un lado, las nuevas tecnologías, cada vez más, facilitan el acceso a la información, dejando a nuestro alcance la posibilidad de procesarla, interpretarla y tomar acciones estratégicas, como influir sobre sus fuentes, optimizar nuestros procesos o adaptar nuestro producto a necesidades cambiantes.
  • Por otro lado, los modelos estadísticos y matemáticos han desarrollado nuevas habilidades que, junto a un incremento muy significativo en la capacidad de computación, han supuesto un avance sin precedentes en el campo del procesado de la información.
  • Y finalmente, un entorno económico cada vez más exigente, se invita a las organizaciones a adoptar enfoques más analíticos como vía para alcanzar sus objetivos. Identificar patrones estables o coyunturales dentro de escenarios inestables por definición nos ayudará a anticipar y en consecuencia, a tomar medidas proactivas en lugar de reactivas.

En definitiva, hay que entender data science como un camino, una forma de hacer y de trabajar, y no como un objetivo en sí mismo. Es un componente más de la cultura organizativa que debe involucrar tanto a niveles estratégicos como a niveles operativos de la misma.

Por todo esto, una organización que explote data science requerirá incorporar perfiles con conocimientos en ámbitos como algoritmos, metodologías de trabajo, estándares del sector y por supuesto, también conocimientos de negocio.

Es generalmente aceptada la idea de asociar habilidades sintéticas y analíticas a las actividades más o menos científicas como data science; sin embargo, es igualmente importante cultivar habilidades creativas para, sistemáticamente buscar y a veces encontrar, patrones nuevos que nos permitan convertir datos en conocimiento.

A través del estudio de los distintos algoritmos, el estudiante observará la aportación creativa de distintos científicos que han contribuido muchas veces, con soluciones sencillas, brillantes y efectivas a problemas realmente complejos a priori.

La asignatura presenta los conceptos y tipología de análisis de diferentes tipos de datos, los modelos y algoritmos de uso más frecuente de clasificación y agrupación y las metodologías y estándares profesionales y científicos que se usan en analítica de negocio.

En esta asignatura el estudiante trabaja principalmente con R

Amunt

El Máster en Inteligencia de Negocio y Big Data Analytics (MIBA) y los programas especializados de la UOC en este ámbito, ofrecen desde hace más de diez años una formación práctica y profesionalizadora basada en casos de negocio y en el uso de herramientas de mercado, impartida por profesionales de BI del mundo de la empresa y profesores especialistas en ciencias empresariales, matemáticas e ingeniería informática.

Esta asignatura pertenece a la especialidad ESP1 "Análitica de datos". Más concretamente, dicha especialidad incluye otras asignaturas relacionadas:

  • Fundamentos de inteligencia de negocio
  • Fundamentos del Big Data

La especialidad de análitica de datos está dirigida a proporcionar al profesional de perfil empresarial y tecnológico capacidades prácticas de análisis de datos y de manejo de herramientas, dentro del marco científico de Data Science aplicado a los negocios y las organizaciones.

En paralelo a esta asignatura, dentro de dicha especialidad los estudiantes desarrollarán los conceptos básicos de minería de datos, de forma que dispondrán de una base sólida para comprender todo el proceso que se inicia con la recogida de datos hasta la publicación de los resultados obtenidos.

Esta asignatura, pues, presenta una visión transversal, dotando a los estudiantes de las competencias para manejar los modelos y algoritmos para extraer conocimiento de los datos. De esta forma, usando los conocimientos que se irán adquiriendo en las otras asignaturas de la misma especialidad el estudiante será capaz de capturar datos, procesarlos y exponer el conocimiento derivado de los mismos.

Amunt

El objetivo del máster de Inteligencia de Negocio y Big Data Analytics (MIBA) de la UOC ha sido tradicionalmente la formación de profesionales todo-terreno con una formación en análisis y solución de problemas de negocio, estadística avanzada y minería de datos y diseño y construcción de sistemas de información de Business Intelligence, que podían trabajar en diferentes departamentos de la empresa o en un centro de competencias transversal.

Así pues, dicho máster está dirigido a dos perfiles profesionales diferenciados:

Por un lado, un perfil funcional y empresarial interesado en adquirir o completar su formación en métodos, técnicas y herramientas de análisis y minería de datos y en la utilización de tecnologías de inteligencia de negocio, a nivel de usuario avanzado.

Y por otro, un perfil técnico interesado en adquirir o completar su formación en el diseño, construcción, explotación y uso de los sistemas y tecnologías de la información de la inteligencia de negocio y el análisis de datos.

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Analistas de datos en departamentos de control de gestión u otros departamentos de la empresa, especialmente en el área de marketing y ventas y en las áreas de producción y operaciones.
  • Responsables, jefes de proyecto o analistas de sistemas de información de BI en departamentos de informática o técnicos y analistas de empresas que han adquirido o están a punto de hacerlo esta clase de sistemas.
  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Consultores e implantadores de sistemas de inteligencia de negocio y Big Data en empresas de servicios.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de inteligencia de negocio o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

En principio, los estudiantes con ciertos conocimientos de estadística básica no deberían tener problemas para encarar esta asignatura. No obstante, si fuera necesario y el estudiante lo necesita, el consultor proporcionará más referencias respecto los conceptos introducidos. Como el resto de asignaturas de esta especialidad, lo que se pretende es asentar las bases para poder entender sin dificultades las asignaturas que componen la especialidad de Data Science.

En cuanto a la capacidad de análisis del estudiante tampoco debería ser un inconveniente. Si bien es cierto que tener nociones en el lenguaje de programación R puede ser de gran ayuda, existen ejemplos de scripts de todos los análisis realizados durante el curso que ayudarán al estudiante a poder hacer una aproximación sin problemas a dicho lenguaje y ser capaz de resolver los ejercicios propuestos durante el semestre.

Además, como la metodología se basa en estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Por último, es importante poner de manifiesto que para aprovechar al máximo este curso se requiere que el estudiante tenga la capacidad de leer y comprender el inglés puesto que algunos materiales de referencia, así como de otros recursos, están principalmente en dicho idioma.

Amunt

Con esta asignatura se pretende que el estudiante adquiera conocimientos y habilidades en los siguientes campos:

  1. Conocer cuáles con los principales ámbitos de aplicación del business analytics.
  2. Reconocer la Minería de Textos como uno de los ámbitos con más aplicación en sistemas basados en Internet.
  3. Entender las principales aportaciones que el business analytics puede hacer en entornos como las redes sociales entendidas como relaciones interpersonales de influencia y de centralidad.
  4. Descubrir la creciente importancia de la gestión del prestigio en Internet y cómo business analytics puede aportar soluciones en este ámbito.
  5. Ser capaz de desarrollar numéricamente algoritmos de clasificación, de segmentación y de asociaciones.
  6. Entender la importancia de conceptos como la ganancia de información y las métricas de distancia que se encuentran en la base conceptual de los algoritmos de árboles de decisión, segmentación y clasificación respectivamente.
  7. Adquirir competencias en el lenguaje de programación R, donde podrá desarrollar aplicaciones relacionadas con la base teórica de este material didáctico.
  8. Ser capaz de utilizar R como herramienta para construir nuevos casos y poder así profundizar en el aspecto experimental de todo proceso de estudio.

Amunt

Esta asignatura está estructurada de acuerdo a dos grandes bloques. En el primero es donde se presentan todo un conjunto de metodologías y estándares y, por este motivo, se ha creído conveniente hacerlo común a las asignaturas de minería de datos y de business analytics. De esta forma el estudiante no se ve sobrecargado de trabajo y obtiene un material mucho más amplio que le servirá para poder entender mejor ambas asignaturas. El segundo bloque corresponde a los materiales específicos de la asignatura de fundamentos del data science.

En concreto, en el bloque de metodologías y estándares se trabajan aspectos distintos englobados en seis módulos:

  • En el primer módulo se analiza el Data mining en un entorno informacional diferenciándolo del existente en un entorno operacional e introduciendo conceptos como el de los sistemas de soporte a la decisión (DSS), los procesos del entorno informacional y los de extracción de conocimiento así como el scoring de un modelo de data mining. Se presentan también los servicios de minería de datos dentro de la estructura tecnológica y los escenarios para el despliegue de modelos haciendo hincapié en las soluciones tecnológicas tanto de entornos de modelización integrados workbench como de servicios ligados al gestor de la base de datos.
  • El segundo módulo está dedicado a la metodología CRISP-DM donde se definen conceptos relevantes como el de calidad total o el de stakeholder y se estudia la adecuación de la metodología al proyecto. En una primera etapa se realiza una comprensión del negocio contemplando los objetivos del negocio y de la minería de datos de acuerdo a la evaluación de la situación actual para realizar un plan de proyecto. Posteriormente se efectúa una comprensión de los datos (capturándolos, describiéndolos, explorándolos y realizando verificaciones de los mismos y gestionando su calidad) para prepararlos (seleccionándolos, realizando una limpieza de los mismos, construyendo así el juego de datos, integrándolos y formateándolos) con el fin de realizar un modelado con los mismos seleccionando una técnica específica y marcando una estrategia de verificación de la calidad de un modelo que se construye y se ajusta para proceder a la evaluación de dicho modelo contemplando la revisión del proceso siguientes pasos a seguir. El proceso culmina con un despliegue que incluye un plan de entrada en el proceso productivo, un seguimiento y mantenimiento, un informe final que permita una revisión del proyecto y la posibilidad de obtención de objeciones a la metodología.
  • En el tercer módulo se estudia el modelo DELTA para la mejora continua del business analytics definiendo todos los posibles estados: no consideran el análisis, actividad analítica aislada, aspirante analítico, organización analítica y competidor analítico.
  • El cuarto módulo presenta el estándar PMML, su cobertura y esquema: cabecera, diccionario de datos, esquema del modelo, agrupaciones, asociaciones, transformaciones, estadísticas, taxonomía y jerarquías y, finamente, output.
  • En el quinto módulo se trabaja el gobierno de servicios IT realizando diversas definiciones básicas de servicio, sistema de información, proceso, grupos de proceso, procedimiento y se abordan distintos procesos: metodología PCA: Plan - Do - Check - Act, procesos de provisión de servicios, de relación, de resolución, de control y de entrega.
  • El sexto y último módulo será de gran ayuda al estudiante de la especialidad ya que en él se realiza una excelente introducción al lenguaje R. Se define el proyecto R y se muestra cómo descargar e instalar R incluyendo algunas convenciones, la interfaz R-Studio, cómo instalar un paquete nuevo y las opciones de ayuda. Además se incluye todo un apartado dedicado a los comandos básicos de R: las funciones de acceso a ayuda, las utilizadas para gestionar el entorno de trabajo, las de selección de datos y las de agregación. También se incide en otros aspectos como las entradas y salidas de R, cómo trabajar con datos y los tipos de datos. El módulo finaliza con algunos ejemplos de juegos de datos para el contrato de suministro de combustibles, la segmentación de clientes, el estudio de aceptación de producto y la clasificación de clientes.

Como se acaba de comentar, el segundo bloque es el material propio de la asignatura y consta, a su vez, de tres módulos:

  • El primero versa sobre la analítica de negocio y aborda temas que van desde las definiciones básicas business analítics y su encaje en la historia hasta sus principales aplicaciones o dominios de aplicación como el text mining, la opinion mining, el social network analysis y el reputation management. En este módulo se muestra cómo realizar una construcción de una matriz de términos con R.
  • El segundo presenta algunos conceptos previos necesarios para poder comprender mejor los modelos y algoritmos como los conceptos de distancia y de similitud y cómo utilizar R para calcular la distancia de Mahalanobis y detectar valores outliers. El módulo finaliza profundizando en el tema de la ganancia de información matizando la utilidad de R para este fin.
  • En el tercer módulo se abordan algunos de los modelos y algoritmos más relevantes. Se empieza mostrando la taxonomía de los algoritmos y continúa con una descripción del aprendizaje supervisado y no supervisado para finalizar con los modelos de asociaciones. En concreto se profundiza en los siguientes modelos y algoritmos:
    • Aprendizaje supervisado
      • Algoritmo K-NN
      • Árboles de decisión
    • Aprendizaje no supervisado
      • Clustering Dendrogramas
      • Clustering particional: Algoritmo k-means
      • Canopy clustering
    • Asociaciones
      • Esperanza y soporte
      • Algoritmo MS apriori

Amunt

Business Analytics PDF
Metodologías y estándares PDF
Espacio de recursos de ciencia de datos Web

Amunt

El material docente que se asocia a esta asignatura consta de dos grandes bloques.

  1. El primer bloque versa sobre las metodologías y estándares en el contexto del data science. Con este material se pretende que el estudiante comprenda la necesidad y utilidad de una metodología para la gestión de proyectos de minería de datos (CRISP-DM), de un estándar de comunicación de resultados de modelos (lenguaje PMML), de un conjunto de buenas prácticas para el gobierno de servicios IT (norma ISO 20000), y de una visión estratégica y de negocio de las actividades analíticas en toda organización (modelo DELTA). El bloque finaliza con una introducción al lenguaje de programación R que se utiliza tanto para trabajar procesos de minería de datos como la preparación de los datos, el modelado y la evaluación del modelo.
  2. El segundo bloque abre al estudiante el mejor de los escenarios posibles para aprender. La posibilidad de experimentar, de cambiar, de probar, de equivocarse y a veces de acertar, pero sobre todo de llegar a sus propias conclusiones siempre desde una sólida base tanto teórica como práctica. La organización de este material didáctico consta de un cuerpo teórico y de otro práctico mediante fichas de trabajo basadas en el lenguaje de programación R. El análisis de datos exige tanto cimientos científicos como práctica y experimentación, por este motivo recomendamos al estudiante que vaya combinando durante el proceso de estudio, la comprensión teórica de los procesos y la práctica de los mismos en un entorno de programación R con casos de negocio simulados.

 

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente –incluidas las pruebas finales– o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt