Análisis estadístico y Programación con R Código:  B0.473    :  6
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el primer semestre del curso 2024-2025. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

La inteligencia de negocio y el análisis de datos, bajo diferentes nombres (Business Intelligence, Business Analytics, Data Science, Big Data¿), es actualmente la mayor área de demanda de profesionales cualificados, la mayor fuente de inversión de las empresas en sistemas de información y la mayor causa de creación de negocios de productos y servicios en todo el mundo.

La sociedad de la comunicación, de la información y de las relaciones tiene en sus cimientos la gestión de los datos. Desde las operaciones más básicas como su captura y procesado hasta operaciones más complejas y avanzadas como su análisis y estudio.

El análisis estadístico y  la minería de datos se encuentran absolutamente en el centro de esta lógica de análisis y estudio, por este motivo ha desarrollado y sigue haciéndolo, algoritmos capaces de resolver problemas de segmentación, clasificación, regresión, asociación, relación, previsión, ... en definitiva aprendizaje automático.

Para ello cuenta con años de ciencia canalizados a través de aportaciones en campos como las matemáticas y la estadística que trabajaremos en este material didáctico en capítulos específicos y a nivel introductorio.

También cuenta con la potencia computacional y la potencia colaborativa de la comunidad docente que encontramos unidas en herramientas de programación como R. Nos serviremos de este lenguaje para reproducir casos de negocio y entender mejor el mecanismo de funcionamiento de los principales algoritmos de la minería de datos.

Contaremos también con experiencias y aportaciones hechas por equipos y profesionales de la minería de datos que durante años han participado en proyectos de gestión avanzada de datos en organizaciones de distintos sectores. Metodologías y tipologías de organizaciones ante el reto del análisis de datos nos ayudarán a posicionar correctamente la minería de datos en las corporaciones de hoy en día.

En esta asignatura el estudiante trabaja con modelos teóricos, casos prácticos y herramientas estadísticas los procesos de definición de problemas, preparación de datos y exploración, así como los principales conceptos de la estadística clásica: correlaciones, regresiones lineales, reducción de la dimensionalidad, etc.

El estudiante recibe una formación y práctica sólidas en la utilización de la herramienta R, un estándar de facto del mercado.

Amunt

El Máster en Inteligencia de negocio y Big Data (MIB) y los programas especializados de la UOC en este ámbito, ofrecen desde hace más de diez años una formación práctica y profesionalizadora basada en casos de negocio y en el uso de herramientas de mercado, impartida por profesionales de BI del mundo de la empresa y profesores especialistas en ciencias empresariales, matemáticas e ingeniería informática.

Esta asignatura pertenece a la especialidad E2 - Análisis y minería de datos. Más concretamente, dicha especialidad está relacionada con los programas de nivel de máster indicados a continuación:

# Máster en Business Intelligence y Big Data itinerario de Análisis de Datos

# Máster en Business Intelligence y Big Data itinerario en Sistemas de Información

# Posgrado en inteligencia de Negocio y Análisis de Datos

Todos estos programas están vinculados: la especialidad forma parte del posgrado (en uno de los dos itinerarios existentes) y el posgrado pertenece al máster.

La especialidad de análisis y minería de datos está dirigida a proporcionar al profesional de perfil empresarial y tecnológico capacidades prácticas de análisis de datos y de manejo de herramientas, dentro del marco científico de Data Science aplicado a los negocios y las organizaciones.

En paralelo a esta asignatura, dentro de dicha especialidad los estudiantes desarrollarán los conceptos básicos de minería de datos y de Business Analytics, de forma que dispondrán de una base sólida sobre modelos y algoritmos para extraer conocimiento de los datos.

Esta asignatura, pues, presenta una visión transversal, dotando a los estudiantes de las competencias para comprender todo el proceso que se inicia con la recogida de datos hasta la publicación de los resultados obtenidos, usando los conocimientos que se irán adquiriendo en las otras asignaturas de la misma especialidad.

Amunt

El objetivo del máster de Inteligencia de negocio y Big Data (MBI) de la UOC ha sido tradicionalmente la formación de profesionales todo-terreno con una formación en análisis y solución de problemas de negocio, estadística avanzada y minería de datos y diseño y construcción de sistemas de información de Business Intelligence, que podían trabajar en diferentes departamentos de la empresa o en un centro de competencias transversal.

Así pues, dicho máster está dirigido a dos perfiles profesionales diferenciados:

Por un lado, un perfil funcional y empresarial interesado en adquirir o completar su formación en métodos, técnicas y herramientas de análisis y minería de datos y en la utilización de tecnologías de inteligencia de negocio, a nivel de usuario avanzado.

Y por otro, un perfil técnico interesado en adquirir o completar su formación en el diseño, construcción, explotación y uso de los sistemas y tecnologías de la información de la inteligencia de negocio y el análisis de datos.

A medida que esta especialidad ha crecido y las empresas reconocen la necesidad de esta clase de perfiles, también lo han hecho las diferentes salidas profesionales:

  • Analistas de datos en departamentos de control de gestión u otros departamentos de la empresa, especialmente en el área de marketing y ventas y en las áreas de producción y operaciones.
  • Responsables, jefes de proyecto o analistas de sistemas de información de BI en departamentos de informática o técnicos y analistas de empresas que han adquirido o están a punto de hacerlo esta clase de sistemas.
  • Científicos de datos en departamentos especializados de análisis y estadística o en empresas externas que proporcionan esta clase de servicio a sus clientes.
  • Consultores e implantadores de sistemas de inteligencia de negocio y Big Data en empresas de servicios.
  • Emprendedores, que desean crear negocios basados en la creación o la implantación de sistemas especializados de inteligencia de negocio o de alguno de sus componentes, así como productos y/o servicios basados en datos.

Amunt

En principio, ningún estudiante debería tener problemas para encarar esta asignatura. No obstante, si fuera necesario y el estudiante lo necesita, el consultor proporcionará más referencias respecto los conceptos introducidos. Como el resto de asignaturas de esta especialidad, lo que se pretende es asentar las bases para poder entender sin dificultades las asignaturas que componen la especialidad de Data Science.

En cuanto a la capacidad de análisis del estudiante tampoco debería ser un inconveniente. Si bien es cierto que tener nociones en el lenguaje de programación R puede ser de gran ayuda, existen ejemplos de scripts de todos los análisis realizados durante el curso que ayudarán al estudiante a poder hacer una aproximación sin problemas a dicho lenguaje y ser capaz de resolver los ejercicios propuestos durante el semestre.

Además, como la metodología se basa en estudios de casos y la investigación autónoma de información, es aconsejable que el estudiante esté familiarizado con la búsqueda de fuentes de información, el análisis de la información cuantitativa y cualitativa, la capacidad de sintetizar y obtener conclusiones así como de poseer ciertas habilidades de comunicación escrita.

Por último, es importante poner de manifiesto que para aprovechar al máximo este curso se requiere que el estudiante tenga la capacidad de leer y comprender el inglés puesto que algunos materiales de referencia, así como de otros recursos, están principalmente en dicho idioma.

Amunt

Con esta asignatura se pretende que el estudiante adquiera conocimientos y habilidades en los siguientes campos:

  1. Entender el ámbito de aplicación del análisis estaístico y data mining y los principales procesos en los que se apoya.
  2. Reconocer las organizaciones en función de su nivel de madurez analítica.
  3. Conocer las métricas de la calidad de los datos.
  4. Entender las diferencias que existen entro los algoritmos de aprendizaje supervisado y los algoritmos de aprendizaje no supervisado.
  5. Saber poner en valor los procesos de exploración de datos mediante gráficos, tan importantes en el mundo de la inteligencia visual.
  6. Conocer los principales conceptos de la estadística descriptiva como la distribución normal, los intervalos de confianza y los contrastes de hipótesis.
  7. Ser capaz de determinar los parámetros de una recta de regresión para un juego de datos con atributos que mantengan una relación lineal.
  8. Conocer los principios del análisis de varianza o ANOVA, que le permitirá realizar test de hipótesis sobre estadísticos que siguen una distribución de Fisher.
  9. Trabajar algoritmos de reducción de la dimensionalidad como el análisis de componentes principales.
  10. Ser capaz de utilizar la herramienta de programación R para desarrollar ejemplos sobre todos los temas trabajados en el material didáctico.

Amunt

Esta asignatura está estructurada de acuerdo a dos grandes bloques. En el primero es donde se presentan todo un conjunto de metodologías y estándares y, por este motivo, se ha creído conveniente hacerlo común a las asignaturas de minería de datos y de business analytics. De esta forma el estudiante no se ve sobrecargado de trabajo y obtiene un material mucho más amplio que le servirá para poder entender mejor ambas asignaturas. El segundo bloque corresponde a los materiales específicos de la asignatura de minería de datos: conceptos y técnicas.

En concreto, en el bloque de metodologías y estándares se trabajan aspectos distintos englobados en seis módulos:

  • En el primer módulo se analiza el Data mining en un entorno informacional diferenciándolo del existente en un entorno operacional e introduciendo conceptos como el de los sistemas de soporte a la decisión (DSS), los procesos del entorno informacional y los de extracción de conocimiento así como el scoring de un modelo de data mining. Se presentan también los servicios de minería de datos dentro de la estructura tecnológica y los escenarios para el despliegue de modelos haciendo hincapié en las soluciones tecnológicas tanto de entornos de modelización integrados workbench como de servicios ligados al gestor de la base de datos.
  • El segundo módulo está dedicado a la metodología CRISP-DM donde se definen conceptos relevantes como el de calidad total o el de stakeholder y se estudia la adecuación de la metodología al proyecto. En una primera etapa se realiza una comprensión del negocio contemplando los objetivos del negocio y de la minería de datos de acuerdo a la evaluación de la situación actual para realizar un plan de proyecto. Posteriormente se efectúa una comprensión de los datos (capturándolos, describiéndolos, explorándolos y realizando verificaciones de los mismos y gestionando su calidad) para prepararlos (seleccionándolos, realizando una limpieza de los mismos, construyendo así el juego de datos, integrándolos y formateándolos) con el fin de realizar un modelado con los mismos seleccionando una técnica específica y marcando una estrategia de verificación de la calidad de un modelo que se construye y se ajusta para proceder a la evaluación de dicho modelo contemplando la revisión del proceso siguientes pasos a seguir. El proceso culmina con un despliegue que incluye un plan de entrada en el proceso productivo, un seguimiento y mantenimiento, un informe final que permita una revisión del proyecto y la posibilidad de obtención de objeciones a la metodología.
  • En el tercer módulo se estudia el modelo DELTA para la mejora continua del business analytics definiendo todos los posibles estados: no consideran el análisis, actividad analítica aislada, aspirante analítico, organización analítica y competidor analítico.
  • El cuarto módulo presenta el estándar PMML, su cobertura y esquema: cabecera, diccionario de datos, esquema del modelo, agrupaciones, asociaciones, transformaciones, estadísticas, taxonomía y jerarquías y, finamente, output.
  • En el quinto módulo se trabaja el gobierno de servicios IT realizando diversas definiciones básicas de servicio, sistema de información, proceso, grupos de proceso, procedimiento y se abordan distintos procesos: metodología PCA: Plan - Do - Check - Act, procesos de provisión de servicios, de relación, de resolución, de control y de entrega.
  • El sexto y último módulo será de gran ayuda al estudiante de la especialidad ya que en él se realiza una excelente introducción al lenguaje R. Se define el proyecto R y se muestra cómo descargar e instalar R incluyendo algunas convenciones, la interfaz R-Studio, cómo instalar un paquete nuevo y las opciones de ayuda. Además se incluye todo un apartado dedicado a los comandos básicos de R: las funciones de acceso a ayuda, las utilizadas para gestionar el entorno de trabajo, las de selección de datos y las de agregación. También se incide en otros aspectos como las entradas y salidas de R, cómo trabajar con datos y los tipos de datos. El módulo finaliza con algunos ejemplos de juegos de datos para el contrato de suministro de combustibles, la segmentación de clientes, el estudio de aceptación de producto y la clasificación de clientes.

Como se acaba de comentar, el segundo bloque es el material propio de la asignatura y consta, a su vez, de cinco módulos:

  • En el primer módulo se definen los conceptos básicos sobre análisis estadístico y data mining y los procesos data mining.
  • En el segundo se plantea el problema en el entorno organizacional. Se habla de organizaciones analíticas y se presentan los niveles de madurez analítica en las organizaciones. Se incide en la alineación de objetivos y la extracción de conclusiones.
  • El tercer módulo está dedicado en la profundización de la gestión de la calidad de los datos. En concreto se detalla cómo se realiza una preparación de la base de datos, qué se entiende por discretización y cómo y cuándo realizar un muestreo, cuándo es necesario obtener conjuntos de entrenamiento y prueba; cómo gestionar el ruido de un juego de datos y cuándo es necesario realizar una reducción de la dimensionalidad. Además se trabaja con R la obtención de muestras con una distribución normal y una uniforme e incluso con una distribución personalizada. También se enseña al estudiante cómo añadir ruido a una matriz y cómo se pueden detectar valores outliers utilizando R.
  • El cuarto módulo está dedicado a la exploración de datos con Excel y R.
  • Finalmente, el quinto módulo recoge la parte más importante de esta asignatura que no es más que un extenso repaso a las nociones más relevantes de la estadística clásica y su ejecución con R ya que éstos resultan de vital importancia en el mundo de la minería de datos y la inteligencia de negocio. Primero se trabajan los principales estimadores haciendo hincapié en las distribuciones normal y normal estándar y en el teorema central del límite. Posteriormente, se recuerdan las principales nociones sobre los intervalos de confianza y los contrastes de hipótesis. A continuación, se trata la diferencia entre los conceptos de regresión y correlación poniendo de manifiesto la importancia de los residuos y los tipos de relaciones existentes. Seguidamente se contempla el análisis de la varianza o ANOVA y el análisis de componentes principales como una herramienta de reducción de la dimensionalidad del juego de datos.

Amunt

Metodologías y estándares PDF
Estadística y data mining. Una introducción a la minería de datos PDF
El entorno estadístico R. Estructura, lenguaje y sintaxis PDF
Espacio de recursos de ciencia de datos Web
Estadística descriptiva. Introducción al análisis de datos Reaprovechamiento

Amunt

El material docente que se asocia a esta asignatura consta de dos grandes bloques.

El primer bloque versa sobre las metodologías y estándares y es común a las asignaturas de minería de datos y de Business Analytics. Con este material se pretende que el estudiante comprenda la necesidad y utilidad de una metodología para la gestión de proyectos de minería de datos (CRISP-DM), de un estándar de comunicación de resultados de modelos (lenguaje PMML), de un conjunto de buenas prácticas para el gobierno de servicios IT (norma ISO 20000), y de una visión estratégica y de negocio de las actividades analíticas en toda organización (modelo DELTA). El bloque finaliza con una introducción al lenguaje de programación R que se utiliza tanto para trabajar procesos de minería de datos como la preparación de los datos, el modelado y la evaluación del modelo.

El segundo bloque abre al estudiante el mejor de los escenarios posibles para aprender. La posibilidad de experimentar, de cambiar, de probar, de equivocarse y a veces de acertar, pero sobre todo de llegar a sus propias conclusiones siempre desde una sólida base tanto teórica como práctica. La organización de este material didáctico consta de un cuerpo teórico y de otro práctico mediante fichas de trabajo basadas en el lenguaje de programación R. El análisis de datos exige tanto cimientos científicos como práctica y experimentación, por este motivo recomendamos al estudiante que vaya combinando durante el proceso de estudio, la comprensión teórica de los procesos y la práctica de los mismos en un entorno de programación R con casos de negocio simulados.

Todo este material se complementa con la bibliografía asociada a la asignatura y las lecturas y ejemplos que se proponen a lo largo del semestre.

Recursos Web

  • Mining at UOC (prácticas de minería de datos con R): http://data-mining.business-intelligence.uoc.edu/
  • R-Bloggers (hub de blogs sobre temática R): http://www.r-bloggers.com/
  • R-Statistics (compilación de funcionalidades R): http://www.r-statistics.com/
  • R-Studio (promotores del entorno de desarrollo IDE): http://www.rstudio.com/
  • R-Studio at UOC (vídeo introductorio): https://vimeo.com/channels/816639/138296660
  • Rseek (buscador web vía Google, de temática R): http://rseek.org/
  • Styleguide (guía de estilos Google para la programación R): https://google.github.io/styleguide/Rguide.html
  • R-Wiki at UOC (laboratorio R): https://campus.uoc.edu/webapps/xwiki/wiki/mat71575es
  • R notes for professionals book (libro muy completo): http://books.goalkicker.com/RBook/

Amunt

El proceso de evaluación se fundamenta en el trabajo personal de cada estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares que pueden tener consecuencias académicas y disciplinarias graves.

Por un lado, si se detecta alguna de estas conductas irregulares, puede comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente - incluidas las pruebas finales - o en la calificación final de la asignatura, ya sea porque se han utilizado materiales o dispositivos no autorizados durante las pruebas, como redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas del resto de estudiantes, etc.) sin la correspondiente citación, o porque se ha practicado cualquier otra conducta irregular.

Por el otro, y de acuerdo con las normativas académicas, las conductas irregulares en la evaluación, además de comportar el suspenso de la asignatura, pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda.

La UOC se reserva la potestad de solicitar al estudiante que se identifique o que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación por los medios que establezca la universidad (síncronos o asíncronos). A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación y que este se asegure de que funcionan correctamente.

La verificación de los conocimientos para garantizar la autoría de la prueba no implicará en ningún caso una segunda evaluación.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt