Software para el análisis de datos Código:  M0.153    :  5
Consulta de los datos generales   Descripción   La asignatura en el conjunto del plan de estudios   Campos profesionales en el que se proyecta   Conocimientos previos   Información previa a la matrícula   Objetivos y competencias   Contenidos   Consulta de los recursos de aprendizaje de la UOC para la asignatura   Información adicional sobre los recursos de aprendizaje y herramientas de apoyo   Informaciones sobre la evaluación en la UOC   Consulta del modelo de evaluación  
Este es el plan docente de la asignatura para el segundo semestre del curso 2023-2024. Podéis consultar si la asignatura se ofrece este semestre en el espacio del campus Más UOC / La universidad / Planes de estudios). Una vez empiece la docencia, tenéis que consultarlo en el aula. El plan docente puede estar sujeto a cambios.

La asignatura de Software para el Análisis de Datos se centra en el aprendizaje y manejo del paquete estadístico R y herramientas relacionadas.

- Paquete estadístico R: El paquete estadístico R uno de los más flexibles y potentes para el tratamiento y análisis de los datos, desde los más elementales a los más avanzados. Este software está desarrollado y mantenido por la comunidad científica internacional. Es, además, un programa gratuito, libre y se descarga de forma fácil y segura.

- R-Commander: R-Comander es una Interfaz Gráfica de Usuario (GUI) del programa R. 

- RStudio: R-Studio es el entorno de desarrollo (IDE) de R.

- RMarkdown: Extensión de Markdown para R, funcionalidad que permite convertir (de manera rápida y sencilla) texto plano a un formato de máxima legibilidad y facilidad de publicación.

Amunt

La asignatura introduce al alumno al manejo y uso a nivel principiante y medio del lenguaje de programación R. 

Para ello se introducen tareas sencillas para el manejo de datos estadísticos, la simulación de variables aleatorias en los casos univariantes y multivariantes, la representación gráfica y la programación de tareas estadísticas con R.

Esta asignatura está incluida en el plan de estudios del Máster en Bioinformática y Bioestadística, por lo que los ejemplos y ejercicios se intentará que se enmarquen en el campo de las ciencias de la vida y la salud.

Amunt

Al final de la asignatura, el estudiante será capaz de manejar datos univariantes y multivariantes así como el almacenamiento de datos, recuperación y estructuras de datos y las representaciones gráficas de éstos. También a programar funciones de dificultad media con R. 

Además, estará capacitado para simular variables aleatorias, programar diferentes rutinas estadísticas y repasar algunas operaciones algebraicas de uso habitual.

Amunt

No son necesarios conocimientos previos específicos, sólo los generales del curso: comprensión lectora en inglés y conocimientos básicos de Álgebra Lineal y Estadística.

Se deberá tener una base de estadística descriptiva e inferencia y, también, un buen manejo de las herramientas informáticas y conocimiento básico de algún lenguaje de programación. 

Amunt

* Restricciones de acceso: No hay restricciones de acceso

* Recomendaciones de acceso: Idealmente esta asignatura se debería cursar el primer semestre del Máster.

Amunt

Esta asignatura pretende dar a conocer R a nivel intermedio. Como resultado de este aprendizaje, se espera que el estudiantes adquieran las siguientes capacidades: 

  1.  Aprender a usar R como Software Estadístico libre.
  2.  Aprendrer a usar las principales interfaces, IDEs y herramientas de R (R Commander, R Studio, RMarkdown etc.)
  3.  Aprender a usar R como lenguaje de programación.
  4.  Aprender a usar las librerias de R asociadas a los contenidos Bio.

En el contexto general del Máster en Bioinformática i Bioestadística, se concreta con las siguientes competencias:

Competencias básicas generales:

  • Todas las competencias básicas del Máster.
  • Todas las competencias generales del Máster. 

Competencias transversales:

  • CT1- Capacidad de iniciativa, automotivación  y trabajo de forma independiente.
  • CT3- Capacidad para proponer soluciones innovadoras y ayuda a la toma de decisiones.
  • CT5- Capacidad para la comprensión, el análisis y la síntesis de conceptos.

 
Competencias especificas:

  • CE2- Adquirir las habilidades técnicas apropiadas para la bioinformáticas, como son la programación, la creación y la gestión de BD.
  • CE3- Conocer los principios básicos de la inferencia estadística y entender su papel fundamental.
  • CE4- Conocer los principales métodos de regresión que sean adecuados a las diferentes tipologías de datos.  
  • CE6- Adquirir la capacidad de manejar, gestionar, interpretar y analizar grandes volúmenes de datos usando software estadístico adecuado como el lenguaje estadístico R.
  • CE8- Conocer las herramientas del programa estadístico adecuados para los diferentes problemas de modelización y análisis de datos.
  • CE13- Conocer los aspectos éticos y legales relacionados con el desarrollo de productos en el ámbito de la Bioestadística.

Amunt

De forma genérica, los contenidos que trabajamos son los siguientes:

  • Instalación y configuración de R, RStudio y R-Commander.
  • Uso de R como herramienta para el análisis de datos en bioinformática y bioestadística.
  • Uso de R como lenguaje de programación en  bioinformática y bioestadística.
  • Principales paquetes (librerías) de R en bioinformática y bioestadística.

Contenidos detallados del curso:

M0. Presentación de la asignatura.

1.  Presentación de la asignatura y aprendizaje de los recursos y entorno del aula virtual.

M1. Introducción al lenguaje de programación R.

1.1. Instalación y entorno de trabajo de R, RStudio y RCommander. 
1.2. Importación y exportación de archivos en R.
1.3. Gestión de paquetes en R.
1.4. Tipos de datos, operadores y estructuras de datos en R.
1.6. Ejercicios relacionados con el tema y/o laboratorios.

M2. Estadística Descriptiva y Gráficos con R.

2.1. Introducción a la estadística descriptiva con R y R-Commander.
2.2. Creación de gráficos con R.
2.3. Tipos de gráficos con R simples y avanzados.
2.4. Funciones gráficas de R.
2.5. Ejercicios relacionados con el tema y/o laboratorios.

M3. Programación en R.

3.1. Expresiones condicionales en R.
3.2. Bucles en R.
3.3. Funciones en R.
3.4. Ejercicios relacionados con el tema y/o laboratorios.

M4. Simulación con R.

4.1. Probabilidad y juego.
4.2. Distribuciones de probabilidad.
4.3. Generación de números pseudoaleatorios y aleatorios en R

4.4. Simulación y combinatoria con R y RCommander.
4.5. Ejercicios relacionados con el tema y/o laboratorios.

M5. Modelos de análisis de datos y machine learning con R

5.1. Modelos de regresión lineal y múltiple en R.
5.2. Análisis de la varianza en R.
5.3. Técnicas de clustering en R.
5.4. Ejercicios relacionados con el tema y/o laboratorios.

M6. Investigación Reproducible

6.1. Estructurar y organizar los datos en los articulos y los laboratorios.
6.2. Markdowm y Shiny: aplicaciones web con RStudio.
6.3. Gráficos dinámicos.
6.4. Ejercicios relacionados con el tema y/o laboratorios.  

Amunt

0. Uso de los laboratorios en software para el análisis de datos PDF
5. Modelos de análisis de datos y machine learning con R PDF
4. Simulación con R y R Commander PDF
6. Aplicaciones con R y RStudio PDF
Introducción al lenguaje R, Rstudio y R Markdown PDF
1. Introducció al llenguatge R, RStudio y R Markdown PDF
Estadística descriptiva y gráficos con R PDF
2. Estadística descriptiva i gràfics amb R PDF
Fundamentos de programación y acceso a base de datos en R PDF
3. Fonaments de programació i accés a base de dades en R PDF
Probabilidad y simulación con R PDF
4. Probabilitat i simulació amb R PDF
Introducción al machine learning con R PDF
5. Inroducció al machine learning amb R PDF
Paquetes de R para la bioinformática PDF
6. Paquets de R per a la bioinformàtica PDF

Amunt

Materiales básicos:

W. J. Braun, D. J. Murdoch. A First Course in Statistical Programming with R (e-book).

J. Abedin. Data Manipulation with R.

Crawley, M (2009). The R Book.

Materiales complementarios:

Mathur (2010). Statistical Bioinformatics with R.

Logan, M. (2010). Biostatistical Design and Analysis Using R: A Practical Guide.

H. Wickham, G. Grolemund (2017). R for data science.

Estos recursos de aprendizaje están disponibles en la biblioteca de la UOC.  En los espacios de recursos del aula y en los documentos correspondientes a los laboratorios (LAB) se referenciaran otros materiales de interés.

Amunt

El proceso de evaluación se fundamenta en el trabajo personal del estudiante y presupone la autenticidad de la autoría y la originalidad de los ejercicios realizados.

La falta de autenticidad en la autoría o de originalidad de las pruebas de evaluación; la copia o el plagio; el intento fraudulento de obtener un resultado académico mejor; la colaboración, el encubrimiento o el favorecimiento de la copia, o la utilización de material, software o dispositivos no autorizados durante la evaluación, entre otras, son conductas irregulares en la evaluación que pueden tener consecuencias académicas y disciplinarias graves.

Estas conductas irregulares pueden comportar el suspenso (D/0) en las actividades evaluables que se definan en el plan docente -incluidas las pruebas finales- o en la calificación final de la asignatura, sea porque se han utilizado materiales, software o dispositivos no autorizados durante las pruebas, como por ejemplo redes sociales o buscadores de información en internet, porque se han copiado fragmentos de texto de una fuente externa (internet, apuntes, libros, artículos, trabajos o pruebas de otros estudiantes, etc.) sin la citación correspondiente, o porque se ha llevado a cabo cualquier otra conducta irregular.

Así mismo, y de acuerdo con la normativa académica, las conductas irregulares en la evaluación también pueden dar lugar a la incoación de un procedimiento disciplinario y a la aplicación, si procede, de la sanción que corresponda, de conformidad con lo establecido en la normativa de convivencia de la UOC.

En el marco del proceso de evaluación, la UOC se reserva la potestad de:

  • Solicitar al estudiante que acredite su identidad según lo establecido en la normativa académica.
  • Solicitar al estudiante que acredite la autoría de su trabajo a lo largo de todo el proceso de evaluación, tanto evaluación continua como evaluación final, por medio de una prueba oral o los medios síncronos o asíncronos que establezca la universidad. Estos medios tendrán por objeto verificar los conocimientos y las competencias que garanticen la autoría; en ningún caso implicarán una segunda evaluación. Si no es posible garantizar la autoría del estudiante, la prueba será calificada con D, en el caso de la evaluación continua, o con un Suspenso, en el caso de la evaluación final.

    A estos efectos, la UOC puede exigir al estudiante el uso de un micrófono, una cámara u otras herramientas durante la evaluación; será responsabilidad del estudiante asegurar que tales dispositivos funcionan correctamente.

Amunt

La asignatura solo puede aprobarse con el seguimiento y la superación de la evaluación continua (EC). La calificación final de la asignatura es la nota obtenida en la EC.

 

Amunt