El módulo Manipulación de datos

Vamos a trabajar y a ahondar el en objeto data.frame que es por antonomasia el contenedor de datos, o estructura de datos más usual en R.

Vamos a trabajar las herramientas básicas para manipularlos, desde diferentes perspectivas y empleando diversas librerías usuales. Partiendo de la librería base para llegar al universo tidyverse que define un concepto que denomina tidydata. En los conjuntos de datos ‘tidy’, los datos están ordenados de tal manera que cada variable es una columna y cada observación (o caso) es una fila. Este modelo que es usual en estadística en ciencia de datos, donde los datos provoienen de muy diversas fuentes no es tan usual.

Lecciones autónomas

  • Manipulación básica de dataframes: Empleando la librería base y los operadores más clásicos para manipular conjuntos de datos basados en los índices.

  • Manipulación avanzada de dataframes: Aquí nos centramos en el tratamiento avanzado de los datos incluyendo: tratar valores faltantes, ampliar un dataframe, por filas o columnas: rbind(), cbind(), merge() y funciones más allá de los operadores basados en índices del data.frame como son las funciones: aggregate() y la familia de funciones apply.

  • Tidyverse: dplyr y tidyr: Hadley Wickham ha creado numerosos paquetes entre los que se encuentran tres de los cuales vamos a hablar en este apartado: dplyr, tidyr . Aquí podemos encontrar el manifiesto del universo tidy o tidyverse donde los paquetes se construyen para que tengan sintonia los unos con los otros. Trabajaremos con las funciones del paquete dplyr: select(), filter(),arrange(), mutate(),group_by(), summarise() y con las de tidyr : gather(), spread(), separate() y unite() y el cada vez más empleado operador %>%.




Donde seguir



base-r.pdf     data-transformation.pdf