Seminario de Instrumentos Computacionales

Seminario de Instrumentos Computacionales
R - Clase 3
Cristian Bonavida
1 / 68

Repaso Clase 2

En la clase 2, nos metimos de lleno a manipular datos. Aprendimos el ABC de dplyr para realizar las transformaciones esenciales que necesitamos al trabajar con datos tabulares

2 / 68

Repaso Clase 2

En la clase 2, nos metimos de lleno a manipular datos. Aprendimos el ABC de dplyr para realizar las transformaciones esenciales que necesitamos al trabajar con datos tabulares

Entre otras cosas aprendimos a:

filtrar observaciones
seleccionar y renombrar columnas
crear o modificar columnas
agrupar la base según alguna/s variables
generar tabla resumen
operar sobre múltiples columnas a la vez

2 / 68

Manipular bases

En esencia, estuvimos viendo cómo manipular filas (filtrar y generar subconjuntos de datos), cómo manipular columnas (transformarlas y generar nuevas) y cómo agrupar los datos para generar estimaciones o cálculos por grupo

3 / 68

Manipular bases

Ahora veamos cómo manipular el dataframe como conjunto, para relacionarlo con otros

3 / 68

Manipular bases

Ahora veamos cómo manipular el dataframe como conjunto, para relacionarlo con otros

Tipicamente existen dos tipos de operaciones entre bases de datos

Combinar bases de datos
- Cruzar bases (Join)
- Extender bases (Append)

3 / 68

Manipular bases

Ahora veamos cómo manipular el dataframe como conjunto, para relacionarlo con otros

Tipicamente existen dos tipos de operaciones entre bases de datos

Combinar bases de datos
- Cruzar bases (Join)
- Extender bases (Append)
Reshape de una base de datos

3 / 68

Manipular bases

Ahora veamos cómo manipular el dataframe como conjunto, para relacionarlo con otros

Tipicamente existen dos tipos de operaciones entre bases de datos

Combinar bases de datos
- Cruzar bases (Join)
- Extender bases (Append)

Reshape de una base de datos

4 / 68

Manipular bases: join

El análisis de datos no implica trabajar, con una sola tabla o dataframe, mas bien se suele trabajar con múltiples bases y la mayoría de las veces es necesario combinarlos parar poder dar respuestas a las preguntas que motivan el análisis

5 / 68

Manipular bases: join

Varias tablas de datos se denominan datos relacionales por que para vincularlas es necesario establecer algún tipo de relación.

5 / 68

Manipular bases: join

Varias tablas de datos se denominan datos relacionales por que para vincularlas es necesario establecer algún tipo de relación.

Este trabajo relacional de combinar bases tiene como objetivo agregar nuevas variables a un marco de datos a partir de observaciones coincidentes en otro, lo que se conoce como mutating joins

Realizamos esta operación cuando necesitamos juntar columnas que están en dataframes diferentes

5 / 68

Manipular bases: join

Varias tablas de datos se denominan datos relacionales por que para vincularlas es necesario establecer algún tipo de relación.

Este trabajo relacional de combinar bases tiene como objetivo agregar nuevas variables a un marco de datos a partir de observaciones coincidentes en otro, lo que se conoce como mutating joins

Realizamos esta operación cuando necesitamos juntar columnas que están en dataframes diferentes

Por ejemplo, en la EPH individual tenemos columnas diferentes de las que tenemos en la EPH por hogar y (casi) siempre necesitamos juntarlas

5 / 68

Manipular bases: join

Para combinar dos bases necesitamos un atributo en común, es decir que haya una columna que se repita en ambas, que nos permita identificar a cada unidad en cada base para poder mantener las columnas de la base X y adosar las columnas de la base Y

Si pensamos en el caso de la base EPH individual y la EPH hogar tendríamos una estructura de este estilo:

6 / 68

Manipular bases: join

En la base de individuos cada hogar se repite n veces, siendo n la cantidad de miembros del hogar.

7 / 68

Manipular bases: join

En la base de individuos cada hogar se repite n veces, siendo n la cantidad de miembros del hogar. En este caso el hogar 1 tiene un miembro, el hogar 2 tiene tres miembros y el hogar 3 tiene dos.

7 / 68

Manipular bases: join

Mientras que en la base de hogar tenemos una sola observación por hogar

7 / 68

Manipular bases: join

Mientras que en la base de hogar tenemos una sola observación por hogar

La estructura de las bases son distintas. Y entender cuál es la estructura de cada base en términos del identificador que las vincula, es importante para entender qué estamos haciendo.

7 / 68

Manipular bases: join

Mientras que en la base de hogar tenemos una sola observación por hogar

La estructura de las bases son distintas. Y entender cuál es la estructura de cada base en términos del identificador que las vincula, es importante para entender qué estamos haciendo.

Estamos combinando una base que tiene varias observaciones para un mismo identificador junto con otra que tiene una sola observación por identificador

7 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one)

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many)

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many) La base de la izquierda tiene una única obs por id y a la derecha múltiples

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many) La base de la izquierda tiene una única obs por id y a la derecha múltiples
m-1 (many to one)

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many) La base de la izquierda tiene una única obs por id y a la derecha múltiples
m-1 (many to one) La base de la izquierda tiene múltiples obs por id y a la derecha una única

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many) La base de la izquierda tiene una única obs por id y a la derecha múltiples
m-1 (many to one) La base de la izquierda tiene múltiples obs por id y a la derecha una única
m-m (many to many)

8 / 68

Manipular bases: join

Según como sea la estructura de las bases a combinar tendremos 4 posibilidades diferentes:

1-1 (one to one) Ambas bases de datos tienen una sola observación por id
1-m (one to many) La base de la izquierda tiene una única obs por id y a la derecha múltiples
m-1 (many to one) La base de la izquierda tiene múltiples obs por id y a la derecha una única
m-m (many to many) Ambas bases tiene múltilpes observaaciones por id

8 / 68

Manipular bases: join

La estructura de la base resultante dependerá de la estructura de cada una

9 / 68

Manipular bases: join

La estructura de la base resultante dependerá de la estructura de cada una

Apliquemos el ejemplo de la PEH individual, a la cual queremos adosar algunas columnas de la EPH de hogares.

9 / 68

Manipular bases: join

La estructura de la base resultante dependerá de la estructura de cada una

Apliquemos el ejemplo de la PEH individual, a la cual queremos adosar algunas columnas de la EPH de hogares. Carguemos primero la base y seleccionemos 4 variables en cada una, aparte de las identificadoras

9 / 68

Manipular bases: join

La estructura de la base resultante dependerá de la estructura de cada una

eph_ind <- read.csv("datos/Clase2/EPH_3T_22/usu_individual_T322.txt", sep=";", dec=",")
eph_ind <- eph_ind %>% 
                     select(CODUSU, NRO_HOGAR, AGLOMERADO, CH03, CH04, CH06) %>% 
                     rename_with(tolower) %>% 
                     rename(relacion=ch03, sexo=ch04, edad=ch06)

eph_hog <- read.csv("datos/Clase2/EPH_3T_22/usu_hogar_T322.txt", sep=";", dec=",")
eph_hog <- eph_hog %>% 
                     select(CODUSU, NRO_HOGAR, AGLOMERADO, IV1, IV2, IV6, IV8) %>% 
                     rename_with(tolower) %>% 
                     rename(tipo_viv=iv1, n_ambiente=iv2, agua=iv6, baño=iv8)

9 / 68

Manipular bases: join

La función inner_join() nos permite realizar esta combinación. Para ello debemos especificar 3 argumentos esenciales

x= dataframe de la izquierda
y= dataframe de la derecha
by= variable/s identificadora

10 / 68

Manipular bases: join

La función inner_join() nos permite realizar esta combinación. Para ello debemos especificar 3 argumentos esenciales

x= dataframe de la izquierda
y= dataframe de la derecha
by= variable/s identificadora

El atributo para vincular ambas bases será el identificador único que es la combinación de las variables CODUSU Y NRO_HOGAR,

eph_all <- inner_join(x=eph_ind, y=eph_hog, by=c("codusu", "nro_hogar"))

10 / 68

Manipular bases: join

La función inner_join() nos permite realizar esta combinación. Para ello debemos especificar 3 argumentos esenciales

x= dataframe de la izquierda
y= dataframe de la derecha
by= variable/s identificadora

El atributo para vincular ambas bases será el identificador único que es la combinación de las variables CODUSU Y NRO_HOGAR,

eph_all <- inner_join(x=eph_ind, y=eph_hog, by=c("codusu", "nro_hogar"))

Revisemos la dimensión de la base resultante. Debería tener cuantas filas?...

10 / 68

Manipular bases: join

Pensemos en la estructura de los datos.

11 / 68

Manipular bases: join

Pensemos en la estructura de los datos. Realizamos una combinación del tipo m-1 (many to one)

11 / 68

Manipular bases: join

Pensemos en la estructura de los datos. Realizamos una combinación del tipo m-1 (many to one). Si logramos asignarle correctamente a cada miembro las variables de su hogar, deberíamos tener la misma cantidad de filas que la base individual

nrow(eph_all)==nrow(eph_ind)

## [1] TRUE

Pero ahora nuestra base tiene el agregado de las columnas adosadas:

names(eph_all)

##  [1] "codusu"       "nro_hogar"    "aglomerado.x" "relacion"     "sexo"        
##  [6] "edad"         "aglomerado.y" "tipo_viv"     "n_ambiente"   "agua"        
## [11] "baño"

11 / 68

Manipular bases: join

nrow(eph_all)==nrow(eph_ind)

## [1] TRUE

Pero ahora nuestra base tiene el agregado de las columnas adosadas:

names(eph_all)

##  [1] "codusu"       "nro_hogar"    "aglomerado.x" "relacion"     "sexo"        
##  [6] "edad"         "aglomerado.y" "tipo_viv"     "n_ambiente"   "agua"        
## [11] "baño"

En la base resultante tenemos para cada persona, las variables que corresponden a nivel hogar.

11 / 68

Manipular bases: join

nrow(eph_all)==nrow(eph_ind)

## [1] TRUE

Pero ahora nuestra base tiene el agregado de las columnas adosadas:

names(eph_all)

##  [1] "codusu"       "nro_hogar"    "aglomerado.x" "relacion"     "sexo"        
##  [6] "edad"         "aglomerado.y" "tipo_viv"     "n_ambiente"   "agua"        
## [11] "baño"

En la base resultante tenemos para cada persona, las variables que corresponden a nivel hogar. Nuestro join fue exitoso!

11 / 68

Manipular bases: join

En el output de nombres vemos que R no duplicó las columnas que funcionaban de id, pero la columna de aglomerado que estaba presente en ambas bases quedó duplicada indicada con un subíndice por default.

12 / 68

Manipular bases: join

A veces es útil mantener una misma columna de bases distintas, para chequear que el merge funcionó bien o simplemente porque necesitamos compararlas

12 / 68

Manipular bases: join

A veces es útil mantener una misma columna de bases distintas, para chequear que el merge funcionó bien o simplemente porque necesitamos compararlas . En estos casos el argumento suffix= nos permite agregar un sufijo a elección, por ejemplo:

eph_all <- inner_join(x=eph_ind, y=eph_hog, by=c("codusu", "nro_hogar"), suffix = c("_ind", "_hog"))
names(eph_all)

##  [1] "codusu"         "nro_hogar"      "aglomerado_ind" "relacion"      
##  [5] "sexo"           "edad"           "aglomerado_hog" "tipo_viv"      
##  [9] "n_ambiente"     "agua"           "baño"

12 / 68

Manipular bases: join

El ejemplo con la EPH es una caso particular donde por construcción todas las observaciones en la base de individuos encuentran una correspondencia con el id por hogar

13 / 68

Manipular bases: join

El ejemplo con la EPH es una caso particular donde por construcción todas las observaciones en la base de individuos encuentran una correspondencia con el id por hogar

En un mismo trimestre nunca tendremos el caso de que en la base de la izquierda hay observaciones que no matcheen con al menos una de la derecha, ni viceversa

13 / 68

Manipular bases: join

El ejemplo con la EPH es una caso particular donde por construcción todas las observaciones en la base de individuos encuentran una correspondencia con el id por hogar

En un mismo trimestre nunca tendremos el caso de que en la base de la izquierda hay observaciones que no matcheen con al menos una de la derecha, ni viceversa

Sin embargo esto sí es algo muy común al trabajar con cualquier otra bases de datos. Es probable que al combinar dos dataframes nos encontremos con un caso como este o similar:

13 / 68

Manipular bases: join

Pero qué pasa si tenemos observaciones diferentes en cada base.

14 / 68

Manipular bases: join

Pero qué pasa si tenemos observaciones diferentes en cada base. Es decir en la base X tenemos filas que no están presentes en la base Y, o viceversa, o ambos casos en simultaneo

14 / 68

Manipular bases: join

Pero qué pasa si tenemos observaciones diferentes en cada base. Es decir en la base X tenemos filas que no están presentes en la base Y, o viceversa, o ambos casos en simultaneo

¿Queremos mantener todas, solo las de la base X, o solo las de la base Y?

14 / 68

Manipular bases: join

Pero qué pasa si tenemos observaciones diferentes en cada base. Es decir en la base X tenemos filas que no están presentes en la base Y, o viceversa, o ambos casos en simultaneo

¿Queremos mantener todas, solo las de la base X, o solo las de la base Y?

Cómo combinamos o preservamos las filas entre bases depende del tipo de cruce que haremos. Es decir del criterio con el que definimos este emparejamiento o match entre filas.

14 / 68

Manipular bases: join

Pero qué pasa si tenemos observaciones diferentes en cada base. Es decir en la base X tenemos filas que no están presentes en la base Y, o viceversa, o ambos casos en simultaneo

¿Queremos mantener todas, solo las de la base X, o solo las de la base Y?

Cómo combinamos o preservamos las filas entre bases depende del tipo de cruce que haremos. Es decir del criterio con el que definimos este emparejamiento o match entre filas.

En el ejemplo anterior utilizamos el inner_join(), pero en realidad este es una de 4 las opciones que podemos emplear para definir un match

Inner join mantiene solo las observaciones comunes entre x e y
Left join mantiene todas las observaciones que están en x
Right join mantiene todas las observaciones que están en y
Full join mantiene todas las observaciones que están tanto en x como en y

14 / 68

Manipular bases: join

En la figura anterior ilustramos un caso donde las observaciones difieren entre bases, incluso cuando tengamos una relación de 1-1 (one to one)

15 / 68

Manipular bases: join

En la figura anterior ilustramos un caso donde las observaciones difieren entre bases, incluso cuando tengamos una relación de 1-1 (one to one)

La figura nos ayuda a clarificar que, el tipo de relación o correspondencia entre observaciones y los casos de observaciones faltantes entre bases, aunque puedan confundirse, son en realidad son dos cuestinoes diferentes

El tipo de relación o correspondencia: refiere a si un mismo id matchea con mas de una fila en alguna de las bases

15 / 68

Manipular bases: join

En la figura anterior ilustramos un caso donde las observaciones difieren entre bases, incluso cuando tengamos una relación de 1-1 (one to one)

El tipo de relación o correspondencia: refiere a si un mismo id matchea con mas de una fila en alguna de las bases
Las observaciones faltantes o diferentes: responde al criterio de qué hacer con las filas que no encuentran un match

15 / 68

Manipular bases: join

En la figura anterior ilustramos un caso donde las observaciones difieren entre bases, incluso cuando tengamos una relación de 1-1 (one to one)

El tipo de relación o correspondencia: refiere a si un mismo id matchea con mas de una fila en alguna de las bases
Las observaciones faltantes o diferentes: responde al criterio de qué hacer con las filas que no encuentran un match

15 / 68

Manipular bases: join

Más allá del tipo de relación entre bases (1-1; m-1; 1-m; m-m) podemos tener filas que no encuentren un match

16 / 68

Manipular bases: join

Más allá del tipo de relación entre bases (1-1; m-1; 1-m; m-m) podemos tener filas que no encuentren un match

Entonces debemos definir un criterio para tratar estas filas sin match, es decir para preservarlas o descartarlas según en qué base se encuentren. Esto es lo que hacemos con laos 4 tipos de funciones join: inner_join() left_join() right_join() full_join()

16 / 68

Manipular bases: join

Más allá del tipo de relación entre bases (1-1; m-1; 1-m; m-m) podemos tener filas que no encuentren un match

Veamos cada una en detalle. Para ilustrar usaremos la relación mas simple de 1-1 y haremos la aplicación con un sampleo de las bases de EPH, por lo que la relación sera de m-1

16 / 68

Manipular bases: inner_join

Comencemos con esta función que ya empleamos antes.

17 / 68

Manipular bases: inner_join

Este es el caso mas estricto, donde solo mantenemos las filas que encuentran un match

18 / 68

Manipular bases: inner_join

Para aplicar el caso, como la EPH por construcción no presenta id faltantes en las bases, generamos un ejemplo artificial con un sampleo aleatorio del 75% la base de individuos y de hogares.

19 / 68

Manipular bases: inner_join

Para aplicar el caso, como la EPH por construcción no presenta id faltantes en las bases, generamos un ejemplo artificial con un sampleo aleatorio del 75% la base de individuos y de hogares.

base X: random sample de la base de individuos
base y: random sample de la base de hogares

19 / 68

Manipular bases: inner_join

Para aplicar el caso, como la EPH por construcción no presenta id faltantes en las bases, generamos un ejemplo artificial con un sampleo aleatorio del 75% la base de individuos y de hogares.

base X: random sample de la base de individuos
base y: random sample de la base de hogares

eph_ind_samp <- sample_frac(eph_ind, 0.75, replace = FALSE)
eph_hog_samp <- sample_frac(eph_hog, 0.75, replace = FALSE)

De esta forma tendremos algunas observaciones faltantes en cada base

19 / 68

Manipular bases: inner_join

La función en este caso es inner_join() y los argumentos a especificar son los mismos que antes

x= dataframe de la izquierda
y= dataframe de la derecha
by= variable/s identificadora

comunes <- inner_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

20 / 68

Manipular bases: inner_join

La funcion setdiff() nos devuelve las filas que aparecen en un vector pero no en otro. De esta forma, si resumimos "codusu" y "nro_hogar" en una sola columna "id" podemos testear facilmente nuestro resultado

eph_hog_samp$id <- paste(eph_hog_samp$codusu, eph_hog_samp$nro_hogar, sep="-")
eph_ind_samp$id <- paste(eph_ind_samp$codusu, eph_ind_samp$nro_hogar, sep="-") 
#Rows that appear in "ind" but not "hog"
out_izq <- setdiff(eph_ind_samp$id, eph_hog_samp$id)
#Rows that appear in "hog" but not "ind"
out_der <- setdiff(eph_hog_samp$id, eph_ind_samp$id)
#Check si los id en el inner_join están en las lista de los "out"
comunes$id <- paste(comunes$codusu, comunes$nro_hogar, sep="-") 
nrow( comunes %>% filter(id %in% out_izq | id %in% out_der) )

## [1] 0

Vemos que ninguno de los "id" que no encuentran match entre bases, están incluidos en el dataframe resultante del inner_join

21 / 68

Manipular bases: left_join

En este segundo criterio mantendremos siempre las filas presentes en la base x

22 / 68

Manipular bases: left_join

En este segundo criterio mantendremos siempre las filas presentes en la base x

23 / 68

Manipular bases: left_join

Como pueden intuir la función es left_join() y los argumentos a especificar son los mismos que antes

todas_x <- left_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

24 / 68

Manipular bases: left_join

Como pueden intuir la función es left_join() y los argumentos a especificar son los mismos que antes

todas_x <- left_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultante tiene que ser la misma que la base indicada como x

nrow(todas_x)==nrow(eph_ind_samp)

## [1] TRUE

24 / 68

Manipular bases: left_join

Como pueden intuir la función es left_join() y los argumentos a especificar son los mismos que antes

todas_x <- left_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultante tiene que ser la misma que la base indicada como x

nrow(todas_x)==nrow(eph_ind_samp)

## [1] TRUE

Pero la cantidad de columnas ser mayor,

dim(todas_x)

## [1] 36924    13

24 / 68

Manipular bases: right_join

Bajo este criterio mantendremos siempre las filas presentes en la base y

25 / 68

Manipular bases: right_join

Bajo este criterio mantendremos siempre las filas presentes en la base y

26 / 68

Manipular bases: right_join

La función a emplear es right_join()

todas_y <- right_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultantes tiene que ser la misma que en la base indicada como y?

27 / 68

Manipular bases: right_join

La función a emplear es right_join()

todas_y <- right_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultantes tiene que ser la misma que en la base indicada como y?

nrow(todas_y)==nrow(eph_hog_samp)

## [1] FALSE

27 / 68

Manipular bases: right_join

La función a emplear es right_join()

todas_y <- right_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultantes tiene que ser la misma que en la base indicada como y?

nrow(todas_y)==nrow(eph_hog_samp)

## [1] FALSE

La cantidad de filas no duplicadas de la base resultantes tiene que ser la misma que en la base indicada como y

27 / 68

Manipular bases: right_join

La función a emplear es right_join()

todas_y <- right_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

La cantidad de filas de la base resultantes tiene que ser la misma que en la base indicada como y?

nrow(todas_y)==nrow(eph_hog_samp)

## [1] FALSE

La cantidad de filas no duplicadas de la base resultantes tiene que ser la misma que en la base indicada como y. Y la cantidad de columnas tiene que ser mayor,

nrow(distinct(todas_y, codusu, nro_hogar))==nrow(eph_hog_samp)
dim(todas_y)

## [1] TRUE
## [1] 28610    13

27 / 68

Manipular bases: full_join

Este criterio es el mas abarcativo de todos, ya que considera todas las filas

28 / 68

Manipular bases: full_join

Este criterio es el mas abarcativo de todos, ya que considera todas las filas

29 / 68

Manipular bases: full_join

La función en este caso es full_join()

todas <- full_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

Chequemos que esta df sea el conjunto mas amplio de todos los joins anteriores y que contenga tanto a los id faltantes de la base de individuos como los de hogares

30 / 68

Manipular bases: full_join

La función en este caso es full_join()

todas <- full_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

Chequemos que esta df sea el conjunto mas amplio de todos los joins anteriores y que contenga tanto a los id faltantes de la base de individuos como los de hogares

nrow(todas)>nrow(comunes)
nrow(todas)>nrow(todas_y)
nrow(todas)>nrow(todas_x)

## [1] TRUE
## [1] TRUE
## [1] TRUE

30 / 68

Manipular bases: full_join

La función en este caso es full_join()

todas <- full_join(eph_ind_samp, eph_hog_samp, by=c("codusu", "nro_hogar"))

Chequemos que esta df sea el conjunto mas amplio de todos los joins anteriores y que contenga tanto a los id faltantes de la base de individuos como los de hogares

nrow(todas)>nrow(comunes)
nrow(todas)>nrow(todas_y)
nrow(todas)>nrow(todas_x)

## [1] TRUE
## [1] TRUE
## [1] TRUE

#Check si los id sin correspondencia están incluidos en la base resultante
todas$id <- paste(todas$codusu, todas$nro_hogar, sep="-") 
nrow( todas %>% filter(id %in% out_izq | id %in% out_der) )

## [1] 10268

30 / 68

Manipular bases: tips for join

Antes de pasar al tema siguiente, recomiendo poder examinar otros ejemplos y aplicaciones de joins mas allá de este ejemplo que hemos presentado con la EPH.

31 / 68

Manipular bases: tips for join

Antes de pasar al tema siguiente, recomiendo poder examinar otros ejemplos y aplicaciones de joins mas allá de este ejemplo que hemos presentado con la EPH.

Este tipo de operaciones es de las operaciones mas frecuentes al trabajar con datos y son fuente de errores o modificaciones no deseadas en los datos

31 / 68

Manipular bases: tips for join

Antes de pasar al tema siguiente, recomiendo poder examinar otros ejemplos y aplicaciones de joins mas allá de este ejemplo que hemos presentado con la EPH.

Este tipo de operaciones es de las operaciones mas frecuentes al trabajar con datos y son fuente de errores o modificaciones no deseadas en los datos

Siempre es recomendable tomarse unos minutos para analizar lo siguiente antes de un join:

Averiguar cómo es la correspondencia entre las observaciones de cada base? 1-1; m-1; 1-m?
Evitar cruces que implique relaciones m-m, la base resultante es difícil de interpretar y rara vez es necesario este tipo de combinaciones
Averiguar si tengo filas diferentes en cada base? Siempre es bueno realizar un check de filas faltantes con setdiff()
Entender cuál es la estructura del dataframe resultante que necesito
En base a ellos pensar que criterio de join se debe emplear
Lo mas importante, chequear que el resultado sea el correcto y no darlo por hecho

31 / 68

Manipular bases: errores mas comunes en join32 / 68

Manipular bases: append

Pasemos ahora a otro tipo de operaciones, que implicar combinar bases, pero no matchear sino que juntatarlas

Tipicamente existen dos tipos de operaciones entre bases

Combinar bases de datos
- Cruzar bases (Join)
- Extender bases (Append)

Reshape de una base de datos

33 / 68

Manipular bases: append

Cuando tenemos dos o mas bases de datos y queremos juntarlas en una sola, lo que estamos buscando es extender la base, es decir sumar las filas de bases diferentes

34 / 68

Manipular bases: append

Cuando tenemos dos o mas bases de datos y queremos juntarlas en una sola, lo que estamos buscando es extender la base, es decir sumar las filas de bases diferentes

Por lo general, y en la mayoría de los casos estas bases comparten las mismas columnas y lo que precisamos es apilarlas

34 / 68

Manipular bases: append

Cuando tenemos dos o mas bases de datos y queremos juntarlas en una sola, lo que estamos buscando es extender la base, es decir sumar las filas de bases diferentes

Por lo general, y en la mayoría de los casos estas bases comparten las mismas columnas y lo que precisamos es apilarlas

Siguiendo con la EPH el ejemplo más tipico, ocurre cuando para una base de individuos u hogares de un trimestre, queremos sumarle la misma base de un trimestre anterior

34 / 68

Manipular bases: append

Veamos cómo hacer esto en R.

35 / 68

Manipular bases: append

Veamos cómo hacer esto en R. La función para este tipo de operaciones como su nombre lo indica es bind_rows()

35 / 68

Manipular bases: append

Veamos cómo hacer esto en R. La función para este tipo de operaciones como su nombre lo indica es bind_rows(). Y requiere solo dos argumentos, los dataframes que queremos juntar

35 / 68

Manipular bases: append

Veamos cómo hacer esto en R. La función para este tipo de operaciones como su nombre lo indica es bind_rows(). Y requiere solo dos argumentos, los dataframes que queremos juntar

Para nuestra aplicación, a la base de individuos del 3er trimestre 2022 con las columnas elegidas antes, agreguemosle la base del 2do trimestre

35 / 68

Manipular bases: append

Veamos cómo hacer esto en R. La función para este tipo de operaciones como su nombre lo indica es bind_rows(). Y requiere solo dos argumentos, los dataframes que queremos juntar

Para nuestra aplicación, a la base de individuos del 3er trimestre 2022 con las columnas elegidas antes, agreguemosle la base del 2do trimestre

Primero carguemos la base y renombramos la EPH individual que ya estaba cargada en nuestro entorno de trabajo

eph_ind_2t <- read.csv("datos/Clase3/EPH_2T_22/usu_individual_T222.txt", sep=";", dec=",")
eph_ind_2t <- eph_ind_2t %>% 
                           select(CODUSU, NRO_HOGAR, AGLOMERADO, CH03, CH04, CH06) %>% 
                           rename_with(tolower) %>% 
                           rename(relacion=ch03, sexo=ch04, edad=ch06)
eph_ind_3t <- eph_ind

35 / 68

Manipular bases: append

Ya estamos listos para hacer el append

eph_ind_append <- bind_rows(eph_ind_2t, eph_ind_3t)

Corroboremos que la cantidad de filas corresponden a la suma de cada base

nrow(eph_ind_append)==( nrow(eph_ind_2t) + nrow(eph_ind_3t) )

## [1] TRUE

Listo!

36 / 68

Manipular bases: append

¿Y que ocurre en el caso de que las columnas que tenemos en cada base sean distintas y queramos apilar las bases sin perder las columnas propias de cada base?

Bueno, en realidad no pasa nada, la función puede lidiar con estos casos

37 / 68

Manipular bases: append

¿Y que ocurre en el caso de que las columnas que tenemos en cada base sean distintas y queramos apilar las bases sin perder las columnas propias de cada base?

Bueno, en realidad no pasa nada, la función puede lidiar con estos casos Cuando se hace un append de filas, las columnas se emparejan por nombre y las columnas faltantes se completarán con NA

eph_ind_3t <- eph_ind_3t %>% select(-edad) 
eph_ind_2t <- eph_ind_2t %>% select(-sexo)
eph_ind_append <- bind_rows(eph_ind_2t, eph_ind_3t)

37 / 68

Manipular bases: append

Con head() veremos las primeras observaciones que son las del 2do-trim y con tail() nos devuelve las ultimas observaciones, que corresponden a las filas del 3er-trim, en ambos casos con NA en la variable faltante

head(eph_ind_append, 5)

##                          codusu nro_hogar aglomerado relacion edad sexo
## 1 TQRMNOPWWHMMLNCDEFPCH00700147         1          9        1   50   NA
## 2 TQRMNOPXVHLMLMCDEIJAH00706342         1         33        1   52   NA
## 3 TQRMNOPXVHLMLMCDEIJAH00706342         1         33        2   45   NA
## 4 TQRMNOPXVHLMLMCDEIJAH00706342         1         33        3   21   NA
## 5 TQRMNOPXVHLMLMCDEIJAH00706342         1         33        3   12   NA

tail(eph_ind_append, 5)

##                              codusu nro_hogar aglomerado relacion edad sexo
## 99842 TQRMNOQTYHLNKPCDEIHJF00707321         1         31        1   NA    1
## 99843 TQRMNOSVTHLNMQCDEIJAH00785774         1         33        3   NA    1
## 99844 TQRMNOSVTHLNMQCDEIJAH00785774         1         33        3   NA    2
## 99845 TQRMNOSVTHLNMQCDEIJAH00785774         1         33        1   NA    2
## 99846 TQRMNOSVTHLNMQCDEIJAH00785774         1         33        2   NA    1

38 / 68

Manipular bases: append

Un tip adicional sobre bind_rows()

Pueden explorar el argumento adicional id, que indica que se cree una columna nueva para identifcar de qué dataframe provino cada observación.

39 / 68

Manipular bases: append

Un tip adicional sobre bind_rows()

Pueden explorar el argumento adicional id, que indica que se cree una columna nueva para identifcar de qué dataframe provino cada observación. Esto en ciertos contextos resulta muy útil

39 / 68

Manipular bases: append

Un tip adicional sobre bind_rows()

Pueden explorar el argumento adicional id, que indica que se cree una columna nueva para identifcar de qué dataframe provino cada observación. Esto en ciertos contextos resulta muy útil

eph_ind_append <- bind_rows(eph_ind_2t, eph_ind_3t, .id = "origen")
table(eph_ind_append$origen)

## 
##     1     2 
## 50614 49232

39 / 68

Manipular bases: append

Existe también la función bind_cols() que permite juntar las columnas de bases distintas.

40 / 68

Manipular bases: append

Existe también la función bind_cols() que permite juntar las columnas de bases distintas.

Sin embargo deben ser cuidadosos a la hora de usarla ya que al juntar columnas se toma en cuenta la posición de las filas. Solo es recomendable cuando están seguros de que las observaciones son las mismas y están ordenadas con la misma posición en cada base de datos

40 / 68

Manipular bases: append

Existe también la función bind_cols() que permite juntar las columnas de bases distintas.

40 / 68

Manipular bases: append

Existe también la función bind_cols() que permite juntar las columnas de bases distintas.

En caso contrario, y para evitar asiganciones incorrectas, es mejor usar los mutating joins!

40 / 68

Manipular bases: pivot

Pasemos a otro tipo de operaciones que se dan cuando necesitamos cambiar la estructura de la base.

Combinar bases de datos
- Cruzar bases (Join)
- Extender bases (Append)

Reshape de una base de datos

41 / 68

Manipular bases: pivot

Un mismo dataframe puede almacenar los mismos datos, pero en estructuras distintas.

Realizar un reshape o pivotar una base de datos, implica mantener tal cual los valores y la información de la tabla, alterando la forma o la disposición de esos datos:

42 / 68

Manipular bases: pivot

Un mismo dataframe puede almacenar los mismos datos, pero en estructuras distintas.

Realizar un reshape o pivotar una base de datos, implica mantener tal cual los valores y la información de la tabla, alterando la forma o la disposición de esos datos:

Existen dos formatos para una dataframe:

long: en el cual los datos estan apilados, una misma observación se repite ya que los distintos valores de la columna se ordenan uno debajo del otro

42 / 68

Manipular bases: pivot

Un mismo dataframe puede almacenar los mismos datos, pero en estructuras distintas.

Realizar un reshape o pivotar una base de datos, implica mantener tal cual los valores y la información de la tabla, alterando la forma o la disposición de esos datos:

Existen dos formatos para una dataframe:

long: en el cual los datos estan apilados, una misma observación se repite ya que los distintos valores de la columna se ordenan uno debajo del otro
wide: los datos están dispuestos en sentido horizontal, con múltiples columnas y con observaciones que no se repiten

42 / 68

Manipular bases: pivot

Para ver un caso, trabajemos con una base ejemplo que tiene para cada región los distintos valores del ingreso laboral en distintos años:

inc_reg <- read.csv("datos/Clase3/inc_region.csv")

Visualicemos nuestra base

43 / 68

Manipular bases: pivot

Para ver un caso, trabajemos con una base ejemplo que tiene para cada región los distintos valores del ingreso laboral en distintos años:

inc_reg <- read.csv("datos/Clase3/inc_region.csv")

Visualicemos nuestra base Qué formato tiene

43 / 68

Manipular bases: pivot

Para ver un caso, trabajemos con una base ejemplo que tiene para cada región los distintos valores del ingreso laboral en distintos años:

inc_reg <- read.csv("datos/Clase3/inc_region.csv")

Visualicemos nuestra base Qué formato tiene ¿Wide o long?

Region	ila2010	ila2011	ila2012	ila2013
GBA	1181.42	1200.50	1380.58	1449.60
Pampeana	929.61	1002.58	1223.15	1302.65
Cuyo	769.69	780.30	850.53	927.07
NOA	692.52	705.89	875.30	901.56
Patagonia	1505.07	1710.60	2223.78	2490.63
NEA	613.58	652.40	841.60	967.84

43 / 68

Manipular bases: pivot

Para ver un caso, trabajemos con una base ejemplo que tiene para cada región los distintos valores del ingreso laboral en distintos años:

inc_reg <- read.csv("datos/Clase3/inc_region.csv")

Visualicemos nuestra base Qué formato tiene ¿Wide o long?

Region	ila2010	ila2011	ila2012	ila2013
GBA	1181.42	1200.50	1380.58	1449.60
Pampeana	929.61	1002.58	1223.15	1302.65
Cuyo	769.69	780.30	850.53	927.07
NOA	692.52	705.89	875.30	901.56
Patagonia	1505.07	1710.60	2223.78	2490.63
NEA	613.58	652.40	841.60	967.84

Wide! Las regiones no se repiten y hay una columna distinta para cada año

43 / 68

Manipular bases: pivot_longer

¿Cómo podemos convertirla a long?

44 / 68

Manipular bases: pivot_longer

¿Cómo podemos convertirla a long?

Hagamos un pivot de nuestra base. Es decir vamos a "alargar" los datos colapsando múltiples columnas del ingreso en una sola y apilando cada uno de sus valores en una misma columna

44 / 68

Manipular bases: pivot_longer

¿Cómo podemos convertirla a long?

Hagamos un pivot de nuestra base. Es decir vamos a "alargar" los datos colapsando múltiples columnas del ingreso en una sola y apilando cada uno de sus valores en una misma columna

Cada una de las columnas que estamos reconviertiendo, son ahora valores por fila de la columna única en la que colapsamos la base

44 / 68

Manipular bases: pivot_longer

¿Cómo podemos convertirla a long?

Hagamos un pivot de nuestra base. Es decir vamos a "alargar" los datos colapsando múltiples columnas del ingreso en una sola y apilando cada uno de sus valores en una misma columna

Cada una de las columnas que estamos reconviertiendo, son ahora valores por fila de la columna única en la que colapsamos la base