Las bases de datos son el conjunto de observaciones que hacemos del mundo de una manera organizada y sistemática. El arreglo más tradicional de las bases de datos son tablas, donde las filas corresponden a descripciones de las unidades de observación, por medio de mediciones de diferentes aspectos. Las filas, en cambio son las descripciones. Por ejemplo:

Table 0.1: Base de datos de abundancia de cinco especies en 100 sitios (sólo se muestran los primeros diez).
Sp1	Sp2	Sp3	Sp4	Sp5
5	10	19	9	6
5	9	19	9	6
6	11	20	10	5
5	9	20	10	5
3	8	19	9	5
4	9	19	10	5
3	9	21	11	3
4	10	19	9	5
6	10	20	11	4
5	10	19	9	6

Esta base de datos se encuentra en formato ancho. Es común modificar el formato de las bases dependiendo del tipo de análisis que vayamos a hacer. Para los análisis univariados, es más común utiizar el formato largo. Para hacer la transformación, a esta base de datos, debemos añadirle una columna que nos permita identificar los sitios:

Table 0.2: Base de datos con identificador de sitio
Sp1	Sp2	Sp3	Sp4	Sp5	Sitio
5	10	19	9	6	sitio.1
5	9	19	9	6	sitio.2
6	11	20	10	5	sitio.3
5	9	20	10	5	sitio.4
3	8	19	9	5	sitio.5
4	9	19	10	5	sitio.6
3	9	21	11	3	sitio.7
4	10	19	9	5	sitio.8
6	10	20	11	4	sitio.9
5	10	19	9	6	sitio.10

En R, podemos trasformar fácilmente una base de datos de formato ancho a largo con la función melt. El resultado de la transformación de ancho a largo es:

Table 0.3: Base de datos transformada de ancho a largo. Ahora, la identidad de la especie es una columna más, y las filas corresponden a la abundancia de cada especie en cada sitio.
Sitio	variable	value
sitio.1	Sp1	5
sitio.2	Sp1	5
sitio.3	Sp1	6
sitio.4	Sp1	5
sitio.5	Sp1	3
sitio.6	Sp1	4
sitio.7	Sp1	3
sitio.8	Sp1	4
sitio.9	Sp1	6
sitio.10	Sp1	5
sitio.11	Sp1	4
sitio.12	Sp1	5
sitio.13	Sp1	4
sitio.14	Sp1	6
sitio.15	Sp1	5
sitio.16	Sp1	5
sitio.17	Sp1	5
sitio.18	Sp1	5
sitio.19	Sp1	5
sitio.20	Sp1	3

Esta base de datos fue generada con el código de Murray Logan.

A continuación veremos cómo leer y modificar bases de datos en R.

1 Tutorial de bases de datos en R

El formato de elección para almacenar datos y utilizarlos en R es csv, que quiere decir comma separated value, y es un archivo de text normal, donde las columnas están separadas por comas y las filas con un intro. Estos archivos podemos crearlos desde R ó Excel al capturar los datos experimentales.

Para leer bases de datos en formato csv desde R utilizaremos la función read.csv. Así por ejemplo, para leer la base de datos de las abundancias de especies de esta parte introductoria sería:

base.sp <- read.csv("Datos-bases/Datos-sp.csv")

El único argumento que necesitamos para utilizarla es la ubicación o ruta hacia el archivo, en este caso la carpeta "Datos-bases" seguido de una diagonal y el nombre del archivo csv. Para obtener esta base de datos haz click aquí. Nota que al ejecutar esta línea de código en R, se crea un objeto en el espacio de trabajo (pestaña Environment en Rstudio). Siempre que querramos trabajar con un objeto, este debe existir en el ambiente de trabajo de R.

Ahora, estamos en posibilidades de acceder a los datos que contiene la base. Para acceder a los contenidos de una de las columnas debemos identificar sus nombres con la función names:

names(base.sp)

## [1] "Sp1" "Sp2" "Sp3" "Sp4" "Sp5"

Entonces, para acceder a la abundancia de Sp1 en cada uno de los 100 sitios de muestreo, podemos utilizar el operador $ seguido del nombre de la columna que queremos inspeccionar:

base.sp$Sp1

##   [1] 5 5 6 5 3 4 3 4 6 5 4 5 4 6 5 5 5 5 5 3 5 6 5 6 5 4 7 4 3 6 5 3 5 5 4 6 6
##  [38] 7 6 4 6 6 6 4 5 6 4 5 7 5 6 6 6 6 5 6 5 4 5 7 7 5 6 8 6 5 6 5 6 6 5 6 6 4
##  [75] 5 7 4 4 4 6 6 2 5 2 6 4 5 5 6 4 5 4 5 5 4 6 5 5 6 5

Igualmente podríamos revisar cuál es la abundancia de las cinco especies en un sitio específico, aunque en este caso, debemos utilizar paréntesis cuadrados para indicar qué fila queremos revisar:

base.sp[10, ]

##    Sp1 Sp2 Sp3 Sp4 Sp5
## 10   5  10  19   9   6

Debido a que base.sp es una arreglo bidimensional, debemos incluir una coma intermedia, el valor antes de la coma indica el número de fila, y el valor después de la coma indica el número de columna. De este modo, hemos indicado a R que imprima la fila 10.

Como se menciona al incio de esta sección, esta base de datos está en formato ancho, yu es común requerir de una base en formato largo. Para esta transformación necesitamos importar la función melt, que está contenida en el paquete reshape2. Al procesar el objeto base.sp crearemos otro objeto que contendrá los mismos datos que base.sp pero en formato largo, no sin antes crear una columna adicional que identifica los sitios de muestreo:

base.sp$Sitio <- paste0("sitio.", 1:100)
base.sp.m <- reshape2::melt(base.sp, id.vars = "Sitio")

En la función melt el primer argumento es la base en formato ancho que queremos transformar, y el segundo argumento id.vars indica la columna que se utilizará para identificar las unidades de muestreo. Existen otras posibilidades para formatos largos que veremos más tarde.

Para guardar una base de datos desde R, podemos utilizar la función write.csv, para la base en formato ancho:

write.csv(base.sp, "Base-datos-ancho.csv")

Y la base en formato largo:

write.csv(base.sp.m, "Base-datos-largo.csv")

Código fuente de este tutorial

Regresar al índice del curso

Introducción a las bases de datos

Gerardo Martín

10/2/2021

1 Tutorial de bases de datos en R

Sp1	Sp2	Sp3	Sp4	Sp5
5	10	19	9	6
5	9	19	9	6
6	11	20	10	5
5	9	20	10	5
3	8	19	9	5
4	9	19	10	5
3	9	21	11	3
4	10	19	9	5
6	10	20	11	4
5	10	19	9	6

Sp1	Sp2	Sp3	Sp4	Sp5
5	10	19	9	6
5	9	19	9	6
6	11	20	10	5
5	9	20	10	5
3	8	19	9	5
4	9	19	10	5
3	9	21	11	3
4	10	19	9	5
6	10	20	11	4
5	10	19	9	6

Sp1	Sp2	Sp3	Sp4	Sp5
5	10	19	9	6
5	9	19	9	6
6	11	20	10	5
5	9	20	10	5
3	8	19	9	5
4	9	19	10	5
3	9	21	11	3
4	10	19	9	5
6	10	20	11	4
5	10	19	9	6