1 Introducción

En estadística hay varios conceptos relacionados entre sí:

Variable
Observación
Dato

Es importante saberlos distinguir pues aunque son similares, tienen diferencias importantes. Para comenzar, una variable es un conjunto de observaciones que describen de diferentes objetos. Algo que caracteriza a una variable es que puede tomar muchos valores distintos pero todos aquellos son de la misma naturaleza matemática:

Contínua
Discreta
Ordinal
Categórica

Cada uno de los valores posibles de las variables son observaciones que hemos registrado para describir los objetos de estudio. De modo que si registramos tres variables para describir diez objetos, cada variable tendrá diez observaciones:

Table 1.1: Base de datos
individuo	color	largo	anillos
1	rojo	0.4629211	6
2	verde	0.9897934	4
3	azul	0.1182241	3
4	rojo	0.9947153	2
5	café	0.8639023	3
6	verde	0.6418608	4
7	amarillo	0.1506636	2
8	azul	0.8278537	3
9	rojo	0.8360175	3
10	verde	0.3803223	5

Entonces, tenemos que una variable es categórica (color), una es contínua (largo) y otra es discreta (anillos). Cada renglón de esta base de datos contiene el color, largo y número de anillos de los objetos identificados con número en la columna id. Entonces, cada renglón de la tabla 1.1 es un dato, por lo que dato es la descripción de cada unidad de estudio con las variables de interés (dependientes e independientes). Suponiendo que estamos viendo si número de anillos aumenta con la longitud y difiere entre colores, la variable dependiente es anillos, y las independientes son longitud y color.

2 Formatos de bases de datos

Existen varias maneras de arreglar los datos en tablas. El primero que vimos en la tabla 1.1, se llama largo, pues cada fila contiene toda la información que describe a cada dato. También es posible, sin embargo, acomodar los datos en columnas, de modo que las filas ya no son las descripciones de los datos, sino la columna en la que están ubicados. Aquí tienen un ejempo de una base de datos en formato ancho:

Table 2.1: Base de datos en formato ancho
Control	Trat.A	Trat.B
2	5	1
6	4	1
7	6	4
7	7	1
7	5	2
8	10	2
8	10	0
1	5	2
4	7	1
4	3	1

Y la misma base de datos en formato largo, en la que cada fila es un dato:

Table 2.2: Misma base en formato largo
Tratamiento	Y
Control	2
Control	6
Control	7
Control	7
Control	7
Control	8
Control	8
Control	1
Control	4
Control	4
Trat.A	5
Trat.A	4
Trat.A	6
Trat.A	7
Trat.A	5
Trat.A	10
Trat.A	10
Trat.A	5
Trat.A	7
Trat.A	3
Trat.B	1
Trat.B	1
Trat.B	4
Trat.B	1
Trat.B	2
Trat.B	2
Trat.B	0
Trat.B	2
Trat.B	1
Trat.B	1

Cada formato de base de datos tiene sus bondades, por ejemplo si vamos a hacer un análisis de varianza en una hoja de cálculo como en excel, es más fácil hacerlo con la base en formato ancho, sin embargo, paquetes estadísticos como el lenguaje R, requiere que los datos estén en formalo largo

Regresar al índice del curso

El concepto de dato

Gerardo Martín

3/2/2021

1 Introducción

2 Formatos de bases de datos