En estadística hay varios conceptos relacionados entre sí:
Es importante saberlos distinguir pues aunque son similares, tienen diferencias importantes. Para comenzar, una variable es un conjunto de observaciones que describen de diferentes objetos. Algo que caracteriza a una variable es que puede tomar muchos valores distintos pero todos aquellos son de la misma naturaleza matemática:
Cada uno de los valores posibles de las variables son observaciones que hemos registrado para describir los objetos de estudio. De modo que si registramos tres variables para describir diez objetos, cada variable tendrá diez observaciones:
individuo | color | largo | anillos |
---|---|---|---|
1 | rojo | 0.4629211 | 6 |
2 | verde | 0.9897934 | 4 |
3 | azul | 0.1182241 | 3 |
4 | rojo | 0.9947153 | 2 |
5 | café | 0.8639023 | 3 |
6 | verde | 0.6418608 | 4 |
7 | amarillo | 0.1506636 | 2 |
8 | azul | 0.8278537 | 3 |
9 | rojo | 0.8360175 | 3 |
10 | verde | 0.3803223 | 5 |
Entonces, tenemos que una variable es categórica (color), una es contínua (largo) y otra es discreta (anillos). Cada renglón de esta base de datos contiene el color, largo y número de anillos de los objetos identificados con número en la columna id. Entonces, cada renglón de la tabla 1.1 es un dato, por lo que dato es la descripción de cada unidad de estudio con las variables de interés (dependientes e independientes). Suponiendo que estamos viendo si número de anillos aumenta con la longitud y difiere entre colores, la variable dependiente es anillos, y las independientes son longitud y color.
Existen varias maneras de arreglar los datos en tablas. El primero que vimos en la tabla 1.1, se llama largo, pues cada fila contiene toda la información que describe a cada dato. También es posible, sin embargo, acomodar los datos en columnas, de modo que las filas ya no son las descripciones de los datos, sino la columna en la que están ubicados. Aquí tienen un ejempo de una base de datos en formato ancho:
Control | Trat.A | Trat.B |
---|---|---|
2 | 5 | 1 |
6 | 4 | 1 |
7 | 6 | 4 |
7 | 7 | 1 |
7 | 5 | 2 |
8 | 10 | 2 |
8 | 10 | 0 |
1 | 5 | 2 |
4 | 7 | 1 |
4 | 3 | 1 |
Y la misma base de datos en formato largo, en la que cada fila es un dato:
Tratamiento | Y |
---|---|
Control | 2 |
Control | 6 |
Control | 7 |
Control | 7 |
Control | 7 |
Control | 8 |
Control | 8 |
Control | 1 |
Control | 4 |
Control | 4 |
Trat.A | 5 |
Trat.A | 4 |
Trat.A | 6 |
Trat.A | 7 |
Trat.A | 5 |
Trat.A | 10 |
Trat.A | 10 |
Trat.A | 5 |
Trat.A | 7 |
Trat.A | 3 |
Trat.B | 1 |
Trat.B | 1 |
Trat.B | 4 |
Trat.B | 1 |
Trat.B | 2 |
Trat.B | 2 |
Trat.B | 0 |
Trat.B | 2 |
Trat.B | 1 |
Trat.B | 1 |
Cada formato de base de datos tiene sus bondades, por ejemplo si vamos a hacer un análisis de varianza en una hoja de cálculo como en excel, es más fácil hacerlo con la base en formato ancho, sin embargo, paquetes estadísticos como el lenguaje R, requiere que los datos estén en formalo largo