El Diagrama de Caja y bigotes (box and whisker plot en inglés ) es un tipo de gráfico que muestra un resumen de una gran cantidad de datos en cinco medidas descriptivas, además de intuir su morfología y simetría.

Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de una forma cómoda y rápida como el 50% de los valores centrales se distribuyen.

Definiciones previas

Se puede detectar rápidamente los siguientes valores:

  • Primer cuartil: el 25% de los valores son menores o igual a este valor (punto 2 en el gráfico anterior).
  • Mediana o Segundo Cuartil: Divide en dos partes iguales la distribución. De forma que  el 50% de los valores son menores o igual a este valor (punto 3 en el gráfico siguiente).
  • Tercer cuartil: el 75% de los valores son menores o igual a este valor (punto 4 en el gráfico siguiente).
  • Rango Intercuartílico (RIC): Diferencia entre el valor del tercer cuartil y el primer cuartil.

 

No es de extrañar que en un conjunto de datos reales se muestren máximos muy altos o mínimos muy bajos por lo que se considera que existen los valores raros.

Las ventajas  principales de representar la distribución de los datos utilizando este método son:

  • Visualizar si la distribución de una variable es asimétrica o se aleja de la distribución normal.
  • La facilidad al comparar distribuciones entre grupos. Aunque se tendrá que usar técnicas estadísticas para establecer la significación de las diferencias percibidas.

 

Interpretación del gráfico

En el gráfico superior podemos ver como se distribuyen los precios de venta de las diferentes filiales de una empresa

Caja

Las dimensiones de la caja está determinada por la distancia del rango intercuartílico, que es la diferencia entre el primer (punto 2 del gráfico) y tercer cuartil (punto 4 del gráfico), es decir, que en nuestro gráfico vemos que para la filial central, el 50% de las ventas están entre 1.250 y 3.350 € mientras que en Viajes se concentran entre 2.600 y 3.400.

El segmento que divide la caja en dos partes es la mediana (punto 3 del gráfico), que facilitará la comprensión de si la distribución es simétrica o asimétrica.

  • Si la mediana se sitúa en el centro de la caja entonces la distribución es simétrica y tanto la media, mediana y moda coinciden.
  • Si la mediana corta la caja en dos lados desiguales se tiene:
    • Asimetría positiva o segada a la derecha si la parte más larga de la caja es la parte superior a la mediana. Los datos se concentran en la parte inferior de la distribución. La media suele ser mayor que la mediana.
    • Asimetría negativa o sesgada a la izquierda si la parte más larga es la inferior a la mediana. Los datos se concentran en la parte superior de la distribución. La media suele ser menor que la mediana.

 

¡Ojo! Porque un lado de la caja sea más largo que otro, no quiere decir que ese lado contenga más datos. Indica un rango más amplio, por lo que los datos estarán mas dispersos. Un rango menos amplio, indica que los datos están más próximos.

Bigotes

La continuación de dos segmentos en la caja se denominan bigotes (whisker) que determina el límite para la detección de valores atípicos.

Los bigotes deben tener una longitud máxima. Dicha longitud no debe ser superior al 150% del rango intercuartílico.

Habrá un límite superior (punto 6 del gráfico), que no podrá superar el 1,5  veces el RIC, si el máximo no supera ese valor, la longitud del bigote será desde el tercer cuartil hasta el máximo.

Habrá un límite inferior (punto 7 del gráfico), que no podrá superar el 1,5  veces el RIC, si el mínimo no supera ese valor, la longitud del bigote será desde el primer cuartil hasta el mínimo.

Valores Atípicos

Los valores atípicos (outilers en inglés) son aquellos puntos que están mas allá del límite inferior o superior.

Puedes ver como crear gráficos de tipo BoxPlot con Atlas SBI en nuestro artículo del KBase Representación de cuartiles con BoxPlot, en este artículo explicamos los pasos necesarios tanto para calcular los cuartiles con instrucciones SQL, como los pasos necesarios para construir el gráfico.