Diagrama BoxPlot
El Diagrama de Caja y bigotes (box and whisker plot en inglés ) es un tipo de gráfico que muestra un resumen de una gran cantidad de datos en cinco medidas descriptivas, además de intuir su morfología y simetría.
Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de una forma cómoda y rápida como el 50% de los valores centrales se distribuyen.
Definiciones previas
Se puede detectar rápidamente los siguientes valores:
- Primer cuartil: el 25% de los valores son menores o igual a este valor (punto 2 en el gráfico anterior).
- Mediana o Segundo Cuartil: Divide en dos partes iguales la distribución. De forma que el 50% de los valores son menores o igual a este valor (punto 3 en el gráfico siguiente).
- Tercer cuartil: el 75% de los valores son menores o igual a este valor (punto 4 en el gráfico siguiente).
- Rango Intercuartílico (RIC): Diferencia entre el valor del tercer cuartil y el primer cuartil.
No es de extrañar que en un conjunto de datos reales se muestren máximos muy altos o mínimos muy bajos por lo que se considera que existen los valores raros.
Las ventajas principales de representar la distribución de los datos utilizando este método son:
- Visualizar si la distribución de una variable es asimétrica o se aleja de la distribución normal.
- La facilidad al comparar distribuciones entre grupos. Aunque se tendrá que usar técnicas estadísticas para establecer la significación de las diferencias percibidas.
Interpretación del gráfico
En el gráfico superior podemos ver como se distribuyen los precios de venta de las diferentes filiales de una empresa
Caja
Las dimensiones de la caja está determinada por la distancia del rango intercuartílico, que es la diferencia entre el primer (punto 2 del gráfico) y tercer cuartil (punto 4 del gráfico), es decir, que en nuestro gráfico vemos que para la filial central, el 50% de las ventas están entre 1.250 y 3.350 € mientras que en Viajes se concentran entre 2.600 y 3.400.
El segmento que divide la caja en dos partes es la mediana (punto 3 del gráfico), que facilitará la comprensión de si la distribución es simétrica o asimétrica.
- Si la mediana se sitúa en el centro de la caja entonces la distribución es simétrica y tanto la media, mediana y moda coinciden.
- Si la mediana corta la caja en dos lados desiguales se tiene:
- Asimetría positiva o segada a la derecha si la parte más larga de la caja es la parte superior a la mediana. Los datos se concentran en la parte inferior de la distribución. La media suele ser mayor que la mediana.
- Asimetría negativa o sesgada a la izquierda si la parte más larga es la inferior a la mediana. Los datos se concentran en la parte superior de la distribución. La media suele ser menor que la mediana.
¡Ojo! Porque un lado de la caja sea más largo que otro, no quiere decir que ese lado contenga más datos. Indica un rango más amplio, por lo que los datos estarán mas dispersos. Un rango menos amplio, indica que los datos están más próximos.
Bigotes
La continuación de dos segmentos en la caja se denominan bigotes (whisker) que determina el límite para la detección de valores atípicos.
Los bigotes deben tener una longitud máxima. Dicha longitud no debe ser superior al 150% del rango intercuartílico.
Habrá un límite superior (punto 6 del gráfico), que no podrá superar el 1,5 veces el RIC, si el máximo no supera ese valor, la longitud del bigote será desde el tercer cuartil hasta el máximo.
Habrá un límite inferior (punto 7 del gráfico), que no podrá superar el 1,5 veces el RIC, si el mínimo no supera ese valor, la longitud del bigote será desde el primer cuartil hasta el mínimo.
Valores Atípicos
Los valores atípicos (outilers en inglés) son aquellos puntos que están mas allá del límite inferior o superior.
Puedes ver como crear gráficos de tipo BoxPlot con Atlas SBI en nuestro artículo del KBase Representación de cuartiles con BoxPlot, en este artículo explicamos los pasos necesarios tanto para calcular los cuartiles con instrucciones SQL, como los pasos necesarios para construir el gráfico.
Daniel Montes - author
24 Comentarios
Deja un comentario
Categorías
- Blog (6)
- Conocimiento (31)
- Gestión (17)
- Historias (24)
- Sectores (17)
- Adm. Pública (16)
- Tecnologías (3)
- Uso de Atlas SBI (5)
- Sectores (17)
- Machine Learning (5)
- LLM/GPT (3)
- Noticias (24)
- Proyectos (33)
- SAPIENS (12)
- SapiensXBot (4)
- Vídeos (20)
- General/Usuario (8)
- Técnico avanzado (5)
- Técnico Básico (7)
Buenísima la explicación, muy detallada, muy útil tanto para los que lo conocíamos como para los que entran por primera vez a este tipo de gráfico. Muchas gracias.
Muchas gracias por tu comentario.
Saludos
Me podrás decir si los estadisticos que se identifican en una caja de bigotes son la mediana el rango y el rango interquartil? O se refiere a otra cosa?
Gracias
Hola Monica, gracias por tu comentario.
Efectivamente, como puedes ver en el artículo en la caja
«Se puede detectar rápidamente los siguientes valores: Primer cuartil: …, Mediana o Segundo Cuartil: …, Tercer cuartil: … y Rango Intercuartílico (RIC): …»
Pero no son los únicos, también están los bigotes y los outliers o valores atípicos.
Saludos
Xavier muchas gracias por tu respuesta.te hago otra pregunta más. Las variables en el ejemplo que pusiste, serían 2? La independiente X y la dependiente Y?
En los diagramas BoxPlot hay más de una variable, puedes ver como se construyen los cálculos y el gráfico usando Atlas SBI en nuestro Knowledge Base
Buena explicación!
Muchas gracias por tu comentario.
Saludos
muchas gracias por tu explicación,me sirvió muchísimo:)
Muy amable, nos alegramos de que haya sido de tu utilidad.
Saludos
muy clara la explicaciòn y didàctica
Muchas gracias por tu comentario. Recibe un cordial saludo.
Estimado, si utilizo boxplot(dato$columnadeldato)$out me salen mis outliers , y asi poder filtrar estos valores y tener un nuevo boxplot, es recomendado esta opcion?
Apreciado Mauro,
No acabo de ver lo que pretendes realizando un nuevo boxplot únicamente con outliers.
Saludos
Buena Noche:
¿Cuantos datos debo tener como minimo en las muestras para comparar varios conjuntos de datos por medio de un box plot?
Apreciado Jair,
Técnicamente hablando no hay un mínimo para utilizar box-plot mientras la muestra sea representativa. En el fondo, Box-plot sirve para estudiar la distribución de tus datos y, por consiguiente, las conclusiones que obtengas serán más o menos fiables en función de lo fiable que sea tu muestra.
Saludos
que significan las 5 pártes de un boxplot
Muchísimas gracias por tu explicación. Estoy tratando una serie de datos con estos gráficos y tu publicación me ha sido de gran ayuda!
Gracias a ti, Beatriz
Buenas tardes, cuando se interpretan este tipo de gráficos sin tratar la parte numérica, ¿solo se puede hablar de la distribución (normal o asimétrica) y de la concentración/dispersión de los datos? ¿Qué otra información se podría agregar? ¿Cómo se pueden explicar las extensiones o falta de bigotes? Gracias!!
Exelente información me alegro de que aya información tan útil espero que sigan haciendo este tipo de trabajos, saludos cordiales.
Gracias, Armando
Hola buenas muchas gracias por la explicación, una duda, en el caso de que quiera ver solo «central» y «via magna» en el gráfico, como tendría que ser?
Hola Antonia,
Por lo que se refiere a Atlas SBI, en el post verás que hay un enlace a otro post del Kbase donde se explica cómo realizar este tipo de gráficos. Verás que para cada concepto hay una serie diferente, por lo que sólo tienes que dibujar las que te interesen (o no definir las que no te interese)
Saludos