Diagrama de tallos y hojas

Compartir Imprimir Citar

Una pantalla de tallo y hojas o diagrama de tallo y hojas es un diagrama para presentar datos cuantitativos en un formato gráfico, similar a un histograma, para ayudar a visualizar la forma de una distribución. Evolucionaron a partir del trabajo de Arthur Bowley a principios del siglo XX y son herramientas útiles en el análisis exploratorio de datos. Stetemplots se volvió más comúnmente utilizado en la década de 1980 después de la publicación del libro de John Tukey sobre análisis exploratorio de datos en 1977. La popularidad durante esos años se atribuye a su uso de estilos de tipografía monoespaciados (máquina de escribir) que permitieron que la tecnología informática de la época produjera fácilmente los gráficos.. Las capacidades gráficas superiores de las computadoras modernas han significado que estas técnicas se utilicen con menos frecuencia.

Este gráfico se ha implementado en Octave y R.

Un diagrama de tallo y hojas también se denomina diagrama de tallo, pero este último término a menudo se refiere a otro tipo de gráfico. Un diagrama de tallo simple puede referirse a trazar una matriz de valores y en un eje x común e identificar el valor x común con una línea vertical y los valores y individuales con símbolos en la línea.

A diferencia de los histogramas, las pantallas de tallo y hojas retienen los datos originales en al menos dos dígitos significativos y ordenan los datos, lo que facilita el paso a la inferencia basada en el orden y las estadísticas no paramétricas.

Construcción

Para construir una presentación de tallo y hojas, primero se deben clasificar las observaciones en orden ascendente: esto se puede hacer más fácilmente si se trabaja a mano, construyendo un borrador de la presentación de tallo y hojas sin clasificar y luego clasificando las hojas para producir la presentación final de tallo y hojas. Este es el conjunto ordenado de valores de datos que se usará en el siguiente ejemplo:44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106

A continuación, se debe determinar qué representarán los tallos y qué representarán las hojas. Por lo general, la hoja contiene el último dígito del número y el tallo contiene todos los demás dígitos. En el caso de números muy grandes, los valores de los datos se pueden redondear a un valor posicional particular (como el lugar de las centenas) que se usará para las hojas. Los dígitos restantes a la izquierda del valor posicional redondeado se utilizan como raíz.

En este ejemplo, la hoja representa el lugar de las unidades y el tallo representará el resto del número (el lugar de las decenas y superior).

La visualización de tallo y hojas se dibuja con dos columnas separadas por una línea vertical. Los tallos se enumeran a la izquierda de la línea vertical. Es importante que cada tallo se enumere solo una vez y que no se salten números, incluso si eso significa que algunos tallos no tienen hojas. Las hojas se enumeran en orden creciente en una fila a la derecha de cada tallo.

Es importante tener en cuenta que cuando hay un número repetido en los datos (como dos 72), la gráfica debe reflejarlo (por lo que la gráfica se vería como 7 | 2 2 5 6 7 cuando tiene los números 72 72 75 76 77).{displaystyle {begin{matriz}{r|l}{text{Stem}}&{text{Hoja}}\hlínea 4&4~6~7~9\5&\6&3~4~6 ~8~8\7&2~2~5~6\8&1~4~8\9&\10&6end{matriz}}}Llave:{ estilo de visualización 6  mid 3 = 63}Unidad de hoja: 1.0Unidad de tallo: 10.0

Es posible que sea necesario redondear para crear una visualización de tallo y hojas. Con base en el siguiente conjunto de datos, se crearía el siguiente diagrama de tallo:−23,678758, −12,45, −3,4, 4,43, 5,5, 5,678, 16,87, 24,7, 56,8

Para números negativos, se coloca un negativo delante de la raíz de la unidad, que sigue siendo el valor X / 10. Los números no enteros se redondean. Esto permitió que el diagrama de tallo y hojas conservara su forma, incluso para conjuntos de datos más complicados. Como en este ejemplo a continuación:{displaystyle {begin{matriz}{r|l}{text{Stem}}&{text{Hoja}}\hline -2&4\-1&2\-0&3\0&4~6~6 \1&7\2&5\3&\4&\5&7end{matriz}}}Llave:{displaystyle -2mid 4=-24}

Uso

Las pantallas de tallo y hojas son útiles para mostrar la densidad relativa y la forma de los datos, dando al lector una visión general rápida de la distribución. Retienen (la mayoría de) los datos numéricos sin procesar, a menudo con una integridad perfecta. También son útiles para resaltar valores atípicos y encontrar la moda. Sin embargo, las visualizaciones de tallo y hojas solo son útiles para conjuntos de datos de tamaño moderado (alrededor de 15 a 150 puntos de datos). Con conjuntos de datos muy pequeños, una visualización de tallo y hojas puede ser de poca utilidad, ya que se requiere una cantidad razonable de puntos de datos para establecer las propiedades de distribución definitivas. Un gráfico de puntos puede ser más adecuado para tales datos. Con conjuntos de datos muy grandes, una presentación de tallo y hojas estará muy abarrotada, ya que cada punto de datos debe representarse numéricamente. Un diagrama de caja o un histograma pueden volverse más apropiados a medida que aumenta el tamaño de los datos.

Uso no numérico

a│abdeghilmnrstwxy
b│aeioy
c│h
d│aeio
e│adefhlmnrstwx
f|aey
g│iou
h│aeimo
i│dfnost
j│ao
k│aioy
l│aio
m│aeimouy
n│aeouy
o│bdefhikmnoprsuwxy
p│aeio
q│i
r│e
s│hiot
t│aeio
u│ghmnprst
v│
w│eo
x│iu
tu
z│aeo

Las pantallas de tallo y hojas también se pueden usar para transmitir información no numérica. En este ejemplo de palabras válidas de dos letras en Collins Scrabble Words (la lista de palabras que se usa en los torneos de Scrabble fuera de los EE. UU.) con sus iniciales como raíces, se puede ver fácilmente que las tres primeras iniciales son o, a y e.