Variable categórica

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En estadística, una variable categórica (también llamada variable cualitativa) es una variable que puede tomar uno de un número limitado y generalmente fijo de valores posibles, asignar cada individuo u otra unidad de observación a un grupo particular o categoría nominal sobre la base de alguna propiedad cualitativa. En informática y algunas ramas de las matemáticas, las variables categóricas se denominan enumeraciones o tipos enumerados. Comúnmente (aunque no en este artículo), cada uno de los valores posibles de una variable categórica se denomina nivel. La distribución de probabilidad asociada con una variable categórica aleatoria se llama distribución categórica.

Datos categóricos es el tipo de datos estadísticos que consta de variables categóricas o de datos que se han convertido en esa forma, por ejemplo, como datos agrupados. Más específicamente, los datos categóricos pueden derivar de observaciones hechas de datos cualitativos que se resumen como recuentos o tabulaciones cruzadas, o de observaciones de datos cuantitativos agrupados dentro de intervalos determinados. A menudo, los datos puramente categóricos se resumen en forma de tabla de contingencia. Sin embargo, particularmente cuando se considera el análisis de datos, es común utilizar el término "datos categóricos" para referirse a ellos. aplicar a conjuntos de datos que, si bien contienen algunas variables categóricas, también pueden contener variables no categóricas.

Una variable categórica que puede tomar exactamente dos valores se denomina variable binaria o variable dicotómica; un caso especial importante es la variable de Bernoulli. Las variables categóricas con más de dos valores posibles se denominan variables politómicas; A menudo se supone que las variables categóricas son politómicas a menos que se especifique lo contrario. La discretización consiste en tratar datos continuos como si fueran categóricos. La dicotomización consiste en tratar datos continuos o variables politómicas como si fueran variables binarias. El análisis de regresión a menudo trata la pertenencia a una categoría con una o más variables ficticias cuantitativas.

Ejemplos de variables categóricas

Ejemplos de valores que podrían representarse en una variable categórica:

  • El rollo de una muerte de seis caras: los posibles resultados son 1,2,3,4,5, o 6.
  • Información demográfica de una población: género, estado de enfermedad.
  • El tipo de sangre de una persona: A, B, AB o O.
  • El partido político por el que un votante podría votar, e. g. Partido Verde, Christian Democrat, Social Democrat, etc.
  • El tipo de roca: ígnea, sedimentaria o metamorfórica.
  • La identidad de una palabra particular (por ejemplo, en un modelo de idioma): Uno de V opciones posibles, para un vocabulario de tamaño V.

Notación

Para facilitar el procesamiento estadístico, se pueden asignar índices numéricos variables categóricas, por ejemplo 1 a K para un K-way variable categórica (es decir, una variable que puede expresar exactamente K posibles valores). En general, sin embargo, los números son arbitrarios, y no tienen ninguna importancia más allá de simplemente proporcionar una etiqueta conveniente para un valor particular. En otras palabras, los valores de una variable categórica existen en una escala nominal: cada uno representa un concepto lógicamente separado, no necesariamente se puede ordenar significativamente, y no puede ser manipulado de otra manera como los números podrían ser. En su lugar, las operaciones válidas son equivalencias, miembros establecidos y otras operaciones relacionadas con conjuntos.

Como resultado, la tendencia central de un conjunto de variables categóricas es dada por su modo; ni el medio ni el medio se pueden definir. Como ejemplo, dado un conjunto de personas, podemos considerar el conjunto de variables categóricas correspondientes a sus apellidos. Podemos considerar operaciones como la equivalencia (si dos personas tienen el mismo apellido), establecer la membresía (si una persona tiene un nombre en una lista dada), contar (cuánta gente tiene un apellido dado), o encontrar el modo (que nombre ocurre con más frecuencia). Sin embargo, no podemos calcular significativamente la "sum" de Smith + Johnson, o preguntar si Smith es "menos que" o "más grande que" Johnson. Como resultado, no podemos preguntar significativamente cuál es el "nombre promedio" (el medio) o el "nombre más medio" (el medio) está en un conjunto de nombres.

Esto ignora el concepto de orden alfabético, que es una propiedad que no es inherente a los nombres en sí, sino a la forma en que construimos las etiquetas. Por ejemplo, si escribimos los nombres en cirílico y consideramos el orden cirílico de las letras, podríamos obtener un resultado diferente al evaluar "Smith < Johnson" que si escribiéramos los nombres en el alfabeto latino estándar; y si escribimos los nombres en caracteres chinos, no podemos evaluar de manera significativa "Smith < Johnson" en absoluto, porque no se define ningún orden coherente para dichos caracteres. Sin embargo, si consideramos los nombres tal como están escritos, por ejemplo, en el alfabeto latino, y definimos un orden correspondiente al orden alfabético estándar, entonces los habremos convertido efectivamente en variables ordinales definidas en una escala ordinal.

Número de valores posibles

Las variables aleatorias categóricas normalmente se describen estadísticamente mediante una distribución categórica, que permite expresar una variable categórica arbitraria de K vías con probabilidades separadas especificadas para cada una de las K. posibles resultados. Estas variables categóricas de categorías múltiples a menudo se analizan utilizando una distribución multinomial, que cuenta la frecuencia de cada posible combinación de números de apariciones de las distintas categorías. El análisis de regresión sobre resultados categóricos se logra mediante regresión logística multinomial, probit multinomial o un tipo relacionado de modelo de elección discreta.

Variables categóricas que tienen sólo dos resultados posibles (p. ej., "sí" frente a "no" o "éxito" frente a "fracaso") se conocen como variables binarias (o variables Bernoulli). Debido a su importancia, estas variables a menudo se consideran una categoría separada, con una distribución separada (la distribución de Bernoulli) y modelos de regresión separados (regresión logística, regresión probit, etc.). Como resultado, el término "variable categórica" A menudo se reserva para casos con 3 o más resultados, a veces denominada variable multidireccional en oposición a una variable binaria.

También es posible considerar variables categóricas donde el número de categorías no está fijado de antemano. Como ejemplo, para una variable categórica que describe una palabra en particular, es posible que no sepamos de antemano el tamaño del vocabulario y nos gustaría permitir la posibilidad de encontrar palabras que aún no hayamos visto. Los modelos estadísticos estándar, como los que involucran la distribución categórica y la regresión logística multinomial, suponen que el número de categorías se conoce de antemano, y cambiar el número de categorías sobre la marcha es complicado. En tales casos, se deben utilizar técnicas más avanzadas. Un ejemplo es el proceso de Dirichlet, que cae en el ámbito de la estadística no paramétrica. En tal caso, se supone lógicamente que existe un número infinito de categorías, pero en un momento dado la mayoría de ellas (de hecho, todas menos un número finito) nunca han sido vistas. Todas las fórmulas están redactadas en términos del número de categorías realmente vistas hasta ahora en lugar del número total (infinito) de categorías potenciales existentes, y se crean métodos para la actualización incremental de las distribuciones estadísticas, incluida la adición de "nuevas" categorías. categorías.

Variables categóricas y regresión

Las variables categóricas representan un método cualitativo de puntuación de datos (es decir, representan categorías o pertenencia a grupos). Estas pueden incluirse como variables independientes en un análisis de regresión o como variables dependientes en una regresión logística o una regresión probit, pero deben convertirse a datos cuantitativos para poder analizar los datos. Se hace mediante el uso de sistemas de codificación. Los análisis se realizan de manera que sólo se codifiquen g -1 (siendo g el número de grupos). Esto minimiza la redundancia y al mismo tiempo representa el conjunto de datos completo, ya que no se obtendría información adicional al codificar el total de grupos g: por ejemplo, al codificar el género (donde g = 2: masculino y femenino), si solo codificamos a las mujeres, todos los sobrantes serían necesariamente hombres. En general, el grupo para el cual no se codifica es el grupo de menor interés.

Hay tres sistemas de codificación principales que normalmente se utilizan en el análisis de variables categóricas en regresión: codificación ficticia, codificación de efectos y codificación de contraste. La ecuación de regresión toma la forma Y = bX + a, donde b es la pendiente y da el peso asignado empíricamente a un explicador, < i>X es la variable explicativa y a es la intersección en Y, y estos valores adquieren diferentes significados según el sistema de codificación utilizado. La elección del sistema de codificación no afecta a las estadísticas F o R2. Sin embargo, se elige un sistema de codificación basado en la comparación de interés, ya que la interpretación de los valores b variará.

Codificación ficticia

La codificación ficticia se utiliza cuando hay un grupo de control o de comparación en mente. Por lo tanto, se analizan los datos de un grupo en relación con el grupo de comparación: a representa la media del grupo de control y b es la diferencia entre la media del grupo experimental y la media del grupo control. Se sugiere que se cumplan tres criterios para especificar un grupo de control adecuado: el grupo debe ser un grupo bien establecido (por ejemplo, no debe ser una categoría "otra"), debe haber una razón lógica para seleccionarlo grupo como comparación (por ejemplo, se prevé que el grupo obtenga la puntuación más alta en la variable dependiente) y, finalmente, el tamaño de la muestra del grupo debe ser sustancial y no pequeño en comparación con los otros grupos.

En la codificación ficticia, al grupo de referencia se le asigna un valor de 0 para cada variable de código, al grupo de interés para comparar con el grupo de referencia se le asigna un valor de 1 para su variable de código especificada, mientras que a todos los demás grupos se les asigna 0 para esa variable de código en particular.

Los valores b deben interpretarse de manera que el grupo experimental se compare con el grupo de control. Por lo tanto, obtener un valor b negativo implicaría que el grupo experimental hubiera obtenido una puntuación menor que el grupo de control en la variable dependiente. Para ilustrar esto, supongamos que estamos midiendo el optimismo entre varias nacionalidades y hemos decidido que los franceses servirían como un control útil. Si los comparamos con los italianos y observamos un valor b negativo, esto sugeriría que los italianos obtienen puntuaciones de optimismo más bajas en promedio.

La siguiente tabla es un ejemplo de codificación ficticia con francés como grupo de control y C1, C2 y C3, respectivamente, los códigos para italiano y alemán. y Otro (ni francés, ni italiano, ni alemán):

NacionalidadC1C2C3
Francés000
Italiano100
Alemán010
Otros001

Codificación de efectos

En el sistema de codificación de efectos, los datos se analizan comparando un grupo con todos los demás grupos. A diferencia de la codificación, no hay grupo de control. Más bien, la comparación se hace a través de todos los grupos combinados (a es ahora el gran medio). Por lo tanto, uno no está buscando datos en relación con otro grupo sino más bien, uno está buscando datos en relación con la gran media.

La codificación de efectos puede ser ponderada o no ponderada. La codificación de efectos ponderados consiste simplemente en calcular una gran media ponderada, teniendo así en cuenta el tamaño de la muestra en cada variable. Esto es más apropiado en situaciones donde la muestra es representativa de la población en cuestión. La codificación de efectos no ponderados es más apropiada en situaciones donde las diferencias en el tamaño de la muestra son el resultado de factores incidentales. La interpretación de b es diferente para cada uno: en efectos no ponderados, la codificación b es la diferencia entre la media del grupo experimental y la media general, mientras que en la situación ponderada es la media del grupo experimental menos la media general ponderada.

En la codificación de efectos, codificamos el grupo de interés con un 1, tal como lo haríamos en la codificación ficticia. La principal diferencia es que codificamos −1 para el grupo que menos nos interesa. Dado que continuamos usando un esquema de codificación g - 1, de hecho es el grupo codificado −1 el que no producirá datos, de ahí el hecho de que estemos menos interesados en ese grupo. Se asigna un código de 0 a todos los demás grupos.

Los valores b deben interpretarse de manera que el grupo experimental se compare con la media de todos los grupos combinados (o la gran media ponderada en el caso de codificación de efectos ponderados). Por lo tanto, obtener un valor b negativo implicaría que el grupo codificado obtuvo una puntuación inferior a la media de todos los grupos en la variable dependiente. Utilizando nuestro ejemplo anterior de puntuaciones de optimismo entre nacionalidades, si el grupo de interés son los italianos, observar un valor b negativo sugiere que obtienen una puntuación de optimismo más baja.

La tabla siguiente es un ejemplo de efectos de codificación con Otros como el grupo de menos interés.

NacionalidadC1C2C3
Francés001
Italiano100
Alemán010
Otros−1−1−1

Codificación de contraste

El sistema de codificación de contraste permite al investigador hacer directamente preguntas específicas. En lugar de que el sistema de codificación dicte la comparación que se realiza (es decir, con un grupo de control como en la codificación ficticia, o con todos los grupos como en la codificación de efectos), se puede diseñar una comparación única que se ajuste a la pregunta de investigación específica de cada uno. Esta hipótesis personalizada generalmente se basa en teorías y/o investigaciones previas. Las hipótesis propuestas son generalmente las siguientes: primero, está la hipótesis central que postula una gran diferencia entre dos conjuntos de grupos; la segunda hipótesis sugiere que dentro de cada conjunto, las diferencias entre los grupos son pequeñas. A través de sus hipótesis centradas a priori, la codificación de contraste puede producir un aumento en el poder de la prueba estadística en comparación con los sistemas de codificación anteriores menos dirigidos.

Ciertas diferencias surgen cuando comparamos nuestros coeficientes a priori entre ANOVA y regresión. A diferencia de cuando se utiliza en ANOVA, donde queda a discreción del investigador elegir valores de coeficientes ortogonales o no ortogonales, en la regresión es esencial que los valores de coeficientes asignados en la codificación de contraste sean ortogonales. Además, en la regresión, los valores de los coeficientes deben estar en forma fraccionaria o decimal. No pueden adoptar valores de intervalo.

La construcción de códigos de contraste está restringida por tres reglas:

  1. La suma de los coeficientes de contraste por cada variable de código debe igual a cero.
  2. La diferencia entre la suma de los coeficientes positivos y la suma de los coeficientes negativos debe ser igual a 1.
  3. Las variables codificadas deben ser ortogonales.

La violación de la regla 2 produce valores R2 y F precisos, lo que indica que llegaríamos a las mismas conclusiones sobre si existe o no una diferencia significativa; sin embargo, ya no podemos interpretar los valores b como una diferencia de medias.

Para ilustrar la construcción de códigos de contraste, considere la siguiente tabla. Se eligieron coeficientes para ilustrar nuestras hipótesis a priori: Hipótesis 1: los franceses e italianos obtendrán puntuaciones más altas en optimismo que los alemanes (francés = +0,33, italiano = +0,33, alemán = −0,66). Esto se ilustra asignando el mismo coeficiente a las categorías francesa e italiana y otro diferente a las alemanas. Los signos asignados indican la dirección de la relación (por lo tanto, dar a los alemanes un signo negativo es indicativo de sus puntuaciones de optimismo hipotéticas más bajas). Hipótesis 2: Se espera que franceses e italianos difieran en sus puntuaciones de optimismo (francés = +0,50, italiano = −0,50, alemán = 0). Aquí, asignar un valor cero a los alemanes demuestra su no inclusión en el análisis de esta hipótesis. Nuevamente, los signos asignados son indicativos de la relación propuesta.

NacionalidadC1C2
Francés+0.33+0.50
Italiano+0.33−0,50
Alemán−0.660

Codificación sin sentido

La codificación sin sentido ocurre cuando uno usa valores arbitrarios en lugar de los "0"s "1"s y "-1"s designados que se ven en la codificación anterior. sistemas. Aunque produce valores medios correctos para las variables, no se recomienda el uso de codificación sin sentido ya que conducirá a resultados estadísticos no interpretables.

Incrustaciones

Incrustaciones son codificaciones de valores categóricos en espacios vectoriales de baja dimensión y valores reales (a veces de valores complejos), generalmente de tal manera que a valores "similares" se les asignan vectores "similares", o con respecto a algún otro tipo de criterio que haga que los vectores sean útiles para la aplicación respectiva. Un caso especial común son las incrustaciones de palabras, donde los posibles valores de la variable categórica son las palabras de un idioma y a las palabras con significados similares se les deben asignar vectores similares.

Interacciones

Una interacción puede surgir al considerar la relación entre tres o más variables, y describe una situación en la que la influencia simultánea de dos variables sobre una tercera no es aditiva. Las interacciones pueden surgir con variables categóricas de dos maneras: categóricas por interacciones de variables categóricas o categóricas por interacciones de variables continuas.

Interacciones categóricas por variables categóricas

Este tipo de interacción surge cuando tenemos dos variables categóricas. Para investigar este tipo de interacción, se codificaría utilizando el sistema que aborde más apropiadamente la hipótesis del investigador. El producto de los códigos produce la interacción. Luego se puede calcular el valor b y determinar si la interacción es significativa.

Categórico por interacciones de variables continuas

El análisis de pendientes simples es una prueba post hoc común utilizada en regresión que es similar al análisis de efectos simples en ANOVA, utilizado para analizar interacciones. En esta prueba, examinamos las pendientes simples de una variable independiente en valores específicos de la otra variable independiente. Esta prueba no se limita a su uso con variables continuas, sino que también puede emplearse cuando la variable independiente es categórica. No podemos simplemente elegir valores para probar la interacción como lo haríamos en el caso de la variable continua debido a la naturaleza nominal de los datos (es decir, en el caso continuo, se podrían analizar los datos en niveles alto, moderado y bajo asignando 1 desviación estándar). por encima de la media, en la media y a una desviación estándar por debajo de la media, respectivamente). En nuestro caso categórico usaríamos una ecuación de regresión simple para cada grupo para investigar las pendientes simples. Es una práctica común estandarizar o centrar variables para que los datos sean más interpretables en análisis de pendientes simples; sin embargo, las variables categóricas nunca deben estandarizarse ni centrarse. Esta prueba se puede utilizar con todos los sistemas de codificación.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save