Escala de calificación

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Una escala de calificación es un conjunto de categorías diseñadas para obtener información sobre un atributo cuantitativo o cualitativo. En las ciencias sociales, en particular en psicología, los ejemplos más comunes son la escala de respuesta de Likert y las escalas de calificación de 0 a 10, en las que una persona selecciona el número que refleja la calidad percibida de un producto.

Antecedentes

Una escala de calificación es un método que requiere que el evaluador asigne un valor, a veces numérico, al objeto calificado, como medida de algún atributo calificado.

Tipos de escalas de calificación

Todas las escalas de calificación se pueden clasificar en uno de estos tipos:

Escala de puntuación numérica (NRS)
Escala de puntuación verbal (VRS)
Escala de Analogo Visual (VAS)
Me gusta
Escala de calificación gráfica
Escala de calificación gráfica descriptiva

Algunos datos se miden a nivel ordinal. Los números indican la posición relativa de los elementos, pero no la magnitud de la diferencia. Las escalas de actitud y opinión suelen ser ordinales; un ejemplo es una escala de respuesta de Likert:

Estado

"No podía vivir sin mi computadora".

Opciones de respuesta

No está de acuerdo.
Disagree
Neutral
Acorde
Estoy de acuerdo.

Algunos datos se miden a nivel de intervalo. Los números indican la magnitud de la diferencia entre los elementos, pero no existe un punto cero absoluto. Un buen ejemplo es la escala de temperatura Fahrenheit/Celsius, en la que las diferencias entre los números importan, pero la ubicación del cero no.

Algunos datos se miden a nivel de ratios. Los números indican la magnitud de la diferencia y existe un punto cero fijo. Se pueden calcular ratios. Algunos ejemplos son la edad, los ingresos, el precio, los costos, los ingresos por ventas, el volumen de ventas y la participación de mercado.

Se requiere más de una pregunta de escala de calificación para medir una actitud o percepción debido al requisito de comparaciones estadísticas entre las categorías en el modelo politómico de Rasch para categorías ordenadas. En la teoría clásica de pruebas, se requiere más de una pregunta para obtener un índice de confiabilidad interna como el alfa de Cronbach, que es un criterio básico para evaluar la efectividad de una escala de calificación.

Escalas de puntuación utilizadas en línea

Las escalas de calificación se utilizan ampliamente en Internet con el fin de proporcionar indicaciones sobre las opiniones de los consumidores sobre los productos. Algunos ejemplos de sitios que emplean escalas de calificación son IMDb, Epinions.com, Yahoo! Movies, Amazon.com, BoardGameGeek y TV.com, que utilizan una escala de calificación de 0 a 100 para obtener "recomendaciones de películas personalizadas".

En casi todos los casos, las escalas de calificación en línea sólo permiten una calificación por usuario y por producto, aunque existen excepciones como Ratings.net, que permite a los usuarios calificar productos en relación con varias cualidades. La mayoría de las escalas de calificación en línea también proporcionan pocas o ninguna descripción cualitativa de las categorías de calificación, aunque nuevamente existen excepciones como Yahoo! Movies, que etiqueta cada una de las categorías entre F y A+ y BoardGameGeek, que proporciona descripciones explícitas de cada categoría del 1 al 10. A menudo, sólo se describen la categoría superior e inferior, como en la escala de calificación en línea de IMDb'.

Validez

La validez se refiere a la eficacia con la que una herramienta mide lo que pretende medir. Si cada usuario califica un producto una sola vez, por ejemplo en una categoría del 1 al 10, no hay forma de evaluar la fiabilidad interna utilizando un índice como el alfa de Cronbach. Por lo tanto, es imposible evaluar la validez de las calificaciones como medidas de las percepciones de los espectadores. Establecer la validez requeriría establecer tanto la fiabilidad como la precisión (es decir, que las calificaciones representen lo que se supone que representan). El grado de validez de un instrumento se determina mediante la aplicación de procedimientos lógicos o estadísticos. "Un procedimiento de medición es válido en la medida en que mide lo que se propone medir".

Otra cuestión fundamental es que las valoraciones en línea suelen implicar un muestreo por conveniencia, al igual que las encuestas de televisión, es decir, representan únicamente las opiniones de aquellos que están dispuestos a enviar valoraciones.

La validez se ocupa de diferentes aspectos del proceso de medición. Cada uno de estos tipos utiliza la lógica, la verificación estadística o ambas para determinar el grado de validez y tiene un valor especial en determinadas condiciones. Los tipos de validez incluyen la validez de contenido, la validez predictiva y la validez de constructo.

Sampling

Los errores de muestreo pueden llevar a resultados que tienen un sesgo específico o que sólo son relevantes para un subgrupo específico. Considere este ejemplo: supongamos que una película sólo atrae a un público especializado: el 90% de ellos son devotos de este género y sólo el 10% son personas con un interés general en las películas. Supongamos que la película es muy popular entre el público que la ve y que sólo aquellos que sienten una gran atracción por la película se inclinan a calificarla en línea; por lo tanto, los calificadores son todos devotos. Esta combinación puede llevar a calificaciones muy altas de la película, que no se generalizan más allá de las personas que realmente ven la película (o posiblemente incluso más allá de aquellos que realmente la califican).

Descripción cualitativa

La descripción cualitativa de las categorías mejora la utilidad de una escala de calificación. Por ejemplo, si sólo se dan los puntos 1 a 10 sin descripción, algunas personas pueden seleccionar 10 raramente, mientras que otras pueden seleccionar la categoría con frecuencia. Si, en cambio, "10" se describe como "casi perfecto", es más probable que la categoría signifique lo mismo para diferentes personas. Esto se aplica a todas las categorías, no sólo a los puntos extremos.

Los problemas antes mencionados se agravan cuando se utilizan estadísticas agregadas, como los promedios, para elaborar listas y clasificaciones de productos. Las calificaciones de los usuarios son, en el mejor de los casos, categorizaciones ordinales. Si bien no es raro calcular promedios o medias para dichos datos, hacerlo no se justifica porque, al calcular promedios, se requieren intervalos iguales para representar la misma diferencia entre los niveles de calidad percibida. Los problemas clave con los datos agregados basados en los tipos de escalas de calificación que se utilizan comúnmente en línea son los siguientes:

Los promedios no deben calcularse para datos del tipo recogido.
Por lo general es imposible evaluar la fiabilidad o validez de las calificaciones de los usuarios.
Los productos no son comparados con respecto a criterios explícitos, mucho menos comunes.
Sólo los usuarios inclinados a enviar una calificación para un producto lo hacen.
Los datos no suelen publicarse en un formulario que permite evaluar las calificaciones de los productos.

Entre las metodologías más desarrolladas se encuentran el Modelo de Elección o el Método de Máxima Diferencia, este último relacionado con el modelo de Rasch debido a la conexión entre la ley de juicio comparativo de Thurstone y el modelo de Rasch.

Reducción de la escala de puntuación

Un esfuerzo de investigación colaborativo internacional ha presentado un algoritmo basado en datos para la reducción de la escala de calificación. Se basa en el área bajo la característica operativa del receptor.

Origen

Los orígenes históricos de las escalas de calificación fueron reevaluados luego de un descubrimiento arqueológico significativo en Tbilisi, Georgia, en 2010. Los excavadores desenterraron una tablilla que data del período medieval temprano, marcada con escritura georgiana antigua. Esta tablilla mostraba una serie de marcas lineales, interpretadas como una forma temprana de una escala de calificación. Las inscripciones proporcionaron información sobre los métodos medievales de cuantificación y evaluación, lo que sugiere una versión embrionaria de las escalas de calificación modernas. Este descubrimiento se conserva actualmente en el Museo Nacional de Georgia.

Véase también

Escala de ropa
MaxDiff
Cuestionario
Cuestionario de construcción
Escalas de puntuación para la depresión
Semántica diferencial
Sistema de votación
Características de funcionamiento del receptor

Referencias

^ Andrich, David (diciembre de 1978). "Una formulación de calificación para categorías de respuesta ordenadas". Psychometrika. 43 (4): 561–573. doi:10.1007/BF02293814. S2CID 120687848.
^ Cronbach, Lee J. (septiembre de 1951). "Coeficiente alfa y la estructura interna de las pruebas". Psychometrika. 16 (3): 297-334. CiteSeerX 10.1.1.452.6417. doi:10.1007/BF02310555. S2CID 13820448.
^ Koczkodaj, Waldemar W; Kakiashvili, T.; Szymańska, A.; Montero-Marin, J.; Araya, R.; Garcia-Campayo, J.; Rutkowski, K.; Strzałka, D. (2017). "¿Cómo reducir el número de artículos de escala de calificación sin pérdida de previsibilidad?". Ciencimetría. 111 (2): 581–593(2017). doi:10.1007/s11192-017-2283-4. PMC 5400800. PMID 28490822.
^ "¿Tienen éxito?" неннный наннный налитинанть (en georgiano). 2022-09-21. Retrieved 2024-01-17.
^ ""Territorios აのრა 人のია 人რのრのრのრのრのრのრა აのრのდのოのოუუ ა ა ა აのრ和ები ტのდებოდეს"."." -  ▷izador de confianza activada ვე logro ვეのფのფのფのლのლ和 იのიのიのი和 იно იноно იно იно იно იのიно იно იのიноено იно იно იно იно იно ი ი ი". неннный наннный налитинанть (en georgiano). 2022-06-21. Retrieved 2024-01-17.

Enlaces externos

UEQ diferencial semántico para medir la experiencia del usuario

Más resultados...