Sistema de clasificación Elo

Compartir Imprimir Citar
Método para calcular los niveles de habilidad relativos de los jugadores en juegos de suma cero, como el ajedrez
Arpad Elo, el inventor del sistema de calificación Elo

El sistema de calificación Elo es un método para calcular los niveles de habilidad relativos de los jugadores en juegos de suma cero como el ajedrez. Lleva el nombre de su creador Arpad Elo, un profesor de física húngaro-estadounidense.

El sistema Elo se inventó como un sistema de calificación de ajedrez mejorado sobre el sistema Harkness utilizado anteriormente, pero también se usa como sistema de calificación en fútbol americano, fútbol americano, béisbol, baloncesto, billar, tenis de mesa y varios juegos de mesa. y deportes electrónicos.

La diferencia en las valoraciones entre dos jugadores sirve para predecir el resultado de un partido. Se espera que dos jugadores con calificaciones iguales que jueguen uno contra el otro obtengan la misma cantidad de victorias. Se espera que un jugador cuya calificación sea 100 puntos mayor que la de su oponente obtenga un 64 %; si la diferencia es de 200 puntos, la puntuación esperada para el jugador más fuerte es del 76 %.

La calificación Elo de un jugador está representada por un número que puede cambiar según el resultado de los juegos calificados jugados. Después de cada juego, el jugador ganador resta puntos al perdedor. La diferencia entre las calificaciones del ganador y el perdedor determina el número total de puntos ganados o perdidos después de un juego. Si el jugador mejor calificado gana, solo se le quitarán unos pocos puntos de calificación al jugador con menor calificación. Sin embargo, si el jugador con la calificación más baja obtiene una victoria sorpresiva, se transferirán muchos puntos de calificación. El jugador con la calificación más baja también obtendrá algunos puntos del jugador con la calificación más alta en caso de empate. Esto significa que este sistema de calificación se corrige a sí mismo. Los jugadores cuyas calificaciones son demasiado bajas o demasiado altas deberían, a la larga, hacerlo mejor o peor de lo que predice el sistema de calificación y, por lo tanto, ganar o perder puntos de calificación hasta que las calificaciones reflejen su verdadera fuerza de juego.

Las calificaciones de Elo son solo comparativas y solo son válidas dentro del grupo de calificaciones en el que se calcularon, en lugar de ser una medida absoluta de la fortaleza de un jugador.

Historia

Arpad Elo fue un jugador de ajedrez de nivel maestro y un participante activo en la Federación de Ajedrez de los Estados Unidos (USCF) desde su fundación en 1939. La USCF usó un sistema de clasificación numérica, ideado por Kenneth Harkness, para permitir a los miembros realizar un seguimiento de sus progreso individual en términos distintos a las victorias y derrotas en torneos. El sistema Harkness era razonablemente justo, pero en algunas circunstancias dio lugar a calificaciones que muchos observadores consideraron inexactas. En nombre de la USCF, Elo ideó un nuevo sistema con una base estadística más sólida. Casi al mismo tiempo, György Karoly y Roger Cook desarrollaron de forma independiente un sistema basado en los mismos principios para la Asociación de Ajedrez de Nueva Gales del Sur.

El sistema de Elo reemplazó los sistemas anteriores de recompensas competitivas con un sistema basado en estimaciones estadísticas. Los sistemas de calificación para muchos deportes otorgan puntos de acuerdo con evaluaciones subjetivas de la 'grandeza' de ciertos logros. Por ejemplo, ganar un torneo de golf importante podría valer cinco veces más puntos elegidos arbitrariamente que ganar un torneo menor.

Un esfuerzo estadístico, por el contrario, utiliza un modelo que relaciona los resultados del juego con las variables subyacentes que representan la habilidad de cada jugador.

La suposición central de Elo era que el desempeño en ajedrez de cada jugador en cada juego es una variable aleatoria normalmente distribuida. Aunque un jugador puede desempeñarse mucho mejor o peor de un juego a otro, Elo supuso que el valor medio de las actuaciones de cualquier jugador cambia lentamente con el tiempo. Elo pensó en la verdadera habilidad de un jugador como la media de la variable aleatoria de rendimiento de ese jugador.

Es necesaria una suposición adicional porque el rendimiento en ajedrez en el sentido anterior todavía no es medible. Uno no puede mirar una secuencia de movimientos y derivar un número para representar la habilidad de ese jugador. El rendimiento solo se puede inferir de las victorias, los empates y las derrotas. Por lo tanto, si un jugador gana un juego, se supone que se desempeñó a un nivel más alto que su oponente en ese juego. Por el contrario, si el jugador pierde, se supone que se ha desempeñado en un nivel inferior. Si el juego es un empate, se supone que los dos jugadores se han desempeñado casi al mismo nivel.

Elo no especificó exactamente qué tan cerca deben estar dos actuaciones para resultar en un empate en lugar de una victoria o una derrota. En realidad, existe una probabilidad de empate que depende del diferencial de rendimiento, por lo que este último es más un intervalo de confianza que cualquier frontera determinista. Y aunque pensó que era probable que los jugadores pudieran tener diferentes desviaciones estándar en sus actuaciones, hizo una suposición simplificadora de lo contrario.

Para simplificar aún más el cálculo, Elo propuso un método sencillo para estimar las variables en su modelo (es decir, la verdadera habilidad de cada jugador). Se podría calcular con relativa facilidad a partir de tablas cuántos juegos se espera que ganen los jugadores en función de las comparaciones de sus calificaciones con las de sus oponentes. Las calificaciones de un jugador que ganó más juegos de lo esperado se ajustarían al alza, mientras que las de un jugador que ganó menos de lo esperado se ajustarían a la baja. Además, ese ajuste debía ser en proporción lineal al número de ganancias por las que el jugador había excedido o no había alcanzado su número esperado.

Desde una perspectiva moderna, las suposiciones simplificadoras de Elo no son necesarias porque el poder de cómputo es económico y está ampliamente disponible. Varias personas, sobre todo Mark Glickman, han propuesto utilizar maquinaria estadística más sofisticada para estimar las mismas variables. Por otro lado, la simplicidad computacional del sistema Elo ha demostrado ser uno de sus mayores activos. Con la ayuda de una calculadora de bolsillo, un competidor de ajedrez informado puede calcular con precisión de un punto cuál será su próxima calificación publicada oficialmente, lo que ayuda a promover la percepción de que las calificaciones son justas.

Implementación del esquema de Elo

La USCF implementó las sugerencias de Elo en 1960, y el sistema rápidamente ganó reconocimiento como más justo y preciso que el sistema de clasificación de Harkness. El sistema de Elo fue adoptado por la Federación Mundial de Ajedrez (FIDE) en 1970. Elo describió su trabajo en detalle en The Rating of Chessplayers, Past and Present, publicado por primera vez en 1978.

Pruebas estadísticas posteriores han sugerido que el rendimiento en ajedrez casi con seguridad no se distribuye como una distribución normal, ya que los jugadores más débiles tienen mayores posibilidades de ganar de lo que predice el modelo de Elo. En la práctica, hay poca diferencia entre la forma de la curva logística y la normal. Por lo tanto, no importa si se utiliza la distribución logística o normal para calcular las puntuaciones esperadas. Matemáticamente, sin embargo, es más conveniente trabajar con la función logística. La FIDE sigue utilizando la tabla de diferencias de rating propuesta por Elo.

Elo describe con más detalle el desarrollo de la tabla de porcentaje de expectativas (tabla 2.11) de la siguiente manera:

Las probabilidades normales se pueden tomar directamente de la norma tablas de las áreas bajo la curva normal cuando la diferencia de calificación expresado como una puntuación z. Desde la desviación estándar σ del individuo rendimientos se define como 200 puntos, la desviación estándar σ' de la las diferencias de rendimiento se convierte en σ2 ó 282.84. El valor z de un la diferencia entonces es D/282.84. Esto dividirá el área bajo el curva en dos partes, el mayor dar P para el jugador y el menor dar P para el jugador de menor valor.

Por ejemplo, deje D = 160. Entonces z = 160/282.84 =.566. El cuadro da.7143 y.2857 como las áreas de las dos partes bajo la curva. Estas probabilidades se redondean a dos cifras en el cuadro 2.11.

La tabla en realidad está construida con una desviación estándar de 2000/7 como una aproximación para 200√2.

Las distribuciones normal y logística son, en cierto modo, puntos arbitrarios en un espectro de distribuciones que funcionarían bien. En la práctica, ambas distribuciones funcionan muy bien para varios juegos diferentes.

Distintos sistemas de calificación

La frase "Clasificación Elo" se usa a menudo para referirse a la calificación de ajedrez de un jugador calculada por la FIDE. Sin embargo, este uso puede ser confuso o engañoso porque las ideas generales de Elo han sido adoptadas por muchas organizaciones, incluida la USCF (antes de la FIDE), muchas otras federaciones nacionales de ajedrez, la efímera Asociación Profesional de Ajedrez (PCA) y servidores de ajedrez en línea, incluidos Internet Chess Club (ICC), Free Internet Chess Server (FICS) y Yahoo! Juegos. Cada organización tiene una implementación única y ninguna sigue con precisión las sugerencias originales de Elo.

En cambio, uno puede referirse a la organización que otorga la calificación. Por ejemplo: "En agosto de 2002, Gregory Kaidanov tenía una calificación FIDE de 2638 y una calificación USCF de 2742." Las calificaciones Elo de estas diversas organizaciones no siempre son directamente comparables, ya que las calificaciones Elo miden los resultados dentro de un grupo cerrado de jugadores en lugar de la habilidad absoluta.

Calificaciones FIDE

Para los mejores jugadores, la calificación más importante es su calificación FIDE. La FIDE ha emitido las siguientes listas:

El siguiente análisis de la lista de clasificación FIDE de julio de 2015 da una idea aproximada de lo que significa una clasificación FIDE dada en términos de clasificación mundial:

La calificación más alta de la FIDE fue 2882, que Magnus Carlsen tenía en la lista de mayo de 2014. Una lista de los jugadores mejor calificados de la historia se encuentra en Comparación de los mejores jugadores de ajedrez a lo largo de la historia.

Calificación de rendimiento

p{displaystyle p}dp{displaystyle D_{p}
1.00+800
0.99+677
0.9+366
0,8+240
0.7+149
0.6+72
0.50
0,472−
0.3−149
0.2−240
0.1−366
0,01−677
0.008.00 -

La calificación de rendimiento o calificación especial es una calificación hipotética que resultaría de los juegos de un solo evento. Algunas organizaciones de ajedrez utilizan el "algoritmo de 400" para calcular la calificación de desempeño. De acuerdo con este algoritmo, la calificación de desempeño para un evento se calcula de la siguiente manera:

  1. Para cada victoria, agregue la calificación de su oponente más 400,
  2. Para cada pérdida, agregue la calificación de su oponente menos 400,
  3. Y dividir esta suma por el número de juegos jugados.

Ejemplo: 2 victorias (oponentes w & x), 2 derrotas (oponentes y & z)

w+400+x+400+Sí.− − 400+z− − 4004w+x+Sí.+z+400()2)− − 400()2)4{displaystyle {begin{aligned} {w+400+x+400+y-400+z-400}{4}[6pt] {w+x+y+z+400(2)-400(2)}{4}end{aligned}}

Esto se puede expresar mediante la siguiente fórmula:

Valoración de rendimiento=Total de las calificaciones de los opositores+400× × ()Gana− − Pérdidas)Juegos{displaystyle {text{Performance rating}}={frac {text{Total of oppositions' ratings }}+400times ({text{Wins}}-{text{Losses}}}{text{Games}}}}}}}}}}

Ejemplo: si vences a un jugador con una calificación Elo de 1000,

Valoración de rendimiento=1000+400× × ()1)1=1400{displaystyle {text{Performance rating}}={frac {1000+400times (1)}{1}}=1400}

Si vences a dos jugadores con calificaciones Elo de 1000,

Valoración de rendimiento=2000+400× × ()2)2=1400{displaystyle {text{Performance rating}}={frac {2000+400times (2)}{2}}=1400}

Si dibujas,

Valoración de rendimiento=1000+400× × ()0)1=1000{displaystyle {text{Performance rating}}={frac {1000+400times (0)}{1}=1000}=1000}

Esta es una simplificación, pero ofrece una manera fácil de obtener una estimación de PR (puntuación de rendimiento).

FIDE, sin embargo, calcula el rendimiento mediante la fórmula: Opponents' Rating Media + Rating Difference. Diferencia de valoración dp{displaystyle D_{p} se basa en la puntuación porcentual de un jugador p{displaystyle p}, que se utiliza entonces como la clave en una mesa de búsqueda donde p{displaystyle p} es simplemente el número de puntos marcados dividido por el número de juegos jugados. Tenga en cuenta que, en caso de una puntuación perfecta o sin dp{displaystyle D_{p} es 800. El cuadro completo se puede encontrar en el Manual de la FIDE, B. Comisiones Permanentes, 02. Reglamento de calificación FIDE (Comisión de Calidad), FIDE Regulación de calificación efectiva a partir del 1 de julio de 2017, 8.1a online. Una versión simplificada de esta tabla está a la derecha.

Calificaciones en vivo

La FIDE actualiza su lista de calificaciones a principios de cada mes. Por el contrario, las "calificaciones en vivo" calcular el cambio en los jugadores' calificaciones después de cada juego. Estas clasificaciones en vivo se basan en las clasificaciones de la FIDE publicadas anteriormente, por lo que la clasificación en vivo de un jugador está destinada a corresponder a lo que sería la clasificación de la FIDE si la FIDE emitiera una nueva lista ese día.

Aunque las clasificaciones en vivo no son oficiales, surgió interés en las clasificaciones en vivo en agosto/septiembre de 2008 cuando cinco jugadores diferentes tomaron el "Live" Clasificación n.° 1.

Hans Arild Runde publicó y mantuvo las clasificaciones en vivo no oficiales de jugadores de más de 2700 en el sitio web Live Rating hasta agosto de 2011. Otro sitio web, 2700chess.com, ha sido mantenido desde mayo de 2011 por Artiom Tsepotan, que cubre los 100 mejores jugadoras, así como las 50 mejores jugadoras.

Los cambios de calificación se pueden calcular manualmente utilizando la calculadora de cambio de calificación de la FIDE. Todos los mejores jugadores tienen un factor K de 10, lo que significa que el cambio máximo de calificaciones de un solo juego es un poco menos de 10 puntos.

Calificaciones de la Federación de Ajedrez de los Estados Unidos

La Federación de Ajedrez de los Estados Unidos (USCF) utiliza su propia clasificación de jugadores:

El factor K utilizado por la USCF

El factor K, en el sistema de calificación de la USCF, se puede estimar dividiendo 800 por la cantidad efectiva de juegos en los que se basa la calificación de un jugador (Ne) más el número de juegos que el jugador completó en un torneo (m).

K=800Ne+m{displaystyle K={frac {800}{N_{e}m},}

Piso de calificación

La USCF mantiene una calificación mínima absoluta de 100 para todas las calificaciones. Por lo tanto, ningún miembro puede tener una calificación inferior a 100, sin importar su desempeño en eventos sancionados por la USCF. Sin embargo, los jugadores pueden tener pisos de calificación absoluta individuales más altos, calculados usando la siguiente fórmula:

AF=min⁡ ⁡ {}100+4NW+2ND+NR,150}{displaystyle AF=operatorname {min}{100+4N_{W}+2N_{D}+N_{R},150}}

Donde NW{displaystyle N_{W} es el número de juegos calificados ganado, ND{displaystyle N_{D} es el número de juegos marcados, y NR{displaystyle N_{R} es el número de eventos en los que el jugador completó tres o más juegos calificados.

Existen pisos de calificación más altos para jugadores experimentados que han logrado calificaciones significativas. Estos pisos de calificación más altos existen, comenzando con calificaciones de 1200 en incrementos de 100 puntos hasta 2100 (1200, 1300, 1400,..., 2100). Un piso de calificación se calcula tomando la calificación máxima establecida del jugador, restando 200 puntos y luego redondeando hacia abajo al piso de calificación más cercano. Por ejemplo, un jugador que ha alcanzado una calificación máxima de 1464 tendría una calificación mínima de 1464 − 200 = 1264, que se redondearía a 1200. Según este esquema, solo los jugadores de Clase C y superiores pueden tener una calificación más alta. piso que su calificación absoluta de jugador. Todos los demás jugadores tendrían un piso de 150 como máximo.

Hay dos formas de lograr pisos de calificación más altos además del esquema estándar presentado anteriormente. Si un jugador ha alcanzado la calificación de Original Life Master, su calificación mínima se establece en 2200. El logro de este título es único en el sentido de que ningún otro título reconocido de la USCF resultará en una nueva calificación mínima. Para jugadores con calificaciones por debajo de 2000, ganar un premio en efectivo de $2,000 o más eleva la calificación mínima de ese jugador al nivel más cercano de 100 puntos que hubiera descalificado al jugador para participar en el torneo. Por ejemplo, si un jugador ganó $ 4,000 en un torneo de 1750 y menos, ahora tendría una calificación mínima de 1800.

Teoría

Las comparaciones por pares forman la base de la metodología de calificación Elo. Elo hizo referencia a los artículos de Good, David, Trawinski y David, y Buhlman y Huber.

Detalles matemáticos

El rendimiento no se mide de forma absoluta; se deduce de las victorias, derrotas y empates contra otros jugadores. Jugadores' Las calificaciones dependen de las calificaciones de sus oponentes y los resultados obtenidos en su contra. La diferencia de calificación entre dos jugadores determina una estimación de la puntuación esperada entre ellos. Tanto el promedio como la dispersión de las calificaciones se pueden elegir arbitrariamente. La USCF inicialmente apuntó a que un jugador de club promedio tuviera una calificación de 1500 y Elo sugirió escalar las calificaciones de modo que una diferencia de 200 puntos de calificación en el ajedrez significaría que el jugador más fuerte tiene una puntuación esperada (básicamente una puntuación media esperada) de aproximadamente 0,75.

La puntuación esperada de un jugador es su probabilidad de ganar más la mitad de su probabilidad de empatar. Por lo tanto, una puntuación esperada de 0,75 podría representar un 75 % de posibilidades de ganar, un 25 % de posibilidades de perder y un 0 % de posibilidades de empatar. En el otro extremo, podría representar un 50 % de posibilidades de ganar, un 0 % de posibilidades de perder y un 50 % de posibilidades de empatar. La probabilidad de empatar, a diferencia de tener un resultado decisivo, no se especifica en el sistema Elo. En cambio, un empate se considera mitad una victoria y mitad una derrota. En la práctica, dado que se desconoce la fuerza real de cada jugador, los puntajes esperados se calculan usando las calificaciones actuales del jugador de la siguiente manera.

Si el jugador A tiene una calificación de RA{displaystyle ,R_{mathsf {A},} y el jugador B una puntuación de RB{displaystyle ,R_{mathsf {B},}, la fórmula exacta (utilizando la curva logística con la base 10) para la puntuación esperada del jugador A es

EA=11+10()RB− − RA)/400.{displaystyle E_{Mathsf {A}={frac} {1}{1+10^{(R_{mathsf {B}-R_{mathsf {})/400}}}~}

Del mismo modo, la puntuación esperada para el jugador B es

EB=11+10()RA− − RB)/400.{displaystyle E_{Mathsf {B}={frac} {1}{1+10^{(R_{mathsf {A}-R_{mathsf - Sí.

Esto también podría expresarse mediante

EA=QAQA+QB{displaystyle E_{mathsf {}={frac {Q_{mathsf {}{Q_{mathsf {}}}}} {s}}}}}} {\ssf}}}}}}}} {}}}}}} {f}}

y

EB=QBQA+QB,{displaystyle E_{Mathsf {B}={frac {Q_{mathsf {B}}{Q_{mathsf {A}+Q_{mathsf ♪♪

Donde QA=10RA/400,{displaystyle ;Q_{mathsf {A}=10^{R_{mathsf {A}/400}; y QB=10RB/400.{displaystyle ;Q_{mathsf {B}=10^{R_{mathsf {B}/400}~} Tenga en cuenta que en este último caso, el mismo denominador se aplica a ambas expresiones, y es claro que EA+EB=1.{displaystyle ;E_{mathsf {A}+E_{mathsf {B}=1~} Esto significa que al estudiar sólo los numeradores, encontramos que la puntuación esperada para el jugador A es QA/QB{displaystyle ;Q_{mathsf {A}/Q_{mathsf {B};} veces mayor que la puntuación esperada para el jugador B. Luego sigue que para cada 400 puntos de calificación de ventaja sobre el oponente, la puntuación esperada se magnifica diez veces en comparación con la puntuación esperada del oponente.

Cuando las puntuaciones del torneo de un jugador superan sus puntajes esperados, el sistema Elo toma esto como evidencia de que la calificación del jugador es demasiado baja, y necesita ser ajustado hacia arriba. Del mismo modo, cuando las puntuaciones del torneo de un jugador no alcanzan sus puntajes esperados, la puntuación de ese jugador se ajusta hacia abajo. La sugerencia original de Elo, que todavía es ampliamente utilizada, fue un ajuste lineal simple proporcional a la cantidad por la que un jugador supera o no cumplió su puntaje esperado. El ajuste máximo posible por juego, llamado el factor K, se estableció en K=16{displaystyle ;K=16;} para maestros y K=32{displaystyle ;K=32;} para jugadores más débiles.

Supón jugador A (de nuevo con calificación RA{displaystyle R_{mathsf {A}}Se espera que anotar EA{displaystyle ,E_{mathsf {A},} puntos pero en realidad marcados SA{displaystyle ,S_{mathsf {A},} puntos. La fórmula para actualizar la calificación del jugador es

RA.=RA+K⋅ ⋅ ()SA− − EA).{displaystyle R_{mathsf {A}=R_{mathsf {A}}+Kcdot (S_{mathsf {A}-E_{mathsf {A})~.}

Esta actualización se puede realizar después de cada juego o cada torneo, o después de cualquier período de calificación adecuado.

Un ejemplo puede ayudar a aclarar:

Supón jugador A tiene una puntuación de 1613 y juega en un torneo de cinco rondas. Pierden a un jugador calificado 1609, dibujar con un jugador puntuado 1477, derrotar a un jugador puntuado 1388, derrotar a un jugador puntuado 1586, y perder a un jugador puntuado 1720. La puntuación real del jugador es (0 + 0,5 + 1 + 0) = 2,5. El puntaje esperado, calculado según la fórmula anterior, fue (0.51 + 0.69 + 0.79 + 0.54 + 0.35) = 2.88.

Por lo tanto, la nueva calificación del jugador es [1613 + 32·(2.5 − 2.88)] = 1601 suponiendo que K-factor de 32 se utiliza. Equivalentemente, cada juego se puede decir que el jugador ha puesto una ante K veces su puntaje esperado para el juego en una olla, el jugador opuesto hace lo mismo, y el ganador recoge la olla completa de valor K; en el caso de un sorteo, los jugadores dividir el bote y recibir 12K{displaystyle ;{tfrac {2}K;} puntos cada uno.

Tenga en cuenta que mientras dos victorias, dos pérdidas, y un sorteo puede parecer una puntuación de par, es peor de lo esperado para el jugador A porque sus oponentes fueron más bajos en promedio. Por lo tanto, el jugador A está ligeramente penalizado. Si el jugador A hubiera marcado dos victorias, una pérdida y dos sorteos, para una puntuación total de tres puntos, que habría sido ligeramente mejor de lo esperado, y la nueva calificación del jugador habría sido [1613 + 32·(3 − 2.88)] = 1617.

Este procedimiento de actualización es el núcleo de las clasificaciones utilizadas por FIDE, USCF, Yahoo! Games, el Internet Chess Club (ICC) y el Free Internet Chess Server (FICS). Sin embargo, cada organización ha tomado una ruta diferente para lidiar con la incertidumbre inherente a las calificaciones, particularmente las calificaciones de los recién llegados, y para enfrentar el problema de la inflación/deflación de las calificaciones. A los jugadores nuevos se les asignan clasificaciones provisionales, que se ajustan de manera más drástica que las clasificaciones establecidas.

Los principios utilizados en estos sistemas de calificación se pueden usar para calificar otras competiciones, por ejemplo, partidos de fútbol internacionales.

Las calificaciones Elo también se han aplicado a juegos sin posibilidad de empate, y a juegos en los que el resultado también puede tener una cantidad (margen pequeño/grande) además de la calidad (ganador/derrota). Consulte Calificación Go con Elo para obtener más información.

Modificaciones sugeridas

En 2011, después de analizar 1,5 millones de partidas clasificadas por la FIDE, Jeff Sonas demostró, de acuerdo con la fórmula de Elo, que dos jugadores que tienen una diferencia de clasificación de X, en realidad tienen una diferencia real más parecida a X(5/6). Esto significa que los jugadores constantemente pierden puntos por ganar y ganan puntos por perder, ya que la fórmula de Elo predice incorrectamente los resultados.

Modelo de distribución más preciso

La primera preocupación matemática abordada por la USCF fue el uso de la distribución normal. Descubrieron que esto no representaba con precisión los resultados reales logrados, particularmente por los jugadores con calificaciones más bajas. En su lugar, cambiaron a un modelo de distribución logística, que la USCF encontró que se ajustaba mejor a los resultados reales logrados. FIDE también utiliza una aproximación a la distribución logística.

Factor K más preciso

La segunda preocupación principal es la correcta "K-factor" usado. El estadístico de ajedrez Jeff Sonas cree que el original K=10{displaystyle ;K=10;} valor (para los jugadores valorados por encima de 2400) es inexacto en el trabajo de Elo. Si K- el coeficiente de factor es demasiado grande, habrá demasiada sensibilidad a pocos acontecimientos recientes, en términos de un gran número de puntos intercambiados en cada juego. Y si el valor K es demasiado bajo, la sensibilidad será mínima, y el sistema no responderá lo suficientemente rápido como para cambiar el nivel real de rendimiento de un jugador.

La estimación del factor K original de Elo se realizó sin el beneficio de grandes bases de datos y evidencia estadística. Sonas indica que un factor K de 24 (para jugadores con una calificación superior a 2400) puede ser más preciso como herramienta predictiva del futuro rendimiento, y también más sensible al rendimiento.

Ciertos sitios de ajedrez de Internet parecen evitar un factor K de tres niveles basado en el rango de calificación. Por ejemplo, la ICC parece adoptar un K=32 global excepto cuando se juega contra jugadores clasificados provisionalmente.

La USCF (que hace uso de una distribución logística en lugar de una distribución normal) anteriormente escalonaba el factor K de acuerdo con tres rangos de calificación principales:

K-factorUsado para jugadores con calificaciones...
K=32{displaystyle ;K=32;} abajo 2100
K=24{displaystyle ;K=24;} entre 2100 y 2400
K=16{displaystyle ;K=16;} 2400

Actualmente, la USCF usa una fórmula que calcula el factor K basado en factores que incluyen la cantidad de juegos jugados y el calificación del jugador. El factor K también se reduce para jugadores de alta calificación si el evento tiene controles de tiempo más cortos.

FIDE utiliza los siguientes rangos:

K-factorUsado para jugadores con calificaciones...
K=40{displaystyle ;K=40;} para un jugador nuevo en la lista de clasificación hasta la finalización de eventos con un total de 30 juegos, y para todos los jugadores hasta su 18 cumpleaños, siempre y cuando su calificación permanezca bajo 2300.
K=20{displaystyle ;K=20;} para jugadores que siempre han sido calificados bajo 2400.
K=10{displaystyle ;K=10;} para jugadores con cualquier calificación publicada de al menos 2400 y al menos 30 juegos jugados en eventos anteriores. En lo sucesivo, permanece permanentemente a las 10.

La FIDE utilizó los siguientes rangos antes de julio de 2014:

K-factorUsado para jugadores con calificaciones...
K=30{displaystyle ;K=30;}
(Fueron 25)
para un jugador nuevo en la lista de clasificación hasta la finalización de eventos con un total de 30 juegos.
K=15{displaystyle ;K=15;} para jugadores que siempre han sido calificados bajo 2400.
K=10{displaystyle ;K=10;} para jugadores con cualquier calificación publicada de al menos 2400 y al menos 30 juegos jugados en eventos anteriores. En lo sucesivo, permanece permanentemente a las 10.

La gradación del factor K reduce el cambio de calificación en el extremo superior del rango de calificación, reduciendo la posibilidad de una rápida aumento o disminución de la calificación para aquellos con una calificación lo suficientemente alta como para alcanzar un factor K bajo.

En teoría, esto podría aplicarse por igual a los jugadores de ajedrez en línea y a los jugadores fuera del tablero, ya que es más difícil para todos los jugadores aumentar su calificación después de que su calificación sea alta y su K-factor reducido en consecuencia. Sin embargo, cuando juegan en línea, más de 2800 jugadores pueden aumentar su calificación más fácilmente simplemente seleccionando oponentes con calificaciones altas: en el sitio de juego de ICC, un gran maestro puede jugar una serie de oponentes diferentes que tienen una calificación superior a 2700. En over-the- eventos de tablero, solo sería en eventos de todos los juegos de muy alto nivel que un jugador podría enfrentarse a esa cantidad de más de 2700 oponentes. En un torneo de ajedrez normal, abierto y con pares suizos, con frecuencia habría muchos oponentes con una calificación inferior a 2500, lo que reduciría las posibles ganancias de calificación de un solo concurso para un jugador con una calificación alta.

Derivación formal para juegos de ganar/perder

Las expresiones anteriores ahora se pueden derivar formalmente explotando el vínculo entre la clasificación Elo y la actualización del gradiente estocástico en la regresión logística.

Si asumimos que los resultados del juego son binarios, es decir, sólo una victoria o una pérdida se puede observar, el problema se puede abordar a través de regresión logística, donde los resultados de los juegos son variables dependientes, las calificaciones de los jugadores son variables independientes, y el modelo relacionado ambos es probabilístico: la probabilidad del jugador A{displaystyle {mathsf}} ganar el juego se modela como

Pr{}AGana}=σ σ ()rA,B),σ σ ()r)=11+10− − r/s,{displaystyle ################################################################################################################################################################################################################################################################ {wins}}=sigma (r_{mathsf {A,B}),quad sigma (r)={frac {1}{1+10^{-r/s}}}}

dónde

rA,B=()RA− − RB){displaystyle r_{mathsf {A,B}=(R_{mathsf {}-R_{mathsf {B}}}}

denota la diferencia de las calificaciones de los jugadores, y utilizamos un factor de escalado s=400{displaystyle s=400}, y, por ley de probabilidad total

Pr{}BGana}=1− − σ σ ()rA,B)=σ σ ()− − rA,B).{displaystyle Pr{mathsf {B}~{textrm {wins}}=1-sigma (r_{mathsf {A,B})=sigma (-r_{mathsf {A,B}}}}


La pérdida de registro se calcula entonces como

l l ={}− − log⁡ ⁡ σ σ ()rA,B)siAGana,− − log⁡ ⁡ σ σ ()− − rA,B)siBGana,{displaystyle ell ={begin{cases}-log sigma (r_{mathsf {A,B}) {if} {fnMithsf {A}~{textrm {wins}},\\log sigma (-r_{mathsf {A,B}) {if} {fnMithsf {B}~{textrm {wins},end{cases}}

y, utilizando el descenso de gradiente estocástico, la pérdida logarítmica se minimiza de la siguiente manera:

RA← ← RA− − .. dl l dRA{displaystyle ¿Qué? {fn}-eta {frac {fnMicrom} {d}ell }{textrm {d}R_{mathsf {}}},
RB← ← RB− − .. dl l dRB{displaystyle R_{mathsf {B}leftarrow R_{mathsf {B}-eta {frac {textrm} {d}ell }{textrm {d}R_{mathsf {B}}}.

Donde .. {displaystyle eta } es el paso de adaptación.

Desde ddrlog⁡ ⁡ σ σ ()r)=log⁡ ⁡ 10sσ σ ()− − r){displaystyle {frac {textrm {d}{textrm {d}r}log sigma (r)={frac {log 10}{s}sigma (-r)}} {fnMicrosoft} {f}} {fnMicros}} {fnK}}} {f}}}}}f}}}}f}}}}}}f}sigma}}}}}}}}}}}}}}}}}}}}f}, drA,BdRA=1{displaystyle {frac {textrm} {d}r_{mathsf {A,B}}{textrm {d}R_{mathsf {A}}=1}, y drA,BdRB=− − 1{displaystyle {frac {textrm} {d}r_{mathsf {A,B}}{textrm {d}R_{mathsf {B}}=-1}, la adaptación se escribe de la siguiente manera

RA← ← {}RA+Kσ σ ()− − rA,B)siAGanaRA− − Kσ σ ()rA,B)siBGana,{displaystyle R_{mathsf}leftarrow {begin{cases}R_{mathsf {A}}+Ksigma (-r_{mathsf {A,B}) {if} {fnMithsf {A}~{textrm {wins}\\\\\sfnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {if} {fnMithsf {B}~{textrm {wins},end{cases}}

que puede escribirse de forma compacta como

RA← ← RA+K()SA− − EA){displaystyle ¿Qué?

Donde K=.. log⁡ ⁡ 10/s{displaystyle K=eta log 10/s} es el nuevo paso de adaptación que absorbe .. {displaystyle eta } y s{displaystyle s}, SA=1{displaystyle S_{mathsf {A}=1} si A{displaystyle {mathsf}} victorias y SA=0{displaystyle S_{mathsf {}=0} si B{displaystyle {Mathsf {B}} gana, y la puntuación esperada es dada por EA=σ σ ()rA,B){displaystyle E_{mathsf {}=sigma (r_{mathsf {A,B}}}}.

Analógicamente, la actualización para la calificación RB{displaystyle R_{mathsf {B}} es

RB← ← RB+K()SB− − EB){displaystyle R_{mathsf {B}leftarrow R_{mathsf {B}+K(S_{mathsf {B}-E_{mathsf {B})}.

Derivación formal para juegos de ganar/empatar/perder

Desde el principio, la calificación Elo también se ha utilizado en el ajedrez donde observamos victorias, pérdidas o sorteos y, para tratar con este último un valor de puntuación fraccional, SA=0.5{displaystyle S_{mathsf {}=0.5}, se presenta. Observamos, sin embargo, que las puntuaciones SA=1{displaystyle S_{mathsf {A}=1} y SA=0{displaystyle S_{mathsf {}=0} son meramente indicadores de los eventos cuando el jugador A{displaystyle {mathsf}} gana o pierde el juego. Por lo tanto, no es inmediatamente claro cuál es el significado de la puntuación fraccional. Además, ya que no especificamos explícitamente el modelo relativo a los valores de calificación RA{displaystyle R_{mathsf {A}} y RB{displaystyle R_{mathsf {B}} a la probabilidad del resultado del juego, no podemos decir cuál es la probabilidad de la victoria, la pérdida o el sorteo.

Para abordar estas dificultades y derivar la calificación Elo en los juegos ternarios, definiremos el modelo probabilístico explícito de los resultados. A continuación, minimizaremos la pérdida de registro a través del gradiente estocástico.

Dado que la pérdida, el empate y la ganancia son variables ordinales, deberíamos adoptar el modelo que tenga en cuenta su naturaleza ordinal, y usamos el llamado modelo de categorías adyacentes que puede rastrearse hasta el modelo de Davidson' trabajo

Pr{}AGana}=σ σ ()rA,B;κ κ ),{displaystyle ################################################################################################################################################################################################################################################################ {wins}}=sigma (r_{mathsf {A,B};kappa),}
Pr{}BGana}=σ σ ()− − rA,B;κ κ ),{displaystyle {fnMicrosoft Sans Serif}=sigma (-r_{mthsf {A,B}};kappa),}
Pr{}Asorteos}=κ κ σ σ ()rA,B;κ κ )σ σ ()− − rA,B;κ κ ),{displaystyle ################################################################################################################################################################################################################################################################ {draws}=kappa {sqrt {sigma (r_{mathsf {A,B};kappa)sigma (-r_{mathsf {A,B};kappa)}}}}

dónde

σ σ ()r;κ κ )=10r/s10− − r/s+κ κ +10r/s{displaystyle sigma (r;kappa)={frac {10} {cHFF} {cH00}}kappa #

y κ κ ≥ ≥ 0{displaystyle kappa geq 0} es un parámetro. La introducción de un parámetro libre no debe ser sorprendente ya que tenemos tres posibles resultados y por lo tanto, un grado adicional de libertad debe aparecer en el modelo. En particular, con κ κ =0{displaystyle kappa =0} recuperamos el modelo subyacente a la regresión logística

Pr{}AGana}=σ σ ()rA,B;0)=10rA,B/s10− − rA,B/s+10rA,B/s=11+10− − rA,B/s.,{displaystyle ################################################################################################################################################################################################################################################################ {wins}}=sigma (r_{mathsf {A,B};0)={frac {10^{r_{mathsf {A,B}/s}{10}{-r_{mathsf {A,B}/s}+10^{mthsf {A,B}/s}={frac} {1}{1+10^{-r_{mathsf {A,B}/s}}}

Donde s.=s/2{displaystyle s'=s/2}.

Usando el modelo ordinal definido anteriormente, la pérdida de registro ahora se calcula como

l l ={}− − log⁡ ⁡ σ σ ()rA,B;κ κ )siAGana,− − log⁡ ⁡ σ σ ()− − rA,B;κ κ )siBGana,− − log⁡ ⁡ κ κ − − 12log⁡ ⁡ σ σ ()rA,B;κ κ )− − 12log⁡ ⁡ σ σ ()− − rA,B;κ κ )siAdibujo,{displaystyle ell ={begin{cases}-log sigma (r_{mathsf {A,B}};kappa) {if} {fnMithsf {A}~{textrm {wins}},\\log sigma (-r_{mathsf {A,B};kappa) {if} {fnMithsf {B}~{textrm {wins}},\log kappa -{frac {1}{2}log sigma (r_{mathsf {A,B};kappa)-{frac {1}{2}log sigma (-r_{mathsf {A,B}}};kappa)}{textr {if} {fnMithsf {}} {textrm {draw},end{cases}}

que puede escribirse de forma compacta como

l l =− − ()SA+12D)log⁡ ⁡ σ σ ()rA,B;κ κ )− − ()SB+12D)log⁡ ⁡ σ σ ()− − rA,B;κ κ )− − log⁡ ⁡ κ κ {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif} {f} {fnMitsf {fnMitsf {fnMicrosoft Sans Serif} {c}}}}ccccH00} {fnMicros}} {f}}}}}f}cccccccH00cccccH00cH00cH00cccH00cH00cH00cH00cH00cH00cH00ccH00ccH00cH00cH00ccH00cH00cH00cH00cH00}cH00cH00cH00cH00ccH0cH00cH00}}cccH

Donde SA=1{displaystyle S_{mathsf {A}=1} Sip A{displaystyle {mathsf}} Gana, SB=1{displaystyle S_{mathsf {B}=1} Sip B{displaystyle {Mathsf {B}} gana, y D=1{displaystyle D=1} Sip A{displaystyle {mathsf}} dibuja.

Como antes, necesitamos el derivado de log⁡ ⁡ σ σ ()r;κ κ ){displaystyle log sigma (r;kappa)} que se da por

ddrlog⁡ ⁡ σ σ ()r;κ κ )=2log⁡ ⁡ 10s[1− − g()r;κ κ )]{displaystyle {frac {textrm {d}{textrm {d}r}}log sigma (r;kappa)={frac {2log 10}{s} {1-g(r;kappa)}}}}}} {fnunció],

dónde

g()r;κ κ )=10r/s+κ κ /210− − r/s+κ κ +10r/s.{displaystyle g(r;kappa)={frac {10^{r/s}+kappa /2}{10^{-r/s}+kappa - Sí.

Así, el derivado de la pérdida de registro con respecto a la calificación RA{displaystyle R_{mathsf {A}} es dado por

ddRAl l =− − 2log⁡ ⁡ 10s()()SA+0.5D)[1− − g()rA,B;κ κ )]− − ()SB+0.5D)g()rA,B;κ κ ))=− − 2log⁡ ⁡ 10s()SA+0.5D− − g()rA,B;κ κ )),{displaystyle {begin{aligned}{frac {textrm {d}{textrm} {f} {d}R_{mathsf {fnMicrosoft Sans Serif}

donde usamos las relaciones SA+SB+D=1{displaystyle S_{mathsf}+S_{mathsf {B}+D=1} y g()− − r;κ κ )=1− − g()r;κ κ ){displaystyle g(-r;kappa)=1-g(r;kappa)}.


Luego, el descenso gradiente estocástico aplicado para minimizar la pérdida de registro produce la siguiente actualización para la calificación RA{displaystyle R_{mathsf {A}}

RA← ← RA+K()S^ ^ A− − g()rA,B;κ κ )){displaystyle ¿Qué?

Donde K=2.. log⁡ ⁡ 10/s{displaystyle K=2eta log 10/s} y S^ ^ A=SA+0.5D{displaystyle {hat {fnh} {fnMitsf}=S_{mthsf} {A}+0.5D}. Por supuesto. S^ ^ A=1{displaystyle {hat {fnh} {fnMitsf {A}=1} si A{displaystyle {textosf}} Gana, S^ ^ A=0.5{displaystyle {hat {fnh} {fnMitsf {A}=0.5} si A{displaystyle {textosf}} sorteos, y S^ ^ A=0{displaystyle {hat {}_{sf}=0} si A{displaystyle {textosf}} pérdida. Para reconocer el origen del modelo propuesto por Davidson, esta actualización se llama una calificación Elo-Davidson.

La actualización para RB{displaystyle R_{mathsf {B}} se deriva de la misma manera que

RB← ← RB+K()S^ ^ B− − g()rB,A;κ κ )){displaystyle ¿Qué?,

Donde rB,A=RB− − RA=− − rA,B{displaystyle r_{mathsf {B,A}=R_{mathsf {B}-R_{mathsf {A}=-r_{mathsf {A,B}.


Notamos que

E[S^ ^ A]=Pr{}AGana}+0.5Pr{}Asorteos}=σ σ ()rA,B;κ κ )+0.5κ κ σ σ ()rA,B;κ κ )σ σ ()− − rA,B;κ κ )=g()rA,B;κ κ ){displaystyle {begin{aligned}E[{hat {S}_{mathsf {A}} {f}] Pr{máthsf {fnK} {fnMicrosoft Sans Serif}\fnMicrosoft {fnMicrosoft Sans Serif} {fnMicrosoft Sans Serif}

y por lo tanto, obtenemos que la actualización de calificación puede escribirse como

RA← ← RA+K()S^ ^ A− − EA){displaystyle ¿Qué?,

Donde EA=E[S^ ^ A]{displaystyle E_{mathsf {}}=E[{hat {S}_{mathsf {A}}}} y obtuvimos prácticamente la misma ecuación que en la clasificación Elo excepto que la puntuación esperada es dada por EA=g()rA,B;κ κ ){displaystyle E_{mathsf {}=g(r_{mathsf {A,B};kappa)} en lugar de EA=σ σ ()rA,B){displaystyle E_{mathsf {}=sigma (r_{mathsf {A,B}}}}.


Por supuesto, como se señaló anteriormente, para κ κ =0{displaystyle kappa =0}, tenemos g()r;0)=σ σ ()r){displaystyle g(r;0)=sigma (r)} y así, la calificación Elo-Davidson es exactamente la misma que la calificación Elo. Sin embargo, esto no es de ninguna ayuda para entender el caso cuando se observan los sorteos (no podemos utilizar) κ κ =0{displaystyle kappa =0} que significaría que la probabilidad de empate es nula). Por otro lado, si usamos κ κ =2{displaystyle kappa =2}, tenemos

g()r;2)=10r/s+110− − r/s+2+10r/s=11+10− − r/s=σ σ ()r){displaystyle g(r;2)={frac {10^{r/s}+1}{10^{-r/s}+2+10^{r/s}={frac} {1}{1+10^{-r/s}=sigma (r)}

lo que significa que κ κ =2{displaystyle kappa =2}, la calificación Elo-Davidson es exactamente la misma que la calificación Elo.

Cuestiones prácticas

Actividad del juego versus protección de la calificación

En algunos casos, el sistema de calificación puede desalentar la actividad del juego para los jugadores que desean proteger su calificación. Con el fin de disuadir a los jugadores de sentarse en una calificación alta, una propuesta de 2012 del Gran Maestro británico John Nunn para elegir clasificados para el campeonato mundial de ajedrez incluía una bonificación de actividad, que se combinaría con la calificación.

Más allá del mundo del ajedrez, las preocupaciones sobre los jugadores que evitan el juego competitivo para proteger sus calificaciones hicieron que Wizards of the Coast abandonara el sistema Elo para los torneos de Magic: the Gathering en favor de un sistema de su propia invención. llamado "Puntos Planeswalker".

Maridaje selectivo

Un problema más sutil está relacionado con el emparejamiento. Cuando los jugadores pueden elegir a sus propios oponentes, pueden elegir oponentes con un riesgo mínimo de perder y una recompensa máxima por ganar. Los ejemplos particulares de jugadores con una calificación de más de 2800 que eligen oponentes con un riesgo mínimo y la máxima posibilidad de ganar calificación incluyen: elegir oponentes que saben que pueden vencer con una determinada estrategia; elegir oponentes que creen que están sobrevalorados; o evitar jugar con jugadores fuertes que están clasificados varios cientos de puntos por debajo de ellos, pero que pueden tener títulos de ajedrez como IM o GM. En la categoría de elegir oponentes sobrevalorados, los nuevos participantes en el sistema de clasificación que han jugado menos de 50 juegos son, en teoría, un objetivo conveniente, ya que pueden estar sobrevalorados en su clasificación provisional. La ICC compensa este problema asignando un factor K más bajo al jugador establecido si gana contra un nuevo participante de calificación. El factor K es en realidad una función de la cantidad de juegos calificados jugados por el nuevo participante.

Por lo tanto, las calificaciones de Elo en línea aún brindan un mecanismo útil para proporcionar una calificación basada en la calificación del oponente. Sin embargo, su credibilidad general debe verse en el contexto de al menos los dos problemas principales descritos anteriormente: abuso del motor y emparejamiento selectivo de oponentes.

El ICC también ha introducido recientemente el "emparejamiento automático" clasificaciones que se basan en emparejamientos aleatorios, pero con cada victoria consecutiva asegurando un oponente estadísticamente mucho más difícil que también ha ganado x juegos seguidos. Con potencialmente cientos de jugadores involucrados, esto crea algunos de los desafíos de un importante gran evento suizo que está siendo ferozmente disputado, con ganadores de rondas que se encuentran con ganadores de rondas. Este enfoque de emparejamiento ciertamente maximiza el riesgo de calificación de los participantes con calificaciones más altas, quienes pueden enfrentar una oposición muy dura de jugadores por debajo de 3000, por ejemplo. Esta es una calificación separada en sí misma y está por debajo de "1 minuto" y "5 minutos" categorías de calificación. Las calificaciones máximas logradas por encima de 2500 son excepcionalmente raras.

Inflación y deflación de calificaciones

Gráficos de probabilidades y cambios de calificación de Elo (para K=16 y 32) de resultados esperados (curva sólida) y resultado inesperado (curva dotada) vs diferencia de calificación inicial. Por ejemplo, el jugador A comienza con una puntuación de 1400 y B con 1800 en un torneo utilizando K= 32 (curvas dobles). La línea azul dash-dot denota la diferencia de clasificación inicial de 400 (1800 - 1400). La probabilidad de ganar B, el resultado esperado, es 0.91 (intersección de curva sólida negra y línea azul); si esto sucede, la calificación de A disminuye en 3 (intersección de curva sólida marrón y línea azul) a 1397 y los aumentos de B por la misma cantidad a 1803. Por el contrario, la probabilidad de una ganancia, el resultado inesperado, es 0.09 (intersección de curva dotada negra y línea azul); si esto sucede, la calificación de A aumenta en 29 (intersección de curva dotada marrón y línea azul) a 1429 y B disminuye por la misma cantidad a 1771.

El término "inflación", aplicado a las calificaciones, pretende sugerir que el nivel de fuerza de juego demostrado por el jugador calificado está disminuyendo con el tiempo; por el contrario, "deflación" sugiere que el nivel está avanzando. Por ejemplo, si hay inflación, una calificación moderna de 2500 significa menos que una calificación histórica de 2500, mientras que lo contrario es cierto si hay deflación. El uso de clasificaciones para comparar jugadores entre diferentes épocas se hace más difícil cuando hay inflación o deflación. (Consulte también Comparación de los mejores jugadores de ajedrez a lo largo de la historia).

Al analizar las listas de calificación de la FIDE a lo largo del tiempo, Jeff Sonas sugiere que la inflación puede haber ocurrido desde alrededor de 1985. Sonas observa a los jugadores mejor calificados, en lugar de a todos los jugadores calificados, y reconoce que los cambios en la distribución de calificaciones podrían haber ha sido causado por un aumento del nivel de juego en los niveles más altos, sino que también busca otras causas.

Ha aumentado el número de personas con valoraciones superiores a 2700. Alrededor de 1979 solo había un jugador activo (Anatoly Karpov) con una calificación tan alta. En 1992, Viswanathan Anand fue solo el octavo jugador en la historia del ajedrez en alcanzar la marca de 2700 en ese momento. Esto aumentó a 15 jugadores en 1994. 33 jugadores tenían una calificación de más de 2700 en 2009 y 44 en septiembre de 2012. El punto de referencia actual para jugadores de élite supera los 2800.

Una posible causa de esta inflación fue el mínimo de calificación, que durante mucho tiempo estuvo en 2200, y si un jugador caía por debajo de este valor, era eliminado de la lista de calificación. Como consecuencia, los jugadores con un nivel de habilidad justo por debajo del piso solo estarían en la lista de calificación si estuvieran sobrevalorados, y esto haría que añadieran puntos al grupo de calificación. En julio de 2000, la calificación promedio de los 100 principales era 2644. En julio de 2012 había aumentado a 2703.

Utilizando un potente motor de ajedrez para evaluar los movimientos jugados en partidas entre jugadores calificados, Regan y Haworth analizan conjuntos de partidas de torneos calificados por la FIDE y llegan a la conclusión de que hubo poca o ninguna inflación entre 1976 y 2009.

En un sistema Elo puro, cada juego termina en una transacción igual de puntos de calificación. Si el ganador gana N puntos de calificación, el perdedor se reducirá en N puntos de calificación. Esto evita que los puntos entren o salgan del sistema cuando se juegan y califican los juegos. Sin embargo, los jugadores tienden a ingresar al sistema como novatos con una calificación baja y se retiran del sistema como jugadores experimentados con una calificación alta. Por lo tanto, en el largo plazo, un sistema con transacciones estrictamente iguales tiende a resultar en una deflación de calificación.

En 1995, la USCF reconoció que varios jugadores escolares jóvenes estaban mejorando más rápido de lo que el sistema de clasificación podía rastrear. Como resultado, los jugadores establecidos con calificaciones estables comenzaron a perder puntos de calificación frente a los jugadores jóvenes e infravalorados. Varios de los jugadores más veteranos se sintieron frustrados por lo que consideraron una disminución injusta de la calificación, y algunos incluso abandonaron el ajedrez por eso.

Combatir la deflación

Debido a la diferencia significativa en el momento en que ocurren la inflación y la deflación, y para combatir la deflación, la mayoría de las implementaciones de las calificaciones de Elo tienen un mecanismo para inyectar puntos en el sistema a fin de mantener las calificaciones relativas a lo largo del tiempo. FIDE tiene dos mecanismos inflacionarios. Primero, actuaciones por debajo de un "piso de calificaciones" no se rastrean, por lo que un jugador con verdadera habilidad debajo del piso solo puede ser sobrevalorado o no calificado, nunca calificado correctamente. En segundo lugar, los jugadores establecidos y mejor calificados tienen un factor K más bajo. Los nuevos jugadores tienen una K = 40, que cae a K = 20 después de jugar 30 juegos, y a K = 10 cuando el jugador llega a 2400.. El sistema actual en los Estados Unidos incluye un esquema de puntos de bonificación que alimenta el sistema con puntos de calificación para rastrear la mejora de los jugadores y diferentes valores K para diferentes jugadores. Algunos métodos, utilizados en Noruega, por ejemplo, diferencian entre juniors y seniors, y usan un factor K más grande para los jugadores jóvenes, incluso aumentando el progreso de calificación en un 100 % cuando obtienen una puntuación muy por encima de su rendimiento previsto.

Los pisos de clasificación en los Estados Unidos funcionan al garantizar que un jugador nunca caerá por debajo de cierto límite. Esto también combate la deflación, pero el presidente del Comité de Calificaciones de la USCF ha criticado este método porque no otorga puntos extra a los jugadores que están mejorando. Un motivo posible para estos pisos de calificación es combatir el “sandbagging”, es decir, la reducción deliberada de las calificaciones para ser elegible para secciones y premios de clases de calificación más bajas.

Valoraciones de ordenadores

Las partidas de ajedrez entre humanos y computadoras entre 1997 (Deep Blue versus Garry Kasparov) y 2006 demostraron que las computadoras de ajedrez son capaces de derrotar incluso a los jugadores humanos más fuertes. Sin embargo, las calificaciones del motor de ajedrez son difíciles de cuantificar, debido a factores variables como el control de tiempo y el hardware en el que se ejecuta el programa. Las listas de clasificación de motor publicadas, como CCRL, se basan en juegos de solo motor en configuraciones de hardware estándar y no son directamente comparables con las clasificaciones de la FIDE.

Para conocer algunas estimaciones de calificaciones, consulte Motor de ajedrez § Calificaciones.

Usar fuera del ajedrez

Otros juegos de mesa y cartas

Deportes deportivos

El sistema de clasificación Elo se utiliza en la parte de ajedrez del boxeo de ajedrez. Para ser elegible para el boxeo de ajedrez profesional, uno debe tener una calificación Elo de al menos 1600, además de competir en 50 o más partidos de boxeo amateur o artes marciales.

El fútbol americano universitario usó el método Elo como parte de sus sistemas de calificación de la Serie de campeonato de bolos de 1998 a 2013, después de lo cual el BCS fue reemplazado por el College Football Playoff. Jeff Sagarin de USA Today publica clasificaciones de equipos para la mayoría de los deportes estadounidenses, que incluyen clasificaciones del sistema Elo para el fútbol americano universitario. El uso de sistemas de calificación se eliminó efectivamente con la creación del College Football Playoff en 2014; los participantes en el CFP y sus juegos de bolos asociados son elegidos por un comité de selección.

En otros deportes, las personas mantienen clasificaciones basadas en el algoritmo Elo. Por lo general, no son oficiales, no están respaldados por el organismo rector del deporte. El World Football Elo Ratings es un ejemplo del método aplicado al fútbol masculino. En 2006, Nate Silver, entonces de Baseball Prospectus, adaptó las clasificaciones de Elo para los equipos de las Grandes Ligas de Béisbol. Con base en esta adaptación, ambos también hicieron simulaciones de Monte Carlo basadas en Elo de las probabilidades de que los equipos lleguen a los playoffs. En 2014, Beyond the Box Score, un sitio de SB Nation, introdujo un sistema de clasificación Elo para el béisbol internacional.

En el tenis, la clasificación universal de tenis (UTR) basada en Elo clasifica a los jugadores a escala mundial, independientemente de su edad, sexo o nacionalidad. Es el sistema de calificación oficial de las principales organizaciones, como la Asociación Intercolegial de Tenis y World TeamTennis, y se usa con frecuencia en segmentos de Tennis Channel. El algoritmo analiza más de 8 millones de resultados de partidos de más de 800 000 tenistas de todo el mundo. El 8 de mayo de 2018, Rafael Nadal, después de haber ganado 46 sets consecutivos en partidos de tierra batida, tuvo un UTR de tierra batida casi perfecto de 16.42.

En el pool, se usa un sistema basado en Elo llamado Fargo Rate para clasificar a los jugadores en competencias organizadas de aficionados y profesionales.

Una de las pocas clasificaciones basadas en Elo respaldadas por el organismo rector de un deporte es la Clasificación Mundial Femenina de la FIFA, basada en una versión simplificada del algoritmo Elo, que la FIFA utiliza como su sistema de clasificación oficial. para las selecciones nacionales de fútbol femenino.

Desde la primera lista de clasificación después de la Copa Mundial de la FIFA 2018, la FIFA ha utilizado Elo para su clasificación mundial de la FIFA.

En 2015, Nate Silver, editor en jefe del sitio web de comentarios estadísticos FiveThirtyEight, y Reuben Fischer-Baum produjeron clasificaciones Elo para cada equipo y temporada de la Asociación Nacional de Baloncesto hasta la temporada 2014. En 2014, FiveThirtyEight creó calificaciones basadas en Elo y proyecciones de victorias para la Liga Nacional de Fútbol Americano profesional.

La Asociación Inglesa de Korfball calificó a los equipos según las calificaciones de Elo, para determinar las desventajas para su competencia de copa para la temporada 2011/12.

Se ha desarrollado una clasificación basada en Elo de los jugadores de la Liga Nacional de Hockey. La métrica de hockey-Elo evalúa el juego bidireccional general de un jugador: anotar Y defender tanto en situaciones de fuerza uniforme como de juego de poder/eliminación de penales.

Rugbyleagueratings.com utiliza el sistema de clasificación Elo para clasificar equipos de ligas de rugby internacionales y de clubes.

Videojuegos y juegos en línea

Muchos videojuegos utilizan sistemas Elo modificados en el juego competitivo. El juego MOBA League of Legends usó un sistema de calificación Elo antes de la segunda temporada de juego competitivo. El juego de esports Overwatch, la base de la exclusiva organización deportiva profesional Overwatch League, utiliza un derivado del sistema Elo para clasificar a los jugadores competitivos con varios ajustes realizados entre temporadas competitivas. World of Warcraft también utilizó anteriormente el sistema Glicko-2 para formar equipos y comparar jugadores de Arena, pero ahora utiliza un sistema similar a TrueSkill de Microsoft. El juego Puzzle Pirates utiliza el sistema de calificación Elo para determinar la clasificación en los distintos rompecabezas. Este sistema también se usa en FIFA Mobile para los modos Division Rivals. El juego de navegador Quidditch Manager utiliza la clasificación Elo para medir el rendimiento de un equipo. Otro juego reciente que comenzó a usar el sistema de clasificación Elo es AirMech, que usa clasificaciones Elo para el emparejamiento aleatorio/en equipo 1v1, 2v2 y 3v3. RuneScape 3 usó el sistema Elo en el relanzamiento del minijuego de cazarrecompensas en 2016. Mechwarrior Online instituyó un sistema Elo para su nueva "Comp Queue" modo, efectivo con el parche del 20 de junio de 2017. Age of Empires II DE está utilizando el sistema Elo para su tabla de clasificación y emparejamiento, con nuevos jugadores a partir de Elo 1000.

Pocos videojuegos usan el sistema de calificación Elo original. Según Lichess, un servidor de ajedrez en línea, el sistema Elo está desactualizado y muchas organizaciones de ajedrez ahora utilizan Glicko-2. PlayerUnknown's Battlegrounds es uno de los pocos videojuegos que utiliza el primer sistema Elo. En Guild Wars, las calificaciones Elo se utilizan para registrar la calificación de gremio ganada y perdida a través de batallas de gremio contra gremio. En 1998, se lanzó una escalera de juegos en línea llamada Clanbase, que utilizaba el sistema de puntuación Elo para clasificar los equipos. El valor K inicial era 30, pero se cambió a 5 en enero de 2007 y luego a 15 en julio de 2009. Posteriormente, el sitio se desconectó en 2013. En 2016 se lanzó un sitio alternativo similar con el nombre Scrimbase, que también utilizó el sistema de puntuación Elo para clasificar equipos. Desde 2005, Golden Tee Live clasifica a los jugadores según el sistema Elo. Los nuevos jugadores comienzan en 2100, con los mejores jugadores con una calificación de más de 3000.

A pesar de que muchos videojuegos usan diferentes sistemas para el emparejamiento, es común que los jugadores de videojuegos clasificados se refieran a todas las clasificaciones de emparejamiento como Elo.

Otro uso

El sistema de clasificación Elo se ha utilizado en la biometría blanda, que se refiere a la identificación de personas mediante descripciones humanas. Se utilizaron descripciones comparativas junto con el sistema de calificación Elo para proporcionar 'medidas relativas' sólidas y discriminatorias, lo que permitió una identificación precisa.

El sistema de clasificación Elo también se ha utilizado en biología para evaluar las jerarquías de dominio masculino y en automatización y visión por computadora para la inspección de telas.

Además, los sitios de jueces en línea también utilizan el sistema de clasificación Elo o sus derivados. Por ejemplo, Topcoder utiliza una versión modificada basada en la distribución normal, mientras que Codeforces utiliza otra versión basada en la distribución logística.

El sistema de clasificación Elo también se ha observado en las aplicaciones de citas, como la aplicación de emparejamiento Tinder, que utiliza una variante del sistema de clasificación Elo.

El YouTuber Marques Brownlee y su equipo usaron el sistema de calificación Elo cuando permitieron que las personas votaran entre fotos digitales tomadas con diferentes modelos de teléfonos inteligentes lanzados en 2022.

Referencias en los medios

El sistema de clasificación Elo se destacó de manera destacada en La red social durante la escena del algoritmo en la que Mark Zuckerberg lanzó Facemash. En la escena, Eduardo Saverin escribe fórmulas matemáticas para el sistema de calificación Elo en la ventana del dormitorio de Zuckerberg. Detrás de escena, afirma la película, el sistema Elo se emplea para clasificar a las chicas por su atractivo. Las ecuaciones que impulsan el algoritmo se muestran brevemente, escritas en la ventana; sin embargo, son ligeramente incorrectos.