Expectativa pitagórica
Expectativa de Pitágoras es una fórmula de análisis deportivo ideada por Bill James para estimar el porcentaje de juegos que un equipo de béisbol "debería" han ganado en base al número de carreras que anotaron y permitieron. La comparación del porcentaje de victorias real y pitagórico de un equipo se puede utilizar para hacer predicciones y evaluar qué equipos tienen un rendimiento superior e inferior. El nombre proviene del parecido de la fórmula con el teorema de Pitágoras.
La fórmula básica es:
- WinRatio=carreras marcados2carreras marcados2+permisos2=11+()permisos/carreras marcados)2{displaystyle mathrm {Win Ratio} ={frac {text{runs scored}^{2}{text{runs {2}}} {text{runs allowed}}} {frac {1}{text{runs allowed}}/{text{runs scored}}}}} {2}}}}}}}}}} {fnK}}
donde Win Ratio es el índice de ganancias generado por la fórmula. La cantidad esperada de victorias sería la proporción de ganancias esperada multiplicada por la cantidad de juegos jugados.
Origen empírico
Empíricamente, esta fórmula se correlaciona bastante bien con el rendimiento real de los equipos de béisbol. Sin embargo, los estadísticos desde la invención de esta fórmula encontraron que tenía un error bastante rutinario, generalmente alrededor de tres juegos menos. Por ejemplo, los Yankees de Nueva York de 2002 anotaron 897 carreras y permitieron 697 carreras. Según James' fórmula original, los Yankees deberían haber ganado el 62.35% de sus juegos.
- Gana=89728972+6972=0.623525865{displaystyle {text{Win}={frac} {897^{2}{897^{2}+697^{2}=0.623525865}
Con base en una temporada de 162 juegos, los Yankees deberían haber ganado 101.01 juegos. Los Yankees de 2002 en realidad tuvieron marca de 103–58.
En un esfuerzo por corregir este error, los estadísticos han realizado numerosas búsquedas para encontrar el exponente ideal.
Si usa un exponente de un solo número, 1,83 es el más preciso y el que usa baseball-reference.com. Por lo tanto, la fórmula actualizada dice lo siguiente:
- Gana=carreras marcados1.83carreras marcados1.83+permisos1.83=11+()permisos/carreras marcados)1.83{displaystyle {text{Win}={frac} {text{runs scored}{1.83}{text{runs {1.83}}= {frac {1}{1+({text{runs allowed}}/{text{runs scored}} {1.83}}}}}
La más conocida es la fórmula de Pythagenport desarrollada por Clay Davenport de Baseball Prospectus:
- Exponent=1.50log ()R+RAG)+0.45{displaystyle mathrm {Exponent} =1.50log left({frac {R+RA}{G}right)+0.45}
Concluyó que el exponente debe calcularse a partir de un equipo determinado en función de las carreras anotadas (R), las carreras permitidas (RA) y los juegos (G) del equipo. Al no reducir el exponente a un solo número para los equipos en cualquier temporada, Davenport pudo informar un error de raíz cuadrada media de 3,9911 en lugar de un error de raíz cuadrada media de 4,126 para un exponente de 2.
Menos conocido pero igualmente (si no más) efectivo es el Pythagenpat fórmula, desarrollada por David Smyth.
- Exponent=()R+RAG)0,287{displaystyle {text{Exponent}=left({frac {R+RA}{G}right)} {0.287}}
Davenport expresó su apoyo a esta fórmula y dijo:
Después de más revisión, I (Clay) llegó a la conclusión de que el llamado método Smyth/Patriot, aka Pythagenpat, es un mejor ajuste. En eso, X=rs+ra)/g)0.285, aunque hay algún espacio para el desacuerdo en el exponente. De todos modos, esa ecuación es más simple, más elegante y obtiene la mejor respuesta sobre una amplia gama de carreras anotadas que Pythagenport, incluyendo el valor obligatorio de 1 a 1 rpg.
Estas fórmulas solo son necesarias cuando se trata de situaciones extremas en las que el promedio de carreras anotadas por partido es muy alto o muy bajo. Para la mayoría de las situaciones, simplemente elevar al cuadrado cada variable produce resultados precisos.
Hay algunas desviaciones estadísticas sistemáticas entre el porcentaje de victorias real y el porcentaje de victorias esperado, que incluyen la calidad y la suerte del bullpen. Además, la fórmula tiende a retroceder hacia la media, ya que los equipos que ganan muchos juegos tienden a estar subrepresentados por la fórmula (lo que significa que 'deberían' haber ganado menos juegos) y los equipos que pierden muchos de los juegos tienden a estar sobrerrepresentados (deberían haber ganado más). Un ejemplo notable son los Texas Rangers de 2016, que superaron su récord previsto por 13 juegos, registrando un récord de 95-67 mientras tenían un récord esperado de victorias y derrotas de solo 82-80.
Did you mean:"Second-order#34; and "third-order#34; wins
En su informe de posiciones ajustadas, Baseball Prospectus se refiere a diferentes "órdenes" de victorias para un equipo. El orden básico de victorias es simplemente el número de juegos que han ganado. Sin embargo, debido a que el récord de un equipo puede no reflejar su verdadero talento debido a la suerte, se desarrollaron diferentes medidas del talento de un equipo.
Las ganancias de primer orden, basadas en el diferencial de ejecución pura, son el número de ganancias esperadas generadas por el "pythagenport" fórmula (ver arriba). Además, para filtrar aún más las distorsiones de la suerte, los sabermetristas también pueden calcular las carreras esperadas anotadas y permitidas de un equipo a través de una ecuación del tipo de carreras creadas (la más precisa a nivel de equipo es carreras básicas). Estas fórmulas dan como resultado el número esperado de carreras del equipo dadas sus estadísticas ofensivas y defensivas (sencillos totales, dobles, bases por bolas, etc.), lo que ayuda a eliminar el factor suerte del orden en que el equipo hits y bases por bolas llegaron en una entrada. Usando estas estadísticas, los sabermetristas pueden calcular cuántas carreras 'debería' hacer un equipo. han marcado o permitido.
Al conectar estas carreras esperadas anotadas y permitidas en la fórmula de Pitágoras, se pueden generar victorias de segundo orden, la cantidad de victorias que un equipo merece en función de la cantidad de carreras que debería haber anotado y permitido dado su componente de estadísticas ofensivas y defensivas.. Las victorias de tercer orden son victorias de segundo orden que se han ajustado según la solidez del calendario (la calidad del lanzamiento y el bateo del oponente). Se ha demostrado que el porcentaje de victorias de segundo y tercer orden predice el porcentaje de victorias real futuro del equipo mejor que el porcentaje de victorias real y el porcentaje de victorias de primer orden.
Explicación teórica
Al principio, la correlación entre la fórmula y el porcentaje real de ganancias era simplemente una observación experimental. En 2003, Hein Hundal proporcionó una derivación inexacta de la fórmula y mostró que el exponente pitagórico era aproximadamente 2/(σ√π) donde σ fue la desviación estándar de las carreras anotadas por todos los equipos dividida por el promedio de carreras anotadas. En 2006, el profesor Steven J. Miller proporcionó una derivación estadística de la fórmula bajo algunos supuestos sobre los juegos de béisbol: si las carreras de cada equipo siguen una distribución de Weibull y las carreras anotadas y permitidas por juego son estadísticamente independientes, entonces la fórmula da la probabilidad de victorioso.
Más simple, la fórmula de Pitágoras con el exponente 2 se deriva inmediatamente de dos supuestos: que los equipos de béisbol ganan en proporción a su "calidad" y que su "calidad" se mide por la relación entre sus carreras anotadas y sus carreras permitidas. Por ejemplo, si el Equipo A anotó 50 carreras y permitió 40, su medida de calidad sería 50/40 o 1,25. La medida de calidad para su (colectivo) equipo oponente B, en los juegos jugados contra A, sería 40/50 (ya que las carreras anotadas por A son carreras permitidas por B, y viceversa), o 0.8. Si cada equipo gana en proporción a su calidad, la probabilidad de ganar de A's sería de 1,25 / (1,25 + 0,8), lo que equivale a 502 / (502 + 402), la fórmula de Pitágoras. La misma relación es válida para cualquier número de carreras anotadas y permitidas, como se puede ver al escribir la "calidad" probabilidad como [50/40] / [ 50/40 + 40/50], y fracciones de compensación.
La suposición de que una medida de la calidad de un equipo está dada por la proporción de sus carreras anotadas y permitidas es tanto natural como plausible; esta es la fórmula por la cual se determinan las victorias individuales (juegos). [Hay otros candidatos naturales y plausibles para medir la calidad del equipo, que, asumiendo una "calidad" modelo, conducen a las correspondientes fórmulas de expectativa de porcentaje de victorias que son más o menos tan precisas como las de Pitágoras.] La suposición de que los equipos de béisbol ganan en proporción a su calidad no es natural, pero es plausible. No es natural porque el grado en que los competidores deportivos ganan en proporción a su calidad depende del papel que juega el azar en el deporte. Si el azar juega un papel muy importante, incluso un equipo con mucha más calidad que sus oponentes ganará solo un poco más de lo que pierde. Si el azar juega un papel muy pequeño, entonces un equipo con una calidad ligeramente superior a la de sus oponentes ganará con mucha más frecuencia de lo que pierde. Este último es más el caso en el baloncesto, por varias razones, entre ellas que se anotan muchos más puntos que en el béisbol (dando al equipo con mayor calidad más oportunidades de demostrar esa calidad, con menos oportunidades correspondientes al azar o la suerte para permitir que el equipo de menor calidad equipo de calidad para ganar.)
El béisbol tiene la cantidad justa de posibilidades para permitir que los equipos ganen aproximadamente en proporción a su calidad, es decir, producir un resultado aproximadamente pitagórico con exponente dos. El exponente más alto del baloncesto de alrededor de 14 (ver más abajo) se debe al papel más pequeño que juega el azar en el baloncesto. El hecho de que el exponente pitagórico más preciso (constante) para el béisbol sea alrededor de 1,83, un poco menos de 2, puede explicarse por el hecho de que (aparentemente) hay un poco más de posibilidades en el béisbol de las que permitirían a los equipos ganar en proporción precisa a sus posibilidades. calidad. Bill James se dio cuenta de esto hace mucho tiempo cuando notó que se podía lograr una mejora en la precisión de su fórmula pitagórica original con el exponente dos simplemente agregando un número constante al numerador y el doble de la constante al denominador. Esto mueve el resultado un poco más cerca de.500, que es lo que haría un papel un poco más grande para el azar, y lo que también hace usar el exponente de 1.83 (o cualquier exponente positivo menor que dos). Se pueden probar varios candidatos para esa constante para ver cuál da un "mejor ajuste" a los datos de la vida real.
El hecho de que el exponente más preciso de las fórmulas pitagóricas del béisbol sea una variable que depende del total de carreras por partido también se explica por el papel del azar, ya que cuantas más carreras anotadas, menos probable es que el resultado se deberá al azar, más que a que la mayor calidad del equipo ganador se haya manifestado durante las oportunidades de gol. Cuanto mayor sea el exponente, más lejos de un porcentaje ganador de.500 está el resultado de la fórmula pitagórica correspondiente, que es el mismo efecto que crea un papel reducido del azar. El hecho de que las fórmulas precisas para exponentes variables produzcan exponentes más grandes a medida que aumenta el total de carreras por juego está de acuerdo con la comprensión del papel que juega el azar en los deportes.
En su Resumen de béisbol de 1981, James desarrolló explícitamente otra de sus fórmulas, llamada fórmula log5 (que desde entonces ha demostrado ser empíricamente precisa), utilizando la noción de 2 equipos que tienen un porcentaje de victorias cara a cara entre sí. en proporción a una "calidad" medida. Su medida de calidad fue la mitad de la 'proporción de victorias' del equipo. (o "probabilidades de ganar"). La proporción de victorias o probabilidades de ganar es la proporción entre las victorias del equipo contra la liga y sus derrotas contra la liga. [James no parecía darse cuenta en ese momento de que su medida de calidad se podía expresar en términos de la proporción de victorias. Dado que en el modelo de calidad cualquier factor constante en una medida de calidad eventualmente se cancela, la medida de calidad hoy en día es mejor tomarla simplemente como la proporción de ganancias en sí misma, en lugar de la mitad de ella.] Luego afirmó que la fórmula de Pitágoras, que había desarrollado empíricamente anteriormente, para predecir el porcentaje de victorias a partir de carreras, fue "lo mismo" como la fórmula log5, aunque sin una demostración o prueba convincente. Su supuesta demostración de que eran lo mismo se redujo a mostrar que las dos fórmulas diferentes se simplificaron a la misma expresión en un caso especial, que en sí mismo se trata vagamente, y no se reconoce que el caso especial no es el general. Tampoco promulgó posteriormente al público ningún modelo explícito y basado en la calidad para la fórmula pitagórica. A partir de 2013, todavía hay poca conciencia pública en la comunidad sabermétrica de que un simple "los equipos ganan en proporción a la calidad" El modelo, que usa la proporción de corridas como medida de calidad, conduce directamente a la fórmula pitagórica original de James.
En el Resumen de 1981, James también dice que primero había intentado crear un "log5" fórmula simplemente usando los porcentajes ganadores de los equipos en lugar de las carreras en la fórmula de Pitágoras, pero que no dio resultados válidos. La razón, desconocida para James en ese momento, es que su intento de formulación implica que la calidad relativa de los equipos está dada por la proporción de sus porcentajes de victorias. Sin embargo, esto no puede ser cierto si los equipos ganan en proporción a su calidad, ya que un equipo de.900 gana contra sus oponentes, cuyo porcentaje general de victorias es de aproximadamente.500, en una proporción de 9 a 1, en lugar de la proporción de 9 a 5 de ellos. 900 a.500 porcentajes ganadores. El fracaso empírico de su intento condujo a su eventual, más tortuoso (e ingenioso) y exitoso enfoque de log5, que todavía usaba consideraciones de calidad, aunque sin una apreciación completa de la simplicidad última del modelo y de su aplicabilidad más general y estructura estructural verdadera. similitud con su fórmula pitagórica.
Uso en baloncesto
El ejecutivo deportivo estadounidense Daryl Morey fue el primero en adaptar James' Expectativa pitagórica para el baloncesto profesional mientras era investigador en STATS, Inc. Descubrió que usar 13.91 para los exponentes proporcionaba un modelo aceptable para predecir los porcentajes de victorias y derrotas:
- Win=puntos para13.91puntos para13.91+contra13.91.{displaystyle mathrm {Win} ={frac {text{points for}}^{13.91}}{text{points for}}}{13.91}+{text{points against}}{13.91}}}}}}}}}}} {f}}
Daryl 's "Modified Pythagorean Theorem " was first published in STATS Basketball Scoreboard, 1993–94.
Did you mean:Noted basketball analyst Dean Oliver also applied James ' Pythagorean theory to professional basketball. The result was similar.
Otro destacado estadístico del baloncesto, John Hollinger, usa una fórmula pitagórica similar, excepto que tiene 16,5 como exponente.
Uso en la Liga Nacional de Fútbol
La fórmula también ha sido utilizada en la National Football League por el sitio web de estadísticas de fútbol y la editorial Football Outsiders, donde se conoce como proyección pitagórica.
La fórmula se usa con un exponente de 2,37 y da un porcentaje de ganancias proyectado. Luego, ese porcentaje de victorias se multiplica por 17 (por la cantidad de juegos jugados en una temporada de la NFL a partir de 2021), para obtener una cantidad proyectada de victorias. Este número proyectado dado por la ecuación se conoce como ganancias pitagóricas.
- Pythagorean gana=puntos para2.37puntos para2.37+contra2.37× × 17.{displaystyle {text{Pythagorean Gana}={frac {text{points for}}{2.37}{text{points for}}{2.37}+{text{points against}}{2.37}}}times 17.}
La edición de 2011 de Football Outsiders Almanac afirma: "Desde 1988 hasta 2004, 11 de 16 Super Bowls fueron ganados por el equipo que lideró la NFL en victorias pitagóricas, mientras que solo siete fueron ganada por el equipo con más victorias reales. Los campeones del Super Bowl que lideraron la liga en victorias pitagóricas pero no victorias reales incluyen a los Patriots de 2004, los Ravens de 2000, los Rams de 1999 y los Broncos de 1997."
Aunque Football Outsiders Almanac reconoce que la fórmula había tenido menos éxito en la selección de participantes del Super Bowl entre 2005 y 2008, se reafirmó en 2009 y 2010. Además, "[t] La proyección de Pitágoras también sigue siendo un valioso predictor de la mejora de un año a otro. Los equipos que ganan un mínimo de un juego completo más que su proyección pitagórica tienden a retroceder al año siguiente; los equipos que ganan un mínimo de un juego completo menos que su proyección pitagórica tienden a mejorar el año siguiente, particularmente si estaban en o por encima de.500 a pesar de su bajo rendimiento.
Por ejemplo, los New Orleans Saints de 2008 obtuvieron marca de 8–8 a pesar de 9,5 victorias pitagóricas, lo que sugiere la mejora que se produjo con la temporada de campeonato del año siguiente."
Uso en hockey sobre hielo
En 2013, el estadístico Kevin Dayaratna y el matemático Steven J. Miller proporcionaron una justificación teórica para aplicar la expectativa de Pitágoras al hockey sobre hielo. En particular, encontraron que al hacer las mismas suposiciones que hizo Miller en su estudio de 2007 sobre el béisbol, específicamente que los goles marcados y los goles permitidos siguen distribuciones de Weibull estadísticamente independientes, la Expectativa de Pitágoras funciona tan bien para el hockey sobre hielo como para el béisbol.. El estudio de Dayaratna y Miller verificó la legitimidad estadística de hacer estas suposiciones y estimó que el exponente de Pitágoras para el hockey sobre hielo está ligeramente por encima de 2.
Contenido relacionado
Premio Estrella del Norte
Baile deportivo
1998 en deportes