Ley de benford

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Observación de que en muchos conjuntos de datos de la vida real, es probable que el dígito líder sea pequeño

La distribución de los primeros dígitos, según la ley de Benford. Cada barra representa un dígito, y la altura de la barra es el porcentaje de números que comienzan con ese dígito.

Frecuencia del primer dígito significativo de las constantes físicas trazadas contra la ley de Benford

Ley de Benford, también conocida como la ley de Newcomb-Benford, la ley de los números anómalos o la ley del primer dígito, es una observación de que en muchos conjuntos de datos numéricos de la vida real, es probable que el primer dígito sea pequeño. En conjuntos que obedecen la ley, el número 1 aparece como el dígito significativo principal aproximadamente el 30% de las veces, mientras que el 9 aparece como el dígito significativo principal menos del 5% de las veces. Si los dígitos se distribuyeran uniformemente, cada uno de ellos ocurriría aproximadamente el 11,1 % del tiempo. La ley de Benford también hace predicciones sobre la distribución de segundos dígitos, terceros dígitos, combinaciones de dígitos, etc.

El gráfico de la derecha muestra la ley de Benford para la base 10, uno de los infinitos casos de una ley generalizada con respecto a los números expresados en bases (enteras) arbitrarias, lo que descarta la posibilidad de que el fenómeno sea un artefacto. del sistema numérico de base 10. Otras generalizaciones publicadas en 1995 incluyeron declaraciones análogas tanto para el dígito inicial n como para la distribución conjunta de los dígitos iniciales n, el último de los cuales lleva a un corolario en el que el dígito significativo se muestra que los dígitos son una cantidad estadísticamente dependiente.

Se ha demostrado que este resultado se aplica a una amplia variedad de conjuntos de datos, incluidas facturas de electricidad, direcciones de calles, precios de acciones, precios de viviendas, números de población, tasas de mortalidad, longitudes de ríos y constantes físicas y matemáticas. Al igual que otros principios generales sobre los datos naturales, por ejemplo, el hecho de que muchos conjuntos de datos se aproximan bien a una distribución normal, existen ejemplos ilustrativos y explicaciones que cubren muchos de los casos en los que se aplica la ley de Benford, aunque hay muchos. otros casos donde se aplica la ley de Benford que resisten explicaciones simples. La Ley de Benford tiende a ser más precisa cuando los valores se distribuyen en varios órdenes de magnitud, especialmente si el proceso que genera los números se describe mediante una ley de potencia (que es común en la naturaleza).

La ley lleva el nombre del físico Frank Benford, quien la declaró en 1938 en un artículo titulado "La ley de los números anómalos", aunque ya había sido establecida por Simon Newcomb en 1881.

La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Zipf.

Definición

Una barra de escala logarítmica. Escoger un azar x posición uniforme en esta línea número, aproximadamente el 30% del tiempo el primer dígito del número será 1.

Se dice que un conjunto de números satisface la ley de Benford si el primer dígito $d$ ( $d \in {1,..., 9}$ ) ocurre con probabilidad

{displaystyle P(d)=log _{10}(d+1)-log _{10}(d)=log _{10}left({frac {d+1}{d}}right)=log _{10}left(1+{frac {1}{d}}right).}

Los primeros dígitos en tal conjunto tienen la siguiente distribución:

$d$	${displaystyle P(d)}$	Tamaño relativo de ${displaystyle P(d)}$
1	30,1%	30.1
2	17.6%	17.6
3	12.5%	12,5
4	9,7%	9.7
5	7,9%	7.9
6	6,7%	6.7
7	5,8%	5.8
8	5,1%	5.1
9	4.6%	4.6

La cantidad ${displaystyle P(d)}$ es proporcional al espacio entre $d$ y $d + 1$ a escala logarítmica. Por lo tanto, esta es la distribución esperada si el logaritms de los números (pero no los propios números) se distribuyen uniforme y aleatoriamente.

Por ejemplo, un número $x$ , limitado a estar entre 1 y 10, comienza con el dígito 1 si $1 \leq x < 2$ , y comienza con el dígito 9 si $9 \leq x < 10$ . Por lo tanto, $x$ comienza con el dígito 1 si $log 1 \leq log x < log 2$ , o comienza con 9 si $log 9 \leq log x < registro 10$ . El intervalo $[log 1, log 2]$ es mucho más amplio que el intervalo $[log 9, log 10]$ (0,30 y 0,05 respectivamente); por lo tanto, si log $x$ se distribuye de manera uniforme y aleatoria, es mucho más probable que caiga en el intervalo más amplio que en el intervalo más estrecho, es decir es más probable que comience con 1 que con 9; las probabilidades son proporcionales a los anchos de los intervalos, dando la ecuación anterior (así como la generalización a otras bases además del decimal).

La ley de Benford a veces se expresa en una forma más fuerte, afirmando que la parte fraccionaria del logaritmo de los datos suele estar casi uniformemente distribuida entre 0 y 1; a partir de esto, se puede derivar la afirmación principal sobre la distribución de los primeros dígitos.

En otras bases

Gráficos de P()d) para el dígito inicial d en varias bases. La línea de puntos muestra P()d) eran el uniforme de distribución. (En la imagen SVG, arrastre sobre un gráfico para mostrar el valor de cada punto.)

Una extensión de la ley de Benford predice la distribución de los primeros dígitos en otras bases además del decimal; de hecho, cualquier base $b \geq 2$ . La forma general es

{displaystyle P(d)=log _{b}(d+1)-log _{b}(d)=log _{b}left(1+{frac {1}{d}}right).}

Para los sistemas numéricos $b = 2, 1$ (el binario y el unario), la ley de Benford es verdadera pero trivial: todo binario y los números unarios (excepto el 0 o el conjunto vacío) comienzan con el dígito 1. (Por otro lado, la generalización de la ley de Benford al segundo y posteriores dígitos no es trivial, incluso para los números binarios).

Ejemplos

Distribución de los primeros dígitos (en %, barras rojas) en la población de los 237 países del mundo a partir de julio de 2010. Los puntos negros indican la distribución prevista por la ley de Benford.

Al examinar una lista de las alturas de las 58 estructuras más altas del mundo por categoría, se muestra que 1 es, con mucho, el dígito principal más común, independientemente de la unidad de medida (ver " invariancia de escala" a continuación):

Liderazgo dígito	m		f		Per La ley de Benford
Liderazgo dígito	Conde	Compartir	Conde	Compartir	Per La ley de Benford
1	24	41,4%	16	27,6%	30,1%
2	9	15,5%	8	13,8%	17,6%
3	7	12,1%	5	8,6%	12,5%
4	6	10,3%	7	12,1%	9,7%
5	1	1,7 %	10	17,2%	7,9%
6	5	8,6%	4	6,9%	6,7%
7	1	1,7 %	2	3,4%	5,8%
8	4	6,9%	5	8,6%	5,1%
9	1	1,7 %	1	1,7 %	4,6%

Otro ejemplo es el primer dígito de $2 n$ . La secuencia de los primeros 96 dígitos iniciales (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1,... (secuencia A008952 en el OEIS)) exhibe una adherencia más cercana a la ley de Benford de lo esperado para secuencias aleatorias de la misma longitud, porque se deriva de una secuencia geométrica.

Liderazgo dígito	Occurrence		Per La ley de Benford
Liderazgo dígito	Conde	Compartir	Per La ley de Benford
1	29	30,2%	30,1%
2	17	17,7%	17,6%
3	12	12,5%	12,5%
4	10	10,4%	9,7%
5	7	7,3%	7,9%
6	6	6,3%	6,7%
7	5	5,2%	5,8%
8	5	5,2%	5,1%
9	5	5,2%	4,6%

Historia

El descubrimiento de la ley de Benford se remonta a 1881, cuando el astrónomo canadiense-estadounidense Simon Newcomb notó que en las tablas de logaritmos, las páginas anteriores (que comenzaban con 1) estaban mucho más gastadas que las otras páginas. El resultado publicado de Newcomb es la primera instancia conocida de esta observación e incluye una distribución en el segundo dígito también. Newcomb propuso una ley según la cual la probabilidad de que un solo número N sea el primer dígito de un número era igual a log(N + 1) − log(N).

El fenómeno fue observado nuevamente en 1938 por el físico Frank Benford, quien lo probó en datos de 20 dominios diferentes y se le atribuyó el mérito. Su conjunto de datos incluía las áreas superficiales de 335 ríos, los tamaños de 3259 poblaciones de EE. UU., 104 constantes físicas, 1800 pesos moleculares, 5000 entradas de un manual de matemáticas, 308 números contenidos en una edición de Reader's Digest, las direcciones de las calles de las primeras 342 personas enumeradas en American Men of Science y 418 tasas de mortalidad. El número total de observaciones utilizadas en el documento fue de 20.229. Este descubrimiento más tarde recibió el nombre de Benford (lo que lo convierte en un ejemplo de la ley de Stigler).

En 1995, Ted Hill demostró el resultado sobre las distribuciones mixtas que se mencionan a continuación.

Explicaciones

La ley de Benford tiende a aplicarse con mayor precisión a los datos que abarcan varios órdenes de magnitud. Como regla general, cuantos más órdenes de magnitud cubran los datos de manera uniforme, con mayor precisión se aplica la ley de Benford. Por ejemplo, se puede esperar que la ley de Benford se aplique a una lista de números que representan las poblaciones de los asentamientos del Reino Unido. Pero si un "asentamiento" se define como un pueblo con una población entre 300 y 999, entonces no se aplicará la ley de Benford.

Considere las distribuciones de probabilidad que se muestran a continuación, con referencia a una escala logarítmica. En cada caso, el área total en rojo es la probabilidad relativa de que el primer dígito sea 1, y el área total en azul es la probabilidad relativa de que el primer dígito sea 8. Para la primera distribución, el tamaño de las áreas de rojo y azul son aproximadamente proporcionales a los anchos de cada barra roja y azul. Por lo tanto, los números extraídos de esta distribución seguirán aproximadamente la ley de Benford. Por otro lado, para la segunda distribución, la relación de las áreas de rojo y azul es muy diferente de la relación de los anchos de cada barra roja y azul. Más bien, las áreas relativas de rojo y azul están determinadas más por la altura de las barras que por el ancho. En consecuencia, los primeros dígitos de esta distribución no satisfacen en absoluto la ley de Benford.

Una amplia distribución de probabilidad del tronco de una variable, mostrada en una escala de registro. La ley de Benford se puede ver en el área más grande cubierta por el rojo (primer dígito uno) en comparación con el azul (primer dígito 8) de afeitado.

Una distribución estrecha de probabilidad del tronco de una variable, mostrada en una escala de registro. La ley de Benford no es seguida, porque la distribución estrecha no cumple los criterios para la ley de Benford.

Por lo tanto, es probable que las distribuciones del mundo real que abarcan varios órdenes de magnitud de manera bastante uniforme (por ejemplo, los precios del mercado de valores y la población de pueblos, ciudades y pueblos) satisfagan la ley de Benford con mucha precisión. Por otro lado, es poco probable que una distribución en su mayor parte o en su totalidad dentro de un orden de magnitud (por ejemplo, puntajes de CI o alturas de humanos adultos) satisfaga la ley de Benford con mucha precisión, si es que lo hace. Sin embargo, la diferencia entre los regímenes aplicables e inaplicables no es un límite marcado: a medida que la distribución se estrecha, las desviaciones de la ley de Benford aumentan gradualmente.

(Esta discusión no es una explicación completa de la ley de Benford, porque no ha explicado por qué se encuentran con tanta frecuencia conjuntos de datos que, cuando se grafican como una distribución de probabilidad del logaritmo de la variable, son relativamente uniformes sobre varios órdenes de magnitud).

Explicación de la entropía de Krieger-Kafri

En 1970 Wolfgang Krieger demostró lo que ahora se llama el teorema del generador Krieger. El teorema del generador Krieger podría considerarse como una justificación para la suposición en el modelo Kafri de bola y caja que, en una base determinada $B$ con un número fijo de dígitos 0, 1,..., n,..., ${displaystyle B-1}$ , dígito n es equivalente a una caja Kafri que contiene n bolas sin interacción. Varios otros científicos y estadísticos han sugerido explicaciones relacionadas con la entropía para la ley de Benford.

Fluctuaciones multiplicativas

Muchos ejemplos del mundo real de la ley de Benford surgen de fluctuaciones multiplicativas. Por ejemplo, si el precio de una acción comienza en $100 y luego cada día se multiplica por un factor elegido al azar entre 0,99 y 1,01, entonces, durante un período prolongado, la distribución de probabilidad de su precio satisface la ley de Benford con valores cada vez mayores. precisión.

La razón es que el logaritmo del precio de las acciones está experimentando una caminata aleatoria, por lo que con el tiempo su distribución de probabilidad se volverá cada vez más amplia y suave (ver arriba). (Más técnicamente, el teorema del límite central dice que multiplicar más y más variables aleatorias creará una distribución logarítmica normal con una varianza cada vez mayor, por lo que eventualmente cubre muchos órdenes de magnitud casi uniformemente). Para estar seguro de acuerdo aproximado con Benford&# 39;s ley, la distribución tiene que ser aproximadamente invariante cuando se amplía por cualquier factor hasta 10; un conjunto de datos con distribución logarítmica normal con amplia dispersión tendría esta propiedad aproximada.

A diferencia de las fluctuaciones multiplicativas, las fluctuaciones aditivas no conducen a la ley de Benford: en cambio, conducen a distribuciones de probabilidad normales (nuevamente por el teorema del límite central), que no satisfacen la ley de Benford.;s ley. Por el contrario, el precio hipotético de las acciones descrito anteriormente se puede escribir como el producto de muchas variables aleatorias (es decir, el factor de cambio de precio para cada día), por lo que es probable que siga a Benford& #39;s ley bastante bien.

Distribuciones de probabilidad múltiple

Anton Formann proporcionó una explicación alternativa dirigiendo la atención a la interrelación entre la distribución de los dígitos significativos y la distribución de la variable observada. Mostró en un estudio de simulación que las distribuciones de cola larga a la derecha de una variable aleatoria son compatibles con la ley de Newcomb-Benford, y que para las distribuciones de la relación de dos variables aleatorias, el ajuste generalmente mejora. Para números extraídos de ciertas distribuciones (puntuaciones de coeficiente intelectual, alturas humanas), la ley de Benford no se cumple porque estas variables obedecen a una distribución normal, que se sabe que no satisface la ley de Benford, ya que las distribuciones normales pueden Abarca varios órdenes de magnitud y las mantisae de sus logaritmos no estarán (ni siquiera aproximadamente) uniformemente distribuidas. Sin embargo, si uno "mezcla" números de esas distribuciones, por ejemplo, al tomar números de artículos de periódicos, reaparece la ley de Benford. Esto también se puede probar matemáticamente: si uno repetidamente "aleatoriamente" elige una distribución de probabilidad (de un conjunto no correlacionado) y luego elige aleatoriamente un número de acuerdo con esa distribución, la lista de números resultante obedecerá la ley de Benford. Se ha avanzado una explicación probabilística similar para la aparición de la ley de Benford en los números de la vida cotidiana al mostrar que surge naturalmente cuando se consideran mezclas de distribuciones uniformes.

Invariancia

En una lista de longitudes, la distribución de los primeros dígitos de los números de la lista puede ser generalmente similar independientemente de si todas las longitudes se expresan en metros, yardas, pies, pulgadas, etc. Lo mismo se aplica a las unidades monetarias.

Este no es siempre el caso. Por ejemplo, la altura de los humanos adultos casi siempre comienza con 1 o 2 cuando se mide en metros y casi siempre comienza con 4, 5, 6 o 7 cuando se mide en pies. Pero en una lista de longitudes distribuidas uniformemente en muchos órdenes de magnitud, por ejemplo, una lista de 1000 longitudes mencionadas en artículos científicos que incluyen las medidas de moléculas, bacterias, plantas y galaxias, es razonable esperar que la distribución de los primeros dígitos ser el mismo sin importar si las longitudes están escritas en metros o en pies.

Cuando la distribución de los primeros dígitos de un conjunto de datos es de escala invariante (independientemente de las unidades en las que se expresen los datos), siempre viene dada por la ley de Benford.

Por ejemplo, el primer dígito (distinto de cero) en la lista de longitudes antes mencionada debe tener la misma distribución ya sea que la unidad de medida sea pies o yardas. Pero hay tres pies en una yarda, por lo que la probabilidad de que el primer dígito de una longitud en yardas sea 1 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 3, 4 o 5; De manera similar, la probabilidad de que el primer dígito de una longitud en yardas sea 2 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 6, 7 u 8. Aplicando esto a todas las escalas de medición posibles se obtiene la distribución logarítmica de la ley de Benford.

La ley de Benford para los primeros dígitos es invariante en base para los sistemas numéricos. Hay condiciones y pruebas de invariancia de suma, invariancia inversa e invariancia de suma y resta.

Aplicaciones

Detección de fraude contable

En 1972, Hal Varian sugirió que la ley podría utilizarse para detectar un posible fraude en las listas de datos socioeconómicos presentados en apoyo de las decisiones de planificación pública. Basado en la suposición plausible de que las personas que fabrican cifras tienden a distribuir sus dígitos de manera bastante uniforme, una simple comparación de la distribución de frecuencia del primer dígito de los datos con la distribución esperada de acuerdo con la ley de Benford debería mostrar cualquier resultado anómalo.

Uso en juicios penales

En los Estados Unidos, se han admitido pruebas basadas en la ley de Benford en casos penales a nivel federal, estatal y local.

Datos electorales

Walter Mebane, politólogo y estadístico de la Universidad de Michigan, fue el primero en aplicar la prueba de la ley de Benford de dos dígitos (prueba 2BL) en análisis forense electoral. Dicho análisis se considera un método simple, aunque no infalible, para identificar irregularidades en los resultados electorales. No se ha alcanzado en la literatura un consenso científico para respaldar la aplicabilidad de la ley de Benford a las elecciones. Un estudio de 2011 realizado por los politólogos Joseph Deckert, Mikhail Myagkov y Peter C. Ordeshook argumentó que la ley de Benford es problemática y engañosa como indicador estadístico de fraude electoral. Mebane criticó su método en una respuesta, aunque estuvo de acuerdo en que hay muchas advertencias en la aplicación de la ley de Benford a los datos electorales.

La ley de Benford se ha utilizado como prueba de fraude en las elecciones iraníes de 2009. Un análisis realizado por Mebane encontró que los segundos dígitos en el conteo de votos para el presidente Mahmoud Ahmadinejad, el ganador de la elección, tendían a diferir significativamente de las expectativas de la ley de Benford, y que las urnas con muy pocas boletas inválidas tenían un una mayor influencia en los resultados, lo que sugiere un relleno electoral generalizado. Otro estudio usó simulaciones de arranque para encontrar que el candidato Mehdi Karroubi recibió casi el doble de votos comenzando con el dígito 7 de lo que se esperaría de acuerdo con la ley de Benford, mientras que un análisis de la Universidad de Columbia concluyó que la probabilidad de que una justa Las elecciones producirían muy pocos dígitos no adyacentes y las desviaciones sospechosas en las frecuencias de los últimos dígitos que se encontraron en las elecciones presidenciales iraníes de 2009 son inferiores al 0,5 por ciento. La ley de Benford también se ha aplicado para la auditoría forense y la detección de fraude en los datos de las elecciones para gobernador de California de 2003, las elecciones presidenciales de Estados Unidos de 2000 y 2004 y las elecciones federales alemanas de 2009; se encontró que la Prueba de la Ley de Benford 'valía la pena tomarla en serio como prueba estadística para el fraude', aunque "no es sensible a las distorsiones que sabemos que afectaron significativamente muchos votos".

La ley de Benford también se ha aplicado incorrectamente para denunciar fraude electoral. Al aplicar la ley a los resultados electorales de Joe Biden para Chicago, Milwaukee y otras localidades en las elecciones presidenciales de Estados Unidos de 2020, la distribución del primer dígito no siguió la ley de Benford. La aplicación incorrecta fue el resultado de observar datos que tenían un rango muy limitado, lo que viola la suposición inherente a la ley de Benford de que el rango de los datos es grande. La prueba del primer dígito se aplicó a los datos a nivel de distrito electoral, pero debido a que los distritos electorales rara vez reciben más de unos pocos miles de votos o menos de varias docenas, no se puede esperar que se aplique la ley de Benford. Según Mebane, "Se entiende ampliamente que los primeros dígitos de los recuentos de votos del precinto no son útiles para tratar de diagnosticar fraudes electorales".

Datos macroeconómicos

Del mismo modo, se demostró que los datos macroeconómicos que el gobierno griego informó a la Unión Europea antes de ingresar a la eurozona eran probablemente fraudulentos utilizando la ley de Benford, aunque años después de que el país ingresara.

Análisis de dígitos de precios

La ley de Benford como punto de referencia para la investigación de dígitos de precios se ha introducido con éxito en el contexto de la investigación de precios. La importancia de este punto de referencia para detectar irregularidades en los precios se demostró por primera vez en un estudio a nivel europeo que investigó los dígitos de los precios al consumidor antes y después de la introducción del euro para los ajustes de precios. La introducción del euro en 2002, con sus distintos tipos de cambio, distorsionó los patrones de precios nominales existentes y al mismo tiempo mantuvo los precios reales. Si bien los primeros dígitos de los precios nominales se distribuyeron de acuerdo con la ley de Benford, el estudio mostró una clara desviación de este punto de referencia para el segundo y tercer dígito de los precios nominales de mercado con una clara tendencia hacia la fijación de precios psicológicos después del choque nominal del euro. introducción.

Datos del genoma

El número de marcos de lectura abiertos y su relación con el tamaño del genoma difiere entre eucariotas y procariotas; los primeros muestran una relación logarítmica lineal y los segundos una relación lineal. Se ha utilizado la ley de Benford para probar esta observación con un excelente ajuste a los datos en ambos casos.

Detección científica de fraude

Una prueba de coeficientes de regresión en artículos publicados mostró concordancia con la ley de Benford. Como grupo de comparación, se pidió a los sujetos que fabricaran estimaciones estadísticas. Los resultados fabricados se ajustaron a la ley de Benford en los primeros dígitos, pero no obedecieron la ley de Benford en los segundos dígitos.

Pruebas estadísticas

Aunque la prueba de chi-cuadrado se ha utilizado para comprobar el cumplimiento de la ley de Benford, tiene poca potencia estadística cuando se utiliza con muestras pequeñas.

La prueba de Kolmogorov-Smirnov y la prueba de Kuiper son más potentes cuando el tamaño de la muestra es pequeño, especialmente cuando se utiliza el factor correctivo de Stephens. Estas pruebas pueden ser indebidamente conservadoras cuando se aplican a distribuciones discretas. Los valores para la prueba de Benford han sido generados por Morrow. Los valores críticos de las estadísticas de prueba se muestran a continuación:

$⍺$ Prueba	0.10	0,05	0,01
Kuiper	1.191	1.321	1.579
Kolmogorov–Smirnov	1.012	1.148	1.420

Estos valores críticos proporcionan los valores estadísticos de prueba mínimos necesarios para rechazar la hipótesis de cumplimiento de la ley de Benford en los niveles de significancia dados.

Se han publicado dos pruebas alternativas específicas para esta ley: primero, la estadística máxima ( $m$ ) está dada por

{displaystyle m={sqrt {N}}cdot max _{k=1}^{9}left{left|Pr left(X{text{ has FSD}}=kright)-log _{10}left(1+{frac {1}{k}}right)right|right}.}

El factor principal $sqrt{N}$ no aparece en la fórmula original de Leemis; fue agregado por Morrow en un papel posterior.

En segundo lugar, la estadística de distancia ( $d$ ) viene dada por

{displaystyle d={sqrt {Ncdot sum _{l=1}^{9}left[Pr left(X{text{ has FSD}}=lright)-log _{10}left(1+{frac {1}{l}}right)right]^{2}}},}

donde FSD es el primer dígito significativo y $N$ es el tamaño de la muestra. Morrow ha determinado los valores críticos para estas dos estadísticas, que se muestran a continuación:

$⍺$ Estadística	0.10	0,05	0,01
Leemis $m$	0.851	0.967	1.212
Cho ' Gaines's $d$	1.212	1.330	1.569

Morrow también ha mostrado que para cualquier variable aleatoria $X$ (con un PDF continuo) dividido por su desviación estándar ( $σ$ ), algún valor $A$ se puede encontrar para que la probabilidad de la distribución del primer dígito significativo de la variable aleatoria ${displaystyle |X/sigma |^{A}}$ difiere de la ley de Benford por menos que $ε$ ■ 0. El valor de $A$ depende del valor $ε$ y la distribución de la variable aleatoria.

Se ha propuesto un método de detección de fraude contable basado en bootstrapping y regresión.

Si el objetivo es llegar a un acuerdo con la ley de Benford en lugar de un desacuerdo, entonces las pruebas de bondad de ajuste mencionadas anteriormente son inapropiadas. En este caso se deberán aplicar las pruebas específicas de equivalencia. Una distribución empírica se denomina equivalente a la ley de Benford si la distancia (por ejemplo, la distancia de variación total o la distancia euclidiana habitual) entre las funciones de masa de probabilidad es suficientemente pequeña. Este método de prueba con aplicación a la ley de Benford se describe en Ostrovski.

Rango de aplicabilidad

Distribuciones conocidas por obedecer la ley de Benford

Algunas sucesiones enteras infinitas bien conocidas satisfacen la ley de Benford exactamente (en el límite asintótico a medida que se incluyen más y más términos de la sucesión). Entre estos se encuentran los números de Fibonacci, los factoriales, las potencias de 2 y las potencias de casi cualquier otro número.

Del mismo modo, algunos procesos continuos cumplen exactamente la ley de Benford (en el límite asintótico a medida que el proceso continúa en el tiempo). Uno es un proceso de crecimiento o decrecimiento exponencial: si una cantidad aumenta o disminuye exponencialmente en el tiempo, entonces el porcentaje de tiempo que tiene cada primer dígito satisface asintóticamente la ley de Benford (es decir, aumenta la precisión a medida que el proceso continúa a través del tiempo).

Distribuciones conocidas por desobedecer la ley de Benford

Las raíces cuadradas y los recíprocos de los números naturales sucesivos no obedecen a esta ley. Los números primos en un rango finito siguen una ley de Benford generalizada, que se acerca a la uniformidad a medida que el tamaño del rango se acerca al infinito. Las listas de números de teléfono locales violan la ley de Benford. La ley de Benford es violada por las poblaciones de todos los lugares con una población de al menos 2500 individuos de cinco estados de EE. UU. según los censos de 1960 y 1970, donde solo el 19 % comenzó con el dígito 1 pero el 20 % comenzó con el dígito 2. porque el truncamiento en 2500 introduce un sesgo estadístico. Los dígitos terminales en los informes de patología violan la ley de Benford debido al redondeo.

Las distribuciones que no abarcan varios órdenes de magnitud no seguirán la ley de Benford. Los ejemplos incluyen estatura, peso y puntajes de coeficiente intelectual.

Criterios para las distribuciones que se espera y no se espera que obedezcan la ley de Benford

Se han sugerido una serie de criterios, aplicables en particular a los datos contables, donde se puede esperar que se aplique la ley de Benford.

Distribución que se puede esperar para obedecer la ley de Benford

Cuando la media es mayor que la mediana y el ojo es positivo
Números que resultan de la combinación matemática de números: por ejemplo cantidad × precio
Datos del nivel de transacción: por ejemplo, desembolsos, ventas

Distribución que no se espera que obedezca la ley de Benford

Cuando se asignan números secuencialmente: por ejemplo, números de comprobación, números de factura
Donde los números están influenciados por el pensamiento humano: por ejemplo, precios fijados por umbrales psicológicos (9,99 dólares)
Cuentas con un gran número de números fijos: por ejemplo, cuentas establecidas para registrar reembolsos de $100
Cuentas con un mínimo incorporado o máximo
Distribución que no abarca un orden de magnitud de números.

Teorema de cumplimiento de la ley de Benford

Matemáticamente, la ley de Benford se aplica si la distribución que se está probando se ajusta al "teorema de cumplimiento de la ley de Benford". La derivación dice que se sigue la ley de Benford si la transformada de Fourier del logaritmo de la función de densidad de probabilidad es cero para todos los valores enteros. En particular, esto se cumple si la transformada de Fourier es cero (o insignificante) para n ≥ 1. Esto se cumple si la distribución es amplia (dado que la distribución amplia implica una transformada de Fourier estrecha). Smith resume así (p. 716):

La ley de Benford es seguida por distribuciones que son amplias en comparación con la distancia unitaria a lo largo de la escala logarítmica. Asimismo, la ley no es seguida por distribuciones que son estrechas en comparación con la distancia unitaria... Si la distribución es amplia en comparación con la distancia unitaria en el eje del tronco, significa que la diseminación en el conjunto de números que se examinan es mucho mayor que diez.

En resumen, la ley de Benford requiere que los números en la distribución que se mide tengan una dispersión de al menos un orden de magnitud.

Pruebas con distribuciones comunes

La ley de Benford se probó empíricamente con los números (hasta el décimo dígito) generados por varias distribuciones importantes, incluida la distribución uniforme, la distribución exponencial, la distribución normal y otras.

La distribución uniforme, como era de esperar, no obedece la ley de Benford. Por el contrario, la distribución de razón de dos distribuciones uniformes está bien descrita por la ley de Benford.

Ni la distribución normal ni la distribución de razón de dos distribuciones normales (la distribución de Cauchy) obedecen la ley de Benford. Aunque la distribución seminormal no obedece a la ley de Benford, la distribución de razón de dos distribuciones seminormales sí lo hace. Ni la distribución normal truncada por la derecha ni la distribución de razón de dos distribuciones normales truncadas por la derecha están bien descritas por la ley de Benford. Esto no es sorprendente ya que esta distribución se inclina hacia números más grandes.

La ley de Benford también describe bien la distribución exponencial y la distribución de razón de dos distribuciones exponenciales. El ajuste de la distribución chi-cuadrado depende de los grados de libertad (gl) con un buen acuerdo con gl = 1 y un acuerdo decreciente a medida que aumenta el gl. La distribución F está bien ajustada para bajos grados de libertad. Con el aumento de dfs, el ajuste disminuye pero mucho más lentamente que la distribución chi-cuadrado. El ajuste de la distribución log-normal depende de la media y la varianza de la distribución. La varianza tiene un efecto mucho mayor sobre el ajuste que la media. Los valores más grandes de ambos parámetros dan como resultado un mejor acuerdo con la ley. El cociente de dos distribuciones logarítmicas normales es un logaritmo normal, por lo que no se examinó esta distribución.

Otras distribuciones que se han examinado incluyen la distribución de Muth, la distribución de Gompertz, la distribución de Weibull, la distribución gamma, la distribución log-logística y la distribución de potencia exponencial, todas las cuales muestran un acuerdo razonable con la ley. La distribución de Gumbel, una densidad aumenta con el aumento del valor de la variable aleatoria, no muestra acuerdo con esta ley.

Generalización a dígitos más allá de la primera

(feminine)

Gráfico de registro de la probabilidad de que un número comience con el dígito(s) nPara una distribución que satisfaga la ley de Benford. Los puntos muestran la fórmula exacta, P()n) = registro₁₀(1 + 1/n). El gráfico tiende hacia el asinto destrozado pasando por (1, registro₁₀e) con pendiente −1 en escala log-log. El ejemplo en amarillo muestra que la probabilidad de un número comienza con 314 es alrededor de 0.00138. Las líneas punteadas muestran las probabilidades de una distribución uniforme para la comparación. (In) la imagen SVG, pasar por encima de un punto para mostrar sus valores.)

Es posible extender la ley a dígitos más allá del primero. En particular, para cualquier número dado de dígitos, la probabilidad de encontrar un número que comience con la cadena de dígitos n de esa longitud, descartando los ceros iniciales, viene dada por

{displaystyle log _{10}(n+1)-log _{10}(n)=log _{10}left(1+{frac {1}{n}}right).}

Por ejemplo, la probabilidad de que un número comience con los dígitos 3, 1, 4 es $log 10 (1 + 1/314) \approx 0,00138$ , como en la figura de la derecha. Los números que satisfacen esto incluyen 3.14159..., 314285.7... y 0.00314465....

Este resultado se puede usar para encontrar la probabilidad de que un dígito en particular aparezca en una posición dada dentro de un número. Por ejemplo, la probabilidad de que un "2" se encuentra como el segundo dígito es

{displaystyle log _{10}left(1+{frac {1}{12}}right)+log _{10}left(1+{frac {1}{22}}right)+cdots +log _{10}left(1+{frac {1}{92}}right)approx 0.109.}

Y la probabilidad de que d (d = 0, 1,..., 9) se encuentre como el n-ésimo (n > 1) el dígito es

{displaystyle sum _{k=10^{n-2}}^{10^{n-1}-1}log _{10}left(1+{frac {1}{10k+d}}right).}

La distribución del n-ésimo dígito, a medida que aumenta n, se acerca rápidamente a una distribución uniforme con un 10 % para cada uno de los diez dígitos, como se muestra a continuación. Con frecuencia, cuatro dígitos son suficientes para suponer una distribución uniforme del 10 % como "0" aparece el 10,0176 % de las veces en el cuarto dígito, mientras que "9" aparece el 9,9824% de las veces.

Digit	0	1	2	3	4	5	6	7	8	9
1a	—	30,1%	17.6%	12.5%	9,7%	7,9%	6,7%	5,8%	5,1%	4.6%
2a	12.0%	11,4%	10,9%	10,4%	10.0%	9,7%	9,3%	9.0%	8.8%	8.5%
3a	10,2%	10,1%	10,1%	10,1%	10.0%	10.0%	9,9%	9,9%	9,9%	9.8%

Momentos

Se han calculado promedios y momentos de variables aleatorias para los dígitos 1 a 9 siguiendo esta ley:

promedio 3.440
varianza 6.057
Skewness 0.796
kurtosis −0.548

Para la distribución de dos dígitos según la ley de Benford también se conocen estos valores:

promedio 38.590
diferencia 621.832
skewness 0.772
kurtosis −0,547

Está disponible una tabla de probabilidades exactas para la ocurrencia conjunta de los dos primeros dígitos según la ley de Benford, así como la correlación de población entre el primer y el segundo dígito: ρ = 0,0561.

En la cultura popular

La ley de Benford ha aparecido como un recurso argumental en algunos entretenimientos populares del siglo XXI.

El drama de la televisión NUMB3RS usó la ley de Benford en el episodio 2006 "El Hombre Corredor" para ayudar a resolver una serie de robos altos.
La película 2016 El Contable se basó en la ley de Benford para exponer el robo de fondos de una empresa robótica.
La serie Netflix 2017 Ozark utilizó la ley de Benford para analizar los estados financieros de un miembro del cártel y descubrir el fraude.
La novela de Jeremy Robinson 2021 Infinito 2 aplicó la ley de Benford para probar si los personajes están en una simulación o realidad.

Contenido relacionado

Más resultados...