Ley de Zipf

Compartir Imprimir Citar

Ley de Zipf (, Alemán: [ts͡ɪpf]) es una ley empírica formulada usando estadísticas matemáticas que se refiere al hecho de que para muchos tipos de datos estudiados en las ciencias físicas y sociales, la distribución de frecuencia de rango es inversa relación. La distribución de Zipfian es una de una familia de distribuciones de probabilidad de ley de potencias discretas relacionadas. Está relacionado con la distribución zeta, pero no es idéntico.

La ley de Zipf se formuló originalmente en términos de lingüística cuantitativa y establece que, dado un corpus de expresiones del lenguaje natural, la frecuencia de cualquier palabra es inversamente proporcional a su rango en la tabla de frecuencia. Por lo tanto, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, tres veces más que la tercera palabra más frecuente, etc. Por ejemplo, en el texto del Brown Corpus of American English, la palabra "< i>el" es la palabra que aparece con más frecuencia y por sí sola representa casi el 7 % de todas las apariciones de palabras (69 971 de un poco más de 1 millón). Fiel a la Ley de Zipf, la palabra de segundo lugar "de" representa un poco más del 3,5% de las palabras (36.411 apariciones), seguido de "y" (28.852). Solo se necesitan 135 elementos de vocabulario para dar cuenta de la mitad del Brown Corpus.

La ley lleva el nombre del lingüista estadounidense George Kingsley Zipf, quien la popularizó y trató de explicarla, aunque no afirmó haberla originado. El taquígrafo francés Jean-Baptiste Estoup parece haber notado la regularidad antes de Zipf. También fue observado en 1913 por el físico alemán Felix Auerbach.

La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Benford.

Otros conjuntos de datos

La misma relación ocurre en muchas otras clasificaciones de sistemas creados por humanos, como las clasificaciones de expresiones matemáticas o las clasificaciones de notas en la música e incluso en entornos no controlados, como el tamaño de las corporaciones, las clasificaciones de ingresos, las clasificaciones del número de personas que miran el mismo canal de TV, celdas' transcriptomas, etc. La aparición de la distribución en las clasificaciones de ciudades por población fue notada por primera vez por Felix Auerbach en 1913, lo que llevó a una amplia literatura de la ley de ciudades de Zipf. Sin embargo, estudios teóricos y empíricos más recientes han cuestionado la relevancia de la ley de Zipf para las ciudades.

Desde el punto de vista empírico, se puede probar un conjunto de datos para ver si se aplica la ley de Zipf comprobando la bondad de ajuste de una distribución empírica a la distribución hipotética de la ley de potencia con una prueba de Kolmogorov-Smirnov, y luego comparando el (log) razón de verosimilitud de la distribución de la ley de potencia a distribuciones alternativas como una distribución exponencial o una distribución lognormal.

Revisión teórica

La ley de Zipf se observa más fácilmente trazando los datos en un gráfico logarítmico, siendo los ejes el logaritmo de orden de rango y el logaritmo de frecuencia. Por ejemplo, como se describe en la introducción, la palabra "the" aparecería en x< /span> = log(1) (rango de orden = 1) y y = log (69 971). También es posible trazar el rango recíproco contra la frecuencia o la frecuencia recíproca o el intervalo entre palabras contra el rango. Los datos se ajustan a la ley de Zipf en la medida en que la gráfica es lineal.

Formalmente, defina:

N ser el número de elementos;
k su rango;
s el valor del exponente caracterizando la distribución (s al menos 1).

La ley de Zipf predice entonces que de una población de N elementos, el elemento de rango de orden k, tiene la frecuencia normalizada f(k; s, N):

La ley de Zipf sostiene si el número de elementos con una frecuencia determinada es una variable aleatoria con distribución de la ley de poder ()fk es el valor de la expresión inmediatamente anterior).

Se ha afirmado que esta representación de la ley de Zipf es más adecuada para pruebas estadísticas y, de esta forma, se ha analizado en más de 30 000 textos en inglés. Las pruebas de bondad de ajuste arrojan que solo alrededor del 15% de los textos son estadísticamente compatibles con esta forma de la ley de Zipf. Ligeras variaciones en la definición de la ley de Zipf pueden incrementar este porcentaje hasta cerca del 50%.

En el ejemplo de la frecuencia de palabras en el idioma inglés, N es el número de palabras en el idioma inglés y, si usamos la versión clásica de la ley de Zipf, el exponente caracterizador s es 1 (mínimo posible). El valor f(k; s, N< /i>) será la fracción de tiempo en que aparece la késima palabra más común.

La ley también puede escribirse:

donde HN,s es el N‑ésimo número armónico generalizado.

El caso más simple de la ley de Zipf es un "1/f" función, con s = 1. Dado un conjunto de frecuencias distribuidas por Zipf, ordenados de más común a menos común, la segunda frecuencia más común ocurrirá la mitad de la frecuencia que la primera, la tercera frecuencia más común ocurrirá 1/3 tan a menudo como el primero, y la n‑ésima frecuencia más común ocurrirá 1/n con la misma frecuencia que el primero. Sin embargo, esto no puede ser exacto: debido a que los elementos deben aparecer un número entero de veces, no puede haber 2,5 apariciones de una palabra. Sin embargo, en rangos bastante amplios y con una aproximación bastante buena, muchos fenómenos naturales obedecen la ley de Zipf.

En los lenguajes humanos, las frecuencias de las palabras tienen una distribución de cola muy pesada y, por lo tanto, pueden modelarse razonablemente bien mediante una distribución Zipf con un s cerca de 1.

Mientras el exponente s exceda de 1, es posible que tal ley se cumpla con infinitas palabras, ya que si s > 1 luego

donde ζ es la función zeta de Riemann.

Explicación estadística

Una trama de rango versus frecuencia para las primeras 10 millones de palabras en 30 Wikipedias (dumps de octubre de 2015) en una escala de registro.

Aunque la ley de Zipf se aplica a todos los idiomas, incluso a los no naturales como el esperanto, la razón aún no se comprende bien. Sin embargo, puede explicarse parcialmente por el análisis estadístico de textos generados aleatoriamente. Wentian Li ha demostrado que en un documento en el que cada carácter se ha elegido al azar de una distribución uniforme de todas las letras (más un carácter de espacio), las "palabras" con diferentes longitudes siguen la macrotendencia de la ley de Zipf (las palabras más probables son las más cortas con igual probabilidad). Vitold Belevitch, en un artículo titulado Sobre las leyes estadísticas de la distribución lingüística, ofrece una derivación matemática. Tomó una gran clase de distribuciones estadísticas de buen comportamiento (no solo la distribución normal) y las expresó en términos de rango. Luego expandió cada expresión en una serie de Taylor. En todos los casos, Belevitch obtuvo el notable resultado de que un truncamiento de primer orden de la serie dio como resultado la ley de Zipf. Además, un truncamiento de segundo orden de la serie de Taylor resultó en la ley de Mandelbrot.

El principio del mínimo esfuerzo es otra posible explicación: El mismo Zipf propuso que ni los hablantes ni los oyentes que usan un idioma determinado quieren esforzarse más de lo necesario para lograr la comprensión, y el proceso que da como resultado una distribución del esfuerzo aproximadamente igual conduce a la distribución Zipf observada.

Del mismo modo, se ha demostrado que el apego preferencial (intuitivamente, "los ricos se hacen más ricos" o "el éxito engendra éxito") que da como resultado la distribución Yule-Simon se ajusta a la frecuencia de palabras frente al rango. en idioma y población versus rango de ciudad mejor que la ley de Zipf. Yule lo derivó originalmente para explicar la población frente al rango en especies, y Simon lo aplicó a las ciudades.

Explicación matemática

Los

modelos Atlas son sistemas de procesos de difusión de valores positivos intercambiables con parámetros de deriva y varianza que dependen únicamente del rango del proceso. Se ha demostrado matemáticamente que la ley de Zipf se cumple para los modelos de Atlas que satisfacen ciertas condiciones de regularidad natural. Los modelos Atlas se pueden utilizar para representar sistemas empíricos de datos multivariados dependientes del tiempo, incluidos, por ejemplo, la frecuencia de palabras en un idioma escrito o el tamaño de las empresas. Un modelo de Atlas que representa un sistema empírico tendrá la misma distribución estacionaria que el sistema empírico, por lo que si el modelo de Atlas sigue la ley de Zipf, el sistema también seguirá la ley de Zipf. Dado que los modelos de Atlas que satisfacen las condiciones de regularidad natural siguen la ley de Zipf, esto explica su universalidad.

En la figura anterior de los 10 millones de palabras de Wikipedia, los diagramas logarítmicos no son precisamente líneas rectas sino curvas ligeramente cóncavas con una tangente de pendiente -1 en algún punto a lo largo de la curva. Estas distribuciones generalmente se denominan distribuciones cuasi-Zipfianas, y la mayoría de los sistemas de datos empíricos dependientes del tiempo que se dice que siguen la ley de Zipf son en realidad cuasi-Zipfianos. Los sistemas cuasi-Zipfianos pueden representarse mediante modelos cuasi-Atlas, y los modelos cuasi-Atlas son susceptibles de un tratamiento matemático similar al de la ley de Zipf.

Leyes relacionadas

Una trama de frecuencia de palabras en Wikipedia (27 de noviembre de 2006). La parcela está en coordenadas log-log. xes rango de una palabra en la tabla de frecuencias; Sí.es el número total de ocurrencias de la palabra. Las palabras más populares son "el", "de" y "y", como se esperaba. La ley de Zipf corresponde a la parte lineal media de la curva, aproximadamente siguiendo el verde (1/x) línea, mientras que la parte temprana está más cerca de los magenta (1/x0.5) línea mientras que la parte posterior está más cerca del cian (1/(k+x)2.0Línea. Estas líneas corresponden a tres parametrizaciones distintas de la distribución Zipf-Mandelbrot, en general una ley de poder rota con tres segmentos: una cabeza, media y cola.

La ley de Zipf de hecho se refiere de manera más general a las distribuciones de frecuencia de "datos de rango", en las que la frecuencia relativa de n El elemento clasificado como th está dado por la distribución zeta, 1/(nsζ(s )), donde el parámetro s > 1 indexa los miembros de esta familia de distribuciones de probabilidad. De hecho, la ley de Zipf a veces es sinónimo de "distribución zeta", ya que las distribuciones de probabilidad a veces se denominan "leyes". Esta distribución a veces se denomina distribución Zipfian.

Una generalización de la ley de Zipf es la ley de Zipf-Mandelbrot, propuesta por Benoit Mandelbrot, cuyas frecuencias son:

La "constante" es el recíproco de la función zeta de Hurwitz evaluada en s. En la práctica, tan fácilmente observable en gráficos de distribución para grandes corpus, la distribución observada se puede modelar con mayor precisión como una suma de distribuciones separadas para diferentes subconjuntos o subtipos de palabras que siguen diferentes parametrizaciones de la distribución Zipf-Mandelbrot, en particular la clase cerrada de palabras funcionales muestran s menor que 1, mientras que el crecimiento del vocabulario abierto con el tamaño del documento y el tamaño del corpus requiere s mayor que 1 para la convergencia de la serie armónica generalizada.

Las distribuciones zipfianas se pueden obtener a partir de las distribuciones de Pareto mediante un intercambio de variables.

La distribución Zipf a veces se denomina distribución de Pareto discreta porque es análoga a la distribución de Pareto continua de la misma manera que la distribución uniforme discreta es análoga a la distribución uniforme continua.

Las frecuencias de cola de la distribución Yule-Simon son aproximadamente

para cualquier elección de ρ > 0.

En la distribución fractal parabólica, el logaritmo de la frecuencia es un polinomio cuadrático del logaritmo del rango. Esto puede mejorar notablemente el ajuste sobre una simple relación de ley de potencia. Al igual que la dimensión fractal, es posible calcular la dimensión Zipf, que es un parámetro útil en el análisis de textos.

Se ha argumentado que la ley de Benford es un caso especial acotado de la ley de Zipf, y la conexión entre estas dos leyes se explica porque ambas se originan a partir de relaciones funcionales invariantes de escala de la física estadística y crítica. fenómenos. Las razones de probabilidades en la ley de Benford no son constantes. Los primeros dígitos de los datos que satisfacen la ley de Zipf con s = 1 satisfacen la ley de Benford.

La ley de Benford:
1 0,0103000
2 0.17609126 −0.7735840
3 0.12493874 −0.8463832
4 0,09691001 −0.8830605
5 0,07918125 −0.9054412
6 0,06694679 −0,9205788
7 0,05799195 −0.9315169
8 0,05115252 −0.9397966
9 0,04575749 −0.9462848

Aplicaciones

En teoría de la información, un símbolo (evento, señal) de probabilidad contiene bits de información. Por lo tanto, Ley de Zipf para números naturales: es equivalente con número que contiene bits de información. Para añadir información de un símbolo de probabilidad información ya almacenada en un número natural Deberíamos ir tales que , o equivalente . Por ejemplo, en el sistema binario estándar tendríamos , lo que es óptimo distribución de probabilidad. Uso regla para una distribución general de probabilidad es la base de [[sistema de numeral asimétrico]s] familia de métodos de codificación entropía utilizados en la compresión de datos, cuya distribución estatal también se rige por la ley de Zipf.

La ley de Zipf se ha utilizado para extraer fragmentos paralelos de textos de corpus comparables. La ley de Zipf también ha sido utilizada por Laurance Doyle y otros en el Instituto SETI como parte de la búsqueda de inteligencia extraterrestre.

El Manuscrito Voynich, que es un códice del siglo XV, también se ajusta a la ley de Zipf, lo que indica que lo más probable es que el texto no sea un engaño, sino que esté escrito en un lenguaje oscuro o cifrado.