Índice de diversidad

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
¿Cuántos tipos diferentes están en un conjunto de datos

Un índice de diversidad es una medida cuantitativa que refleja cuántos tipos diferentes (por ejemplo, especies) hay en un conjunto de datos (por ejemplo, una comunidad). Índices más sofisticados que explican la relación filogenética entre los tipos. Los índices de diversidad son representaciones estadísticas de diferentes aspectos de la biodiversidad (por ejemplo, riqueza, uniformidad y dominancia), que son simplificaciones útiles para comparar diferentes comunidades o sitios.

Número efectivo de especies o números de Hill

Cuando se utilizan índices de diversidad en ecología, los tipos de interés suelen ser especies, pero también pueden ser otras categorías, como géneros, familias, tipos funcionales o haplotipos. Las entidades de interés suelen ser organismos individuales (por ejemplo, plantas o animales), y la medida de abundancia puede ser, por ejemplo, el número de individuos, la biomasa o la cobertura. En demografía, las entidades de interés pueden ser personas y los tipos de interés, distintos grupos demográficos. En ciencias de la información, las entidades pueden ser caracteres y los tipos de las diferentes letras del alfabeto. Los índices de diversidad más comúnmente utilizados son transformaciones simples del número efectivo de tipos (también conocidas como "diversidad verdadera"), pero cada índice de diversidad también puede interpretarse por derecho propio como una medida correspondiente a algún fenómeno real. (pero uno diferente para cada índice de diversidad).

Muchos índices sólo representan la diversidad categórica entre sujetos o entidades. Estos índices, sin embargo, no representan la variación total (diversidad) que se puede realizar entre sujetos o entidades que sólo ocurre cuando se calcula la diversidad categórica y cualitativa.

La verdadera diversidad, o el número efectivo de tipos, se refiere al número de tipos igualmente abundantes necesarios para la abundancia proporcional promedio de los tipos a igual que se observa en el conjunto de datos de interés (donde todos los tipos pueden no ser igualmente abundantes). La verdadera diversidad en un conjunto de datos se calcula tomando primero el medio generalizado ponderado Mq−1 de las abundancias proporcionales de los tipos en el conjunto de datos, y luego tomar el recíproco de esto. La ecuación es:

qD=1Mq− − 1=1. . i=1Rpipiq− − 1q− − 1=(). . i=1Rpiq)1/()1− − q){displaystyle {}{q}!D={1 over M_{q-1}={1 over {sqrt[{q-1}}{sum ¿Por qué? ¿Por qué?

El denominador Mq−1 iguala la abundancia proporcional promedio de los tipos en el conjunto de datos según calculado con el medio generalizado ponderado con exponente q − 1. En la ecuación, R es riqueza (el número total de tipos en el conjunto de datos), y la abundancia proporcional de la it tipo es pi. Las abundancias proporcionales se utilizan como pesos nominales. Los números qD{displaystyle ^{q}D} se llaman Hill números de orden q o número efectivo de especies.

Cuando q = 1, la ecuación anterior no está definida. Sin embargo, el límite matemático cuando q se acerca a 1 está bien definido y la diversidad correspondiente se calcula con la siguiente ecuación:

1D=1∏ ∏ i=1Rpipi=exp⁡ ⁡ ()− − . . i=1RpiIn⁡ ⁡ ()pi)){displaystyle {}{1}! D={1 over {prod {cHFF}=fn}=fnfnfnh}=fnfnhfnfnK} ¿Por qué?

que es el exponencial de la entropía de Shannon calculada con logaritmos naturales (ver arriba). En otros ámbitos, esta estadística también se conoce como perplejidad.

La ecuación general de diversidad a menudo se escribe en la forma

qD=(). . i=1Rpiq)1/()1− − q){displaystyle {fnMicrosoft Sans Serif} ¿Por qué?

y el término dentro del paréntesis se llama suma básica. Algunos índices de diversidad populares corresponden a la suma básica calculada con diferentes valores de q.

Sensibilidad del valor de diversidad para especies raras versus abundantes

El valor de q a menudo se denomina orden de la diversidad. Define la sensibilidad de la verdadera diversidad entre especies raras versus abundantes modificando cómo se mide la media ponderada de las especies. Se calculan las abundancias proporcionales. Con algunos valores del parámetro q, el valor de la media generalizada Mq−1 asume tipos familiares de medias ponderadas como casos especiales. En particular,

  • q = 0 corresponde a la media armónica ponderada,
  • q = 1 a la media geométrica ponderada, y
  • q = 2 a la media aritmética ponderada.
  • As q enfoques infinito, el medio generalizado ponderado con exponente q − 1 acerca del máximo pi valor, que es la abundancia proporcional de las especies más abundantes en el conjunto de datos.

Generalmente, aumentar el valor de q aumenta el peso efectivo asignado a las especies más abundantes. Esto lleva a obtener un valor Mq−1 mayor y una diversidad verdadera menor ( qD) valor con q.

Cuando q = 1, la media geométrica ponderada de pi, y cada especie se pondera exactamente por su abundancia proporcional (en la media geométrica ponderada, los pesos son los exponentes). Cuando q > 1, el peso dado a las especies abundantes es exagerado, y cuando q < 1, el peso dado a las especies raras es. En q = 0, las ponderaciones de las especies cancelan exactamente las abundancias proporcionales de las especies, de modo que la media ponderada de las Los valores pi equivalen a 1 / R incluso cuando no todas las especies son igualmente abundantes. En q = 0, el número efectivo de especies, 0D , por lo tanto, es igual al número real de especies R. En el contexto de la diversidad, q generalmente se limita a valores no negativos. Esto se debe a que los valores negativos de q darían a las especies raras mucho más peso que a las abundantes, por lo que qD excedería R.

Riqueza

Riqueza R simplemente cuantifica cuántos tipos diferentes contiene el conjunto de datos de interés. Por ejemplo, la riqueza de especies (normalmente denominada S) es simplemente el número de especies, p. en un sitio en particular. La riqueza es una medida simple, por lo que ha sido un índice de diversidad popular en ecología, donde los datos de abundancia a menudo no están disponibles. Si la verdadera diversidad se calcula con q = 0, el número efectivo de tipos (0D) es igual al número real de tipos, que es idéntico a Riqueza (R).

Índice de Shannon

El índice de Shannon ha sido un índice de diversidad popular en la literatura ecológica, donde también se lo conoce como índice de diversidad de Shannon, Shannon– Índice de Wiener y (erróneamente) índice de Shannon-Weaver. La medida fue propuesta originalmente por Claude Shannon en 1948 para cuantificar la entropía (de ahí la entropía de Shannon, relacionada con el contenido de información de Shannon) en cadenas de texto. La idea es que cuantas más letras haya y cuanto más cercanas sean sus abundancias proporcionales en la cadena de interés, más difícil será predecir correctamente qué letra será la siguiente en la cadena. La entropía de Shannon cuantifica la incertidumbre (entropía o grado de sorpresa) asociada a esta predicción. Generalmente se calcula de la siguiente manera:

H.=− − . . i=1RpiIn⁡ ⁡ pi{displaystyle H'=-sum ¿Por qué? P_{i}

donde pi es la proporción de caracteres que pertenecen a la clase iésimo tipo de letra en la cadena de interés. En ecología, pi es a menudo la proporción de individuos que pertenecen a la iésima especie en el conjunto de datos de interés. Luego, la entropía de Shannon cuantifica la incertidumbre al predecir la identidad de especie de un individuo tomado al azar del conjunto de datos.

Aunque la ecuación está escrita aquí con logaritmos naturales, la base del logaritmo utilizada al calcular la entropía de Shannon se puede elegir libremente. El propio Shannon analizó las bases de los logaritmos 2, 10 y e, y desde entonces éstas se han convertido en las bases más populares en aplicaciones que utilizan la entropía de Shannon. Cada base logarítmica corresponde a una unidad de medida diferente, que se ha denominado dígitos binarios (bits), dígitos decimales (decits) y dígitos naturales (nats) para las bases 2, 10 y e, respectivamente. Comparar los valores de entropía de Shannon que se calcularon originalmente con diferentes bases logarítmicas requiere convertirlos a la misma base logarítmica: cambiar de la base a a la base b se obtiene multiplicando por logba .

El índice de Shannon (H') está relacionado con la media geométrica ponderada de las abundancias proporcionales de los tipos. Específicamente, equivale al logaritmo de la diversidad verdadera calculada con q = 1:

H.=− − . . i=1RpiIn⁡ ⁡ pi=− − . . i=1RIn⁡ ⁡ pipi{displaystyle H'=-sum ¿Por qué? p_{i}=-sum ¿Qué? ¿Qué?

Esto también se puede escribir

H.=− − ()In⁡ ⁡ p1p1+In⁡ ⁡ p2p2+In⁡ ⁡ p3p3+⋯ ⋯ +In⁡ ⁡ pRpR){displaystyle H'=-(ln ¿Por qué? ¿Por qué? ¿Qué? +ln ¿Por qué?

que es igual

H.=− − In⁡ ⁡ p1p1p2p2p3p3⋯ ⋯ pRpR=In⁡ ⁡ ()1p1p1p2p2p3p3⋯ ⋯ pRpR)=In⁡ ⁡ ()1∏ ∏ i=1Rpipi){displaystyle H'=- ¿Por qué? p_{R}{p_{R}=ln left({1 over ¿Por qué? p_{R}{p_{R}}right)=ln left({1 over {prod ¿Por qué?

Dado que la suma de los valores pi es igual a 1 por definición, el denominador es igual a la media geométrica ponderada de los valores pi, con la pi se utilizan como pesos (exponentes en la ecuación). Por lo tanto, el término entre paréntesis equivale a diversidad verdadera 1D y H' es igual a ln(1D).

Cuando todos los tipos del conjunto de datos de interés son igualmente comunes, todos los pi los valores son iguales a 1 / R y, por lo tanto, el índice de Shannon toma el valor ln(R). Cuanto más desiguales sean las abundancias de los tipos, mayor será la media geométrica ponderada de pi valores, y menor será la entropía de Shannon correspondiente. Si prácticamente toda la abundancia se concentra en un tipo y los otros tipos son muy raros (incluso si hay muchos), la entropía de Shannon se acerca a cero. Cuando solo hay un tipo en el conjunto de datos, la entropía de Shannon es exactamente igual a cero (no hay incertidumbre al predecir el tipo de la siguiente entidad elegida al azar).

En el aprendizaje automático, el índice de Shannon también se denomina ganancia de información.

Entropía de Rényi

La entropía de Rényi es una generalización de la entropía de Shannon a otros valores de q distintos de 1. Se puede expresar:

qH=11− − qIn⁡ ⁡ (). . i=1Rpiq){displaystyle {} {f} {fnfnfnfnfnfnfnfnfnfnfnc}fnfnfnfnfnfnfnfnfnfnfnfncH}cH}cH}fnfnfnfnfnfnfnfnfnfnfnfnfnfnfnfncc}\\ccH}ccHc\\\cccccccH}cccHcccccccccfnfnfnfnfnfnfnfnfnfnfnfnfnfnfn ¿Por qué?

que es igual

qH=In⁡ ⁡ ()1. . i=1Rpipiq− − 1q− − 1)=In⁡ ⁡ ()qD){displaystyle {}{q}H=ln left({1 over {sqrt[{q-1}{sum] ¿Por qué?

Esto significa que tomar el logaritmo de la verdadera diversidad basado en cualquier valor q da la entropía Rényi correspondiente al mismo valor q.

Índice Simpson

El índice de Simpson fue introducido en 1949 por Edward H. Simpson para medir el grado de concentración cuando los individuos se clasifican en tipos. El mismo índice fue redescubierto por Orris C. Herfindahl en 1950. La raíz cuadrada del índice ya había sido introducida en 1945 por el economista Albert O. Hirschman. Como resultado, la misma medida suele conocerse como índice de Simpson en ecología y como índice de Herfindahl o índice de Herfindahl-Hirschman (HHI) en economía.

La medida equivale a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo. Es igual a:

λ λ =. . i=1Rpi2,{displaystyle lambda =sum ¿Qué?

donde R es la riqueza (el número total de tipos en el conjunto de datos). Esta ecuación también es igual a la media aritmética ponderada de las abundancias proporcionales pi de los tipos de interés, utilizándose las propias abundancias proporcionales como ponderaciones. Las abundancias proporcionales están, por definición, restringidas a valores entre cero y uno, pero es una media aritmética ponderada, por lo tanto λ ≥ 1/R, que se alcanza cuando todos los tipos son igualmente abundantes.

Al comparar la ecuación utilizada para calcular λ con las ecuaciones utilizadas para calcular la diversidad verdadera, se puede ver que 1/λ es igual a 2D, es decir, la diversidad verdadera calculada con q = 2. Por tanto, el índice de Simpson original es igual a la suma básica correspondiente.

La interpretación de λ como la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés representen el mismo tipo supone que la primera entidad se reemplaza en el conjunto de datos antes de tomar la segunda entidad. Si el conjunto de datos es muy grande, el muestreo sin reemplazo da aproximadamente el mismo resultado, pero en conjuntos de datos pequeños la diferencia puede ser sustancial. Si el conjunto de datos es pequeño y se supone un muestreo sin reemplazo, la probabilidad de obtener el mismo tipo con ambos sorteos aleatorios es:

l l =. . i=1Rni()ni− − 1)N()N− − 1){displaystyle ell ={frac {sum ¿Por qué?

donde ni es el número de entidades que pertenecen a la iésimo tipo y N es el número total de entidades en el conjunto de datos. Esta forma del índice de Simpson también se conoce como índice de Hunter-Gaston en microbiología.

Dado que la abundancia proporcional media de los tipos aumenta al disminuir el número de tipos y aumentar la abundancia del tipo más abundante, λ obtiene valores pequeños en conjuntos de datos de alta diversidad y valores grandes en conjuntos de datos de baja diversidad. Este es un comportamiento contrario a la intuición para un índice de diversidad, por lo que a menudo se han utilizado en su lugar transformaciones de λ que aumentan al aumentar la diversidad. Los más populares de estos índices han sido el índice de Simpson inverso (1/λ) y el índice de Gini-Simpson (1 − λ). Ambos también han sido llamados índice de Simpson en la literatura ecológica, por lo que es necesario tener cuidado para evitar comparar accidentalmente los diferentes índices como si fueran iguales.

Índice de Simpson inverso

El índice de Simpson inverso es igual a:

1λ λ =1. . i=1Rpi2=2D{displaystyle {frac}{lambda }={1 over sum ¿Qué?

Esto simplemente equivale a la verdadera diversidad de orden 2, es decir, el número efectivo de tipos que se obtiene cuando se utiliza la media aritmética ponderada para cuantificar la abundancia proporcional promedio de tipos en el conjunto de datos de interés.

El índice también se utiliza como medida del número efectivo de partidos.

Índice de Gini-Simpson

El índice Gini-Simpson también se llama impureza de Gini, o índice de diversidad de Gini en el campo del aprendizaje automático. El índice de Simpson original λ es igual a la probabilidad de que dos entidades tomadas al azar del conjunto de datos de interés (con reemplazo) representen el mismo tipo. Su transformación 1 − λ, por lo tanto, es igual a la probabilidad de que las dos entidades representen tipos diferentes. Esta medida también se conoce en ecología como probabilidad de encuentro interespecífico (PIE) y índice de Gini-Simpson. Puede expresarse como una transformación de la verdadera diversidad de orden 2:

1− − λ λ =1− − . . i=1Rpi2=1− − 12D{displaystyle 1-lambda =1-sum ¿Por qué? {1} {} {2}}} {}} {}}} {}}} {}}}} {}}} {}}} {}}} {}}}}}} {}}}} {}} {}}} {}}} {}}} {}}} {}}}} {}}}}}} {}}}}}}}} {}} {}}}}}} {}}}}}} {}}}}}}}}} {}}}}}}}}}} {}}}}} {}}}}}} {}}}}}}}}} {}}}}}}}}}}} {}}}}}}}}}}}}}} {}}}} {} {}} {}}}}}}}}}}}}}} {}}}}}}}}}} {}}}}}}}}}}}}}} {}}}}}}}}}}}}}}}}}}}}}}}}}}

El índice Gibbs-Martin de estudios de sociología, psicología y gestión, que también se conoce como el índice Blau, es la misma medida que el índice Gini-Simpson.

La cantidad también se conoce como heterocigosidad esperada en genética de poblaciones.

Índice de Berger-Parker

El índice Berger-Parker equivale al máximo pi valor en el conjunto de datos, es decir, la abundancia proporcional del tipo más abundante. Esto corresponde a la media generalizada ponderada del pi valores cuando q enfoques infinito, y por lo tanto igual el inverso de la verdadera diversidad del orden infinito (1/JUEGOD).

Contenido relacionado

ArXiv

arXiv fue posible gracias al formato de archivo TeX compacto, que permitió que los artículos científicos se transmitieran fácilmente a través de Internet...

Bioestadística

Bioestadística es el desarrollo y la aplicación de métodos estadísticos a una amplia gama de temas en biología. Abarca el diseño de experimentos...

Peter Donnelly

Sir Peter James Donnelly FRS FMedSci es un matemático australiano-británico, profesor de ciencias estadísticas en la Universidad de Oxford y director...

Ley de Fick

La Ley de Fick es un enunciado que resume la forma en la que operan los principios de difusión. Esta ley cuantifica el movimiento de una sustancia desde una...

Ley de los grandes números

En la teoría de la probabilidad, la ley de los grandes números es un teorema que describe el resultado de realizar el mismo experimento un gran número de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save