Modelos de grafos aleatorios exponenciales
Los modelos de gráficos aleatorios de familias exponenciales (ERGM) son una familia de modelos estadísticos para analizar datos de redes sociales y de otro tipo. Ejemplos de redes examinadas usando ERGM incluyen redes de conocimiento, redes organizacionales, redes de colegas, redes de medios sociales, redes de desarrollo científico y otras.
Fondo
Existen muchas métricas para describir las características estructurales de una red observada, como la densidad, la centralidad o la variedad. Sin embargo, estas métricas describen la red observada, que es solo una instancia de una gran cantidad de posibles redes alternativas. Este conjunto de redes alternativas puede tener características estructurales similares o diferentes. Para respaldar la inferencia estadística sobre los procesos que influyen en la formación de la estructura de la red, un modelo estadístico debe considerar el conjunto de todas las redes alternativas posibles ponderadas en su similitud con una red observada. Sin embargo, debido a que los datos de la red son inherentemente relacionales, violan los supuestos de independencia y distribución idéntica de los modelos estadísticos estándar como la regresión lineal.Los modelos estadísticos alternativos deben reflejar la incertidumbre asociada con una observación determinada, permitir la inferencia sobre la frecuencia relativa de las subestructuras de red de interés teórico, eliminar la ambigüedad de la influencia de los procesos de confusión, representar estructuras complejas de manera eficiente y vincular los procesos a nivel local con las propiedades a nivel global. La aleatorización que conserva el grado, por ejemplo, es una forma específica en la que una red observada podría considerarse en términos de múltiples redes alternativas.
Definición
La familia Exponential es una amplia familia de modelos para cubrir muchos tipos de datos, no solo redes. Un ERGM es un modelo de esta familia que describe redes.
Formalmente, un grafo aleatorio consta de un conjunto de
nodos y
díadas (aristas)
donde
si los nodos
están conectados y
si no.
El supuesto básico de estos modelos es que la estructura de un gráfico observado puede explicarse mediante un vector dado de estadísticas suficientes
que son una función de la red observada y, en algunos casos, de los atributos nodales. De esta forma, es posible describir cualquier tipo de dependencia entre las variables no diádicas:
donde es un vector de parámetros del modelo asociado con
y
es una constante de normalización.
Estos modelos representan una distribución de probabilidad en cada red posible en los nodos. Sin embargo, el tamaño del conjunto de redes posibles para una red no dirigida (grafo simple) de tamaño
es
. Debido a que la cantidad de redes posibles en el conjunto supera ampliamente la cantidad de parámetros que pueden restringir el modelo, la distribución de probabilidad ideal es la que maximiza la entropía de Gibbs.
Contenido relacionado
Ancho de banda (informática)
Modelo Watts-Strogatz
Asortatividad