Validación cruzada (estadísticas)

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Técnica de validación del modelo estadístico
Comparando la exactitud de la validación cruzada y el porcentaje de falso negativo (sobreestimación) de cinco modelos de clasificación. El tamaño de las burbujas representan la desviación estándar de la precisión de la validación cruzada (complejo).
Diagrama de k-fold cruza-validación.
La

validación cruzada, a veces denominada estimación de rotación o prueba fuera de muestra, es cualquiera de varias técnicas similares de validación de modelos para evaluar cómo se generalizarán los resultados de un análisis estadístico a un conjunto de datos independiente. La validación cruzada es un método de remuestreo que utiliza diferentes partes de los datos para probar y entrenar un modelo en diferentes iteraciones. Se utiliza principalmente en entornos donde el objetivo es la predicción y se desea estimar con qué precisión funcionará un modelo predictivo en la práctica. En un problema de predicción, a un modelo generalmente se le proporciona un conjunto de datos de datos conocidos sobre los cuales se ejecuta el entrenamiento (conjunto de datos de entrenamiento) y un conjunto de datos de datos desconocidos (o datos vistos por primera vez) con los que se prueba el modelo (llamado conjunto de datos de validación o conjunto de prueba). El objetivo de la validación cruzada es probar la capacidad del modelo para predecir nuevos datos que no se utilizaron en su estimación, para detectar problemas como el sobreajuste o el sesgo de selección y dar una idea de cómo se generalizará el modelo. un conjunto de datos independiente (es decir, un conjunto de datos desconocido, por ejemplo de un problema real).

Una ronda de validación cruzada implica dividir una muestra de datos en subconjuntos complementarios, realizar el análisis en un subconjunto (llamado conjunto de entrenamiento) y validar el análisis en el otro subconjunto (llamado conjunto de validación o conjunto de prueba). Para reducir la variabilidad, en la mayoría de los métodos se realizan múltiples rondas de validación cruzada utilizando diferentes particiones y los resultados de la validación se combinan (por ejemplo, se promedian) a lo largo de las rondas para dar una estimación del rendimiento predictivo del modelo.

En resumen, la validación cruzada combina (promedia) medidas de idoneidad en la predicción para derivar una estimación más precisa del rendimiento de la predicción del modelo.

Motivación

Supongamos un modelo con uno o más parámetros desconocidos y un conjunto de datos al que se puede ajustar el modelo (el conjunto de datos de entrenamiento). El proceso de ajuste optimiza los parámetros del modelo para que se ajuste lo mejor posible a los datos de entrenamiento. Si se toma una muestra independiente de datos de validación de la misma población que los datos de entrenamiento, generalmente resultará que el modelo no se ajusta a los datos de validación tan bien como se ajusta a los datos de entrenamiento. Es probable que el tamaño de esta diferencia sea grande, especialmente cuando el tamaño del conjunto de datos de entrenamiento es pequeño o cuando la cantidad de parámetros en el modelo es grande. La validación cruzada es una forma de estimar el tamaño de este efecto.

Ejemplo: regresión lineal

En regresión lineal existen reales valores de respuesta Sí.1,...... ,Sí.n{textstyle y_{1},ldotsy_{n}, y n p-dimensional vector covariados x1,... xn. Los componentes del vector xi son denotados xi1,... xip. Si se utilizan menos cuadrados para adaptarse a una función en forma de hiperplano . = a + βTx a los datos (xi, Sí.i)1 ≤in, entonces el ajuste se puede evaluar utilizando el error cuadrado medio (MSE). El MSE para valores estimados del parámetro a y β sobre el conjunto de capacitación (xi, Sí.i)1 ≤in se define como:

MSE=1n.. i=1n()Sí.i− − Sí.^ ^ i)2=1n.. i=1n()Sí.i− − a− − β β Txi)2=1n.. i=1n()Sí.i− − a− − β β 1xi1− − ⋯ ⋯ − − β β pxip)2{displaystyle {begin{aligned}{text{MSE} {1}{n}sum} ¿Qué? {fnMicroc} {1}{n}sum} ¿Qué? {beta } {fn} {fn} {fn} {fn}}fn}fn}fn} {fn} {fn} {fn}fn} ¿Qué? ¿Por qué?

Si el modelo se especifica correctamente, se puede demostrar, bajo suposiciones leves, que el valor esperado del MSE para el conjunto de entrenamiento es (np − 1) /(n + p + 1) < 1 veces el valor esperado del MSE para el conjunto de validación (el valor esperado se toma de la distribución de los conjuntos de entrenamiento). Por lo tanto, un modelo ajustado y un MSE calculado en el conjunto de entrenamiento darán como resultado una evaluación sesgada de manera optimista de qué tan bien se ajustará el modelo a un conjunto de datos independiente. Esta estimación sesgada se denomina estimación dentro de la muestra del ajuste, mientras que la estimación de validación cruzada es una estimación fuera de la muestra.

Dado que en la regresión lineal es posible calcular directamente el factor (np − 1)/(n + p + 1) por el cual el MSE de entrenamiento subestima el MSE de validación bajo el supuesto de que la especificación del modelo es válida, la validación cruzada se puede utilizar para verificar si el modelo se ha sobreajustado, en cuyo caso el MSE en la validación conjunto excederá sustancialmente su valor anticipado. (La validación cruzada en el contexto de la regresión lineal también es útil porque se puede utilizar para seleccionar una función de costos óptimamente regularizada).

Caso general

En la mayoría de los demás procedimientos de regresión (por ejemplo, regresión logística), no existe una fórmula sencilla para calcular el ajuste esperado fuera de la muestra. La validación cruzada es, por tanto, una forma generalmente aplicable de predecir el rendimiento de un modelo con datos no disponibles utilizando cálculos numéricos en lugar de análisis teóricos.

Tipos

Se pueden distinguir dos tipos de validación cruzada: validación cruzada exhaustiva y no exhaustiva.

Validación cruzada exhaustiva

Los métodos exhaustivos de validación cruzada son métodos de validación cruzada que aprenden y prueban todas las formas posibles de dividir la muestra original en un conjunto de entrenamiento y de validación.

Validación cruzada sin exclusión

La validación cruzada

Omitirp (LpO CV) implica el uso de observaciones p como conjunto de validación y las observaciones restantes como conjunto. conjunto de entrenamiento. Esto se repite en todas las formas de cortar la muestra original en un conjunto de validación de p observaciones y un conjunto de entrenamiento.

La validación cruzada LpO requiere entrenamiento y validación del modelo Cpn{displaystyle C_{p} {n} veces, donde n es el número de observaciones en la muestra original, y donde Cpn{displaystyle C_{p} {n} es el coeficiente binomio. Para p > 1 y para incluso moderadamente grande n, LpO CV puede ser computacionalmente infeasible. Por ejemplo, con n = 100 y p = 30, C30100.. 3× × 1025.{displaystyle C_{30}{100}approx 3times 10^{25}

Se ha recomendado una variante de validación cruzada de LpO con p=2 conocida como validación cruzada de pares de salida como método casi imparcial para estimar el área bajo la curva ROC de clasificadores binarios.

Validación cruzada con dejar uno fuera

Ilustración de la validación cruzada de una salida (LOOCV) cuando n = 8 observaciones. Se entrena y prueba un total de 8 modelos.

La validación cruzada con exclusión de uno (LOOCV) es un caso particular de validación cruzada con exclusión p con p = 1. El proceso es similar a jackknife; sin embargo, con la validación cruzada se calcula una estadística de las muestras omitidas, mientras que con la validación cruzada se calcula una estadística de las muestras conservadas únicamente.

La validación cruzada de LOO requiere menos tiempo de cálculo que la validación cruzada de LpO porque sólo hay C1n=n{displaystyle C_{1} {n}=n} pasa en lugar de pasar Cpn{displaystyle C_{p} {n}. Sin embargo, n{displaystyle n} los pases pueden requerir un tiempo de computación bastante grande, en cuyo caso pueden ser más apropiados otros enfoques como la validación cruzada de doble k.

Algoritmo de pseudocódigo:

Entrada:

x, {vector de longitud N con valores de x de los puntos entrantes}

y, {vector de longitud N con valores y del resultado esperado}

interpolar(x_in, y_in, x_out), { devuelve la estimación para el punto x_out después de entrenar el modelo con pares x_in-y_in}

Salida:

err, {estimación del error de predicción}

Pasos:

 ← 0
para ← 1,...
// definir los subconjuntos de validación cruzada
x_in ← (x[1],..., x[i − 1], x[i + 1],..., x[N]
y_in ← (y[1],..., y[i − 1], y[i + 1],..., y[N]
x_out ← x[i]
y_out ← interpolate(x_in, y_in, x_out)
err ← err + (y[i] − y_out)^2
final for
err ← err/N

Validación cruzada no exhaustiva

Los métodos de validación cruzada no exhaustivos no calculan todas las formas de dividir la muestra original. Estos métodos son aproximaciones de validación cruzada con exclusión.

Validación cruzada K-fold

Ilustración de la validación cruzada de doble k cuando n = 12 observaciones y k = 3. Después de que los datos sean reducidos, un total de 3 modelos serán entrenados y probados.

En la validación cruzada de k veces, la muestra original se divide aleatoriamente en k submuestras de igual tamaño. De las k submuestras, una única submuestra se conserva como datos de validación para probar el modelo, y las k − 1 submuestras restantes se utilizan como datos de entrenamiento. Luego, el proceso de validación cruzada se repite k veces, y cada una de las k submuestras se utiliza exactamente una vez como datos de validación. Los resultados k se pueden promediar para producir una estimación única. La ventaja de este método sobre el submuestreo aleatorio repetido (ver más abajo) es que todas las observaciones se usan tanto para el entrenamiento como para la validación, y cada observación se usa para la validación exactamente una vez. Comúnmente se usa una validación cruzada de 10 veces, pero en general k sigue siendo un parámetro no fijo.

Por ejemplo, establecer k = 2 da como resultado una validación cruzada doble. En una validación cruzada doble, mezclamos aleatoriamente el conjunto de datos en dos conjuntos d0 y d1, para que ambos conjuntos tengan el mismo tamaño (esto generalmente se implementa mezclando la matriz de datos y luego dividiéndola en dos). Luego entrenamos en d0 y validamos en d1, seguido del entrenamiento en d1 y validando en d0.

Did you mean:

When k = n (the number of observations), <in-fold cross-validation is equivalent to leave-one-out cross-validation.

En la validación cruzada estratificada k, las particiones se seleccionan de modo que el valor de respuesta medio sea aproximadamente igual en todas las particiones. En el caso de la clasificación binaria, esto significa que cada partición contiene aproximadamente las mismas proporciones de los dos tipos de etiquetas de clase.

En la validación cruzada repetida, los datos se dividen aleatoriamente en k particiones varias veces. De este modo se puede promediar el rendimiento del modelo a lo largo de varias ejecuciones, pero esto rara vez es deseable en la práctica.

Cuando se consideran muchos modelos estadísticos o de aprendizaje automático diferentes, se puede utilizar una validación cruzada codiciosa k para identificar rápidamente los modelos candidatos más prometedores.

Método de reserva

En el método de reserva, asignamos aleatoriamente puntos de datos a dos conjuntos d0 y d1, generalmente llamado conjunto de entrenamiento y conjunto de prueba, respectivamente. El tamaño de cada uno de los conjuntos es arbitrario, aunque normalmente el conjunto de prueba es más pequeño que el conjunto de entrenamiento. Luego entrenamos (construimos un modelo) en d0 y probamos (evaluamos su rendimiento) en d1.

En una validación cruzada típica, los resultados de múltiples ejecuciones de pruebas de modelos se promedian en conjunto; por el contrario, el método de reserva, de forma aislada, implica una sola ejecución. Debe usarse con precaución porque sin dicho promedio de múltiples ejecuciones, se pueden lograr resultados muy engañosos. El indicador de precisión predictiva (F*) tenderá a ser inestable ya que no se suavizará mediante múltiples iteraciones (ver más abajo). De manera similar, los indicadores del papel específico que desempeñan diversas variables predictoras (por ejemplo, los valores de los coeficientes de regresión) tenderán a ser inestables.

Si bien el método de exclusión puede enmarcarse como "el tipo más simple de validación cruzada", muchas fuentes clasifican la exclusión como un tipo de validación simple, en lugar de una forma simple o degenerada de validación cruzada.

Validación repetida de submuestreo aleatorio

Este método, también conocido como validación cruzada de Monte Carlo, crea múltiples divisiones aleatorias del conjunto de datos en datos de entrenamiento y validación. Para cada división, el modelo se ajusta a los datos de entrenamiento y la precisión predictiva se evalúa utilizando los datos de validación. Luego, los resultados se promedian entre las divisiones. La ventaja de este método (sobre la validación cruzada de k veces) es que la proporción de la división de entrenamiento/validación no depende del número de iteraciones (es decir, el número de particiones). La desventaja de este método es que es posible que algunas observaciones nunca se seleccionen en la submuestra de validación, mientras que otras pueden seleccionarse más de una vez. En otras palabras, los subconjuntos de validación pueden superponerse. Este método también presenta variación de Monte Carlo, lo que significa que los resultados variarán si el análisis se repite con diferentes divisiones aleatorias.

A medida que el número de divisiones aleatorias se acerca al infinito, el resultado de la validación repetida del submuestreo aleatorio tiende hacia el de una validación cruzada con exclusión de p.

En una variante estratificada de este enfoque, las muestras aleatorias se generan de tal manera que el valor de respuesta medio (es decir, la variable dependiente en la regresión) sea igual en los conjuntos de entrenamiento y prueba. Esto es particularmente útil si las respuestas son dicotómicas con una representación desequilibrada de los dos valores de respuesta en los datos.

Un método que aplica submuestreo aleatorio repetido es RANSAC.

Validación cruzada anidada

Cuando la validación cruzada se utiliza simultáneamente para la selección del mejor conjunto de hiperparámetros y para la estimación del error (y la evaluación de la capacidad de generalización), se requiere una validación cruzada anidada. Existen muchas variantes. Se pueden distinguir al menos dos variantes:

Validación cruzada K*l-veces

Esta es una variante verdaderamente anidada que contiene un bucle externo de k conjuntos y un bucle interno de l conjuntos. El conjunto de datos total se divide en k conjuntos. Uno por uno, se selecciona un conjunto como conjunto de prueba (externo) y los otros k - 1 conjuntos se combinan en el conjunto de entrenamiento externo correspondiente. Esto se repite para cada uno de los conjuntos k. Cada conjunto de entrenamiento externo se subdivide en l conjuntos. Uno por uno, se selecciona un conjunto como conjunto de prueba (validación) interno y los l - otros conjuntos se combinan en el conjunto de entrenamiento interno correspondiente. Esto se repite para cada uno de los conjuntos l. Los conjuntos de entrenamiento internos se utilizan para ajustar los parámetros del modelo, mientras que el conjunto de pruebas externo se utiliza como conjunto de validación para proporcionar una evaluación imparcial del ajuste del modelo. Normalmente, esto se repite para muchos hiperparámetros diferentes (o incluso diferentes tipos de modelos) y el conjunto de validación se utiliza para determinar el mejor conjunto de hiperparámetros (y tipo de modelo) para este conjunto de entrenamiento interno. Después de esto, se ajusta un nuevo modelo a todo el conjunto de entrenamiento externo, utilizando el mejor conjunto de hiperparámetros de la validación cruzada interna. Luego, el rendimiento de este modelo se evalúa utilizando el conjunto de prueba externo.

Validación cruzada K-fold con validación y conjunto de pruebas

Este es un tipo de validación cruzada de k*l veces cuando l = k - 1. Se utiliza una única validación cruzada de k*veces con un Conjunto de validación y prueba. El conjunto de datos total se divide en k conjuntos. Uno por uno, se selecciona un conjunto como conjunto de prueba. Luego, uno por uno, uno de los conjuntos restantes se usa como conjunto de validación y los otros k - 2 conjuntos se usan como conjuntos de entrenamiento hasta que se hayan evaluado todas las combinaciones posibles. De manera similar a la validación cruzada k*l-fold, el conjunto de entrenamiento se usa para el ajuste del modelo y el conjunto de validación se usa para la evaluación del modelo para cada uno de los conjuntos de hiperparámetros. Finalmente, para el conjunto de parámetros seleccionado, el conjunto de prueba se utiliza para evaluar el modelo con el mejor conjunto de parámetros. Aquí, son posibles dos variantes: evaluar el modelo que se entrenó en el conjunto de entrenamiento o evaluar un nuevo modelo que se ajustó a la combinación del conjunto de entrenamiento y validación.

Medidas de ajuste

El objetivo de la validación cruzada es estimar el nivel esperado de ajuste de un modelo a un conjunto de datos que sea independiente de los datos que se utilizaron para entrenar el modelo. Puede utilizarse para estimar cualquier medida cuantitativa de ajuste que sea apropiada para los datos y el modelo. Por ejemplo, para problemas de clasificación binaria, cada caso del conjunto de validación se predice correcta o incorrectamente. En esta situación, se puede utilizar la tasa de error de clasificación errónea para resumir el ajuste, aunque también se podrían utilizar otras medidas como el valor predictivo positivo. Cuando el valor que se predice se distribuye continuamente, se podrían utilizar el error cuadrático medio, el error cuadrático medio o la desviación absoluta mediana para resumir los errores.

Usar información previa

Cuando los usuarios aplican la validación cruzada para seleccionar una buena configuración λ λ {displaystyle lambda }, entonces podrían querer equilibrar la elección cruzada con su propia estimación de la configuración. De esta manera, pueden intentar contrarrestar la volatilidad de la validación cruzada cuando el tamaño de la muestra es pequeño e incluir información relevante de la investigación anterior. En un ejercicio combinado de pronóstico, por ejemplo, se puede aplicar la validación cruzada para estimar los pesos asignados a cada pronóstico. Dado que un pronóstico simple de igual peso es difícil de vencer, se puede añadir una penalización para desviarse de pesos iguales. O, si se aplica la validación cruzada para asignar pesos individuales a las observaciones, entonces se puede penalizar las desviaciones de igual peso para evitar la pérdida de información potencialmente relevante. Hoornweg (2018) muestra cómo un parámetro de ajuste γ γ {displaystyle gamma } se puede definir para que un usuario pueda equilibrar intuitivamente la precisión de la validación cruzada y la sencillez de pegar a un parámetro de referencia λ λ R{displaystyle lambda ¿Qué? que es definido por el usuario.

Si λ λ i{displaystyle lambda _{i} denota los ith{displaystyle i^{th}} configuración candidata que se puede seleccionar, entonces la función de pérdida que se debe minimizar se puede definir como

Lλ λ i=()1− − γ γ )Precisión relativai+γ γ Simplicidad relativai.{displaystyle L_{lambda {}=(1-gamma){mbox{ Relative Accuracy}_{i}+gamma {fnMicrosoft {cHFF} Simplicidad relativa.

La precisión relativa puede cuantificarse como MSE()λ λ i)/MSE()λ λ R){displaystyle {mbox{MSE}lambda ¿Qué? ¿Qué?, por lo que el error medio cuadrado de un candidato λ λ i{displaystyle lambda _{i} se hace en relación con el de un usuario especificado λ λ R{displaystyle lambda ¿Qué?. El término relativa sencillez mide la cantidad que λ λ i{displaystyle lambda _{i} desvia de λ λ R{displaystyle lambda ¿Qué? relativa a la cantidad máxima de desviación de λ λ R{displaystyle lambda ¿Qué?. En consecuencia, se puede especificar la relativa sencillez como ()λ λ i− − λ λ R)2()λ λ max− − λ λ R)2{displaystyle {frac {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {c}\\\\\\\fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {fnMicrosoft {\fnMicrosoft {\\\\fnMicrosoft {fnMicrosoft ¿Por qué?, donde λ λ max{displaystyle lambda _{max } corresponde a λ λ {displaystyle lambda } valor con la desviación permisible más alta λ λ R{displaystyle lambda ¿Qué?. Con γ γ ▪ ▪ [0,1]{displaystyle gamma in [0,1]}, el usuario determina cuán alta es la influencia del parámetro de referencia relativa a la validación cruzada.

Uno puede agregar términos relativos de simplicidad para múltiples configuraciones c=1,2,...,C{displaystyle c=1,2,...,C} especificando la función de pérdida como

Lλ λ i=Precisión relativai+.. c=1Cγ γ c1− − γ γ cSimplicidad relativai,c.{displaystyle L_{lambda ¿Qué? Precisión relativa ¿Qué? {gamma _{c}{1-gamma ¿Qué? Simplicidad relativa.

Hoornweg (2018) muestra que una función de pérdida con una compensación entre precisión y simplicidad también se puede utilizar para definir intuitivamente estimadores de contracción como el lazo (adaptativo) y la regresión bayesiana/cresta. Haga clic en el lazo para ver un ejemplo.

Propiedades estadísticas

Supongamos que elegimos una medida de ajuste F y utilizamos la validación cruzada para producir una estimación F* del ajuste esperado EF de un modelo a un conjunto de datos independiente extraído de la misma población que los datos de entrenamiento. Si imaginamos muestrear múltiples conjuntos de entrenamiento independientes siguiendo la misma distribución, los valores resultantes para F* variarán. Las propiedades estadísticas de F* resultan de esta variación.

El estimador de validación cruzada F* es casi insesgado para EF. La razón por la que está ligeramente sesgado es que el conjunto de entrenamiento en la validación cruzada es ligeramente más pequeño que el conjunto de datos real (por ejemplo, para LOOCV el tamaño del conjunto de entrenamiento es n − 1 cuando hay n casos observados). En casi todas las situaciones, el efecto de este sesgo será conservador en el sentido de que el ajuste estimado estará ligeramente sesgado en la dirección que sugiere un peor ajuste. En la práctica, este sesgo rara vez es motivo de preocupación.

La variación de F* puede ser grande. Por esta razón, si se comparan dos procedimientos estadísticos basándose en los resultados de la validación cruzada, es posible que el procedimiento con el mejor rendimiento estimado no sea en realidad el mejor de los dos procedimientos (es decir, puede que no tenga el mejor valor de EF ). Se han logrado algunos avances en la construcción de intervalos de confianza en torno a estimaciones de validación cruzada, pero esto se considera un problema difícil.

Problemas computacionales

La mayoría de las formas de validación cruzada son sencillas de implementar siempre que esté disponible una implementación del método de predicción que se está estudiando. En particular, el método de predicción puede ser una "caja negra" – no es necesario tener acceso a las partes internas de su implementación. Si entrenar el método de predicción es costoso, la validación cruzada puede ser muy lenta ya que el entrenamiento debe realizarse repetidamente. En algunos casos, como los de mínimos cuadrados y la regresión del kernel, la validación cruzada se puede acelerar significativamente calculando previamente ciertos valores que se necesitan repetidamente en el entrenamiento o usando "reglas de actualización" rápidas. como la fórmula de Sherman-Morrison. Sin embargo, hay que tener cuidado de preservar el "cegamiento total" del conjunto de validación del procedimiento de entrenamiento; de lo contrario, puede producirse un sesgo. Un ejemplo extremo de validación cruzada acelerada ocurre en la regresión lineal, donde los resultados de la validación cruzada tienen una expresión de forma cerrada conocida como suma de cuadrados del error residual de predicción (PRESS).

Limitaciones y mal uso

La validación cruzada solo produce resultados significativos si el conjunto de validación y el conjunto de entrenamiento provienen de la misma población y solo si se controlan los sesgos humanos.

En muchas aplicaciones de modelado predictivo, la estructura del sistema que se estudia evoluciona con el tiempo (es decir, es "no estacionario"). Ambos pueden introducir diferencias sistemáticas entre los conjuntos de entrenamiento y validación. Por ejemplo, si un modelo para predecir los valores de las acciones se basa en datos de un determinado período de cinco años, no es realista tratar el siguiente período de cinco años como una extracción de la misma población. Como otro ejemplo, supongamos que se desarrolla un modelo para predecir el riesgo de que un individuo sea diagnosticado con una enfermedad particular durante el próximo año. Si el modelo se entrena utilizando datos de un estudio que involucra solo a un grupo de población específico (por ejemplo, jóvenes o hombres), pero luego se aplica a la población general, los resultados de la validación cruzada del conjunto de entrenamiento podrían diferir mucho del rendimiento predictivo real..

En muchas aplicaciones, los modelos también pueden especificarse incorrectamente y variar en función de sesgos del modelador y/o elecciones arbitrarias. Cuando esto ocurre, puede haber una ilusión de que el sistema cambia en muestras externas, mientras que la razón es que el modelo ha omitido un predictor crítico y/o ha incluido un predictor confuso. La nueva evidencia es que la validación cruzada por sí sola no predice mucho la validez externa, mientras que una forma de validación experimental conocida como muestreo de intercambio que controla el sesgo humano puede predecir mucho más la validez externa. Como se define en este gran estudio MAQC-II en 30.000 modelos, el muestreo de intercambio incorpora validación cruzada en el sentido de que las predicciones se prueban en muestras de validación y entrenamiento independientes. Sin embargo, los modelos también se desarrollan a partir de estas muestras independientes y por modeladores que no se conocen entre sí. Cuando hay una discrepancia en estos modelos desarrollados a través de estas muestras de capacitación y validación intercambiadas, como sucede con bastante frecuencia, MAQC-II muestra que esto será mucho más predictivo de una validez predictiva externa deficiente que la validación cruzada tradicional.

La razón del éxito del muestreo intercambiado es un control incorporado de los sesgos humanos en la construcción de modelos. Además de depositar demasiada fe en predicciones que pueden variar entre los modeladores y conducir a una validez externa deficiente debido a estos efectos confusos del modelador, estas son otras formas en las que se puede abusar de la validación cruzada:

  • Mediante la realización de un análisis inicial para identificar las características más informativas utilizando todo el conjunto de datos – si la selección de características o el ajuste de modelos es requerido por el procedimiento de modelado, esto debe repetirse en cada conjunto de entrenamiento. De lo contrario, las predicciones sin duda serán inclinadas hacia arriba. Si se utiliza la validación cruzada para decidir qué características utilizar, una cruzada interna-validación para realizar la selección de características en cada conjunto de entrenamiento debe realizarse.
  • Realización de preprocesamiento medio-centrado, revitalización, reducción de dimensionalidad, eliminación externa o cualquier otro preprocesamiento dependiente de datos usando todo el conjunto de datos. Aunque es muy común en la práctica, se ha demostrado que esto introduce sesgos en las estimaciones de la validación cruzada.
  • Al permitir que algunos de los datos de entrenamiento también se incluyan en el conjunto de pruebas – esto puede suceder debido a "relatar" en el conjunto de datos, por lo que algunas muestras exactamente idénticas o casi idénticas están presentes en el conjunto de datos. En cierta medida el hermanamiento siempre tiene lugar incluso en muestras de formación y validación perfectamente independientes. Esto se debe a que algunas de las observaciones de la muestra de capacitación tendrán valores casi idénticos de los predictores como observaciones de la muestra de validación. Y algunos de ellos correlacionarán con un objetivo mejor que los niveles de probabilidad en la misma dirección tanto en la formación como en la validación cuando en realidad son impulsados por predictores confundidos con mala validez externa. Si se selecciona un modelo de validación cruzada k- conjunto múltiple, sesgo de confirmación humana estará en el trabajo y determinar que dicho modelo ha sido validado. Es por eso que la validación cruzada tradicional debe ser complementada con controles para el sesgo humano y la especificación modelo confundida como muestreo de intercambio y estudios prospectivos.

Validación cruzada para modelos de series temporales

Dado que el orden de los datos es importante, la validación cruzada puede resultar problemática para los modelos de series temporales. Un enfoque más apropiado podría ser utilizar una validación cruzada continua.

Sin embargo, si el rendimiento se describe mediante una única estadística resumida, es posible que el enfoque descrito por Politis y Romano como un arranque estacionario funcione. La estadística del bootstrap debe aceptar un intervalo de la serie temporal y devolver la estadística resumida sobre él. La llamada al arranque estacionario debe especificar una longitud de intervalo media adecuada.

Aplicaciones

La validación cruzada se puede utilizar para comparar el rendimiento de diferentes procedimientos de modelado predictivo. Por ejemplo, supongamos que estamos interesados en el reconocimiento óptico de caracteres y estamos considerando utilizar una máquina de vectores de soporte (SVM) o k vecinos más cercanos (KNN) para predecir el carácter verdadero a partir de una imagen de un carácter escrito a mano. Utilizando la validación cruzada, podríamos comparar objetivamente estos dos métodos en términos de sus respectivas fracciones de caracteres mal clasificados. Si simplemente comparamos los métodos en función de sus tasas de error en la muestra, es probable que un método parezca funcionar mejor, ya que es más flexible y, por lo tanto, más propenso al sobreajuste en comparación con el otro método.

La validación cruzada también se puede utilizar en la selección de variables. Supongamos que utilizamos los niveles de expresión de 20 proteínas para predecir si un paciente con cáncer responderá a un fármaco. Un objetivo práctico sería determinar qué subconjunto de las 20 características debería utilizarse para producir el mejor modelo predictivo. Para la mayoría de los procedimientos de modelado, si comparamos subconjuntos de características utilizando las tasas de error en la muestra, el mejor rendimiento se producirá cuando se utilicen las 20 características. Sin embargo, bajo validación cruzada, el modelo con el mejor ajuste generalmente incluirá solo un subconjunto de las características que se consideran verdaderamente informativas.

Un avance reciente en las estadísticas médicas es su uso en el metanálisis. Constituye la base de la estadística de validación, Vn, que se utiliza para probar la validez estadística de las estimaciones resumidas del metanálisis. También se ha utilizado en un sentido más convencional en el metanálisis para estimar el probable error de predicción de los resultados del metanálisis.

Notas y referencias

Contenido relacionado

Palimpsesto de Arquímedes

El Palimpsesto de Arquímedes es un palimpsesto de códice de pergamino, originalmente una copia griega bizantina de una compilación de Arquímedes y otros...

Regla

Un borde recto o borde recto es una herramienta que se utiliza para dibujar líneas rectas o comprobar su rectitud. Si tiene marcas igualmente espaciadas a lo...

Andrey yershov

Andrey Petrovich Yershov fue un científico informático soviético. notable como pionero en la programación de sistemas y la investigación de lenguajes de...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save