Conjuntos de datos de entrenamiento, validación y prueba.

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En el aprendizaje automático, una tarea común es el estudio y la construcción de algoritmos que puedan aprender de los datos y hacer predicciones sobre ellos. Dichos algoritmos funcionan haciendo predicciones o decisiones basadas en datos, mediante la construcción de un modelo matemático a partir de datos de entrada. Estos datos de entrada utilizados para construir el modelo generalmente se dividen en múltiples conjuntos de datos. En particular, se utilizan comúnmente tres conjuntos de datos en diferentes etapas de la creación del modelo: conjuntos de entrenamiento, validación y prueba.

El modelo se ajusta inicialmente a un conjunto de datos de entrenamiento, que es un conjunto de ejemplos utilizados para ajustar los parámetros (por ejemplo, pesos de conexiones entre neuronas en redes neuronales artificiales) del modelo. El modelo (por ejemplo, un clasificador Bayes ingenuo) se entrena en el conjunto de datos de entrenamiento mediante un método de aprendizaje supervisado, por ejemplo, utilizando métodos de optimización como el descenso de gradiente o el descenso de gradiente estocástico. En la práctica, el conjunto de datos de entrenamiento a menudo consta de pares de un vector de entrada (o escalar) y el correspondiente vector de salida (o escalar), donde la clave de respuestas se denota comúnmente como objetivo (o etiqueta). El modelo actual se ejecuta con el conjunto de datos de entrenamiento y produce un resultado, que luego se compara con el objetivo, para cada vector de entrada en el conjunto de datos de entrenamiento. En función del resultado de la comparación y del algoritmo de aprendizaje específico que se utiliza, se ajustan los parámetros del modelo. El ajuste del modelo puede incluir tanto la selección de variables como la estimación de parámetros.

Sucesivamente, el modelo ajustado se utiliza para predecir las respuestas de las observaciones en un segundo conjunto de datos llamado conjunto de datos de validación. El conjunto de datos de validación proporciona una evaluación imparcial del ajuste de un modelo en el conjunto de datos de entrenamiento mientras ajusta los hiperparámetros del modelo (por ejemplo, el número de unidades ocultas (capas y anchos de capa) en una red neuronal). Los conjuntos de datos de validación se pueden utilizar para la regularización mediante la detención anticipada (deteniendo el entrenamiento cuando aumenta el error en el conjunto de datos de validación, ya que esto es una señal de sobreajuste del conjunto de datos de entrenamiento). Este sencillo procedimiento se complica en la práctica por el hecho de que el error del conjunto de datos de validación puede fluctuar durante el entrenamiento, produciendo múltiples mínimos locales. Esta complicación ha llevado a la creación de muchas reglas ad hoc para decidir cuándo ha comenzado realmente el sobreajuste.

Por último, el conjunto de datos de prueba es un conjunto de datos que se utiliza para proporcionar una evaluación imparcial de un ajuste del modelo final en el conjunto de datos de entrenamiento. Si los datos del conjunto de datos de prueba nunca se han utilizado en el entrenamiento (por ejemplo, en validación cruzada), el conjunto de datos de prueba también se denomina conjunto de datos reservados. El término "conjunto de validación" a veces se utiliza en lugar de "conjunto de prueba" en alguna literatura (por ejemplo, si el conjunto de datos original se dividió en solo dos subconjuntos, el conjunto de prueba podría denominarse conjunto de validación).

Decidir los tamaños y las estrategias para la división de conjuntos de datos en conjuntos de entrenamiento, prueba y validación depende en gran medida del problema y de los datos disponibles.

Conjunto de datos de entrenamiento

Ejemplo simplificado de la formación de una red neuronal en la detección de objetos: La red está entrenada por múltiples imágenes que se conocen para representar los erizos de mar y mar, que están correlacionadas con "nodos" que representan características visuales. El pez estrella coincide con una textura anillada y un contorno estrella, mientras que la mayoría de erizos de mar coinciden con una textura rayada y forma ovalada. Sin embargo, la instancia de un anillo de erizo de mar textura crea una asociación débilmente ponderada entre ellos.
Subsequent run of the network on an input image (left): La red detecta correctamente el pez estrella. Sin embargo, la asociación débilmente ponderada entre la textura anillada y el erizo del mar también confiere una señal débil a este último de uno de dos nodos intermedios. Además, una cáscara que no se incluyó en el entrenamiento da una señal débil para la forma ovalada, también resulta en una señal débil para la salida de erizo de mar. Estas señales débiles pueden resultar en un falso resultado positivo para el erizo de mar.
En realidad, las texturas y los contornos no estarían representados por nodos únicos, sino por patrones de peso asociados de múltiples nodos.

Un conjunto de datos de capacitación es un conjunto de datos de ejemplos utilizados durante el proceso de aprendizaje y se utiliza para ajustar los parámetros (por ejemplo, pesos) de, por ejemplo, un clasificador.

Para las tareas de clasificación, un algoritmo de aprendizaje supervisado analiza el conjunto de datos de entrenamiento para determinar, o aprender, las combinaciones óptimas de variables que generarán un buen modelo predictivo. El objetivo es producir un modelo entrenado (ajustado) que se generalice bien a datos nuevos y desconocidos. El modelo ajustado se evalúa utilizando ejemplos "nuevos" de los conjuntos de datos disponibles (conjuntos de datos de validación y prueba) para estimar la precisión del modelo al clasificar datos nuevos. Para reducir el riesgo de problemas como el sobreajuste, los ejemplos de los conjuntos de datos de prueba y validación no deben usarse para entrenar el modelo.

La mayoría de los enfoques que buscan relaciones empíricas en los datos de entrenamiento tienden a sobreajustar los datos, lo que significa que pueden identificar y explotar relaciones aparentes en los datos de entrenamiento que no se cumplen en general.

Conjunto de datos de validación

Un conjunto de datos de validación es un conjunto de datos de ejemplos que se utilizan para ajustar los hiperparámetros (es decir, la arquitectura) de un clasificador. A veces también se le llama conjunto de desarrollo o "conjunto de desarrollo". Un ejemplo de hiperparámetro para redes neuronales artificiales incluye la cantidad de unidades ocultas en cada capa. Éste, al igual que el conjunto de pruebas (como se menciona a continuación), debe seguir la misma distribución de probabilidad que el conjunto de datos de entrenamiento.

Para evitar el sobreajuste, cuando es necesario ajustar cualquier parámetro de clasificación, es necesario tener un conjunto de datos de validación además de los conjuntos de datos de entrenamiento y prueba. Por ejemplo, si se busca el clasificador más adecuado para el problema, el conjunto de datos de entrenamiento se usa para entrenar a los diferentes clasificadores candidatos, el conjunto de datos de validación se usa para comparar sus desempeños y decidir cuál tomar y, finalmente, los datos de prueba. El conjunto se utiliza para obtener características de rendimiento como precisión, sensibilidad, especificidad, medida F, etc. El conjunto de datos de validación funciona como un híbrido: son datos de entrenamiento que se utilizan para las pruebas, pero no como parte del entrenamiento de bajo nivel ni como parte de las pruebas finales.

El proceso básico de utilizar un conjunto de datos de validación para la selección del modelo (como parte del conjunto de datos de entrenamiento, el conjunto de datos de validación y el conjunto de datos de prueba) es:

Dado que nuestro objetivo es encontrar la red que tenga el mejor rendimiento en nuevos datos, el enfoque más simple de la comparación de diferentes redes es evaluar la función de error utilizando datos independientes de los utilizados para la formación. Diversas redes reciben capacitación minimizando una función de error adecuada definida con respecto a un conjunto de datos de capacitación. El rendimiento de las redes se compara entonces evaluando la función de error utilizando un conjunto de validación independiente, y se selecciona la red con el error más pequeño con respecto al conjunto de validación. Este enfoque se llama Esperen. método. Dado que este procedimiento puede en sí mismo conducir a algún ajuste excesivo al conjunto de validación, el rendimiento de la red seleccionada debe confirmarse midiendo su rendimiento en un tercer conjunto independiente de datos llamado conjunto de pruebas.

Una aplicación de este proceso es en la parada temprana, donde los modelos candidatos son iteraciones sucesivas de la misma red, y el entrenamiento se detiene cuando el error en el conjunto de validación crece, eligiendo el modelo anterior (el que tiene un error mínimo).

Conjunto de datos de prueba

Un conjunto de datos de prueba es un conjunto de datos que es independiente del conjunto de datos de entrenamiento, pero que sigue la misma distribución de probabilidad que el conjunto de datos de entrenamiento. Si un modelo que se ajusta al conjunto de datos de entrenamiento también se ajusta bien al conjunto de datos de prueba, se ha producido un sobreajuste mínimo (consulte la figura siguiente). Un mejor ajuste del conjunto de datos de entrenamiento en comparación con el conjunto de datos de prueba suele indicar un sobreajuste.

Por lo tanto, un conjunto de pruebas es un conjunto de ejemplos que se utilizan únicamente para evaluar el rendimiento (es decir, la generalización) de un clasificador completamente especificado. Para ello, el modelo final se utiliza para predecir clasificaciones de ejemplos en el conjunto de prueba. Esas predicciones se comparan con los ejemplos' clasificaciones verdaderas para evaluar la precisión del modelo.

En un escenario donde se utilizan conjuntos de datos de prueba y validación, el conjunto de datos de prueba generalmente se usa para evaluar el modelo final que se selecciona durante el proceso de validación. En el caso de que el conjunto de datos original se divida en dos subconjuntos (conjuntos de datos de entrenamiento y de prueba), el conjunto de datos de prueba podría evaluar el modelo solo una vez (por ejemplo, en el método de reserva). Tenga en cuenta que algunas fuentes desaconsejan este método. Sin embargo, cuando se utiliza un método como la validación cruzada, dos particiones pueden ser suficientes y efectivas, ya que los resultados se promedian después de rondas repetidas de entrenamiento y prueba del modelo para ayudar a reducir el sesgo y la variabilidad.


Un conjunto de capacitación (izquierda) y un conjunto de pruebas (derecho) de la misma población estadística se muestran como puntos azules. Dos modelos predictivos se ajustan a los datos de entrenamiento. Ambos modelos equipados se configuran con los conjuntos de entrenamiento y prueba. En el set de entrenamiento, el MSE del ajuste mostrado en naranja es 4, mientras que el MSE para el ajuste mostrado en verde es 9. En el set de prueba, el MSE para el ajuste mostrado en naranja es 15 y el MSE para el ajuste mostrado en verde es 13. La curva naranja supera severamente los datos de entrenamiento, ya que su MSE aumenta en casi un factor de cuatro al comparar el conjunto de pruebas con el conjunto de entrenamiento. La curva verde supera los datos de entrenamiento mucho menos, ya que su MSE aumenta en menos de un factor de 2.

Confusión terminológica

Probar es intentar algo para descubrirlo ("poner a prueba; demostrar la verdad, autenticidad o calidad de algo mediante un experimento" según el Collaborative International Dictionary of English) y validar es demostrar que algo es válido ("Confirmar; hacer válido" Diccionario Colaborativo Internacional de Inglés). Desde esta perspectiva, el uso más común de los términos conjunto de prueba y conjunto de validación es el que aquí se describe. Sin embargo, tanto en la industria como en la academia, a veces se usan indistintamente, al considerar que el proceso interno es probar diferentes modelos para mejorar (conjunto de pruebas como conjunto de desarrollo) y el modelo final es el que necesita ser validado antes de su uso real con datos invisibles (conjunto de validación). "La literatura sobre aprendizaje automático a menudo invierte el significado de 'validación' y 'prueba' conjuntos. Este es el ejemplo más flagrante de la confusión terminológica que impregna la investigación sobre inteligencia artificial." Sin embargo, el concepto importante que se debe mantener es que el conjunto final, ya sea llamado prueba o validación, sólo debe usarse en el experimento final.

Validación cruzada

Para obtener resultados más estables y utilizar todos los datos valiosos para el entrenamiento, un conjunto de datos se puede dividir repetidamente en varios conjuntos de datos de entrenamiento y validación. Esto se conoce como validación cruzada. Para confirmar el rendimiento del modelo, normalmente se utiliza un conjunto de datos de prueba adicional excluidos de la validación cruzada.

Causas del error

Banda cómica demostrando una salida de computadora errónea ficticia (haciendo un café 5 millones de grados [Celsius o Fahrenheit no especificados], de una definición anterior de "extra caliente"). Esto puede clasificarse como un fracaso en la lógica y un fracaso para incluir varias condiciones ambientales relevantes.

Las omisiones en el entrenamiento de algoritmos son una de las principales causas de resultados erróneos. Los tipos de tales omisiones incluyen:

  • No se incluyeron circunstancias o variaciones particulares.
  • Datos obsoletos
  • Ambiguous input information
  • Incapacidad de cambiar a nuevos entornos
  • Incapacidad de solicitar ayuda de un sistema humano u otro sistema de inteligencia artificial cuando sea necesario

Un ejemplo de una omisión de circunstancias particulares es un caso en el que un niño pudo desbloquear el teléfono porque su madre registró su rostro bajo la iluminación interior nocturna, una condición que no se incluyó adecuadamente en la capacitación del sistema.

El uso de entradas relativamente irrelevantes puede incluir situaciones en las que los algoritmos utilizan el fondo en lugar del objeto de interés para la detección de objetos, como ser entrenados por imágenes de ovejas en pastizales, lo que genera el riesgo de que un objeto diferente sea interpretado como un ovejas si se encuentran en un prado.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save