Calidad de video
calidad de vídeo es una característica de un vídeo que pasa a través de un sistema de procesamiento o transmisión de vídeo que describe la degradación percibida del vídeo (normalmente en comparación con el vídeo original). Los sistemas de procesamiento de video pueden introducir cierta distorsión o artefactos en la señal de video que impactan negativamente la percepción que el usuario tiene del sistema. Para muchas partes interesadas en la producción y distribución de videos, garantizar la calidad del video es una tarea importante.
Laevaluación de la calidad del vídeo se realiza para describir la calidad de un conjunto de secuencias de vídeo bajo estudio. La calidad del vídeo se puede evaluar objetivamente (mediante modelos matemáticos) o subjetivamente (preguntando a los usuarios su calificación). Además, la calidad de un sistema se puede determinar fuera de línea (es decir, en un laboratorio para desarrollar nuevos códecs o servicios) o en servicio (para monitorear y garantizar un cierto nivel de calidad).
Del vídeo analógico al digital
Desde que se grabó y transmitió la primera secuencia de vídeo del mundo, se han diseñado muchos sistemas de procesamiento de vídeo. Tales sistemas codifican secuencias de vídeo y las transmiten a través de diversos tipos de redes o canales. En la era de sistemas de vídeo analógicos, era posible evaluar los aspectos de calidad de un sistema de procesamiento de vídeo calculando la respuesta de frecuencia del sistema mediante señales de prueba (por ejemplo, una colección de barras de color y círculos).
Los sistemas de vídeo digital han reemplazado casi por completo a los analógicos y los métodos de evaluación de la calidad han cambiado. El rendimiento de un sistema de transmisión y procesamiento de video digital puede variar significativamente y depende de muchos factores, incluidas las características de la señal de video de entrada (por ejemplo, cantidad de movimiento o detalles espaciales), las configuraciones utilizadas para la codificación y transmisión, y la fidelidad del canal. o el rendimiento de la red.
Calidad de vídeo objetiva
Losmodelos objetivos de calidad de vídeo son modelos matemáticos que aproximan los resultados de una evaluación subjetiva de la calidad, en la que se pide a observadores humanos que califiquen la calidad de un vídeo. En este contexto, el término modelo puede referirse a un modelo estadístico simple en el que varias variables independientes (por ejemplo, la tasa de pérdida de paquetes en una red y los parámetros de codificación de vídeo) se ajustan a los resultados obtenidos de forma subjetiva. Prueba de evaluación de la calidad mediante técnicas de regresión. Un modelo también puede ser un algoritmo más complicado implementado en software o hardware.
Terminología
Los términos modelo y métrica se utilizan a menudo indistintamente en el campo para referirse a una estadística descriptiva que proporciona un indicador de calidad. El término “objetivo” se refiere a que, en general, los modelos de calidad se basan en criterios que pueden ser medidos objetivamente, es decir, libres de interpretación humana. Pueden ser evaluados automáticamente mediante un programa informático. A diferencia de un panel de observadores humanos, un modelo objetivo siempre debe generar de manera determinista el mismo puntaje de calidad para un conjunto determinado de parámetros de entrada.
Los modelos de calidad objetiva a veces también se denominan modelos (de calidad) instrumentales, para enfatizar su aplicación como instrumentos de medición. Algunos autores sugieren que el término “objetivo” es engañoso, ya que “implica que las mediciones instrumentales conllevan objetividad, lo que sólo ocurre en los casos en que pueden generalizarse”.
Clasificación de modelos objetivos de calidad de vídeo


Los modelos objetivos se pueden clasificar por la cantidad de información disponible sobre la señal original, la señal recibida o si hay alguna señal presente:
- Métodos completos de referencia (FR): Los modelos FR calculan la diferencia de calidad comparando la señal de vídeo original contra la señal de vídeo recibida. Típicamente, cada pixel de la fuente se compara con el píxel correspondiente en el vídeo recibido, sin conocimiento sobre el proceso de codificación o transmisión entre. Los algoritmos más elaborados pueden elegir combinar la estimación basada en pixel con otros enfoques, como los que se describen a continuación. Los modelos FR son generalmente los más precisos, a expensas de un mayor esfuerzo computacional. Como requieren la disponibilidad del vídeo original antes de la transmisión o codificación, no se pueden utilizar en todas las situaciones (por ejemplo, donde la calidad se mide desde un dispositivo cliente).
- Métodos de referencia reducidos (RR): Los modelos RR extraen algunas características de ambos vídeos y los comparan para dar una puntuación de calidad. Se utilizan cuando todo el vídeo original no está disponible o cuando sería prácticamente imposible hacerlo, por ejemplo, en una transmisión con un ancho de banda limitado. Esto los hace más eficientes que los modelos FR a expensas de menor precisión.
- Métodos de no referencia (NR): Los modelos NR intentan evaluar la calidad de un vídeo distorsionado sin ninguna referencia a la señal original. Debido a la ausencia de una señal original, pueden ser menos exactos que los enfoques FR o RR pero son más eficientes para calcular. The Video Quality Experts Group has a dedicated working group on developing no-reference metrics (called NORM).
- Métodos basados en el píxel (NR-P): Los modelos basados en Pixel utilizan una representación decodificada de la señal y analizan la calidad basada en la información de píxel. Algunos de ellos evalúan tipos específicos de degradación solamente, como el borroso u otros artefactos de codificación.
- Métodos paramétricos/Bitstream (NR-B): Estos modelos utilizan características extraídas del contenedor de transmisión y/o bitstream de vídeo, por ejemplo, cabeceras de paquetes MPEG-TS, vectores de movimiento y parámetros de cuantificación. No tienen acceso a la señal original y no requieren decodificación del vídeo, lo que los hace más eficientes. En contraste con los modelos NR-P, no tienen acceso a la señal decodificada final. En algunos casos, la exactitud de predicción de métricas basadas en bitstream puede llegar a una referencia completa sin requerir una referencia.
- Métodos híbridos (Hybrid NR-P-B): Los modelos híbridos combinan parámetros extraídos del bitstream con una señal de vídeo decodificada. Por lo tanto, son una mezcla entre los modelos NR-P y NR-B.
Uso de modelos de calidad de imagen para estimar la calidad de vídeo
Algunos modelos que se utilizan para evaluar la calidad del vídeo (como PSNR o SSIM) son simplemente modelos de calidad de imagen, cuya salida se calcula para cada fotograma de una secuencia de vídeo. Shahid et al. también ofrecen una descripción general de los modelos recientes de calidad de imagen sin referencia en un artículo de revista.
La medida de calidad de cada fotograma de un vídeo (según lo determinado por un modelo de calidad de imagen) se puede registrar y agrupar a lo largo del tiempo para evaluar la calidad de una secuencia de vídeo completa. Si bien este método es fácil de implementar, no tiene en cuenta ciertos tipos de degradaciones que se desarrollan con el tiempo, como los artefactos en movimiento causados por la pérdida de paquetes y su ocultación. Un modelo de calidad de vídeo que considere los aspectos temporales de las degradaciones de calidad, como VQM o el índice MOVIE, puede producir predicciones más precisas de la calidad percibida por los humanos.
Artefactos de calidad de vídeo
La estimación de artefactos visuales es una técnica bien conocida para estimar la calidad general del vídeo. La mayoría de estos artefactos son artefactos de compresión causados por una compresión con pérdida. Algunos de los atributos que normalmente se estiman mediante métricas basadas en píxeles incluyen:
Espacial
- Blurring — resultado de la pérdida de alta frecuencia espacial detalle de la imagen, generalmente en bordes agudos.
- Bloqueo — es causado por múltiples algoritmos debido a la representación interna de una imagen con bloques tamaño 8, 16, o 32. Con parámetros específicos, pueden promedio píxeles dentro de un bloque haciendo bloques distintos
- Anillo, eco o fantasma - toma la forma de una banda “halo”, o “fantasma” cerca de bordes afilados.
- Hemorragia de color — se produce cuando los bordes de un color en la imagen sangran involuntariamente o superponen en otro color
- Ruido de escalera — es un caso especial de bloqueo a lo largo de un borde diagonal o curvado. En lugar de hacer como suave, toma la apariencia de pasos de escalera
Temporal
- Flickering — suele ser frecuente el brillo o los cambios de color a lo largo de la dimensión del tiempo. A menudo se descompone como el flickering de grano fino y el flickering de grano grueso.
- Mosquito ruido — una variante de flickering, está tipificada como confunción y/o shimmering alrededor del contenido de alta frecuencia (transiciones de sharp entre las entidades del primer plano y el fondo o los bordes duros).
- Flotación — se refiere al movimiento ilusorio en ciertas regiones, mientras que las áreas circundantes permanecen estáticas. Visualmente, estas regiones parecen estar flotando sobre el fondo circundante
- Jerkiness o ejido — es el movimiento percibido desigual o wobbly debido al muestreo de marcos. A menudo es causada por la conversión de películas de 24 fps a un formato de vídeo de 30 o 60 fps.
Ejemplos de métricas de calidad de vídeo
Esta sección enumera ejemplos de métricas de calidad de vídeo.
métrica | Usage | Descripción | |
---|---|---|---|
Referencia completa | PSNR (Peak Signal-to-Noise Ratio) | Imagen | Se calcula entre cada marco del original y la señal de vídeo degradada. PSNR es la métrica de calidad de imagen objetiva más utilizada. Sin embargo, los valores de PSNR no se correlacionan bien con la calidad de imagen percibida debido al comportamiento complejo y altamente no lineal del sistema visual humano. |
SSIM ( SIMilaridad estructural) | Imagen | SSIM es un modelo basado en la percepción que considera la degradación de la imagen como cambio percibido en la información estructural, al tiempo que incorpora importantes fenómenos perceptuales, incluyendo términos de enmascaramiento de luminancia y enmascaramiento de contraste. | |
Índice de MOVIE (Evaluación de la integridad de vídeo basada en la organización) | Video | El índice MOVIE es un modelo basado en neurociencias para predecir la calidad perceptual de un cuadro o vídeo de movimiento (posiblemente comprimido o distorsionado) contra un video de referencia prístino. | |
VMAF (Vídeo Multimetod Assessment Fusion) | Video | VMAF utiliza cuatro características para predecir la calidad de vídeo VIF, DLM, MCPD, AN-SNR. Las características anteriores se fusionan con una regresión basada en SVM para proporcionar una sola puntuación de salida. Estas puntuaciones se agrupan temporalmente en toda la secuencia de vídeo utilizando la media aritmética para proporcionar una puntuación de opinión media diferencial general (DMOS). | |
VQM | Video | Este modelo se ha estandarizado en la ITU-T Rec. J.144 en 2001. | |
Reducción de la referencia | RRR (Referencia reducida de la SSIM) | Video | El valor SRR se calcula como la relación de la señal de vídeo recibida (objetivo) SSIM con los valores del patrón de vídeo de referencia SSIM. |
ST-RRED | Video | Coeficientes de onda computar diferencias de marco entre los marcos adyacentes en una secuencia de vídeo (modificado por una mezcla de escala gausiana). Se utiliza para evaluar las diferencias entropicas RR que conducen a RRED temporal. Junto con los índices RRED espaciales evaluados mediante la aplicación del índice RRED en cada marco del vídeo, producir el spatio-temporal RRED | |
ITU-T Rec. P.1204.4 | Video | Este modelo de referencia reducida compara las características extraídas de un video de referencia con un vídeo distorsionado (vídeo comprimido). | |
No Referencia | Evaluador de calidad de imagen NIQE | Imagen | Este modelo IQA se basa en características estadísticos de la escena natural de dominio espacial perceptualmente relevantes (NSS) extraídas de parches de imagen locales que capturan efectivamente las estadísticas esenciales de bajo orden de las imágenes naturales. |
BRISQUE Blind/Referenceless Image Evaluador de calidad espacial | Imagen | El método extrae las estadísticas puntuales de las señales de luminancia normalizadas locales y mide la naturalidad de la imagen (o la falta de ella) basado en las desviaciones medidas de un modelo de imagen natural. También modela la distribución de estadísticas pares de señales de luminancia normalizadas adyacentes que proporciona información de orientación de distorsión. | |
Video-BLIINDS | Video | Computes statistical models on DCT coefficients of frame differences and calculates motion characterization. La puntuación de Pedicts se basa en esas características usando SVM. | |
ITU-T Rec. P.1203.1 | Video | Esta es una métrica que forma parte de la familia de estándares P.1203, que puede utilizar sólo metadatos (codec, resolución, bitrate, framerate), información de marco (tipos y tamaños de marco), o todo el bitstream para analizar la calidad de un vídeo comprimido. Está destinado principalmente a ser utilizado en el contexto de la transmisión adaptativa HTTP. | |
ITU-T Rec. P.1204.3 | Video | Este modelo utiliza el bitstream de vídeo para analizar la calidad de compresión/codificación basada en características como parámetros de cuantificación y vectores de movimiento. | |
ITU-T Rec. P.1204.5 | Video | Este es un modelo híbrido que utiliza los píxeles decodificados e información sobre el codec de vídeo para determinar la calidad final del vídeo. |
Formación y evaluación del desempeño
Dado que se espera que los modelos objetivos de calidad de vídeo predigan los resultados proporcionados por observadores humanos, se desarrollan con la ayuda de resultados de pruebas subjetivas. Durante el desarrollo de un modelo objetivo, sus parámetros deben entrenarse para lograr la mejor correlación entre los valores predichos objetivamente y las puntuaciones subjetivas, a menudo disponibles como puntuaciones de opinión medias (MOS).
Los materiales de prueba subjetiva más utilizados son de dominio público e incluyen imágenes fijas, imágenes en movimiento, transmisión de video, alta definición, 3-D (estereoscópico) y conjuntos de datos relacionados con la calidad de la imagen para fines especiales. Estas denominadas bases de datos son creadas por varios laboratorios de investigación de todo el mundo. Algunas de ellas se han convertido en estándares de facto, incluidas varias bases de datos de calidad de imagen subjetiva de dominio público creadas y mantenidas por el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE), así como la Base de datos de imágenes de Tampere 2008. Puede encontrar una colección de bases de datos en QUALINET. Repositorio de bases de datos. La Consumer Digital Video Library (CDVL) alberga secuencias de prueba de vídeo disponibles gratuitamente para el desarrollo de modelos.
Algunas bases de datos también proporcionan puntuaciones de métricas calculadas previamente para permitir a otros comparar nuevas métricas con las existentes. Se pueden ver ejemplos en la siguiente tabla.
Criterios | Número de vídeos | Número de métricas | Tipo de métrica |
---|---|---|---|
VQC | 585 | 11 | No referencia |
KoNViD-1k | 1.200 | 11 | No referencia |
YouTube-UGC | 1.500 | 9 | No referencia |
MSU No Reference VQA | 2.500 | 15 | No referencia |
MSU VQA de referencia completa | 2.500 | 44 | Referencia completa |
LIVE-FB Calidad de vídeo social de gran escala | 39.000 | 6 | No referencia |
LIVE-ETRI | 437 | 5 | No referencia |
LIVE Livestream | 315 | 3 | No referencia |
En teoría, un modelo se puede entrenar con un conjunto de datos de tal manera que produzca puntuaciones perfectamente coincidentes en ese conjunto de datos. Sin embargo, dicho modelo estará sobreentrenado y, por lo tanto, no funcionará bien en nuevos conjuntos de datos. Por lo tanto, se recomienda validar los modelos con datos nuevos y utilizar el rendimiento resultante como un indicador real de la precisión de la predicción del modelo.
Para medir el rendimiento de un modelo, algunas métricas utilizadas con frecuencia son el coeficiente de correlación lineal, el coeficiente de correlación de rango de Spearman y la raíz del error cuadrático medio (RMSE). Otras métricas son el coeficiente kappa y la relación de valores atípicos. Rec. UIT-T. P.1401 ofrece una descripción general de los procedimientos estadísticos para evaluar y comparar modelos objetivos.
Usos y aplicación de modelos objetivos
Los modelos de calidad de vídeo objetivo se pueden utilizar en diversas áreas de aplicación. En el desarrollo de video codec, el rendimiento de un codec se evalúa a menudo en términos de PSNR o SSIM. Para los proveedores de servicios, se pueden utilizar modelos objetivos para supervisar un sistema. Por ejemplo, un proveedor de IPTV puede optar por supervisar su calidad de servicio mediante modelos objetivos, en lugar de pedir a los usuarios su opinión, o esperar quejas de los clientes sobre mala calidad de vídeo. Pocos de estos estándares han encontrado aplicaciones comerciales, incluyendo PEVQ y VQuad-HD. SSIM también forma parte de un conjunto de herramientas de calidad de vídeo disponible comercialmente (SSIMWAVE). VMAF es utilizado por Netflix para sintonizar sus algoritmos de codificación y streaming, y para control de calidad todo el contenido de corriente. También está siendo utilizado por otras empresas tecnológicas como Bitmovin y se ha integrado en software como FFmpeg.
Un modelo objetivo solo debe usarse en el contexto para el que fue desarrollado. Por ejemplo, no se garantiza que un modelo desarrollado utilizando un códec de vídeo concreto sea preciso para otro códec de vídeo. De manera similar, un modelo entrenado en pruebas realizadas en una pantalla de televisión grande no debe usarse para evaluar la calidad de un video visto en un teléfono móvil.
Otros enfoques
Al estimar la calidad de un códec de vídeo, todos los métodos objetivos mencionados pueden requerir la repetición de pruebas posteriores a la codificación para determinar los parámetros de codificación que satisfacen el nivel requerido de calidad visual, lo que hace que su implementación requiera mucho tiempo, sea compleja y poco práctica. Aplicaciones comerciales reales. Se están realizando investigaciones para desarrollar nuevos métodos de evaluación objetiva que permitan predecir el nivel de calidad percibido del vídeo codificado antes de que se realice la codificación real.
Calidad de vídeo subjetiva
El objetivo principal de las métricas de calidad de vídeo de múltiples objetivos es estimar automáticamente la opinión del usuario promedio (espectador) sobre la calidad de un vídeo procesado por un sistema. Los procedimientos para mediciones subjetivas de la calidad de vídeo se describen en la recomendación ITU-R BT.500 y la recomendación ITU-T P.910. En dichas pruebas, se muestran secuencias de vídeo a un grupo de espectadores. Los espectadores' La opinión se registra y se promedia en la puntuación de opinión media para evaluar la calidad de cada secuencia de vídeo. Sin embargo, el procedimiento de prueba puede variar según el tipo de sistema que se pruebe.
Herramientas para evaluar la calidad del vídeo
Herramienta | Descripción | Availability | Licencia | Metrices incluidas |
---|---|---|---|---|
FFmpeg | Herramienta multimedia gratuita y de código abierto que incorpora algunas métricas de calidad de vídeo | Gratis | Fuente abierta | PSNR, SSIM, VMAF |
MSU VQMT | Un paquete de software para la evaluación objetiva de la calidad del vídeo (referencia completa y sin referencia) | Gratis para métricas básicas
Pagado para métricas HDR | Propietario | PSNR, SSIM, MS-SSIM, 3SSIM, VMAF, NIQE, VQM, Delta, MSAD, MSE
MSU desarrolló métricas: Metricía de desplegable, Metriz de bloqueo, Metriz de recubrimiento de brillo, Metriz de marco de gota, Metriz de estimación de ruido |
EPFL VQMT | Diversas métricas implementadas en OpenCV (C++) basadas en implementaciones MATLAB existentes | Gratis | Fuente abierta | PSNR, PSNR-HVS, PSNR-HVS-M, SSIM, MS-SSIM, VIFp |
OpenVQ | Un kit de herramientas que implementa varias métricas incluyendo el OPVQ de los autores | Gratis | Fuente abierta | PSNR, SSIM, OPVQ |
Elecard | Un programa de estimación de calidad de vídeo comercial | Versión de demostración disponible | Propietario | PSNR, APSNR, MSAD, MSE, SSIM, Delta, VQM, NQI, VMAF, VIF |
AviSynth | Una herramienta de procesamiento de vídeo que se puede utilizar como plugin o a través de la inscripción | Gratis | Fuente abierta | SSIM |
VQ Probe | Un software para calcular métricas de calidad de vídeo | Gratis | Propietario | PSNR, SSIM, VMAF |
vmaf.dev | Un software de cálculo de calidad de vídeo en línea que implementa VMAF | Gratis | Fuente abierta | VMAF |
Contenido relacionado
Sincronización de fotogramas
Sistema de telégrafo polarencial
Vitafono
Televisión terrestre
Sai