Calidad de video

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Perceived video degradation

calidad de vídeo es una característica de un vídeo que pasa a través de un sistema de procesamiento o transmisión de vídeo que describe la degradación percibida del vídeo (normalmente en comparación con el vídeo original). Los sistemas de procesamiento de video pueden introducir cierta distorsión o artefactos en la señal de video que impactan negativamente la percepción que el usuario tiene del sistema. Para muchas partes interesadas en la producción y distribución de videos, garantizar la calidad del video es una tarea importante.

evaluación de la calidad del vídeo se realiza para describir la calidad de un conjunto de secuencias de vídeo bajo estudio. La calidad del vídeo se puede evaluar objetivamente (mediante modelos matemáticos) o subjetivamente (preguntando a los usuarios su calificación). Además, la calidad de un sistema se puede determinar fuera de línea (es decir, en un laboratorio para desarrollar nuevos códecs o servicios) o en servicio (para monitorear y garantizar un cierto nivel de calidad).

Del vídeo analógico al digital

Desde que se grabó y transmitió la primera secuencia de vídeo del mundo, se han diseñado muchos sistemas de procesamiento de vídeo. Tales sistemas codifican secuencias de vídeo y las transmiten a través de diversos tipos de redes o canales. En la era de sistemas de vídeo analógicos, era posible evaluar los aspectos de calidad de un sistema de procesamiento de vídeo calculando la respuesta de frecuencia del sistema mediante señales de prueba (por ejemplo, una colección de barras de color y círculos).

Los sistemas de vídeo digital han reemplazado casi por completo a los analógicos y los métodos de evaluación de la calidad han cambiado. El rendimiento de un sistema de transmisión y procesamiento de video digital puede variar significativamente y depende de muchos factores, incluidas las características de la señal de video de entrada (por ejemplo, cantidad de movimiento o detalles espaciales), las configuraciones utilizadas para la codificación y transmisión, y la fidelidad del canal. o el rendimiento de la red.

Calidad de vídeo objetiva

Los

modelos objetivos de calidad de vídeo son modelos matemáticos que aproximan los resultados de una evaluación subjetiva de la calidad, en la que se pide a observadores humanos que califiquen la calidad de un vídeo. En este contexto, el término modelo puede referirse a un modelo estadístico simple en el que varias variables independientes (por ejemplo, la tasa de pérdida de paquetes en una red y los parámetros de codificación de vídeo) se ajustan a los resultados obtenidos de forma subjetiva. Prueba de evaluación de la calidad mediante técnicas de regresión. Un modelo también puede ser un algoritmo más complicado implementado en software o hardware.

Terminología

Los términos modelo y métrica se utilizan a menudo indistintamente en el campo para referirse a una estadística descriptiva que proporciona un indicador de calidad. El término “objetivo” se refiere a que, en general, los modelos de calidad se basan en criterios que pueden ser medidos objetivamente, es decir, libres de interpretación humana. Pueden ser evaluados automáticamente mediante un programa informático. A diferencia de un panel de observadores humanos, un modelo objetivo siempre debe generar de manera determinista el mismo puntaje de calidad para un conjunto determinado de parámetros de entrada.

Los modelos de calidad objetiva a veces también se denominan modelos (de calidad) instrumentales, para enfatizar su aplicación como instrumentos de medición. Algunos autores sugieren que el término “objetivo” es engañoso, ya que “implica que las mediciones instrumentales conllevan objetividad, lo que sólo ocurre en los casos en que pueden generalizarse”.

Clasificación de modelos objetivos de calidad de vídeo

Los modelos objetivos se pueden clasificar por la cantidad de información disponible sobre la señal original, la señal recibida o si hay alguna señal presente:

Métodos completos de referencia (FR): Los modelos FR calculan la diferencia de calidad comparando la señal de vídeo original contra la señal de vídeo recibida. Típicamente, cada pixel de la fuente se compara con el píxel correspondiente en el vídeo recibido, sin conocimiento sobre el proceso de codificación o transmisión entre. Los algoritmos más elaborados pueden elegir combinar la estimación basada en pixel con otros enfoques, como los que se describen a continuación. Los modelos FR son generalmente los más precisos, a expensas de un mayor esfuerzo computacional. Como requieren la disponibilidad del vídeo original antes de la transmisión o codificación, no se pueden utilizar en todas las situaciones (por ejemplo, donde la calidad se mide desde un dispositivo cliente).
Métodos de referencia reducidos (RR): Los modelos RR extraen algunas características de ambos vídeos y los comparan para dar una puntuación de calidad. Se utilizan cuando todo el vídeo original no está disponible o cuando sería prácticamente imposible hacerlo, por ejemplo, en una transmisión con un ancho de banda limitado. Esto los hace más eficientes que los modelos FR a expensas de menor precisión.
Métodos de no referencia (NR): Los modelos NR intentan evaluar la calidad de un vídeo distorsionado sin ninguna referencia a la señal original. Debido a la ausencia de una señal original, pueden ser menos exactos que los enfoques FR o RR pero son más eficientes para calcular. The Video Quality Experts Group has a dedicated working group on developing no-reference metrics (called NORM).
- Métodos basados en el píxel (NR-P): Los modelos basados en Pixel utilizan una representación decodificada de la señal y analizan la calidad basada en la información de píxel. Algunos de ellos evalúan tipos específicos de degradación solamente, como el borroso u otros artefactos de codificación.
- Métodos paramétricos/Bitstream (NR-B): Estos modelos utilizan características extraídas del contenedor de transmisión y/o bitstream de vídeo, por ejemplo, cabeceras de paquetes MPEG-TS, vectores de movimiento y parámetros de cuantificación. No tienen acceso a la señal original y no requieren decodificación del vídeo, lo que los hace más eficientes. En contraste con los modelos NR-P, no tienen acceso a la señal decodificada final. En algunos casos, la exactitud de predicción de métricas basadas en bitstream puede llegar a una referencia completa sin requerir una referencia.
- Métodos híbridos (Hybrid NR-P-B): Los modelos híbridos combinan parámetros extraídos del bitstream con una señal de vídeo decodificada. Por lo tanto, son una mezcla entre los modelos NR-P y NR-B.

Uso de modelos de calidad de imagen para estimar la calidad de vídeo

Algunos modelos que se utilizan para evaluar la calidad del vídeo (como PSNR o SSIM) son simplemente modelos de calidad de imagen, cuya salida se calcula para cada fotograma de una secuencia de vídeo. Shahid et al. también ofrecen una descripción general de los modelos recientes de calidad de imagen sin referencia en un artículo de revista.

La medida de calidad de cada fotograma de un vídeo (según lo determinado por un modelo de calidad de imagen) se puede registrar y agrupar a lo largo del tiempo para evaluar la calidad de una secuencia de vídeo completa. Si bien este método es fácil de implementar, no tiene en cuenta ciertos tipos de degradaciones que se desarrollan con el tiempo, como los artefactos en movimiento causados por la pérdida de paquetes y su ocultación. Un modelo de calidad de vídeo que considere los aspectos temporales de las degradaciones de calidad, como VQM o el índice MOVIE, puede producir predicciones más precisas de la calidad percibida por los humanos.

Artefactos de calidad de vídeo

La estimación de artefactos visuales es una técnica bien conocida para estimar la calidad general del vídeo. La mayoría de estos artefactos son artefactos de compresión causados por una compresión con pérdida. Algunos de los atributos que normalmente se estiman mediante métricas basadas en píxeles incluyen:

Espacial

Blurring — resultado de la pérdida de alta frecuencia espacial detalle de la imagen, generalmente en bordes agudos.
Bloqueo — es causado por múltiples algoritmos debido a la representación interna de una imagen con bloques tamaño 8, 16, o 32. Con parámetros específicos, pueden promedio píxeles dentro de un bloque haciendo bloques distintos
Anillo, eco o fantasma - toma la forma de una banda “halo”, o “fantasma” cerca de bordes afilados.
Hemorragia de color — se produce cuando los bordes de un color en la imagen sangran involuntariamente o superponen en otro color
Ruido de escalera — es un caso especial de bloqueo a lo largo de un borde diagonal o curvado. En lugar de hacer como suave, toma la apariencia de pasos de escalera

Temporal

Flickering — suele ser frecuente el brillo o los cambios de color a lo largo de la dimensión del tiempo. A menudo se descompone como el flickering de grano fino y el flickering de grano grueso.
Mosquito ruido — una variante de flickering, está tipificada como confunción y/o shimmering alrededor del contenido de alta frecuencia (transiciones de sharp entre las entidades del primer plano y el fondo o los bordes duros).
Flotación — se refiere al movimiento ilusorio en ciertas regiones, mientras que las áreas circundantes permanecen estáticas. Visualmente, estas regiones parecen estar flotando sobre el fondo circundante
Jerkiness o ejido — es el movimiento percibido desigual o wobbly debido al muestreo de marcos. A menudo es causada por la conversión de películas de 24 fps a un formato de vídeo de 30 o 60 fps.

Ejemplos de métricas de calidad de vídeo

Esta sección enumera ejemplos de métricas de calidad de vídeo.

métrica		Usage	Descripción
Referencia completa	PSNR (Peak Signal-to-Noise Ratio)	Imagen	Se calcula entre cada marco del original y la señal de vídeo degradada. PSNR es la métrica de calidad de imagen objetiva más utilizada. Sin embargo, los valores de PSNR no se correlacionan bien con la calidad de imagen percibida debido al comportamiento complejo y altamente no lineal del sistema visual humano.
	SSIM ( SIMilaridad estructural)	Imagen	SSIM es un modelo basado en la percepción que considera la degradación de la imagen como cambio percibido en la información estructural, al tiempo que incorpora importantes fenómenos perceptuales, incluyendo términos de enmascaramiento de luminancia y enmascaramiento de contraste.
	Índice de MOVIE (Evaluación de la integridad de vídeo basada en la organización)	Video	El índice MOVIE es un modelo basado en neurociencias para predecir la calidad perceptual de un cuadro o vídeo de movimiento (posiblemente comprimido o distorsionado) contra un video de referencia prístino.
	VMAF (Vídeo Multimetod Assessment Fusion)	Video	VMAF utiliza cuatro características para predecir la calidad de vídeo VIF, DLM, MCPD, AN-SNR. Las características anteriores se fusionan con una regresión basada en SVM para proporcionar una sola puntuación de salida. Estas puntuaciones se agrupan temporalmente en toda la secuencia de vídeo utilizando la media aritmética para proporcionar una puntuación de opinión media diferencial general (DMOS).
	VQM	Video	Este modelo se ha estandarizado en la ITU-T Rec. J.144 en 2001.
Reducción de la referencia	RRR (Referencia reducida de la SSIM)	Video	El valor SRR se calcula como la relación de la señal de vídeo recibida (objetivo) SSIM con los valores del patrón de vídeo de referencia SSIM.
	ST-RRED	Video	Coeficientes de onda computar diferencias de marco entre los marcos adyacentes en una secuencia de vídeo (modificado por una mezcla de escala gausiana). Se utiliza para evaluar las diferencias entropicas RR que conducen a RRED temporal. Junto con los índices RRED espaciales evaluados mediante la aplicación del índice RRED en cada marco del vídeo, producir el spatio-temporal RRED
	ITU-T Rec. P.1204.4	Video	Este modelo de referencia reducida compara las características extraídas de un video de referencia con un vídeo distorsionado (vídeo comprimido).
No Referencia	Evaluador de calidad de imagen NIQE	Imagen	Este modelo IQA se basa en características estadísticos de la escena natural de dominio espacial perceptualmente relevantes (NSS) extraídas de parches de imagen locales que capturan efectivamente las estadísticas esenciales de bajo orden de las imágenes naturales.
	BRISQUE Blind/Referenceless Image Evaluador de calidad espacial	Imagen	El método extrae las estadísticas puntuales de las señales de luminancia normalizadas locales y mide la naturalidad de la imagen (o la falta de ella) basado en las desviaciones medidas de un modelo de imagen natural. También modela la distribución de estadísticas pares de señales de luminancia normalizadas adyacentes que proporciona información de orientación de distorsión.
	Video-BLIINDS	Video	Computes statistical models on DCT coefficients of frame differences and calculates motion characterization. La puntuación de Pedicts se basa en esas características usando SVM.
	ITU-T Rec. P.1203.1	Video	Esta es una métrica que forma parte de la familia de estándares P.1203, que puede utilizar sólo metadatos (codec, resolución, bitrate, framerate), información de marco (tipos y tamaños de marco), o todo el bitstream para analizar la calidad de un vídeo comprimido. Está destinado principalmente a ser utilizado en el contexto de la transmisión adaptativa HTTP.
	ITU-T Rec. P.1204.3	Video	Este modelo utiliza el bitstream de vídeo para analizar la calidad de compresión/codificación basada en características como parámetros de cuantificación y vectores de movimiento.
	ITU-T Rec. P.1204.5	Video	Este es un modelo híbrido que utiliza los píxeles decodificados e información sobre el codec de vídeo para determinar la calidad final del vídeo.

Formación y evaluación del desempeño

Dado que se espera que los modelos objetivos de calidad de vídeo predigan los resultados proporcionados por observadores humanos, se desarrollan con la ayuda de resultados de pruebas subjetivas. Durante el desarrollo de un modelo objetivo, sus parámetros deben entrenarse para lograr la mejor correlación entre los valores predichos objetivamente y las puntuaciones subjetivas, a menudo disponibles como puntuaciones de opinión medias (MOS).

Los materiales de prueba subjetiva más utilizados son de dominio público e incluyen imágenes fijas, imágenes en movimiento, transmisión de video, alta definición, 3-D (estereoscópico) y conjuntos de datos relacionados con la calidad de la imagen para fines especiales. Estas denominadas bases de datos son creadas por varios laboratorios de investigación de todo el mundo. Algunas de ellas se han convertido en estándares de facto, incluidas varias bases de datos de calidad de imagen subjetiva de dominio público creadas y mantenidas por el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE), así como la Base de datos de imágenes de Tampere 2008. Puede encontrar una colección de bases de datos en QUALINET. Repositorio de bases de datos. La Consumer Digital Video Library (CDVL) alberga secuencias de prueba de vídeo disponibles gratuitamente para el desarrollo de modelos.

Algunas bases de datos también proporcionan puntuaciones de métricas calculadas previamente para permitir a otros comparar nuevas métricas con las existentes. Se pueden ver ejemplos en la siguiente tabla.

Ejemplos de bases de datos de referencia modelo de vídeo
Criterios	Número de vídeos	Número de métricas	Tipo de métrica
VQC	585	11	No referencia
KoNViD-1k	1.200	11	No referencia
YouTube-UGC	1.500	9	No referencia
MSU No Reference VQA	2.500	15	No referencia
MSU VQA de referencia completa	2.500	44	Referencia completa
LIVE-FB Calidad de vídeo social de gran escala	39.000	6	No referencia
LIVE-ETRI	437	5	No referencia
LIVE Livestream	315	3	No referencia

En teoría, un modelo se puede entrenar con un conjunto de datos de tal manera que produzca puntuaciones perfectamente coincidentes en ese conjunto de datos. Sin embargo, dicho modelo estará sobreentrenado y, por lo tanto, no funcionará bien en nuevos conjuntos de datos. Por lo tanto, se recomienda validar los modelos con datos nuevos y utilizar el rendimiento resultante como un indicador real de la precisión de la predicción del modelo.

Para medir el rendimiento de un modelo, algunas métricas utilizadas con frecuencia son el coeficiente de correlación lineal, el coeficiente de correlación de rango de Spearman y la raíz del error cuadrático medio (RMSE). Otras métricas son el coeficiente kappa y la relación de valores atípicos. Rec. UIT-T. P.1401 ofrece una descripción general de los procedimientos estadísticos para evaluar y comparar modelos objetivos.

Usos y aplicación de modelos objetivos

Los modelos de calidad de vídeo objetivo se pueden utilizar en diversas áreas de aplicación. En el desarrollo de video codec, el rendimiento de un codec se evalúa a menudo en términos de PSNR o SSIM. Para los proveedores de servicios, se pueden utilizar modelos objetivos para supervisar un sistema. Por ejemplo, un proveedor de IPTV puede optar por supervisar su calidad de servicio mediante modelos objetivos, en lugar de pedir a los usuarios su opinión, o esperar quejas de los clientes sobre mala calidad de vídeo. Pocos de estos estándares han encontrado aplicaciones comerciales, incluyendo PEVQ y VQuad-HD. SSIM también forma parte de un conjunto de herramientas de calidad de vídeo disponible comercialmente (SSIMWAVE). VMAF es utilizado por Netflix para sintonizar sus algoritmos de codificación y streaming, y para control de calidad todo el contenido de corriente. También está siendo utilizado por otras empresas tecnológicas como Bitmovin y se ha integrado en software como FFmpeg.

Un modelo objetivo solo debe usarse en el contexto para el que fue desarrollado. Por ejemplo, no se garantiza que un modelo desarrollado utilizando un códec de vídeo concreto sea preciso para otro códec de vídeo. De manera similar, un modelo entrenado en pruebas realizadas en una pantalla de televisión grande no debe usarse para evaluar la calidad de un video visto en un teléfono móvil.

Otros enfoques

Al estimar la calidad de un códec de vídeo, todos los métodos objetivos mencionados pueden requerir la repetición de pruebas posteriores a la codificación para determinar los parámetros de codificación que satisfacen el nivel requerido de calidad visual, lo que hace que su implementación requiera mucho tiempo, sea compleja y poco práctica. Aplicaciones comerciales reales. Se están realizando investigaciones para desarrollar nuevos métodos de evaluación objetiva que permitan predecir el nivel de calidad percibido del vídeo codificado antes de que se realice la codificación real.

Calidad de vídeo subjetiva

El objetivo principal de las métricas de calidad de vídeo de múltiples objetivos es estimar automáticamente la opinión del usuario promedio (espectador) sobre la calidad de un vídeo procesado por un sistema. Los procedimientos para mediciones subjetivas de la calidad de vídeo se describen en la recomendación ITU-R BT.500 y la recomendación ITU-T P.910. En dichas pruebas, se muestran secuencias de vídeo a un grupo de espectadores. Los espectadores' La opinión se registra y se promedia en la puntuación de opinión media para evaluar la calidad de cada secuencia de vídeo. Sin embargo, el procedimiento de prueba puede variar según el tipo de sistema que se pruebe.

Herramientas para evaluar la calidad del vídeo

Herramienta	Descripción	Availability	Licencia	Metrices incluidas
FFmpeg	Herramienta multimedia gratuita y de código abierto que incorpora algunas métricas de calidad de vídeo	Gratis	Fuente abierta	PSNR, SSIM, VMAF
MSU VQMT	Un paquete de software para la evaluación objetiva de la calidad del vídeo (referencia completa y sin referencia)	Gratis para métricas básicas Pagado para métricas HDR	Propietario	PSNR, SSIM, MS-SSIM, 3SSIM, VMAF, NIQE, VQM, Delta, MSAD, MSE MSU desarrolló métricas: Metricía de desplegable, Metriz de bloqueo, Metriz de recubrimiento de brillo, Metriz de marco de gota, Metriz de estimación de ruido
EPFL VQMT	Diversas métricas implementadas en OpenCV (C++) basadas en implementaciones MATLAB existentes	Gratis	Fuente abierta	PSNR, PSNR-HVS, PSNR-HVS-M, SSIM, MS-SSIM, VIFp
OpenVQ	Un kit de herramientas que implementa varias métricas incluyendo el OPVQ de los autores	Gratis	Fuente abierta	PSNR, SSIM, OPVQ
Elecard	Un programa de estimación de calidad de vídeo comercial	Versión de demostración disponible	Propietario	PSNR, APSNR, MSAD, MSE, SSIM, Delta, VQM, NQI, VMAF, VIF
AviSynth	Una herramienta de procesamiento de vídeo que se puede utilizar como plugin o a través de la inscripción	Gratis	Fuente abierta	SSIM
VQ Probe	Un software para calcular métricas de calidad de vídeo	Gratis	Propietario	PSNR, SSIM, VMAF
vmaf.dev	Un software de cálculo de calidad de vídeo en línea que implementa VMAF	Gratis	Fuente abierta	VMAF

Contenido relacionado

Más resultados...