Calidad de video

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Perceived video degradation
La

calidad de vídeo es una característica de un vídeo que pasa a través de un sistema de procesamiento o transmisión de vídeo que describe la degradación percibida del vídeo (normalmente en comparación con el vídeo original). Los sistemas de procesamiento de video pueden introducir cierta distorsión o artefactos en la señal de video que impactan negativamente la percepción que el usuario tiene del sistema. Para muchas partes interesadas en la producción y distribución de videos, garantizar la calidad del video es una tarea importante.

La

evaluación de la calidad del vídeo se realiza para describir la calidad de un conjunto de secuencias de vídeo bajo estudio. La calidad del vídeo se puede evaluar objetivamente (mediante modelos matemáticos) o subjetivamente (preguntando a los usuarios su calificación). Además, la calidad de un sistema se puede determinar fuera de línea (es decir, en un laboratorio para desarrollar nuevos códecs o servicios) o en servicio (para monitorear y garantizar un cierto nivel de calidad).

Del vídeo analógico al digital

Desde que se grabó y transmitió la primera secuencia de vídeo del mundo, se han diseñado muchos sistemas de procesamiento de vídeo. Tales sistemas codifican secuencias de vídeo y las transmiten a través de diversos tipos de redes o canales. En la era de sistemas de vídeo analógicos, era posible evaluar los aspectos de calidad de un sistema de procesamiento de vídeo calculando la respuesta de frecuencia del sistema mediante señales de prueba (por ejemplo, una colección de barras de color y círculos).

Los sistemas de vídeo digital han reemplazado casi por completo a los analógicos y los métodos de evaluación de la calidad han cambiado. El rendimiento de un sistema de transmisión y procesamiento de video digital puede variar significativamente y depende de muchos factores, incluidas las características de la señal de video de entrada (por ejemplo, cantidad de movimiento o detalles espaciales), las configuraciones utilizadas para la codificación y transmisión, y la fidelidad del canal. o el rendimiento de la red.

Calidad de vídeo objetiva

Los

modelos objetivos de calidad de vídeo son modelos matemáticos que aproximan los resultados de una evaluación subjetiva de la calidad, en la que se pide a observadores humanos que califiquen la calidad de un vídeo. En este contexto, el término modelo puede referirse a un modelo estadístico simple en el que varias variables independientes (por ejemplo, la tasa de pérdida de paquetes en una red y los parámetros de codificación de vídeo) se ajustan a los resultados obtenidos de forma subjetiva. Prueba de evaluación de la calidad mediante técnicas de regresión. Un modelo también puede ser un algoritmo más complicado implementado en software o hardware.

Terminología

Los términos modelo y métrica se utilizan a menudo indistintamente en el campo para referirse a una estadística descriptiva que proporciona un indicador de calidad. El término “objetivo” se refiere a que, en general, los modelos de calidad se basan en criterios que pueden ser medidos objetivamente, es decir, libres de interpretación humana. Pueden ser evaluados automáticamente mediante un programa informático. A diferencia de un panel de observadores humanos, un modelo objetivo siempre debe generar de manera determinista el mismo puntaje de calidad para un conjunto determinado de parámetros de entrada.

Los modelos de calidad objetiva a veces también se denominan modelos (de calidad) instrumentales, para enfatizar su aplicación como instrumentos de medición. Algunos autores sugieren que el término “objetivo” es engañoso, ya que “implica que las mediciones instrumentales conllevan objetividad, lo que sólo ocurre en los casos en que pueden generalizarse”.

Clasificación de modelos objetivos de calidad de vídeo

Clasificación de modelos objetivos de calidad de vídeo en referencia completa, referencia reducida y no referencia.
No referencia imagen y métodos de evaluación de calidad de vídeo.

Los modelos objetivos se pueden clasificar por la cantidad de información disponible sobre la señal original, la señal recibida o si hay alguna señal presente:

  • Métodos completos de referencia (FR): Los modelos FR calculan la diferencia de calidad comparando la señal de vídeo original contra la señal de vídeo recibida. Típicamente, cada pixel de la fuente se compara con el píxel correspondiente en el vídeo recibido, sin conocimiento sobre el proceso de codificación o transmisión entre. Los algoritmos más elaborados pueden elegir combinar la estimación basada en pixel con otros enfoques, como los que se describen a continuación. Los modelos FR son generalmente los más precisos, a expensas de un mayor esfuerzo computacional. Como requieren la disponibilidad del vídeo original antes de la transmisión o codificación, no se pueden utilizar en todas las situaciones (por ejemplo, donde la calidad se mide desde un dispositivo cliente).
  • Métodos de referencia reducidos (RR): Los modelos RR extraen algunas características de ambos vídeos y los comparan para dar una puntuación de calidad. Se utilizan cuando todo el vídeo original no está disponible o cuando sería prácticamente imposible hacerlo, por ejemplo, en una transmisión con un ancho de banda limitado. Esto los hace más eficientes que los modelos FR a expensas de menor precisión.
  • Métodos de no referencia (NR): Los modelos NR intentan evaluar la calidad de un vídeo distorsionado sin ninguna referencia a la señal original. Debido a la ausencia de una señal original, pueden ser menos exactos que los enfoques FR o RR pero son más eficientes para calcular. The Video Quality Experts Group has a dedicated working group on developing no-reference metrics (called NORM).
    • Métodos basados en el píxel (NR-P): Los modelos basados en Pixel utilizan una representación decodificada de la señal y analizan la calidad basada en la información de píxel. Algunos de ellos evalúan tipos específicos de degradación solamente, como el borroso u otros artefactos de codificación.
    • Métodos paramétricos/Bitstream (NR-B): Estos modelos utilizan características extraídas del contenedor de transmisión y/o bitstream de vídeo, por ejemplo, cabeceras de paquetes MPEG-TS, vectores de movimiento y parámetros de cuantificación. No tienen acceso a la señal original y no requieren decodificación del vídeo, lo que los hace más eficientes. En contraste con los modelos NR-P, no tienen acceso a la señal decodificada final. En algunos casos, la exactitud de predicción de métricas basadas en bitstream puede llegar a una referencia completa sin requerir una referencia.
    • Métodos híbridos (Hybrid NR-P-B): Los modelos híbridos combinan parámetros extraídos del bitstream con una señal de vídeo decodificada. Por lo tanto, son una mezcla entre los modelos NR-P y NR-B.

Uso de modelos de calidad de imagen para estimar la calidad de vídeo

Algunos modelos que se utilizan para evaluar la calidad del vídeo (como PSNR o SSIM) son simplemente modelos de calidad de imagen, cuya salida se calcula para cada fotograma de una secuencia de vídeo. Shahid et al. también ofrecen una descripción general de los modelos recientes de calidad de imagen sin referencia en un artículo de revista.

La medida de calidad de cada fotograma de un vídeo (según lo determinado por un modelo de calidad de imagen) se puede registrar y agrupar a lo largo del tiempo para evaluar la calidad de una secuencia de vídeo completa. Si bien este método es fácil de implementar, no tiene en cuenta ciertos tipos de degradaciones que se desarrollan con el tiempo, como los artefactos en movimiento causados por la pérdida de paquetes y su ocultación. Un modelo de calidad de vídeo que considere los aspectos temporales de las degradaciones de calidad, como VQM o el índice MOVIE, puede producir predicciones más precisas de la calidad percibida por los humanos.

Artefactos de calidad de vídeo

La estimación de artefactos visuales es una técnica bien conocida para estimar la calidad general del vídeo. La mayoría de estos artefactos son artefactos de compresión causados por una compresión con pérdida. Algunos de los atributos que normalmente se estiman mediante métricas basadas en píxeles incluyen:

Espacial

  • Blurring — resultado de la pérdida de alta frecuencia espacial detalle de la imagen, generalmente en bordes agudos.
  • Bloqueo — es causado por múltiples algoritmos debido a la representación interna de una imagen con bloques tamaño 8, 16, o 32. Con parámetros específicos, pueden promedio píxeles dentro de un bloque haciendo bloques distintos
  • Anillo, eco o fantasma - toma la forma de una banda “halo”, o “fantasma” cerca de bordes afilados.
  • Hemorragia de color — se produce cuando los bordes de un color en la imagen sangran involuntariamente o superponen en otro color
  • Ruido de escalera — es un caso especial de bloqueo a lo largo de un borde diagonal o curvado. En lugar de hacer como suave, toma la apariencia de pasos de escalera

Temporal

  • Flickering — suele ser frecuente el brillo o los cambios de color a lo largo de la dimensión del tiempo. A menudo se descompone como el flickering de grano fino y el flickering de grano grueso.
  • Mosquito ruido — una variante de flickering, está tipificada como confunción y/o shimmering alrededor del contenido de alta frecuencia (transiciones de sharp entre las entidades del primer plano y el fondo o los bordes duros).
  • Flotación — se refiere al movimiento ilusorio en ciertas regiones, mientras que las áreas circundantes permanecen estáticas. Visualmente, estas regiones parecen estar flotando sobre el fondo circundante
  • Jerkiness o ejido — es el movimiento percibido desigual o wobbly debido al muestreo de marcos. A menudo es causada por la conversión de películas de 24 fps a un formato de vídeo de 30 o 60 fps.

Ejemplos de métricas de calidad de vídeo

Esta sección enumera ejemplos de métricas de calidad de vídeo.

métricaUsageDescripción
Referencia completa PSNR (Peak Signal-to-Noise Ratio) ImagenSe calcula entre cada marco del original y la señal de vídeo degradada. PSNR es la métrica de calidad de imagen objetiva más utilizada. Sin embargo, los valores de PSNR no se correlacionan bien con la calidad de imagen percibida debido al comportamiento complejo y altamente no lineal del sistema visual humano.
SSIM ( SIMilaridad estructural) ImagenSSIM es un modelo basado en la percepción que considera la degradación de la imagen como cambio percibido en la información estructural, al tiempo que incorpora importantes fenómenos perceptuales, incluyendo términos de enmascaramiento de luminancia y enmascaramiento de contraste.
Índice de MOVIE (Evaluación de la integridad de vídeo basada en la organización) VideoEl índice MOVIE es un modelo basado en neurociencias para predecir la calidad perceptual de un cuadro o vídeo de movimiento (posiblemente comprimido o distorsionado) contra un video de referencia prístino.
VMAF (Vídeo Multimetod Assessment Fusion) VideoVMAF utiliza cuatro características para predecir la calidad de vídeo VIF, DLM, MCPD, AN-SNR. Las características anteriores se fusionan con una regresión basada en SVM para proporcionar una sola puntuación de salida. Estas puntuaciones se agrupan temporalmente en toda la secuencia de vídeo utilizando la media aritmética para proporcionar una puntuación de opinión media diferencial general (DMOS).
VQM Video Este modelo se ha estandarizado en la ITU-T Rec. J.144 en 2001.
Reducción de la referencia RRR (Referencia reducida de la SSIM) VideoEl valor SRR se calcula como la relación de la señal de vídeo recibida (objetivo) SSIM con los valores del patrón de vídeo de referencia SSIM.
ST-RRED VideoCoeficientes de onda computar diferencias de marco entre los marcos adyacentes en una secuencia de vídeo (modificado por una mezcla de escala gausiana). Se utiliza para evaluar las diferencias entropicas RR que conducen a RRED temporal. Junto con los índices RRED espaciales evaluados mediante la aplicación del índice RRED en cada marco del vídeo, producir el spatio-temporal RRED
ITU-T Rec. P.1204.4 Video Este modelo de referencia reducida compara las características extraídas de un video de referencia con un vídeo distorsionado (vídeo comprimido).
No Referencia Evaluador de calidad de imagen NIQE ImagenEste modelo IQA se basa en características estadísticos de la escena natural de dominio espacial perceptualmente relevantes (NSS) extraídas de parches de imagen locales que capturan efectivamente las estadísticas esenciales de bajo orden de las imágenes naturales.
BRISQUE Blind/Referenceless Image Evaluador de calidad espacial ImagenEl método extrae las estadísticas puntuales de las señales de luminancia normalizadas locales y mide la naturalidad de la imagen (o la falta de ella) basado en las desviaciones medidas de un modelo de imagen natural. También modela la distribución de estadísticas pares de señales de luminancia normalizadas adyacentes que proporciona información de orientación de distorsión.
Video-BLIINDS VideoComputes statistical models on DCT coefficients of frame differences and calculates motion characterization. La puntuación de Pedicts se basa en esas características usando SVM.
ITU-T Rec. P.1203.1 Video Esta es una métrica que forma parte de la familia de estándares P.1203, que puede utilizar sólo metadatos (codec, resolución, bitrate, framerate), información de marco (tipos y tamaños de marco), o todo el bitstream para analizar la calidad de un vídeo comprimido. Está destinado principalmente a ser utilizado en el contexto de la transmisión adaptativa HTTP.
ITU-T Rec. P.1204.3 Video Este modelo utiliza el bitstream de vídeo para analizar la calidad de compresión/codificación basada en características como parámetros de cuantificación y vectores de movimiento.
ITU-T Rec. P.1204.5 Video Este es un modelo híbrido que utiliza los píxeles decodificados e información sobre el codec de vídeo para determinar la calidad final del vídeo.

Formación y evaluación del desempeño

Dado que se espera que los modelos objetivos de calidad de vídeo predigan los resultados proporcionados por observadores humanos, se desarrollan con la ayuda de resultados de pruebas subjetivas. Durante el desarrollo de un modelo objetivo, sus parámetros deben entrenarse para lograr la mejor correlación entre los valores predichos objetivamente y las puntuaciones subjetivas, a menudo disponibles como puntuaciones de opinión medias (MOS).

Los materiales de prueba subjetiva más utilizados son de dominio público e incluyen imágenes fijas, imágenes en movimiento, transmisión de video, alta definición, 3-D (estereoscópico) y conjuntos de datos relacionados con la calidad de la imagen para fines especiales. Estas denominadas bases de datos son creadas por varios laboratorios de investigación de todo el mundo. Algunas de ellas se han convertido en estándares de facto, incluidas varias bases de datos de calidad de imagen subjetiva de dominio público creadas y mantenidas por el Laboratorio de Ingeniería de Imagen y Vídeo (LIVE), así como la Base de datos de imágenes de Tampere 2008. Puede encontrar una colección de bases de datos en QUALINET. Repositorio de bases de datos. La Consumer Digital Video Library (CDVL) alberga secuencias de prueba de vídeo disponibles gratuitamente para el desarrollo de modelos.

Algunas bases de datos también proporcionan puntuaciones de métricas calculadas previamente para permitir a otros comparar nuevas métricas con las existentes. Se pueden ver ejemplos en la siguiente tabla.

Ejemplos de bases de datos de referencia modelo de vídeo
Criterios Número de vídeos Número de métricas Tipo de métrica
VQC 585 11 No referencia
KoNViD-1k 1.200 11 No referencia
YouTube-UGC 1.500 9 No referencia
MSU No Reference VQA 2.500 15 No referencia
MSU VQA de referencia completa 2.500 44 Referencia completa
LIVE-FB Calidad de vídeo social de gran escala 39.000 6 No referencia
LIVE-ETRI 437 5 No referencia
LIVE Livestream 315 3 No referencia

En teoría, un modelo se puede entrenar con un conjunto de datos de tal manera que produzca puntuaciones perfectamente coincidentes en ese conjunto de datos. Sin embargo, dicho modelo estará sobreentrenado y, por lo tanto, no funcionará bien en nuevos conjuntos de datos. Por lo tanto, se recomienda validar los modelos con datos nuevos y utilizar el rendimiento resultante como un indicador real de la precisión de la predicción del modelo.

Para medir el rendimiento de un modelo, algunas métricas utilizadas con frecuencia son el coeficiente de correlación lineal, el coeficiente de correlación de rango de Spearman y la raíz del error cuadrático medio (RMSE). Otras métricas son el coeficiente kappa y la relación de valores atípicos. Rec. UIT-T. P.1401 ofrece una descripción general de los procedimientos estadísticos para evaluar y comparar modelos objetivos.

Usos y aplicación de modelos objetivos

Los modelos de calidad de vídeo objetivo se pueden utilizar en diversas áreas de aplicación. En el desarrollo de video codec, el rendimiento de un codec se evalúa a menudo en términos de PSNR o SSIM. Para los proveedores de servicios, se pueden utilizar modelos objetivos para supervisar un sistema. Por ejemplo, un proveedor de IPTV puede optar por supervisar su calidad de servicio mediante modelos objetivos, en lugar de pedir a los usuarios su opinión, o esperar quejas de los clientes sobre mala calidad de vídeo. Pocos de estos estándares han encontrado aplicaciones comerciales, incluyendo PEVQ y VQuad-HD. SSIM también forma parte de un conjunto de herramientas de calidad de vídeo disponible comercialmente (SSIMWAVE). VMAF es utilizado por Netflix para sintonizar sus algoritmos de codificación y streaming, y para control de calidad todo el contenido de corriente. También está siendo utilizado por otras empresas tecnológicas como Bitmovin y se ha integrado en software como FFmpeg.

Un modelo objetivo solo debe usarse en el contexto para el que fue desarrollado. Por ejemplo, no se garantiza que un modelo desarrollado utilizando un códec de vídeo concreto sea preciso para otro códec de vídeo. De manera similar, un modelo entrenado en pruebas realizadas en una pantalla de televisión grande no debe usarse para evaluar la calidad de un video visto en un teléfono móvil.

Otros enfoques

Al estimar la calidad de un códec de vídeo, todos los métodos objetivos mencionados pueden requerir la repetición de pruebas posteriores a la codificación para determinar los parámetros de codificación que satisfacen el nivel requerido de calidad visual, lo que hace que su implementación requiera mucho tiempo, sea compleja y poco práctica. Aplicaciones comerciales reales. Se están realizando investigaciones para desarrollar nuevos métodos de evaluación objetiva que permitan predecir el nivel de calidad percibido del vídeo codificado antes de que se realice la codificación real.

Calidad de vídeo subjetiva

El objetivo principal de las métricas de calidad de vídeo de múltiples objetivos es estimar automáticamente la opinión del usuario promedio (espectador) sobre la calidad de un vídeo procesado por un sistema. Los procedimientos para mediciones subjetivas de la calidad de vídeo se describen en la recomendación ITU-R BT.500 y la recomendación ITU-T P.910. En dichas pruebas, se muestran secuencias de vídeo a un grupo de espectadores. Los espectadores' La opinión se registra y se promedia en la puntuación de opinión media para evaluar la calidad de cada secuencia de vídeo. Sin embargo, el procedimiento de prueba puede variar según el tipo de sistema que se pruebe.

Herramientas para evaluar la calidad del vídeo

Herramienta Descripción Availability Licencia Metrices incluidas
FFmpeg Herramienta multimedia gratuita y de código abierto que incorpora algunas métricas de calidad de vídeo Gratis Fuente abierta PSNR, SSIM, VMAF
MSU VQMT Un paquete de software para la evaluación objetiva de la calidad del vídeo (referencia completa y sin referencia) Gratis para métricas básicas

Pagado para métricas HDR

Propietario PSNR, SSIM, MS-SSIM, 3SSIM, VMAF, NIQE, VQM, Delta, MSAD, MSE

MSU desarrolló métricas: Metricía de desplegable, Metriz de bloqueo, Metriz de recubrimiento de brillo, Metriz de marco de gota, Metriz de estimación de ruido

EPFL VQMT Diversas métricas implementadas en OpenCV (C++) basadas en implementaciones MATLAB existentes Gratis Fuente abierta PSNR, PSNR-HVS, PSNR-HVS-M, SSIM, MS-SSIM, VIFp
OpenVQ Un kit de herramientas que implementa varias métricas incluyendo el OPVQ de los autores Gratis Fuente abierta PSNR, SSIM, OPVQ
Elecard Un programa de estimación de calidad de vídeo comercial Versión de demostración disponible Propietario PSNR, APSNR, MSAD, MSE, SSIM, Delta, VQM, NQI, VMAF, VIF
AviSynth Una herramienta de procesamiento de vídeo que se puede utilizar como plugin o a través de la inscripción Gratis Fuente abierta SSIM
VQ Probe Un software para calcular métricas de calidad de vídeo Gratis Propietario PSNR, SSIM, VMAF
vmaf.dev Un software de cálculo de calidad de vídeo en línea que implementa VMAF Gratis Fuente abierta VMAF

Contenido relacionado

Sincronización de fotogramas

En telecomunicaciones, la sincronización de cuadros o encuadre es el proceso mediante el cual, al recibir un flujo de datos enmarcados, las señales de...

Sistema de telégrafo polarencial

Un sistema de telégrafo polarencial es un sistema de telégrafo de corriente continua que emplea transmisión polar en una dirección y una forma de...

Vitafono

Vitaphone es un sistema cinematográfico sonoro utilizado para largometrajes y casi 1.000 cortometrajes realizados por Warner Bros. y su estudio hermano First...

Televisión terrestre

La televisión terrestre o televisión por aire es un tipo de emisión de televisión en la que la transmisión de la señal se produce a través de la radio...

Sai

Sai o SAI pueden referirse...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save