Latencia (audio)

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Latencia se refiere a un breve período de retraso (normalmente medido en milisegundos) entre el momento en que una señal de audio entra en un sistema y el momento en que sale. Entre los posibles factores que contribuyen a la latencia en un sistema de audio se incluyen la conversión de analógico a digital, el almacenamiento en búfer, el procesamiento de señales digitales, el tiempo de transmisión, la conversión de digital a analógico y la velocidad del sonido en el medio de transmisión.

La latencia puede ser una medida crítica del rendimiento en el audio profesional, incluidos los sistemas de refuerzo de sonido, los sistemas de retorno de señal (especialmente los que utilizan monitores intraauriculares), la radio y la televisión en directo. Una latencia de audio excesiva tiene el potencial de degradar la calidad de las llamadas en las aplicaciones de telecomunicaciones. El audio de baja latencia en las computadoras es importante para la interactividad.

Llamadas telefónicas

En todos los sistemas, se puede decir que la latencia consta de tres elementos: retraso del códec, retraso de reproducción y retraso de la red.

La latencia en las llamadas telefónicas se denomina a veces retraso de boca a oreja; la industria de las telecomunicaciones también utiliza el término calidad de experiencia (QoE). La calidad de la voz se mide según el modelo de la UIT; la calidad medible de una llamada se degrada rápidamente cuando la latencia de retraso de boca a oreja supera los 200 milisegundos. La puntuación media de opinión (MOS) también es comparable de forma casi lineal con la escala de calidad de la UIT, definida en las normas G.107, G.108 y G.109, con un factor de calidad R que va de 0 a 100. Una MOS de 4 ('Buena') tendría una puntuación R de 80 o superior; Para alcanzar 100R se requiere un MOS superior a 4,5.

La UIT y el 3GPP agrupan los servicios de usuario final en clases según la sensibilidad a la latencia:

	Muy sensible al retraso Menos sensible al retraso
Clases	Clase conversacional (3GPP) Clase interactiva (UIT)	Clase interactiva (3GPP) Clase responsable (UIT)	Clase de transmisión (3GPP) Clase (UIT)	Clase de fondo (3GPP) Clase no crítica (UIT)
Servicios	Video/voz conversacional, video en tiempo real	Mensajería de voz	Transmitiendo vídeo y voz	Fax
Servicios	Datos en tiempo real	Datos de transacción	Datos no en tiempo real	Datos de antecedentes

De manera similar, la recomendación G.114 con respecto al retardo boca-oído indica que la mayoría de los usuarios están "muy satisfechos" siempre que la latencia no supere los 200 ms, con un R correspondiente de 90+. La elección del códec también juega un papel importante; los códecs de mayor calidad (y mayor ancho de banda) como G.711 suelen estar configurados para incurrir en la menor latencia de codificación-descodificación, por lo que en una red con suficiente rendimiento se pueden lograr latencias inferiores a 100 ms. G.711 a una tasa de bits de 64 kbit/s es el método de codificación que se utiliza predominantemente en la red telefónica pública conmutada.

Llamadas móviles

El códec de banda estrecha AMR, utilizado en redes GSM y UMTS, introduce latencia en los procesos de codificación y decodificación.

A medida que los operadores móviles actualizan las redes de mejor esfuerzo existentes para admitir múltiples tipos de servicios simultáneos en redes totalmente IP, los servicios como la Calidad de Servicio Jerárquica (H-QoS) permiten políticas de QoS por usuario y por servicio para priorizar protocolos sensibles al tiempo, como llamadas de voz y otro tráfico de retorno inalámbrico.

Otro aspecto de la latencia móvil es la transferencia entre redes; cuando un cliente de la Red A llama a un cliente de la Red B, la llamada debe atravesar dos redes de acceso por radio independientes, dos redes centrales y un centro de conmutación móvil de enlace de datos (GMSC) que realiza la interconexión física entre los dos proveedores.

Llamadas IP

Con conexiones de velocidad asegurada y con calidad de servicio de extremo a extremo, la latencia se puede reducir a niveles analógicos PSTN/POTS. En una conexión estable con suficiente ancho de banda y latencia mínima, los sistemas VoIP suelen tener una latencia inherente mínima de 20 ms. En condiciones de red menos ideales, se busca una latencia máxima de 150 ms para el uso general del consumidor. Muchos sistemas de videoconferencia populares dependen del almacenamiento en búfer de datos y la redundancia de datos para hacer frente a la inestabilidad de la red y la pérdida de paquetes. Las mediciones han demostrado que el retraso de boca a oído es de entre 160 y 300 ms en una distancia de 500 millas, en condiciones de red promedio de EE. UU. La latencia es una consideración más importante cuando hay eco y los sistemas deben realizar la supresión y cancelación del eco.

Audio informático

La latencia puede ser un problema particular en las plataformas de audio de las computadoras. Las optimizaciones de interfaz compatibles reducen el retraso a tiempos demasiado cortos para que el oído humano los detecte. Al reducir el tamaño del búfer, se puede reducir la latencia. Una solución de optimización popular es ASIO de Steinberg, que omite la plataforma de audio y conecta las señales de audio directamente al hardware de la tarjeta de sonido. Muchas aplicaciones de audio profesionales y semiprofesionales utilizan el controlador ASIO, lo que permite a los usuarios trabajar con audio en tiempo real. Pro Tools HD ofrece un sistema de baja latencia similar a ASIO. Pro Tools 10 y 11 también son compatibles con los controladores de interfaz ASIO.

El núcleo de tiempo real de Linux es un núcleo modificado que altera la frecuencia de temporizador estándar que utiliza el núcleo de Linux y otorga a todos los procesos o subprocesos la capacidad de tener prioridad en tiempo real. Esto significa que un proceso crítico en el tiempo, como una transmisión de audio, puede tener prioridad sobre otro proceso menos crítico, como la actividad de red. Esto también es configurable por usuario (por ejemplo, los procesos del usuario "tux" podrían tener prioridad sobre los procesos del usuario "nobody" o sobre los procesos de varios daemons del sistema).

Televisor digital

Muchos receptores de televisión digital, decodificadores y receptores AV modernos utilizan un procesamiento de audio sofisticado, que puede crear un retraso entre el momento en que se recibe la señal de audio y el momento en que se escucha en los altavoces. Dado que los televisores también introducen retrasos en el procesamiento de la señal de vídeo, esto puede provocar que las dos señales estén lo suficientemente sincronizadas como para que el espectador no las note. Sin embargo, si la diferencia entre el retraso de audio y vídeo es significativa, el efecto puede ser desconcertante. Algunos sistemas tienen una configuración de sincronización de labios que permite ajustar el retraso de audio para sincronizarlo con el vídeo, y otros pueden tener configuraciones avanzadas en las que se pueden desactivar algunos de los pasos de procesamiento de audio.

El retraso en el audio también es un inconveniente importante en los juegos de ritmo, en los que se necesita una sincronización precisa para tener éxito. La mayoría de estos juegos tienen una configuración de calibración de retraso con la que el juego ajustará las ventanas de sincronización en una cierta cantidad de milisegundos para compensar. En estos casos, las notas de una canción se enviarán a los altavoces antes de que el juego reciba la entrada requerida del jugador para mantener la ilusión de ritmo. Los juegos que dependen de la improvisación musical, como la batería de Rock Band o DJ Hero, también pueden sufrir enormemente, ya que el juego no puede predecir lo que el jugador tocará en estos casos, y el retraso excesivo seguirá creando un retraso notable entre tocar las notas y escucharlas tocar.

Radiodifusión

La latencia de audio se puede experimentar en sistemas de transmisión en los que alguien contribuye a una transmisión en vivo a través de un satélite o un enlace similar con un alto retardo. La persona en el estudio principal tiene que esperar a que el colaborador en el otro extremo del enlace reaccione a las preguntas. La latencia en este contexto puede oscilar entre varios cientos de milisegundos y unos pocos segundos. Para manejar latencias de audio tan altas se necesita una capacitación especial para que la salida de audio combinada resultante sea razonablemente aceptable para los oyentes. Siempre que sea posible, es importante tratar de mantener baja la latencia de audio de la producción en vivo para que las reacciones y el intercambio de los participantes sean lo más naturales posible. Una latencia de 10 milisegundos o mejor es el objetivo para los circuitos de audio dentro de las estructuras de producción profesional.

Audio de rendimiento en vivo

La latencia en las actuaciones en directo se produce de forma natural debido a la velocidad del sonido. El sonido tarda unos 3 milisegundos en recorrer un metro. Se producen pequeñas cantidades de latencia entre los intérpretes, dependiendo de la distancia entre ellos y de los monitores de escenario, si se utilizan. Esto crea un límite práctico a la distancia que pueden estar los artistas de un grupo entre sí. La monitorización del escenario amplía ese límite, ya que el sonido viaja a una velocidad cercana a la de la luz a través de los cables que conectan los monitores de escenario.

Los artistas, especialmente en espacios grandes, también oirán la reverberación, o eco de su música, ya que el sonido que se proyecta desde el escenario rebota en las paredes y las estructuras y regresa con latencia y distorsión. Un objetivo principal de la monitorización del escenario es proporcionar a los artistas un sonido más primario para que no se confundan con la latencia de estas reverberaciones.

Procesamiento de señal en vivo

Mientras que los equipos de audio analógicos no tienen una latencia apreciable, los equipos de audio digitales tienen una latencia asociada a dos procesos generales: la conversión de un formato a otro y las tareas de procesamiento de señales digitales (DSP), como la ecualización, la compresión y el enrutamiento.

Los procesos de conversión digital incluyen convertidores analógico-digitales (ADC), convertidores digital-analógicos (DAC) y varios cambios de un formato digital a otro, como AES3, que lleva señales eléctricas de bajo voltaje a ADAT, un transporte óptico. Cualquier proceso de este tipo requiere una pequeña cantidad de tiempo para completarse; las latencias típicas están en el rango de 0,2 a 1,5 milisegundos, según la frecuencia de muestreo, el diseño del software y la arquitectura del hardware.

Las distintas operaciones de procesamiento de señales de audio, como los filtros de respuesta de impulso finito (FIR) y de respuesta de impulso infinito (IIR), adoptan diferentes enfoques matemáticos para el mismo fin y pueden tener diferentes latencias. Además, el almacenamiento en búfer de muestras de entrada y salida agrega demora. Las latencias típicas varían de 0,5 a diez milisegundos y algunos diseños tienen hasta 30 milisegundos de demora.

La latencia en los equipos de audio digital es más notoria cuando la voz de un cantante se transmite a través de su micrófono, a través de rutas de mezcla, procesamiento y enrutamiento de audio digital, y luego se envía a sus propios oídos a través de monitores internos o auriculares. En este caso, el sonido vocal del cantante se conduce a su propio oído a través de los huesos de la cabeza, y luego a través de la vía digital a sus oídos algunos milisegundos después. En un estudio, los oyentes encontraron que una latencia mayor de 15 ms era perceptible. La latencia para otras actividades musicales, como tocar la guitarra, no tiene la misma preocupación crítica. Diez milisegundos de latencia no son tan perceptibles para un oyente que no está escuchando su propia voz.

Altos altavoces

En el refuerzo de sonido para presentaciones musicales o de discursos en grandes recintos, lo óptimo es que el volumen de sonido llegue a la parte trasera del recinto sin tener que recurrir a volúmenes de sonido excesivos cerca de la parte delantera. Una forma de que los ingenieros de sonido logren esto es utilizar altavoces adicionales colocados a cierta distancia del escenario pero más cerca de la parte trasera del público. El sonido viaja a través del aire a la velocidad del sonido (alrededor de 343 metros (1125 pies) por segundo dependiendo de la temperatura y la humedad del aire). Al medir o estimar la diferencia de latencia entre los altavoces cercanos al escenario y los altavoces más cercanos al público, el ingeniero de audio puede introducir un retardo apropiado en la señal de audio que llega a estos últimos altavoces, de modo que los frentes de onda de los altavoces cercanos y lejanos lleguen al mismo tiempo. Gracias al efecto Haas, se pueden añadir 15 milisegundos adicionales al tiempo de retardo de los altavoces más cercanos al público, de modo que el frente de onda del escenario llegue primero a ellos y así la atención del público se centre en el escenario en lugar de en el altavoz local. El sonido ligeramente posterior de los altavoces retrasados simplemente aumenta el nivel de sonido percibido sin afectar negativamente la localización.

Véase también

Dilatación (efecto de audio)
Retraso del grupo y demora de fase

Referencias

^ "G.107: El modelo E: un modelo computacional para la planificación de la transmisión" (PDF). Unión Internacional de Telecomunicaciones. 2000-06-07. Retrieved 2013-01-14.
^ "G.108: Aplicación del modelo E: Una guía de planificación" (PDF). Unión Internacional de Telecomunicaciones. 2000-07-28. Retrieved 2013-01-14.
^ "G.109: Definición de categorías de calidad de transmisión del habla - UIT" (PDF). Unión Internacional de Telecomunicaciones. 2000-05-11. Retrieved 2013-01-14.
^ O3b Networks y Sofrecom. "Por qué Latency to Mobile Backhaul - O3b Networks" (PDF). O3b Networks. Retrieved 2013-01-11.{{cite web}}: CS1 maint: nombres numéricos: lista de autores (link)
^ Nir, Halachmi; O3b Networks y Sofrecom (2011-06-17). "Solución HQoS". Telco.com. Retrieved 2013-01-11.{{cite web}}: CS1 maint: nombres numéricos: lista de autores (link)
^ Cisco. "Arquitectural Considers for Backhaul of 2G/3G and Long Term Evolution Networks". Cisco Whitepaper. Cisco. Retrieved 2013-01-11.
^ "White paper: El impacto de la latencia en el rendimiento de la aplicación" (PDF). Nokia Siemens Networks. 2009. Archivado desde el original (PDF) el 2013-08-01.
^ "GSM Network Architecture". GSM for Dummies. Retrieved 2013-01-11.
^ "G.114: Un tiempo de transmisión". www.itu.int. Retrieved 2019-11-16.
^ "Requisitos de QoS para voz, vídeo y datos" Implementing Quality of Service Over Cisco MPLS VPNs". www.ciscopress.com. Retrieved 2019-11-16.
^ Michael Dosch y Steve Church. "VoIP in The Broadcast Studio". Axia Audio. Archivado desde el original en 2011-10-07. Retrieved 2011-06-21.
^ Huber, David M. y Robert E. Runstein. "Latency". Técnicas de grabación modernas. 7th ed. New York and London: Focal, 2013. 252. Impresión.
^ JD Marte. Mejor latente Than Never: A long-overdue discussion of audio latency issues
^ Linux Wiki en tiempo real
^ Introducción a Livewire (PDF), Axia Audio, abril de 2007, archivado desde el original (PDF) el 2011-10-07, recuperado 2011-06-21
^ Fonseca, Nuno; Monteiro, Edmundo (mayo de 2005), Latency Issues in Audio Networking, Audio Engineering Society
^ ProSoundWeb. David McNell. Transporte de audio en red: Mirando los métodos y factores Archivado el 21 de marzo de 2008, en la máquina Wayback
^ Whirlwind. Abrir la caja de Pandora? La palabra "L" - latencia y sistemas de audio digital

Enlaces externos

La colaboración musical nunca sucederá en línea en tiempo real

Más resultados...