Estiramiento de tiempo de audio y escala de tono

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Alargamiento de tiempo es el proceso de cambiar la velocidad o la duración de una señal de audio sin afectar su tono. La escala de tono es lo contrario: el proceso de cambiar el tono sin afectar la velocidad. El cambio de tono es una escala de tono implementada en una unidad de efectos y diseñada para presentaciones en vivo. El control de tono es un proceso más simple que afecta el tono y la velocidad simultáneamente al ralentizar o acelerar una grabación.

Estos procesos se utilizan a menudo para hacer coincidir los tonos y tempos de dos clips pregrabados para mezclar cuando los clips no se pueden volver a ejecutar o muestrear. La ampliación de tiempo se utiliza a menudo para ajustar los anuncios de radio y el audio de los anuncios de televisión para que encajen exactamente en los 30 o 60 segundos disponibles. Se puede utilizar para ajustar material más largo a un intervalo de tiempo designado, como una transmisión de 1 hora.

Remuestreo

La forma más sencilla de cambiar la duración o el tono de una grabación de audio es cambiar la velocidad de reproducción. Para una grabación de audio digital, esto se puede lograr a través de la conversión de frecuencia de muestreo. Desafortunadamente, las frecuencias en la grabación siempre se escalan en la misma proporción que la velocidad, transportando su tono percibido hacia arriba o hacia abajo en el proceso. Disminuir la velocidad de la grabación para aumentar la duración también reduce el tono, acelerarla para una duración más corta también aumenta el tono creando el efecto Chipmunk. Por lo tanto, los dos efectos no se pueden separar cuando se usa este método. Una pista de percusión que no contenga instrumentos afinados se puede convertir con una frecuencia de muestreo moderada para ajustar el tempo sin efectos adversos, pero una pista afinada no.

Dominio de frecuencia

Vocoder de fase

Una forma de estirar la longitud de una señal sin afectar el tono es construir un codificador de voz de fase después de Flanagan, Golden y Portnoff.

Pasos básicos:

computar la relación frecuencia/amplitud instantánea de la señal utilizando el STFT, que es la discreta transformación Fourier de un bloque corto, superpuesto y ligeramente ventanado de muestras;
aplicar algunos procesamientos a las magnitudes y fases de transformación Fourier (como el muestreo de los bloques FFT); y
realizar un STFT inverso tomando la inversa transformación Fourier en cada pedazo y añadiendo los pedazos de forma de onda resultante, también llamado solapamiento y añadir (OLA).

El vocoder de fase maneja bien los componentes sinusoidales, pero las primeras implementaciones introdujeron una mancha considerable en las formas de onda transitorias ("beat") en todas las tasas de compresión/expansión no enteras, lo que hace que los resultados sean escalonados y difusos. Las mejoras recientes permiten obtener resultados de mejor calidad en todas las relaciones de compresión/expansión, pero aún persiste un efecto de borrosidad residual.

La técnica del codificador de voz de fase también se puede utilizar para realizar cambios de tono, coros, manipulación de timbre, armonización y otras modificaciones inusuales, todas las cuales se pueden cambiar en función del tiempo.

Sistema de análisis y síntesis sinusoidales (basado en McAulay & Quatieri 1988, pág. 161)

Modelado espectral sinusoidal

Otro método para la extensión del tiempo se basa en un modelo espectral de la señal. En este método, los picos se identifican en fotogramas utilizando la STFT de la señal y las "pistas" sinusoidales; se crean conectando picos en marcos adyacentes. Luego, las pistas se vuelven a sintetizar en una nueva escala de tiempo. Este método puede producir buenos resultados tanto en material polifónico como de percusión, especialmente cuando la señal se separa en subbandas. Sin embargo, este método es más exigente computacionalmente que otros métodos.

Modelando un sonido monofónico como observación a lo largo de una helix de una función con un dominio de cilindro

Dominio del tiempo

SOLA

Rabiner y Schafer en 1978 propusieron una solución alternativa que funciona en el dominio del tiempo: intentar encontrar el período (o, de manera equivalente, la frecuencia fundamental) de una sección dada de la onda usando algún algoritmo de detección de tono (comúnmente el pico de la onda). la autocorrelación de la señal o, a veces, el procesamiento cepstral) y fusionar un período con otro.

Esto se denomina escalado de armónicos en el dominio del tiempo o método sincronizado de suma y superposición (SOLA) y funciona un poco más rápido que el codificador de voz de fase en máquinas más lentas, pero falla cuando la autocorrelación estima incorrectamente el período de una señal con armónicos complicados (como como piezas orquestales).

Adobe Audition (anteriormente Cool Edit Pro) parece resolver esto al buscar el período más cercano a un período central que especifica el usuario, que debe ser un múltiplo entero del tempo y entre 30 Hz y la frecuencia de graves más baja.

Esto tiene un alcance mucho más limitado que el procesamiento basado en vocoder de fase, pero se puede hacer mucho menos intensivo en el procesador, para aplicaciones en tiempo real. Proporciona los resultados más coherentes para sonidos de un solo tono como voz o grabaciones de instrumentos musicalmente monofónicos.

Los paquetes de procesamiento de audio comerciales de gama alta combinan las dos técnicas (por ejemplo, separando la señal en formas de onda sinusoidales y transitorias) o utilizan otras técnicas basadas en la transformación de ondículas o el procesamiento de redes neuronales artificiales, produciendo la más alta calidad. estiramiento del tiempo.

Enfoque basado en marcos

Enfoque basado en marcos de muchos procedimientos TSM

Para preservar el lanzamiento de una señal de audio al estirar o comprimir su duración, muchos procedimientos de modificación a escala de tiempo (TSM) siguen un enfoque basado en marcos. Dada una señal de audio discreta original, el primer paso de esta estrategia es dividir la señal en corto marcos de análisis de longitud fija. Los marcos de análisis son espaciados por un número fijo de muestras, llamadas las análisis hopsize ${displaystyle H_{a}in mathbb {N}$ . Para lograr la modificación actual de la escala de tiempo, los marcos de análisis se reubican temporalmente tener un síntesis Hopsize ${displaystyle H_{s}in mathbb {N}$ . Esta reubicación de marco resulta en una modificación de la duración de la señal por un factor de estiramiento de ${displaystyle alpha =H_{s}/H_{a}$ . Sin embargo, simplemente superponer los marcos de análisis no modificados normalmente resulta en artefactos no deseados como discontinuidades de fase o fluctuaciones de amplitud. Para prevenir este tipo de artefactos, los marcos de análisis se adaptan a la forma Marcos de síntesis, antes de la reconstrucción de la señal de salida modificada a escala de tiempo.

La estrategia de cómo derivar los marcos de síntesis de los marcos de análisis es una diferencia clave entre diferentes procedimientos TSM.

Audición rápida y habla rápida

Para el caso específico del habla, se puede realizar estiramientos de tiempo usando PSOLA.

El habla comprimida en el tiempo es la representación de texto verbal en tiempo comprimido. Si bien se podría esperar que la aceleración redujera la comprensión, Herb Friedman dice que "Los experimentos han demostrado que el cerebro funciona de manera más eficiente si la tasa de información a través de los oídos, a través del habla, es la 'promedio' velocidad de lectura, que es de aproximadamente 200 a 300 palabras por minuto (palabras por minuto), pero la velocidad promedio del habla es de alrededor de 100 a 150 palabras por minuto."

Escuchar el habla comprimida en el tiempo se considera el equivalente a la lectura rápida.

Escalado de tono

El cambio de Pitch (scaling de frecuencia) se proporciona en Eventide Harmonizer

Cambio de frecuencia proporcionado por Bode Frequency Shifter no mantener la relación frecuencia y armonía.

Estas técnicas también se pueden usar para transponer una muestra de audio mientras se mantiene constante la velocidad o la duración. Esto se puede lograr estirando el tiempo y luego volviendo a muestrear a la longitud original. Alternativamente, la frecuencia de las sinusoides en un modelo sinusoidal puede alterarse directamente y la señal puede reconstruirse en la escala de tiempo adecuada.

La transposición se puede llamar escala de frecuencia o cambio de tono, según la perspectiva.

Por ejemplo, uno podría subir el tono de cada nota una quinta perfecta, manteniendo el mismo tempo. Uno puede ver esta transposición como "cambio de tono", "cambio" cada nota sube 7 teclas en el teclado de un piano, o agrega una cantidad fija en la escala Mel, o agrega una cantidad fija en el espacio de tono lineal. Se puede ver la misma transposición como "escalado de frecuencia", "escalado" (multiplicando) la frecuencia de cada nota por 3/2.

La transposición musical conserva las proporciones de las frecuencias armónicas que determinan el timbre del sonido, a diferencia del cambio de frecuencia realizado por la modulación de amplitud, que agrega un desplazamiento de frecuencia fijo a la frecuencia de cada nota. (En teoría, uno podría realizar una escala de tono literal en la que se escala la ubicación del espacio de tono musical [una nota más alta se desplazaría a un intervalo mayor en el espacio de tono lineal que una nota más baja], pero eso es muy inusual, y no musical.)

El procesamiento en el dominio del tiempo funciona mucho mejor aquí, ya que las manchas se notan menos, pero escalar las muestras vocales distorsiona los formantes en una especie de efecto similar al de Alvin y las ardillas, que puede ser deseable o no. Un proceso que conserva los formantes y el carácter de una voz implica analizar la señal con un codificador de voz de canal o un codificador de voz LPC más cualquiera de varios algoritmos de detección de tono y luego volver a sintetizarla a una frecuencia fundamental diferente.

Puedes encontrar una descripción detallada de las técnicas de grabación analógicas más antiguas para el cambio de tono en la entrada de Alvin y las ardillas.

En software de consumo

La extensión de tiempo de audio con corrección de tono se encuentra en todos los navegadores web modernos como parte del estándar HTML para la reproducción de medios. Controles similares son omnipresentes en aplicaciones y marcos de medios como GStreamer y Unity.

Contenido relacionado

Más resultados...