Espectrograma

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Representación visual del espectro de frecuencias de una señal, ya que varía con el tiempo
Espectrograma de las palabras habladas "siglo XIX". Las frecuencias se muestran aumentando el eje vertical y el tiempo en el eje horizontal. La leyenda a la derecha muestra que la intensidad del color aumenta con la densidad.
Un espectrograma 3D: El espectro RF de un cargador de batería se muestra con el tiempo

Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varía con el tiempo. Cuando se aplican a una señal de audio, los espectrogramas a veces se denominan sonografías, huellas de voz o gramas de voz. Cuando los datos se representan en un gráfico 3D, se les puede llamar presentaciones en cascada.

Los espectrogramas se usan ampliamente en los campos de la música, la lingüística, el sonar, el radar, el procesamiento del habla, la sismología y otros. Los espectrogramas de audio se pueden utilizar para identificar fonéticamente las palabras habladas y para analizar las distintas llamadas de los animales.

Un espectrograma puede ser generado por un espectrómetro óptico, un banco de filtros de paso de banda, por transformada de Fourier o por una transformada wavelet (en cuyo caso también se conoce como escaleograma o escalograma).

Scaleogramas del DWT y CWT para una muestra de audio

Un espectrograma generalmente se representa como un mapa de calor, es decir, como una imagen con la intensidad mostrada al variar el color o el brillo.

Formato

Un formato común es un gráfico con dos dimensiones geométricas: un eje representa el tiempo y el otro representa la frecuencia; una tercera dimensión que indica la amplitud de una frecuencia particular en un momento particular está representada por la intensidad o el color de cada punto de la imagen.

Hay muchas variaciones de formato: a veces los ejes vertical y horizontal se intercambian, por lo que el tiempo sube y baja; a veces como un diagrama de cascada donde la amplitud está representada por la altura de una superficie 3D en lugar del color o la intensidad. Los ejes de frecuencia y amplitud pueden ser lineales o logarítmicos, según para qué se utilice el gráfico. El audio generalmente se representaría con un eje de amplitud logarítmica (probablemente en decibelios o dB), y la frecuencia sería lineal para enfatizar las relaciones armónicas, o logarítmica para enfatizar las relaciones tonales musicales.

Espectrografía sonora de la grabación de infrasonido 30301

Generación

Los espectrogramas de luz se pueden crear directamente con un espectrómetro óptico a lo largo del tiempo.

Los espectrogramas se pueden crear a partir de una señal en el dominio del tiempo de una de dos maneras: aproximados como un banco de filtros que resulta de una serie de filtros de paso de banda (esta era la única forma antes de la llegada del procesamiento digital de señales moderno), o calculado a partir de la señal temporal mediante la transformada de Fourier. Estos dos métodos en realidad forman dos representaciones de tiempo-frecuencia diferentes, pero son equivalentes bajo algunas condiciones.

El método de filtros de paso de banda generalmente usa procesamiento analógico para dividir la señal de entrada en bandas de frecuencia; la magnitud de la salida de cada filtro controla un transductor que registra el espectrograma como una imagen en papel.

Crear un espectrograma usando el FFT es un proceso digital. Los datos de muestra digital, en el dominio del tiempo, se dividen en pedazos, que generalmente se superponen, y Fourier se transformó para calcular la magnitud del espectro de frecuencias para cada pedazo. Cada pedazo entonces corresponde a una línea vertical en la imagen; una medición de magnitud versus frecuencia por un momento específico en el tiempo (el punto medio del trozo). Estos espectros o diagramas de tiempo son entonces "laid side by side" para formar la imagen o una superficie tridimensional, o ligeramente superpuesta de varias maneras, es decir, ventana. Este proceso corresponde esencialmente a la computación de la magnitud cuadrada de la transformación Fourier a corto plazo (STFT) de la señal s()t){displaystyle s(t)} - es decir, por un ancho de ventana ⋅ ⋅ {displaystyle omega }, spectrogram()t,⋅ ⋅ )=SilencioSTFT()t,⋅ ⋅ )Silencio2{displaystyle mathrm {spectrogram} (t,omega)=left arrestmathrm {STFT} (t,omega)right WordPress^{2}.

Limitaciones y resíntesis

De la fórmula anterior, parece que un espectrograma no contiene información sobre la fase exacta, o incluso aproximada, de la señal que representa. Por esta razón, no es posible invertir el proceso y generar una copia de la señal original a partir de un espectrograma, aunque en situaciones donde la fase inicial exacta no es importante, puede ser posible generar una aproximación útil de la señal original. El análisis y amperio; El espectrógrafo de sonido de resíntesis es un ejemplo de un programa de computadora que intenta hacer esto. Pattern Playback fue uno de los primeros sintetizadores de voz, diseñado en Haskins Laboratories a fines de la década de 1940, que convertía imágenes de los patrones acústicos del habla (espectrogramas) nuevamente en sonido.

De hecho, hay alguna información de fase en el espectrograma, pero aparece de otra forma, como retardo de tiempo (o retardo de grupo), que es el dual de la frecuencia instantánea.

Se puede variar el tamaño y la forma de la ventana de análisis. Una ventana más pequeña (más corta) producirá resultados más precisos en el tiempo, a expensas de la precisión de la representación de frecuencia. Una ventana más grande (más larga) proporcionará una representación de frecuencia más precisa, a expensas de la precisión en la representación de tiempo. Este es un ejemplo del principio de incertidumbre de Heisenberg, que el producto de la precisión en dos variables conjugadas es mayor o igual a una constante (B*T>=1 en la notación habitual).

Aplicaciones

  • Se aplicaron espectrogramas analógicos tempranos a una amplia gama de áreas incluyendo el estudio de llamadas de aves (como la de la gran teta), con la investigación actual continua utilizando equipos digitales modernos y aplicados a todos los sonidos animales. El uso contemporáneo del espectrograma digital es especialmente útil para estudiar la modulación de frecuencias (FM) en llamadas animales. Específicamente, las características distintivas de los chips FM, los clics de banda ancha y la armonización social se visualizan más fácilmente con el espectrograma.
  • Los especigramas son útiles para ayudar a superar los déficits de habla y en la formación de habla para la parte de la población que es profundamente sordo
  • Los estudios de fonética y síntesis de habla a menudo se facilitan mediante el uso de espectrogramas.
  • En la síntesis de discursos de aprendizaje profundo, el espectrograma (o el espectrograma en escala mel) se predice por primera vez por un modelo seq2seq, entonces el espectrograma se alimenta a un vocoder neural para derivar la forma de onda cruda sintetizada.
  • Al invertir el proceso de producir un espectrograma, es posible crear una señal cuyo espectrograma es una imagen arbitraria. Esta técnica se puede utilizar para ocultar una imagen en un pedazo de audio y ha sido empleada por varios artistas de música electrónica. Vea también la esteganografía.
  • Algunas músicas modernas se crean utilizando espectrogramas como medio intermedio; cambiando la intensidad de las diferentes frecuencias con el tiempo, o incluso creando nuevas, dibujando y transformando inversa. Ver Modificación de punta de hora de audio y vocoder de fase.
  • Los espectrogramas se pueden utilizar para analizar los resultados de pasar una señal de prueba a través de un procesador de señal como un filtro para comprobar su rendimiento.
  • Se utilizan espectrogramas de alta definición en el desarrollo de sistemas RF y microondas
  • Los espectrogramas se utilizan ahora para mostrar parámetros de dispersión medidos con analizadores de red vectorial
  • La Encuesta Geológica de EE.UU. y el Consorcio IRIS proporcionan despliegues de espectrogramas casi en tiempo real para monitorear estaciones sísmicas
  • Los espectrogramas se pueden utilizar con redes neuronales recurrentes para el reconocimiento del habla.

Contenido relacionado

Ancla

Un ancla es un dispositivo, normalmente hecho de metal, que se utiliza para asegurar una embarcación al lecho de una masa de agua para evitar que la...

Himroo

Himroo es una tela hecha de seda y algodón, que se cultiva localmente en Aurangabad. Himroo fue llevado a Aurangabad durante el reinado de Mohammad Tughlaq...

Lienzo

En pintura, un lienzo es un soporte utilizado en particular para la pintura al óleo y la pintura...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save