Detección de actividad de voz

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar
Detección de la presencia o ausencia de discurso humano
La

detección de actividad de voz (VAD), también conocida como detección de actividad de voz o detección de voz, es la Detección de la presencia o ausencia del habla humana, utilizada en el procesamiento del habla. Los principales usos de VAD son la registro del hablante, la codificación del habla y el reconocimiento del habla. Puede facilitar el procesamiento de voz y también puede usarse para desactivar algunos procesos durante la sección de una sesión de audio que no es de voz: puede evitar la [[[compresión de silencio|codificación innecesaria]]/transmisión de paquetes de silencio en Voz sobre Protocolo de Internet (VoIP). ) aplicaciones, ahorrando en cálculo y en ancho de banda de la red.

VAD es una tecnología habilitadora importante para una variedad de aplicaciones basadas en el habla. Por lo tanto, se han desarrollado varios algoritmos VAD que proporcionan diferentes características y compromisos entre latencia, sensibilidad, precisión y costo computacional. Algunos algoritmos VAD también proporcionan análisis adicionales, por ejemplo, si el habla es sonora, sorda o sostenida. La detección de actividad de voz suele ser independiente del idioma.

Se investigó por primera vez para su uso en sistemas de interpolación de voz con asignación de tiempo (TASI).

Descripción general del algoritmo

El diseño típico de un algoritmo VAD es el siguiente:

  1. Puede haber una etapa de reducción del ruido, por ejemplo a través de substracción espectral.
  2. Luego algunas características o cantidades se calculan a partir de una sección de la señal de entrada.
  3. Una regla de clasificación se aplica para clasificar la sección como discurso o no habla – a menudo esta regla de clasificación encuentra cuando un valor excede un determinado umbral.

Puede haber cierta retroalimentación en esta secuencia, en la que la decisión VAD se utiliza para mejorar la estimación del ruido en la etapa de reducción de ruido o para variar de forma adaptativa los umbrales. Estas operaciones de retroalimentación mejoran el rendimiento del VAD en ruido no estacionario (es decir, cuando el ruido varía mucho).

Un conjunto representativo de métodos VAD publicados recientemente formula la regla de decisión cuadro por cuadro utilizando medidas instantáneas de la distancia de divergencia entre el habla y el ruido. Las diferentes medidas que se utilizan en los métodos VAD incluyen la pendiente espectral, los coeficientes de correlación, el índice de probabilidad logarítmica, las medidas cepstrales, cepstrales ponderadas y de distancia modificada.

Independientemente de la elección del algoritmo VAD, se debe llegar a un equilibrio entre detectar la voz como ruido o detectar el ruido como voz (entre falso positivo y falso negativo). Un VAD que funcione en un teléfono móvil debe poder detectar el habla en presencia de una variedad de tipos muy diversos de ruido acústico de fondo. En estas difíciles condiciones de detección, a menudo es preferible que un VAD sea a prueba de fallos, indicando el habla detectada cuando la decisión es dudosa, para reducir la posibilidad de perder segmentos de voz. La mayor dificultad en la detección del habla en este entorno son las relaciones señal-ruido (SNR) muy bajas que se encuentran. Puede resultar imposible distinguir entre el habla y el ruido utilizando técnicas simples de detección de nivel cuando partes de la expresión del habla están enterradas debajo del ruido.

Aplicaciones

  • VAD es una parte integral de diferentes sistemas de comunicación de discursos, como conferencias de audio, cancelación de eco, reconocimiento de discursos, codificación de discursos, reconocimiento de altavoces y telefonía sin manos.
  • En el campo de aplicaciones multimedia, VAD permite aplicaciones simultáneas de voz y datos.
  • Del mismo modo, en Universal Mobile Telecommunications Systems (UMTS), controla y reduce la tasa media de bits y mejora la calidad general de codificación del habla.
  • En sistemas de radio celular (por ejemplo, sistemas GSM y CDMA) basados en el modo Transmisión Discontinua (DTX), VAD es esencial para mejorar la capacidad del sistema reduciendo la interferencia del canal y el consumo de energía en dispositivos digitales portátiles.
  • En las aplicaciones de procesamiento de discursos, la detección de la actividad de voz desempeña un papel importante ya que a menudo se desechan los marcos no escritos.

Para una amplia gama de aplicaciones como radio móvil digital, voz y datos digitales simultáneos (DSVD) o almacenamiento de voz, es deseable proporcionar una transmisión discontinua de parámetros de codificación de voz. Las ventajas pueden incluir un menor consumo de energía promedio en los teléfonos móviles, una mayor tasa de bits promedio para servicios simultáneos como la transmisión de datos o una mayor capacidad en los chips de almacenamiento. Sin embargo, la mejora depende principalmente del porcentaje de pausas durante el habla y de la fiabilidad del VAD utilizado para detectar estos intervalos. Por un lado, resulta ventajoso tener un porcentaje bajo de actividad del habla. Por otro lado, el recorte, es decir la pérdida de milisegundos de voz activa, debe minimizarse para preservar la calidad. Este es el problema crucial para un algoritmo VAD en condiciones de mucho ruido.

Uso en telemarketing

Una aplicación controvertida de VAD es junto con los marcadores predictivos utilizados por las empresas de telemercadeo. Para maximizar la productividad de los agentes, las empresas de telemercadeo configuran marcadores predictivos para llamar a más números de los que tienen agentes disponibles, sabiendo que la mayoría de las llamadas terminarán en el modo "Timbre - Sin respuesta" o contestadores automáticos. Cuando una persona responde, normalmente habla brevemente ("Hola", "Buenas noches", etc.) y luego Hay un breve período de silencio. Los mensajes del contestador automático suelen durar entre 3 y 15 segundos de conversación continua. Al configurar correctamente los parámetros VAD, los marcadores pueden determinar si una persona o una máquina respondió la llamada y, si es una persona, transferir la llamada a un agente disponible. Si detecta un mensaje en el contestador automático, el marcador cuelga. A menudo, incluso cuando el sistema detecta correctamente que una persona responde a la llamada, es posible que no haya ningún agente disponible, lo que genera una "llamada silenciosa". Control de llamadas con un mensaje de varios segundos como "por favor, diga quién es y puedo contestar el teléfono". frustrará dichas llamadas automáticas.

Evaluación del desempeño

Para evaluar un VAD, su resultado mediante grabaciones de prueba se compara con los de un dispositivo "ideal" VAD: creado anotando manualmente la presencia o ausencia de voz en las grabaciones. El rendimiento de un VAD se evalúa habitualmente sobre la base de los cuatro parámetros siguientes:

  • FEC (Front End Clipping): clipping introducido en el paso del ruido a la actividad del habla;
  • MSC (Mid Speech Clipping): clipping due to speech misclassified as noise;
  • OVER: ruido interpretado como discurso debido a la bandera VAD que permanece activa en pasar de la actividad del habla al ruido;
  • NDS (Noise Detected as Speech): ruido interpretado como discurso dentro de un período de silencio.

Aunque el método descrito anteriormente proporciona información objetiva útil sobre el rendimiento de un VAD, es sólo una medida aproximada del efecto subjetivo. Por ejemplo, los efectos del recorte de la señal de voz a veces pueden quedar ocultos por la presencia de ruido de fondo, dependiendo del modelo elegido para la síntesis del ruido de confort, por lo que parte del recorte medido con pruebas objetivas en realidad no es audible. Por tanto, es importante realizar pruebas subjetivas en los VAD, cuyo principal objetivo es garantizar que el recorte percibido sea aceptable. En las aplicaciones VoIP, el recorte frontal se puede reducir rebobinando hasta poco antes de la detección y enviando datos con un ligero retraso.

Este tipo de prueba requiere que un cierto número de oyentes juzguen las grabaciones que contienen los resultados del procesamiento de los VAD que se están probando, calificando varias secuencias de voz en las siguientes características:

  • Calidad;
  • Dificultad de comprensión;
  • Audibilidad del clipping.

Estas marcas se utilizan para calcular los resultados promedio para cada una de las características enumeradas anteriormente, proporcionando así una estimación global del comportamiento de la VAD que se está probando.

Para concluir, mientras que los métodos objetivos son muy útiles en una etapa inicial para evaluar la calidad de un VAD, los métodos subjetivos son más significativos. Como requieren la participación de varias personas durante unos días, aumentando el costo, generalmente sólo se utilizan cuando una propuesta está a punto de ser estandarizada.

Aplicación

  • Un VAD estándar temprano es el desarrollado por British Telecom para su uso en el servicio de telefonía móvil celular digital paneuropeo en 1991. Utiliza filtración inversa entrenada en segmentos no-hablantes para filtrar el ruido de fondo, de manera que pueda utilizar de forma más fiable una simple fuerza eléctrica para decidir si una voz está presente.
  • El estándar G.729 calcula las siguientes características para su VAD: frecuencias espectrales de línea, energía de banda completa, energía de banda baja (traducido1 kHz), y tasa de cruce cero. Se aplica una simple clasificación utilizando un límite de decisión fijo en el espacio definido por estas características, y luego se aplica la corrección de licuado y adaptable para mejorar la estimación.
  • El estándar GSM incluye dos opciones VAD desarrolladas por ETSI. La opción 1 calcula el SNR en nueve bandas y aplica un umbral a estos valores. Opción 2 calcula diferentes parámetros: potencia de canal, métricas de voz y potencia de ruido. A continuación, el umbral de las métricas de voz utilizando un umbral que varía según el estimado SNR.
  • La biblioteca de compresión de audio Speex utiliza un procedimiento llamado Promedio recuperativo mejorado de Minima Controlada, que utiliza una representación lisa de la energía espectral y luego mira el minima de un periodograma alisado. De la versión 1.2 fue reemplazada por lo que el autor llamó kludge.
  • Lingua Libre, una herramienta Wikimedia y un proyecto de documentación de idiomas, utilizando VAD para permitir la grabación de muchas pronunciaciones en poco tiempo.
  • La biblioteca VAD Android utiliza una combinación de modelos GMM y DNN, como WebRTC GMM, Silero DNN y Yamnet DNN. La biblioteca supera muchos modelos de calidad y rendimiento.

Contenido relacionado

Historia de la cámara

La historia de la cámara comenzó incluso antes de la introducción de la fotografía. Las cámaras evolucionaron desde la cámara oscura a través de muchas...

Tubo de vacío

Un tubo de vacío, tubo de electrones o válvula termoiónica, es un dispositivo que controla el flujo de corriente eléctrica en un alto vacío entre...

Señales de humo

La señal de humo es una de las formas más antiguas de comunicación a larga distancia. Es una forma de comunicación visual utilizada a larga distancia. En...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save