Análisis de voz

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Análisis de voz es el estudio de los sonidos del habla para fines distintos al contenido lingüístico, como en el reconocimiento de voz. Dichos estudios incluyen principalmente el análisis médico de la voz (foniatría), pero también la identificación del hablante. De manera más controvertida, algunos creen que la veracidad o el estado emocional de los hablantes se puede determinar mediante el análisis de estrés de voz o el análisis de voz en capas.

Métodos de análisis

Los problemas de la voz que requieren un análisis de la voz se originan con mayor frecuencia en las cuerdas vocales o en la musculatura laríngea que las controla, ya que las cuerdas están sujetas a fuerzas de colisión con cada ciclo vibratorio y al secado del aire que se fuerza a través del pequeño espacio entre ellas., y la musculatura laríngea está intensamente activa durante el habla o el canto y está sujeta al cansancio. Sin embargo, el análisis dinámico de las cuerdas vocales y su movimiento es físicamente difícil. La ubicación de las cuerdas vocales prohíbe efectivamente la medición directa e invasiva del movimiento. Los métodos de obtención de imágenes menos invasivos, como los rayos X o los ultrasonidos, no funcionan porque las cuerdas vocales están rodeadas de cartílago, lo que distorsiona la calidad de la imagen. Los movimientos en las cuerdas vocales son rápidos, las frecuencias fundamentales suelen estar entre 80 y 300 Hz, lo que impide el uso de video ordinario. Los videos estroboscópicos y de alta velocidad brindan una opción, pero para ver las cuerdas vocales se debe colocar una sonda de fibra óptica que conduce a la cámara en la garganta, lo que dificulta el habla. Además, la colocación de objetos en la faringe suele desencadenar un reflejo nauseoso que deja de sonar y cierra la laringe. Además, las imágenes estroboscópicas solo son útiles cuando el patrón vibratorio de las cuerdas vocales es muy periódico.

Los métodos indirectos más importantes actualmente son el filtrado inverso de grabaciones de flujo de aire orales o de micrófono y electroglotografía (EGG). En el filtrado inverso, el sonido del habla (la forma de onda de presión acústica radiada, obtenida de un micrófono) o la forma de onda del flujo de aire oral de una máscara con ventilación circunferencial (CV) se registra fuera de la boca y luego se filtra mediante un método matemático para eliminar los efectos de el tracto vocal. Este método estima la entrada glótica de la producción de voz al registrar la salida y usar un modelo computacional para invertir los efectos del tracto vocal. El otro tipo de indicación indirecta no invasiva del movimiento de las cuerdas vocales es la electroglotografía, en la que los electrodos colocados a ambos lados de la garganta del sujeto al nivel de las cuerdas vocales registran los cambios en la conductividad de la garganta de acuerdo con el tamaño. una parte de las cuerdas vocales se tocan entre sí. Por lo tanto, proporciona información unidimensional del área de contacto. Ni el filtrado inverso ni el EGG son suficientes para describir completamente el patrón tridimensional complejo del movimiento de las cuerdas vocales, pero pueden proporcionar evidencia indirecta útil de ese movimiento.

Otra forma de realizar un análisis de voz es observar las características de la voz. Algunas características de la voz son la fonación, el tono, el volumen y la frecuencia. Estas características se pueden usar para evaluar la voz de una persona y pueden ayudar en el proceso de análisis de la voz. La fonación generalmente se prueba al observar diferentes tipos de datos recopilados de una persona, como palabras con vocales largas, palabras con muchos fonemas o simplemente el habla típica. El tono de una persona se puede evaluar haciendo que la persona produzca los sonidos más altos y más bajos que pueda, así como los sonidos intermedios. Se puede usar un teclado para ayudar en este proceso. La sonoridad es valiosa porque para ciertas personas, la sonoridad afecta la forma en que producen ciertos sonidos. Algunas personas necesitan hablar más alto para ciertos fonemas en comparación con otros solo para poder producirlos. Esto se puede probar pidiéndole a la persona que use la misma cantidad de volumen mientras canta una escala. La velocidad también es importante porque analiza qué tan rápido o lento habla una persona.

Uso en medicina

Un estudio médico de la voz puede ser, por ejemplo, el análisis de la voz de pacientes a los que se les ha extirpado un pólipo de las cuerdas vocales mediante una operación. Se pueden utilizar métodos computarizados para evaluar tales cuestiones de manera objetiva. Un terapeuta de la voz con experiencia puede evaluar la voz de forma bastante fiable, pero esto requiere una amplia formación y sigue siendo subjetivo.

Otro tema de investigación activo en el análisis médico de la voz es la evaluación de la carga vocal. Las cuerdas vocales de una persona que habla durante mucho tiempo se cansan, es decir, el proceso de hablar ejerce una carga sobre las cuerdas vocales y cansa el tejido. Entre los usuarios de voz profesionales (p. ej., profesores, vendedores), este cansancio puede causar fallas en la voz y bajas por enfermedad. El análisis de voz ha sido estudiado como un medio objetivo para evaluar tales problemas.

El análisis de la voz fue un factor importante en el estudio de la parálisis de las cuerdas vocales. Efectúa diferentes funciones de las cuerdas vocales, desde el habla hasta la respiración y el análisis de la voz se utiliza para estudiar la eficacia de las mejoras de la tiroplastia (tiroplastia de medialización) en las cuerdas vocales después de la cirugía. La grabación de voz tradicional se utiliza en el preoperatorio para registrar las voces de los pacientes seleccionados para compararlas con el uso posterior a la operación, junto con grabaciones más complejas que utilizan electroglotografía, fotoglotografía y videoquimografía. Los profesionales médicos tienen la capacidad de leer y comprender los resultados de las grabaciones complejas, pero se necesita el conocimiento de un profesional de la voz dentro de estos experimentos para obtener resultados precisos. Los expertos en voz fueron importantes para vincular el examen físico de las cuerdas vocales con el examen neurológico para garantizar el éxito de la cirugía debido a su oído entrenado. La evaluación perceptual de la voz depende en gran medida de la calidad de la voz, un factor evaluado preferentemente por especialistas en voz (logopedas). Un analizador de voz profesional tiene un oído entrenado y puede bloquear el exceso de variantes que pueden ser engañosas en los resultados.

Uso en medicina forense

El análisis de voz se utiliza en una rama de la ciencia forense llamada análisis forense de audio. Estos análisis generalmente se realizan en evidencia con el fin de evaluar la autenticidad del audio en cuestión, mejorar las características del audio que pueden estar ocultas debajo del ruido de fondo que distrae, interpretar el audio desde la perspectiva de un experto forense o, en algunos casos, para los propósitos de la identificación del hablante.

Un experto empleará una variedad de técnicas en su análisis. Los procedimientos mínimos son "escucha crítica, análisis de forma de onda y análisis espectral". La escucha crítica implica un desglose completo de los sonidos de fondo y de primer plano a través de la escucha repetitiva. El análisis de forma de onda visualiza el audio para que el examinador vea cualquier irregularidad que pueda ocurrir. El análisis espectral visualiza la frecuencia del audio para que un examinador seleccione características de interés.

Un caso en el que el audio desempeñó un papel más importante es el caso de Trayvon Martin, donde se analizó una grabación de una llamada a la policía para determinar si los gritos de fondo procedían de George Zimmerman o de Martin.

Voz forense

Los expertos en análisis forense de voz analizan las grabaciones examinando el habla transmitida y almacenada, mejorándola y decodificándola para investigaciones criminales, juicios judiciales y agencias federales.

Para utilizar grabaciones de audio en los tribunales, un fonético forense debe autenticar la grabación para detectar la manipulación, mejorar el audio e interpretar el discurso. Su primer trabajo es asegurarse de que el discurso en la grabación que se está utilizando sea comprensible. A menudo, las muestras tienen una calidad de sonido deficiente debido a factores ambientales como el viento o el movimiento. Otras veces, la degradación del sonido se debe a problemas tecnológicos dentro del dispositivo de grabación. No se puede realizar ningún trabajo de investigación sobre la identificación de los hablantes hasta que la grabación tenga la calidad adecuada. Las diferentes soluciones para la mala comprensibilidad se realizan mediante programas informáticos que permiten al usuario filtrar y eliminar el ruido. El software de computadora también puede convertir el habla en espectros y formas de onda, lo cual es útil para el fonético forense. Sin embargo, cualquier trabajo realizado en la grabación debe hacerse después de hacer una copia de la grabación original.

Una parte principal del trabajo del fonético forense es la identificación del hablante. El proceso de interpretación puede incluir armar una línea de tiempo, transcribir el diálogo e identificar sonidos desconocidos o ininteligibles en la grabación de audio. En la corte, el experto finalmente sirve para explicar los hechos que rodean la evidencia de audio, brindando una explicación de los principios acústicos y físicos relevantes para explicar lo que evidencia la grabación. Los informes se realizan para incluir información detallada, si hay una sección de la grabación que no es comprensible o es inaudible, una explicación de lo que estaba sucediendo (en la grabación) y una descripción de lo que falta en la grabación.

Identificación del hablante

El análisis de voz tiene una función en la identificación del hablante. Esto es cuando se desconoce la identidad de un orador y debe identificarse entre una serie de otras voces o sospechosos cuando se trata de una investigación de un delito o un juicio judicial. La identificación adecuada del hablante y las voces, en particular para los casos penales, depende de una lista de factores, como la familiaridad, la exposición, la demora, el tono de voz, el disfraz de voz y los acentos. La familiaridad con un hablante aumenta las posibilidades de identificar correctamente una voz y distinguirla. La cantidad de exposición a una voz también ayuda a identificar correctamente una voz, incluso si es desconocida. Un oyente que escuchó un enunciado más largo o estuvo expuesto a una voz más a menudo es mejor para reconocer una voz que alguien que tal vez solo pudo escuchar una palabra. Un retraso entre el momento de escuchar una voz y el momento de identificar al hablante también disminuye la posibilidad de identificar al hablante correcto. El tono de voz afecta la capacidad de identificar al orador correcto. Si el tono no coincide con el del hablante en el momento de la comparación, será más difícil de analizar. El disfraz de la voz, por ejemplo, cuando un hablante está susurrando, también dificultará la capacidad de emparejar e identificar con precisión al hablante. En algunos casos, a las personas que hablan el mismo idioma que el hablante cuya voz se analiza les resultará más fácil identificarlos debido al acento y la acentuación de la voz. La identificación del hablante también se complica por las distorsiones del método técnico de grabación y los problemas relacionados con el hablante, como estados emocionales o motivos alternativos que causan una discrepancia entre su voz y la de una grabación. Los métodos de identificación de hablantes en el ámbito forense incluyen el uso de testigos auditivos que se utilizan para identificar las voces que han escuchado, el enfoque de percepción auditiva realizado por un especialista con respecto a los suprasegmentos del habla de un individuo y enfoques basados en computadora.

Contenido relacionado

Más resultados...