Percepción del habla

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La percepción del habla es el proceso mediante el cual se escuchan, interpretan y comprenden los sonidos del lenguaje. El estudio de la percepción del habla está íntimamente ligado a los campos de la fonología y la fonética en lingüística y la psicología cognitiva y la percepción en psicología. La investigación en la percepción del habla busca comprender cómo los oyentes humanos reconocen los sonidos del habla y utilizan esta información para comprender el lenguaje hablado. La investigación sobre la percepción del habla tiene aplicaciones en la construcción de sistemas informáticos que pueden reconocer el habla, en la mejora del reconocimiento del habla para oyentes con problemas de audición y lenguaje, y en la enseñanza de idiomas extranjeros.

El proceso de percibir el habla comienza en el nivel de la señal de sonido y el proceso de audición. (Para obtener una descripción completa del proceso de audición, consulte Audición). Después de procesar la señal auditiva inicial, los sonidos del habla se procesan aún más para extraer señales acústicas e información fonética. Esta información del habla se puede utilizar para procesos lingüísticos de nivel superior, como el reconocimiento de palabras.

Señales acústicas

Las señales acústicas son señales sensoriales contenidas en la señal de sonido del habla que se utilizan en la percepción del habla para diferenciar los sonidos del habla que pertenecen a diferentes categorías fonéticas. Por ejemplo, una de las señales más estudiadas en el habla es el tiempo de inicio de la voz o VOT. VOT es una señal principal que señala la diferencia entre oclusivas sonoras y sordas, como "b" y "p". Otras señales diferencian los sonidos que se producen en diferentes lugares de articulación o formas de articulación. El sistema de voz también debe combinar estas señales para determinar la categoría de un sonido de voz específico. A menudo se piensa en esto en términos de representaciones abstractas de fonemas. Estas representaciones se pueden combinar para su uso en el reconocimiento de palabras y otros procesos del lenguaje.

No es fácil identificar a qué señales acústicas son sensibles los oyentes cuando perciben un sonido del habla en particular:

A primera vista, la solución al problema de cómo percibimos el habla parece engañosamente simple. Si uno pudiera identificar tramos de la forma de onda acústica que corresponden a unidades de percepción, entonces el camino del sonido al significado estaría claro. Sin embargo, esta correspondencia o mapeo ha resultado extremadamente difícil de encontrar, incluso después de unos cuarenta y cinco años de investigación sobre el problema.

Si un aspecto específico de la forma de onda acústica indica una unidad lingüística, una serie de pruebas con sintetizadores de voz sería suficiente para determinar tal señal o señales. Sin embargo, hay dos obstáculos importantes:

Un aspecto acústico de la señal del habla puede indicar diferentes dimensiones lingüísticamente relevantes. Por ejemplo, la duración de una vocal en inglés puede indicar si la vocal está acentuada o no, o si está en una sílaba cerrada por una consonante sonora o sorda, y en algunos casos (como el inglés americano /ɛ/ y /æ /) puede distinguir la identidad de las vocales. Algunos expertos incluso argumentan que la duración puede ayudar a distinguir lo que tradicionalmente se llama vocales cortas y largas en inglés.
Una unidad lingüística puede ser identificada por varias propiedades acústicas. Por ejemplo, en un experimento clásico, Alvin Liberman (1957) demostró que las transiciones del formante de inicio de /d/ difieren dependiendo de la siguiente vocal (ver Figura 1), pero todos son interpretados como el fonema /d/ por los oyentes.

La linealidad y el problema de la segmentación

Aunque los oyentes perciben el habla como un flujo de unidades discretas (fonemas, sílabas y palabras), esta linealidad es difícil de ver en la señal del habla física (consulte la Figura 2 para ver un ejemplo). Los sonidos del habla no se suceden estrictamente unos a otros, sino que se superponen. Un sonido del habla está influenciado por los que le preceden y por los que le siguen. Esta influencia puede incluso ejercerse a una distancia de dos o más segmentos (ya través de los límites de sílabas y palabras).

Debido a que la señal de voz no es lineal, existe un problema de segmentación. Es difícil delimitar un tramo de señal de voz como perteneciente a una sola unidad perceptiva. Como ejemplo, las propiedades acústicas del fonema /d/ dependerán de la producción de la siguiente vocal (debido a la coarticulación).

Falta de invariancia

La investigación y aplicación de la percepción del habla debe abordar varios problemas que resultan de lo que se ha denominado falta de invariancia. Las relaciones constantes fiables entre un fonema de una lengua y su manifestación acústica en el habla son difíciles de encontrar. Hay varias razones para esto:

Variación inducida por el contexto

El entorno fonético afecta las propiedades acústicas de los sonidos del habla. Por ejemplo, /u/ en inglés aparece al frente cuando está rodeada de consonantes coronales. O bien, el tiempo de inicio de la voz que marca el límite entre las oclusivas sonoras y sordas es diferente para las oclusivas labiales, alveolares y velares y cambian bajo estrés o dependiendo de la posición dentro de una sílaba.

Variación debido a diferentes condiciones del habla.

Un factor importante que causa la variación es la diferente velocidad del habla. Muchos contrastes fonémicos están constituidos por características temporales (vocales o consonantes cortas frente a largas, africadas frente a fricativas, oclusivas frente a deslizamientos, oclusivas sonoras frente a mudas, etc.) y ciertamente se ven afectadas por cambios en el tempo del habla. Otra fuente importante de variación es el cuidado articulatorio frente al descuido, que es típico del habla continua (el "subimpulso" articulatorio se refleja obviamente en las propiedades acústicas de los sonidos producidos).

Variación debido a la diferente identidad del hablante.

La estructura acústica resultante de las producciones concretas del habla depende de las propiedades físicas y psicológicas de los hablantes individuales. Hombres, mujeres y niños generalmente producen voces que tienen un tono diferente. Debido a que los hablantes tienen tractos vocales de diferentes tamaños (especialmente debido al sexo y la edad), las frecuencias resonantes (formantes), que son importantes para el reconocimiento de los sonidos del habla, variarán en sus valores absolutos entre los individuos (consulte la Figura 3 para ver una ilustración de esto). Las investigaciones muestran que los bebés a la edad de 7,5 meses no pueden reconocer la información presentada por hablantes de diferentes géneros; sin embargo, a la edad de 10,5 meses, pueden detectar las similitudes. El dialecto y el acento extranjero también pueden causar variaciones, al igual que las características sociales del hablante y el oyente.

Constancia y normalización perceptiva

A pesar de la gran variedad de diferentes hablantes y diferentes condiciones, los oyentes perciben las vocales y las consonantes como categorías constantes. Se ha propuesto que esto se logra mediante el proceso de normalización perceptual en el que los oyentes filtran el ruido (es decir, la variación) para llegar a la categoría subyacente. Las diferencias de tamaño del tracto vocal dan como resultado una variación de frecuencia de formantes entre los hablantes; por lo tanto, un oyente tiene que ajustar su sistema de percepción a las características acústicas de un hablante en particular. Esto se puede lograr considerando las proporciones de los formantes en lugar de sus valores absolutos.Este proceso se ha denominado normalización del tracto vocal (consulte la Figura 3 para ver un ejemplo). De manera similar, se cree que los oyentes ajustan la percepción de la duración al tempo actual del discurso que están escuchando; esto se conoce como normalización de la velocidad del habla.

Si la normalización realmente tiene lugar o no y cuál es su naturaleza exacta es un tema de controversia teórica (ver las teorías a continuación). La constancia perceptiva es un fenómeno que no es específico únicamente de la percepción del habla; también existe en otros tipos de percepción.

Percepción categórica

La percepción categórica está involucrada en procesos de diferenciación perceptiva. Las personas perciben los sonidos del habla de forma categórica, es decir, es más probable que noten las diferencias entre categorías (fonemas) que dentro de las categorías. Por lo tanto, el espacio perceptivo entre categorías está distorsionado, los centros de categorías (o "prototipos") funcionan como un tamiz o como imanes para los sonidos del habla entrantes.

En un continuo artificial entre una oclusiva bilabial sorda y una sonora, cada nuevo paso difiere del anterior en la cantidad de VOT. El primer sonido es una [b] presonora, es decir, tiene un VOT negativo. Luego, aumentando el VOT, llega a cero, es decir, la oclusiva es una sorda simple no aspirada [p]. Gradualmente, agregando la misma cantidad de VOT a la vez, la oclusiva es finalmente una bilabial sorda fuertemente aspirada [pʰ]. (Lisker y Abramson usaron tal continuo en un experimento en 1970. Los sonidos que usaron están disponibles en línea). En este continuo de, por ejemplo, siete sonidos, los oyentes nativos del inglés identificarán los primeros tres sonidos como /b/ y los últimos tres sonidos como /p/con un límite claro entre las dos categorías. Una prueba de identificación (o categorización) de dos alternativas producirá una función de categorización discontinua (ver la curva roja en la Figura 4).

En las pruebas de la capacidad de discriminar entre dos sonidos con valores VOT variables pero con una distancia VOT constante entre sí (por ejemplo, 20 ms), es probable que los oyentes se desempeñen al nivel del azar si ambos sonidos caen dentro de la misma categoría y a casi 100 % de nivel si cada sonido cae en una categoría diferente (ver la curva de discriminación azul en la Figura 4).

La conclusión a la que se llega tanto con la prueba de identificación como con la de discriminación es que los oyentes tendrán una sensibilidad diferente al mismo aumento relativo de VOT dependiendo de si se cruzó o no el límite entre categorías. También se atestigua un ajuste perceptivo similar para otras señales acústicas.

Influencias de arriba hacia abajo

En un experimento clásico, Richard M. Warren (1970) reemplazó un fonema de una palabra con un sonido parecido al de una tos. Perceptivamente, sus sujetos restauraron el sonido del habla faltante sin ninguna dificultad y no pudieron identificar con precisión qué fonema había sido perturbado, un fenómeno conocido como efecto de restauración fonémica. Por lo tanto, el proceso de percepción del habla no es necesariamente unidireccional.

Otro experimento básico comparó el reconocimiento de palabras habladas de forma natural dentro de una frase con las mismas palabras de forma aislada, y descubrió que la precisión de la percepción suele disminuir en la última condición. Para probar la influencia del conocimiento semántico en la percepción, Garnes y Bond (1976) utilizaron de manera similar oraciones portadoras donde las palabras objetivo solo diferían en un solo fonema (bay/day/gay, por ejemplo) cuya calidad cambiaba a lo largo de un continuo. Cuando se colocan en diferentes oraciones que naturalmente conducen a una interpretación, los oyentes tienden a juzgar las palabras ambiguas de acuerdo con el significado de la oración completa. Es decir, los procesos lingüísticos de nivel superior relacionados con la morfología, la sintaxis o la semántica pueden interactuar con los procesos básicos de percepción del habla para ayudar en el reconocimiento de los sonidos del habla.

Puede darse el caso de que no sea necesario e incluso no sea posible que un oyente reconozca fonemas antes de reconocer unidades superiores, como palabras, por ejemplo. Después de obtener al menos una pieza fundamental de información sobre la estructura fonémica de la entidad percibida a partir de la señal acústica, los oyentes pueden compensar los fonemas faltantes o enmascarados por el ruido utilizando su conocimiento del idioma hablado. Los mecanismos compensatorios podrían incluso operar a nivel de oración, como en canciones, frases y versos aprendidos, un efecto respaldado por patrones de codificación neuronal consistentes con los fragmentos de habla continuos perdidos, a pesar de la falta de toda la información sensorial relevante de abajo hacia arriba.

Deficiencia adquirida del lenguaje

La primera hipótesis de la percepción del habla se utilizó con pacientes que adquirieron un déficit de comprensión auditiva, también conocido como afasia receptiva. Desde entonces han sido muchas las discapacidades que se han clasificado, lo que dio como resultado una verdadera definición de "percepción del habla".El término "percepción del habla" describe el proceso de interés que emplea contextos subléxicos para el proceso de sondeo. Consiste en muchas funciones lingüísticas y gramaticales diferentes, tales como: características, segmentos (fonemas), estructura silábica (unidad de pronunciación), formas fonológicas de las palabras (cómo se agrupan los sonidos), características gramaticales, morfémicas (prefijos y sufijos) y información semántica (el significado de las palabras). En los primeros años, estaban más interesados en la acústica del habla. Por ejemplo, estaban mirando las diferencias entre /ba/ o /da/, pero ahora la investigación se ha dirigido a la respuesta en el cerebro de los estímulos. En los últimos años, se ha desarrollado un modelo para crear una idea de cómo funciona la percepción del habla; este modelo se conoce como el modelo de flujo dual. Este modelo ha cambiado drásticamente de cómo los psicólogos miran la percepción. La primera sección del modelo de flujo dual es la vía ventral. Esta vía incorpora la circunvolución temporal media, el surco temporal inferior y quizás la circunvolución temporal inferior. La vía ventral muestra representaciones fonológicas a las representaciones léxicas o conceptuales, que es el significado de las palabras. La segunda sección del modelo de flujo dual es la vía dorsal. Esta vía incluye el parietotemporal de Silvio, la circunvolución frontal inferior, la ínsula anterior y la corteza premotora. Su función principal es tomar los estímulos sensoriales o fonológicos y transferirlos a una representación articulatoria-motora (formación del habla). Esta vía incorpora la circunvolución temporal media, el surco temporal inferior y quizás la circunvolución temporal inferior. La vía ventral muestra representaciones fonológicas a las representaciones léxicas o conceptuales, que es el significado de las palabras. La segunda sección del modelo de flujo dual es la vía dorsal. Esta vía incluye el parietotemporal de Silvio, la circunvolución frontal inferior, la ínsula anterior y la corteza premotora. Su función principal es tomar los estímulos sensoriales o fonológicos y transferirlos a una representación articulatoria-motora (formación del habla). Esta vía incorpora la circunvolución temporal media, el surco temporal inferior y quizás la circunvolución temporal inferior. La vía ventral muestra representaciones fonológicas a las representaciones léxicas o conceptuales, que es el significado de las palabras. La segunda sección del modelo de flujo dual es la vía dorsal. Esta vía incluye el parietotemporal de Silvio, la circunvolución frontal inferior, la ínsula anterior y la corteza premotora. Su función principal es tomar los estímulos sensoriales o fonológicos y transferirlos a una representación articulatoria-motora (formación del habla). La segunda sección del modelo de flujo dual es la vía dorsal. Esta vía incluye el parietotemporal de Silvio, la circunvolución frontal inferior, la ínsula anterior y la corteza premotora. Su función principal es tomar los estímulos sensoriales o fonológicos y transferirlos a una representación articulatoria-motora (formación del habla). La segunda sección del modelo de flujo dual es la vía dorsal. Esta vía incluye el parietotemporal de Silvio, la circunvolución frontal inferior, la ínsula anterior y la corteza premotora. Su función principal es tomar los estímulos sensoriales o fonológicos y transferirlos a una representación articulatoria-motora (formación del habla).

Afasia

La afasia es un deterioro del procesamiento del lenguaje causado por daño al cerebro. Las diferentes partes del procesamiento del lenguaje se ven afectadas según el área del cerebro dañada, y la afasia se clasifica según la ubicación de la lesión o la constelación de síntomas. El daño al área del cerebro de Broca a menudo resulta en afasia expresiva que se manifiesta como un deterioro en la producción del habla. El daño al área de Wernicke a menudo resulta en afasia receptiva donde se altera el procesamiento del habla.

La afasia con alteración de la percepción del habla típicamente muestra lesiones o daños localizados en los lóbulos temporal o parietal izquierdos. Las dificultades léxicas y semánticas son comunes y la comprensión puede verse afectada.

Agnosia

La agnosia es "la pérdida o disminución de la capacidad de reconocer objetos o estímulos familiares, generalmente como resultado de un daño cerebral". Hay varios tipos diferentes de agnosia que afectan a cada uno de nuestros sentidos, pero los dos más comunes relacionados con el habla son la agnosia del habla y la fonagnosia.

Agnosia del habla: la sordera pura de palabras, o agnosia del habla, es un impedimento en el que una persona mantiene la capacidad de escuchar, producir el habla e incluso leer el habla, pero no puede entender o percibir correctamente el habla. Estos pacientes parecen tener todas las habilidades necesarias para procesar adecuadamente el habla, pero parecen no tener experiencia asociada con los estímulos del habla. Los pacientes han informado: "Puedo oírte hablar, pero no puedo traducirlo".A pesar de que están recibiendo y procesando físicamente los estímulos del habla, sin la capacidad de determinar el significado del habla, esencialmente no pueden percibir el habla en absoluto. No se han encontrado tratamientos conocidos, pero a partir de estudios de casos y experimentos se sabe que la agnosia del habla está relacionada con lesiones en el hemisferio izquierdo o en ambos, específicamente disfunciones temporoparietales derechas.

Phonagnosia: Phonagnosia se asocia con la incapacidad de reconocer cualquier voz familiar. En estos casos, los estímulos del habla pueden escucharse e incluso entenderse pero se pierde la asociación del habla con una determinada voz. Esto puede deberse al "procesamiento anormal de propiedades vocales complejas (timbre, articulación y prosodia, elementos que distinguen una voz individual". No existe un tratamiento conocido; sin embargo, hay un informe de caso de una mujer epiléptica que comenzó a experimentar fonagnosia junto con otras deficiencias.Sus resultados de EEG y resonancia magnética mostraron "una lesión hiperintensa T2 parietal cortical derecha sin realce de gadolinio y con una discreta alteración de la difusión de moléculas de agua".Entonces, aunque no se ha descubierto ningún tratamiento, la fonagnosia se puede correlacionar con la disfunción cortical parietal posictal.

Percepción del habla infantil

Los bebés comienzan el proceso de adquisición del lenguaje siendo capaces de detectar diferencias muy pequeñas entre los sonidos del habla. Pueden discriminar todos los contrastes posibles del habla (fonemas). Gradualmente, a medida que se exponen a su idioma nativo, su percepción se vuelve específica del idioma, es decir, aprenden a ignorar las diferencias dentro de las categorías fonémicas del idioma (diferencias que bien pueden ser contrastantes en otros idiomas; por ejemplo, el inglés distingue dos sonorizaciones). categorías de oclusivas, mientras que el tailandés tiene tres categorías; los bebés deben aprender qué diferencias son distintivas en los usos de su idioma nativo y cuáles no). A medida que los bebés aprenden a clasificar los sonidos del habla entrantes en categorías, ignorando las diferencias irrelevantes y reforzando las contrastantes, su percepción se vuelve categórica. Los bebés aprenden a contrastar diferentes fonemas vocálicos de su lengua materna aproximadamente a los 6 meses de edad. Los contrastes consonánticos nativos se adquieren a los 11 o 12 meses de edad.Algunos investigadores han propuesto que los bebés pueden aprender las categorías de sonido de su idioma nativo a través de la escucha pasiva, utilizando un proceso llamado aprendizaje estadístico. Otros incluso afirman que ciertas categorías de sonido son innatas, es decir, están genéticamente especificadas (ver discusión sobre distintividad categórica innata versus adquirida).

Si a los bebés de un día se les presenta la voz de su madre hablando normalmente, anormalmente (en un tono monótono) y la voz de un extraño, solo reaccionan a la voz de su madre hablando normalmente. Cuando se reproduce un sonido humano y no humano, los bebés giran la cabeza solo hacia la fuente del sonido humano. Se ha sugerido que el aprendizaje auditivo comienza ya en el período prenatal.

Una de las técnicas utilizadas para examinar cómo los bebés perciben el habla, además del procedimiento de giro de la cabeza mencionado anteriormente, es medir su ritmo de succión. En tal experimento, un bebé está chupando un pezón especial mientras se le presentan sonidos. Primero, se establece la tasa de succión normal del bebé. Luego, un estímulo se reproduce repetidamente. Cuando el bebé escucha el estímulo por primera vez, la tasa de succión aumenta, pero a medida que el bebé se acostumbra a la estimulación, la tasa de succión disminuye y se nivela. Luego, se juega un nuevo estímulo para el bebé. Si el bebé percibe el estímulo recién introducido como diferente del estímulo de fondo, la tasa de succión aumentará.El ritmo de succión y el método de giro de la cabeza son algunos de los métodos conductuales más tradicionales para estudiar la percepción del habla. Entre los nuevos métodos (consulte Métodos de investigación a continuación) que nos ayudan a estudiar la percepción del habla, la espectroscopia de infrarrojo cercano se usa ampliamente en bebés.

También se ha descubierto que aunque la capacidad de los bebés para distinguir entre las diferentes propiedades fonéticas de varios idiomas comienza a declinar alrededor de los nueve meses, es posible revertir este proceso exponiéndolos a un nuevo idioma de manera suficiente. En un estudio de investigación realizado por Patricia K. Kuhl, Feng-Ming Tsao y Huei-Mei Liu, se descubrió que si un hablante nativo de chino mandarín habla e interactúa con los bebés, en realidad se les puede condicionar para que conserven su capacidad. para distinguir diferentes sonidos del habla dentro del mandarín que son muy diferentes de los sonidos del habla que se encuentran en el idioma inglés. Demostrando así que, dadas las condiciones adecuadas, es posible evitar que los bebés pierdan la capacidad de distinguir los sonidos del habla en idiomas distintos a los que se encuentran en el idioma nativo.

Cross-language y segundo idioma

Una gran cantidad de investigación ha estudiado cómo los usuarios de un idioma perciben el habla extranjera (lo que se conoce como percepción del habla entre idiomas) o el habla de un segundo idioma (percepción del habla de un segundo idioma). Este último cae dentro del dominio de la adquisición de un segundo idioma.

Los idiomas difieren en sus inventarios fonémicos. Naturalmente, esto crea dificultades cuando se encuentra con un idioma extranjero. Por ejemplo, si dos sonidos de una lengua extranjera se asimilan a una sola categoría de la lengua materna, será muy difícil discernir la diferencia entre ellos. Un ejemplo clásico de esta situación es la observación de que los estudiantes japoneses de inglés tendrán problemas para identificar o distinguir las consonantes líquidas en inglés /l/ y /r/ (ver Percepción del inglés /r/ y /l/ por hablantes de japonés).

Best (1995) propuso un modelo de asimilación perceptual que describe posibles patrones de asimilación de categorías entre idiomas y predice sus consecuencias. Flege (1995) formuló un modelo de aprendizaje del habla que combina varias hipótesis sobre la adquisición del habla en un segundo idioma (L2) y que predice, en palabras simples, que un sonido en L2 que no es demasiado similar al sonido del idioma nativo (L1) será más fácil de adquirir que un sonido L2 que es relativamente similar a un sonido L1 (porque el alumno lo percibirá como más obviamente "diferente").

En problemas de lenguaje o audición

La investigación sobre cómo las personas con discapacidad auditiva o del lenguaje perciben el habla no solo pretende descubrir posibles tratamientos. Puede proporcionar información sobre los principios subyacentes a la percepción del habla sin problemas. Dos áreas de investigación pueden servir como ejemplo:

Oyentes con afasia

La afasia afecta tanto a la expresión como a la recepción del lenguaje. Los dos tipos más comunes, la afasia expresiva y la afasia receptiva, afectan la percepción del habla hasta cierto punto. La afasia expresiva provoca dificultades moderadas para la comprensión del lenguaje. El efecto de la afasia receptiva sobre la comprensión es mucho más grave. Se está de acuerdo en que los afásicos sufren de déficit de percepción. Por lo general, no pueden distinguir completamente el lugar de articulación y sonorización. En cuanto a otras características, las dificultades varían. Todavía no se ha demostrado si las habilidades de percepción del habla de bajo nivel se ven afectadas en los pacientes con afasia o si sus dificultades son causadas únicamente por un deterioro de nivel superior.

Oyentes con implantes cocleares

La implantación coclear restaura el acceso a la señal acústica en personas con pérdida auditiva neurosensorial. La información acústica que transmite un implante suele ser suficiente para que los usuarios de implantes reconozcan correctamente el habla de las personas que conocen, incluso sin pistas visuales.Para los usuarios de implantes cocleares, es más difícil entender los sonidos y hablantes desconocidos. Las habilidades perceptivas de los niños que recibieron un implante después de los dos años son significativamente mejores que las de aquellos que fueron implantados en la edad adulta. Se ha demostrado que varios factores influyen en el rendimiento de la percepción, específicamente: la duración de la sordera antes de la implantación, la edad de inicio de la sordera, la edad de la implantación (estos efectos de la edad pueden estar relacionados con la hipótesis del período crítico) y la duración del uso de un implante. Existen diferencias entre los niños con sordera congénita y adquirida. Los niños sordos poslocutivos tienen mejores resultados que los sordos prelocutivos y se adaptan más rápido a un implante coclear.Tanto en los niños con implantes cocleares y audición normal, las vocales y el tiempo de inicio de la voz se vuelven predominantes en el desarrollo antes que la capacidad de discriminar el lugar de articulación. Varios meses después de la implantación, los niños con implantes cocleares pueden normalizar la percepción del habla.

Ruido

Uno de los problemas fundamentales en el estudio del habla es cómo lidiar con el ruido. Así lo demuestra la dificultad para reconocer el habla humana que tienen los sistemas de reconocimiento informático. Si bien pueden reconocer bien el habla si se entrenan con la voz de un hablante específico y en condiciones silenciosas, estos sistemas a menudo funcionan mal en situaciones auditivas más realistas en las que los humanos entenderían el habla sin relativa dificultad. Para emular los patrones de procesamiento que se mantendrían en el cerebro en condiciones normales, el conocimiento previo es un factor neuronal clave, ya que un historial de aprendizaje sólido puede anular hasta cierto punto los efectos de enmascaramiento extremos involucrados en la ausencia total de señales de voz continuas.

Conexión música-lenguaje

La investigación sobre la relación entre la música y la cognición es un campo emergente relacionado con el estudio de la percepción del habla. Originalmente se teorizó que las señales neuronales de la música se procesaban en un "módulo" especializado en el hemisferio derecho del cerebro. Por el contrario, las señales neuronales del lenguaje debían ser procesadas por un "módulo" similar en el hemisferio izquierdo. Sin embargo, al utilizar tecnologías como las máquinas fMRI, la investigación ha demostrado que dos regiones del cerebro tradicionalmente consideradas exclusivamente para procesar el habla, las áreas de Broca y Wernicke, también se activan durante actividades musicales como escuchar una secuencia de acordes musicales.Otros estudios, como el realizado por Marques et al. en 2006 mostró que los niños de 8 años que recibieron seis meses de entrenamiento musical mostraron un aumento tanto en su rendimiento de detección de tono como en sus medidas electrofisiológicas cuando se les hizo escuchar un idioma extranjero desconocido.

Por el contrario, algunas investigaciones han revelado que, en lugar de que la música afecte nuestra percepción del habla, nuestro habla nativa puede afectar nuestra percepción de la música. Un ejemplo es la paradoja del tritono. La paradoja del tritono es cuando al oyente se le presentan dos tonos generados por computadora (como C y F-Sharp) que están separados por media octava (o un tritono) y luego se le pide que determine si el tono de la secuencia es descendente o descendente. ascendiendo Uno de esos estudios, realizado por la Sra. Diana Deutsch, encontró que la interpretación del oyente del tono ascendente o descendente estaba influenciada por el idioma o dialecto del oyente, mostrando variaciones entre los criados en el sur de Inglaterra y los de California o los de Vietnam y aquellos en California cuyo idioma nativo era el inglés.Un segundo estudio, realizado en 2006 en un grupo de angloparlantes y 3 grupos de estudiantes de Asia oriental en la Universidad del Sur de California, descubrió que los angloparlantes que habían comenzado la formación musical a los 5 años o antes tenían un 8 % de posibilidades de tener un oído perfecto.

Fenomenología del habla

La experiencia del habla

Casey O'Callaghan, en su artículo Experiencing Speech, analiza si "la experiencia perceptiva de escuchar el habla difiere en carácter fenomenal" con respecto a la comprensión del idioma que se escucha. Argumenta que la experiencia de un individuo cuando escucha un idioma que comprende, a diferencia de su experiencia cuando escucha un idioma del que no tiene conocimiento, muestra una diferencia en las características fenoménicas que él define como "aspectos de cómo es una experiencia" para un individuo..

Si a un sujeto que es un hablante nativo de inglés monolingüe se le presenta un estímulo de habla en alemán, la cadena de fonemas aparecerá como meros sonidos y producirá una experiencia muy diferente que si se le presentara exactamente el mismo estímulo a un sujeto que habla alemán..

También examina cómo cambia la percepción del habla cuando uno aprende un idioma. Si a un sujeto sin conocimiento del idioma japonés se le presentara un estímulo de habla japonesa y luego se le dieran exactamente los mismos estímulos después de haberle enseñado japonés, este mismo individuo tendría una experiencia extremadamente diferente.

Métodos de búsqueda

Los métodos utilizados en la investigación de la percepción del habla se pueden dividir aproximadamente en tres grupos: métodos conductuales, computacionales y, más recientemente, neurofisiológicos.

Métodos conductuales

Los experimentos de comportamiento se basan en el papel activo de un participante, es decir, a los sujetos se les presentan estímulos y se les pide que tomen decisiones conscientes sobre ellos. Esto puede tomar la forma de una prueba de identificación, una prueba de discriminación, una calificación de similitud, etc. Estos tipos de experimentos ayudan a proporcionar una descripción básica de cómo los oyentes perciben y categorizan los sonidos del habla.

Discurso de onda sinusoidal

La percepción del habla también se ha analizado a través del habla sinusoidal, una forma de habla sintética en la que la voz humana se reemplaza por ondas sinusoidales que imitan las frecuencias y amplitudes presentes en el habla original. Cuando a los sujetos se les presenta por primera vez este discurso, el discurso de onda sinusoidal se interpreta como ruidos aleatorios. Pero cuando a los sujetos se les informa que el estímulo en realidad es habla y se les dice lo que se dice, "se produce un cambio distintivo, casi inmediato" en la forma en que se percibe el habla de onda sinusoidal.

Métodos computacionales

El modelado computacional también se ha utilizado para simular cómo el cerebro puede procesar el habla para producir comportamientos que se observan. Se han utilizado modelos informáticos para abordar varias cuestiones relacionadas con la percepción del habla, incluida la forma en que se procesa la propia señal de sonido para extraer las señales acústicas utilizadas en el habla y cómo se utiliza la información del habla para procesos de nivel superior, como el reconocimiento de palabras.

Métodos neurofisiológicos

Los métodos neurofisiológicos se basan en la utilización de información proveniente de procesos más directos y no necesariamente conscientes (pre-atentativos). A los sujetos se les presentan estímulos del habla en diferentes tipos de tareas y se miden las respuestas del cerebro. El cerebro mismo puede ser más sensible de lo que parece a través de las respuestas conductuales. Por ejemplo, es posible que el sujeto no muestre sensibilidad a la diferencia entre dos sonidos del habla en una prueba de discriminación, pero las respuestas cerebrales pueden revelar sensibilidad a estas diferencias.Los métodos utilizados para medir las respuestas neuronales al habla incluyen potenciales relacionados con eventos, magnetoencefalografía y espectroscopia de infrarrojo cercano. Una respuesta importante utilizada con potenciales relacionados con eventos es la negatividad de desajuste, que ocurre cuando los estímulos del habla son acústicamente diferentes de un estímulo que el sujeto escuchó previamente.

Los métodos neurofisiológicos se introdujeron en la investigación de la percepción del habla por varias razones:

Las respuestas conductuales pueden reflejar procesos conscientes tardíos y verse afectadas por otros sistemas como la ortografía y, por lo tanto, pueden enmascarar la capacidad del hablante para reconocer sonidos en función de distribuciones acústicas de nivel inferior.

Sin la necesidad de tomar parte activa en la prueba, incluso los bebés pueden ser evaluados; esta característica es crucial en la investigación de los procesos de adquisición. La posibilidad de observar procesos auditivos de bajo nivel independientemente de los de nivel superior hace posible abordar cuestiones teóricas de larga data, como si los humanos poseen o no un módulo especializado para percibir el habla o si existe o no alguna invariancia acústica compleja (ver carencia). de invariancia anterior) subyace en el reconocimiento de un sonido del habla.

Teorías

Teoría motora

Algunos de los primeros trabajos en el estudio de cómo los humanos perciben los sonidos del habla fueron realizados por Alvin Liberman y sus colegas en Haskins Laboratories. Usando un sintetizador de voz, construyeron sonidos del habla que variaban en lugar de articulación a lo largo de un continuo de /bɑ/ a /dɑ/ a /ɡɑ/. Se pidió a los oyentes que identificaran qué sonido escuchaban y que discriminaran entre dos sonidos diferentes. Los resultados del experimento mostraron que los oyentes agrupaban los sonidos en categorías discretas, aunque los sonidos que escuchaban variaban continuamente. Con base en estos resultados, propusieron la noción de percepción categórica como un mecanismo por el cual los humanos pueden identificar los sonidos del habla.

Investigaciones más recientes que utilizan diferentes tareas y métodos sugieren que los oyentes son muy sensibles a las diferencias acústicas dentro de una sola categoría fonética, contrariamente a una descripción categórica estricta de la percepción del habla.

Para proporcionar una descripción teórica de los datos de percepción categóricos, Liberman y sus colegas elaboraron la teoría motora de la percepción del habla, donde "se suponía que la complicada codificación articulatoria se decodificaba en la percepción del habla mediante los mismos procesos que están involucrados en la producción" (esto se conoce como análisis por síntesis). Por ejemplo, la consonante inglesa /d/ puede variar en sus detalles acústicos a través de diferentes contextos fonéticos (ver arriba), sin embargo, todas las /d/ tal como las percibe un oyente caen dentro de una categoría (oclusiva alveolar sonora) y eso se debe a que " Las representaciones lingüísticas son segmentos abstractos, canónicos, fonéticos o los gestos que subyacen a estos segmentos".Al describir las unidades de percepción, Liberman luego abandonó los movimientos articulatorios y procedió a los comandos neurales a los articuladores e incluso más tarde a los gestos articulatorios previstos, por lo que "la representación neural de la expresión que determina la producción del hablante es el objeto distal que el oyente percibe". La teoría está estrechamente relacionada con la hipótesis de la modularidad, que propone la existencia de un módulo de propósito especial, que se supone que es innato y probablemente específico de los humanos.

La teoría ha sido criticada en términos de no poder "proporcionar una explicación de cómo los oyentes traducen las señales acústicas en gestos previstos". Además, no está claro cómo se codifica/descodifica la información indexada (por ejemplo, la identidad del hablante) junto con la información lingüísticamente relevante.

Teoría ejemplar

Los modelos ejemplares de percepción del habla difieren de las cuatro teorías mencionadas anteriormente, que suponen que no hay conexión entre el reconocimiento de palabras y del hablante y que la variación entre los hablantes es "ruido" que debe filtrarse.

Los enfoques basados en ejemplos afirman que los oyentes almacenan información para el reconocimiento de palabras y hablantes. De acuerdo con esta teoría, las instancias particulares de los sonidos del habla se almacenan en la memoria de un oyente. En el proceso de percepción del habla, las instancias recordadas de, por ejemplo, una sílaba almacenada en la memoria del oyente se comparan con el estímulo entrante para que el estímulo pueda categorizarse. De manera similar, cuando se reconoce a un hablante, se activan todos los rastros de memoria de las expresiones producidas por ese hablante y se determina la identidad del hablante. Apoyando esta teoría hay varios experimentos informados por Johnsonque sugieren que nuestra identificación de señales es más precisa cuando estamos familiarizados con el hablante o cuando tenemos una representación visual del género del hablante. Cuando el hablante es impredecible o el sexo está mal identificado, la tasa de error en la identificación de palabras es mucho mayor.

Los modelos ejemplares tienen que hacer frente a varias objeciones, dos de las cuales son (1) capacidad de memoria insuficiente para almacenar todas las expresiones jamás escuchadas y, en relación con la capacidad de producir lo que se escuchó, (2) si también se almacenan o calculan los propios gestos articulatorios del hablante. al producir expresiones que sonarían como los recuerdos auditivos.

Puntos de referencia acústicos y rasgos distintivos

Kenneth N. Stevens propuso puntos de referencia acústicos y características distintivas como una relación entre las características fonológicas y las propiedades auditivas. De acuerdo con este punto de vista, los oyentes están inspeccionando la señal entrante en busca de los llamados hitos acústicos, que son eventos particulares en el espectro que transmiten información sobre los gestos que los produjeron. Dado que estos gestos están limitados por las capacidades de los articuladores humanos y los oyentes son sensibles a sus correlatos auditivos, la falta de invariancia simplemente no existe en este modelo. Las propiedades acústicas de los hitos constituyen la base para establecer los rasgos distintivos. Paquetes de ellos especifican únicamente segmentos fonéticos (fonemas, sílabas, palabras).

En este modelo, se cree que la señal acústica entrante se procesa primero para determinar los llamados puntos de referencia, que son eventos espectrales especiales en la señal; por ejemplo, las vocales suelen estar marcadas por una frecuencia más alta del primer formante, las consonantes se pueden especificar como discontinuidades en la señal y tienen amplitudes más bajas en las regiones inferior y media del espectro. Estas características acústicas resultan de la articulación. De hecho, los movimientos articulatorios secundarios pueden usarse cuando se necesita mejorar los puntos de referencia debido a condiciones externas como el ruido. Stevens afirma que la coarticulación provoca solo una variación limitada y, además, sistemática y, por lo tanto, predecible en la señal con la que el oyente es capaz de tratar. Dentro de este modelo, por lo tanto, lo que se llama la falta de invariancia simplemente se afirma que no existe.

Los puntos de referencia se analizan para determinar ciertos eventos articulatorios (gestos) que están conectados con ellos. En la siguiente etapa, las señales acústicas se extraen de la señal en la vecindad de los puntos de referencia mediante la medición mental de ciertos parámetros, como las frecuencias de los picos espectrales, las amplitudes en la región de baja frecuencia o el tiempo.

La siguiente etapa de procesamiento comprende la consolidación de señales acústicas y la derivación de características distintivas. Estas son categorías binarias relacionadas con la articulación (por ejemplo [+/- alto], [+/- atrás], [+/- labios redondos] para vocales; [+/- sonorante], [+/- lateral] o [ +/- nasal] para consonantes.

Conjuntos de estas características identifican de manera única los segmentos del habla (fonemas, sílabas, palabras). Estos segmentos son parte del léxico almacenado en la memoria del oyente. Sus unidades se activan en el proceso de acceso léxico y se mapean sobre la señal original para saber si coinciden. Si no, se realiza otro intento con un patrón candidato diferente. De esta manera iterativa, los oyentes reconstruyen los eventos articulatorios que fueron necesarios para producir la señal de voz percibida. Por lo tanto, esto puede describirse como análisis por síntesis.

Esta teoría postula que el objeto distal de la percepción del habla son los gestos articulatorios que subyacen al habla. Los oyentes dan sentido a la señal del habla al referirse a ellos. El modelo pertenece a los denominados análisis por síntesis.

Modelo lógico difuso

La teoría lógica difusa de la percepción del habla desarrollada por Dominic Massaro propone que las personas recuerdan los sonidos del habla de forma probabilística o graduada. Sugiere que las personas recuerden las descripciones de las unidades de percepción del lenguaje, llamadas prototipos. Dentro de cada prototipo se pueden combinar varias características. Sin embargo, las características no son solo binarias (verdadero o falso), hay un valor borroso que corresponde a la probabilidad de que un sonido pertenezca a una categoría de habla particular. Por lo tanto, cuando percibimos una señal de voz, nuestra decisión sobre lo que realmente escuchamos se basa en la bondad relativa de la coincidencia entre la información del estímulo y los valores de los prototipos particulares. La decisión final se basa en múltiples características o fuentes de información, incluso información visual (esto explica el efecto McGurk).Se han utilizado modelos informáticos de la teoría lógica difusa para demostrar que las predicciones de la teoría sobre cómo se clasifican los sonidos del habla corresponden al comportamiento de los oyentes humanos.

Hipótesis del modo de habla

La hipótesis del modo del habla es la idea de que la percepción del habla requiere el uso de un procesamiento mental especializado. La hipótesis del modo del habla es una rama de la teoría de la modularidad de Fodor (ver modularidad de la mente). Utiliza un mecanismo de procesamiento vertical donde los estímulos limitados son procesados por áreas específicas del cerebro que son estímulos específicos.

Dos versiones de la hipótesis del modo de habla:

Versión débil: escuchar el habla implica un conocimiento previo del idioma.
Versión fuerte: escuchar el habla involucra mecanismos de habla especializados para percibir el habla.

Tres paradigmas experimentales importantes han evolucionado en la búsqueda de evidencia para la hipótesis del modo de habla. Estos son la escucha dicótica, la percepción categórica y la percepción dúplex. A través de la investigación en estas categorías se ha encontrado que puede no haber un modo de habla específico sino uno para códigos auditivos que requieren un procesamiento auditivo complicado. También parece que la modularidad se aprende en los sistemas perceptivos. A pesar de esto, la evidencia y la contraevidencia de la hipótesis del modo de habla aún no están claras y necesitan más investigación.

Teoría realista directa

La teoría realista directa de la percepción del habla (principalmente asociada con Carol Fowler) es una parte de la teoría más general del realismo directo, que postula que la percepción nos permite tener una conciencia directa del mundo porque implica la recuperación directa de la fuente distal del acontecimiento que se percibe. Para la percepción del habla, la teoría afirma que los objetos de percepción son movimientos reales del tracto vocal, o gestos, y no fonemas abstractos o (como en la teoría motora) eventos que son causalmente anteriores a estos movimientos, es decir, gestos intencionados. Los oyentes perciben los gestos no por medio de un decodificador especializado (como en la Teoría Motora) sino porque la información en la señal acústica especifica los gestos que la forman.Al afirmar que los gestos articulatorios reales que producen diferentes sonidos del habla son en sí mismos las unidades de percepción del habla, la teoría pasa por alto el problema de la falta de invariancia.

Contenido relacionado

Más resultados...