Árbol de análisis

Ajustar Compartir Imprimir Citar
Árbol de pares a SAAB

Un árbol de análisis o árbol de análisis o árbol de derivación o árbol de sintaxis concreta es un árbol ordenado con raíces que representa la estructura sintáctica de una cadena según alguna gramática libre de contexto. El término árbol de análisis en sí mismo se usa principalmente en lingüística computacional; en sintaxis teórica, el término árbol de sintaxis es más común.

Los árboles de sintaxis concretos reflejan la sintaxis del lenguaje de entrada, haciéndolos distintos de los árboles de sintaxis abstractos que se usan en la programación de computadoras. A diferencia de los diagramas de oraciones de Reed-Kellogg que se usan para enseñar gramática, los árboles de análisis sintáctico no usan formas de símbolos distintas para diferentes tipos de constituyentes.

Los árboles de análisis se suelen construir en función de la relación de electorado de las gramáticas de electorado (gramáticas de estructura de frase) o la relación de dependencia de las gramáticas de dependencia. Se pueden generar árboles de análisis para oraciones en lenguajes naturales (ver procesamiento de lenguaje natural), así como durante el procesamiento de lenguajes informáticos, como los lenguajes de programación.

Un concepto relacionado es el de marcador de frase o marcador P, como se usa en la gramática generativa transformacional. Un marcador de frase es una expresión lingüística marcada en cuanto a su estructura de frase. Esto puede presentarse en forma de árbol o como una expresión entre paréntesis. Los marcadores de frase se generan aplicando reglas de estructura de frase, y ellos mismos están sujetos a más reglas de transformación. Un conjunto de posibles árboles de análisis para una oración sintácticamente ambigua se denomina "bosque de análisis."

Nomenclatura

Un simple árbol de pares

Un árbol de análisis se compone de nodos y ramas. En la imagen, el árbol de análisis es la estructura completa, comenzando desde S y terminando en cada uno de los nodos hoja (John, ball, the, hit). En un árbol de análisis, cada nodo es un nodo raíz, un nodo rama o un nodo hoja. En el ejemplo anterior, S es un nodo raíz, NP y VP son nodos de rama, mientras que John, ball, the y hit son todos nodos hoja.

Los nodos también pueden denominarse nodos principales y nodos secundarios. Un nodo principal es aquel que tiene al menos otro nodo vinculado por una rama debajo de él. En el ejemplo, S es padre tanto de NP como de VP. Un nodo secundario es aquel que tiene al menos un nodo directamente encima de él al que está vinculado por una rama del árbol. Nuevamente de nuestro ejemplo, hit es un nodo secundario de V.

Una función no terminal es una función (nodo) que es una raíz o una rama en ese árbol, mientras que una función terminal es una función (nodo) en un análisis árbol que es una hoja.

Árboles de análisis basados en distritos electorales

Los árboles de análisis sintáctico basados en distritos electorales de las gramáticas de distrito electoral (gramáticas de estructura de frase) distinguen entre nodos terminales y no terminales. Los nodos interiores están etiquetados por categorías no terminales de la gramática, mientras que los nodos de hoja están etiquetados por categorías terminales. La siguiente imagen representa un árbol de análisis basado en distritos electorales; muestra la estructura sintáctica de la oración en inglés John golpeó la pelota:

Parse tree PSG

El árbol de análisis es la estructura completa, comenzando desde S y terminando en cada uno de los nodos hoja (John, hit, the, pelota). En el árbol se utilizan las siguientes abreviaturas:

  • S para sentencia, la estructura de alto nivel en este ejemplo
  • NP por noun frase. La primera (izquierda) NP, un único sustantivo "John", sirve como sujeto de la sentencia. El segundo es el objeto de la sentencia.
  • VP para la frase del verbo, que sirve como el predicado
  • V para verbo. En este caso, es un verbo transitivo hit.
  • D para el determinante, en este caso el artículo definido "el"
  • N para sustantivo

Cada nodo del árbol es un nodo raíz, un nodo rama o un nodo hoja. Un nodo raíz es un nodo que no tiene ramas encima. Dentro de una oración, solo hay un nodo raíz. Un nodo de rama es un nodo principal que se conecta a dos o más nodos secundarios. Sin embargo, un nodo hoja es un nodo terminal que no domina a otros nodos del árbol. S es el nodo raíz, NP y VP son nodos de rama, y John (N), hit (V), the (D), y bola (N) son todos los nodos hoja. Las hojas son las fichas léxicas de la oración. Un nodo principal es aquel que tiene al menos otro nodo vinculado por una rama debajo de él. En el ejemplo, S es padre tanto de N como de VP. Un nodo secundario es aquel que tiene al menos un nodo directamente encima del mismo al que está vinculado por una rama de un árbol. Del ejemplo, hit es un nodo secundario de V. Los términos madre e hija también se usan a veces para esta relación.

Árboles de análisis basados en dependencias

Los árboles de análisis sintáctico basados en dependencias de las gramáticas de dependencia ven todos los nodos como terminales, lo que significa que no reconocen la distinción entre categorías terminales y no terminales. En promedio, son más simples que los árboles de análisis basados en distritos porque contienen menos nodos. El árbol de análisis basado en dependencias para la oración de ejemplo anterior es el siguiente:

Parse tree DG

Este árbol de análisis carece de las categorías de frases (S, VP y NP) que se ven en la contraparte anterior basada en distritos electorales. Al igual que el árbol basado en distritos electorales, se reconoce la estructura de los distritos electorales. Cualquier subárbol completo del árbol es un constituyente. Por lo tanto, este árbol de análisis basado en dependencias reconoce el sustantivo sujeto John y el sintagma nominal objeto la pelota como constituyentes, al igual que lo hace el árbol de análisis basado en distritos electorales.

La distinción entre circunscripción y dependencia es de gran alcance. Si la estructura sintáctica adicional asociada con los árboles de análisis basados en distritos electorales es necesaria o beneficiosa es un tema de debate.

Marcadores de frases

Los marcadores de frase, o marcadores P, se introdujeron en las primeras gramáticas generativas transformacionales, tal como las desarrollaron Noam Chomsky y otros. Un marcador de frase que representa la estructura profunda de una oración se genera aplicando reglas de estructura de frase. Entonces, esta aplicación puede sufrir más transformaciones.

Los marcadores de frase se pueden presentar en forma de árboles (como en la sección anterior sobre árboles de análisis basados en distritos electorales), pero a menudo se dan en forma de "expresiones entre paréntesis", que ocupan menos espacio. en la memoria Por ejemplo, una expresión entre paréntesis correspondiente al árbol basado en distritos electorales anterior puede ser algo como:

Al igual que con los árboles, la construcción precisa de dichas expresiones y la cantidad de detalles mostrados pueden depender de la teoría que se aplique y de los puntos que el autor de la consulta desee ilustrar.