Lenguaje habitual

Ajustar Compartir Imprimir Citar

Lenguaje formal que se puede expresar utilizando una expresión regular

En informática teórica y teoría del lenguaje formal, un lenguaje regular (también llamado lenguaje racional) es un lenguaje formal que se puede definir mediante una expresión regular, en el sentido estricto en informática teórica (a diferencia de muchos motores de expresiones regulares modernos, que se aumentan con características que permiten el reconocimiento de lenguajes no regulares).

Alternativamente, un lenguaje regular puede definirse como un lenguaje reconocido por un autómata finito. La equivalencia de expresiones regulares y autómatas finitos se conoce como teorema de Kleine (en honor al matemático estadounidense Stephen Cole Kleene). En la jerarquía de Chomsky, los lenguajes regulares son los lenguajes generados por las gramáticas Tipo-3.

Definición formal

La colección de lenguajes regulares sobre un alfabeto Σ se define recursivamente de la siguiente manera:

El lenguaje vacío Ø es un lenguaje regular.
Para cada uno a zioDta pertenece a la eva), el idioma de un solotón {aEs un lenguaje regular.
Si A es un idioma regular, A* (estrella kleene) es un lenguaje regular. Debido a esto, el lenguaje de cuerda vacía {ε} también es regular.
Si A y B son idiomas regulares, entonces A ∪ B (unión) y A • B (concatenación) son idiomas regulares.
No hay otros idiomas sobre la región son regulares.

Consulte expresión regular para conocer la sintaxis y la semántica de las expresiones regulares.

Ejemplos

Todos los lenguajes finitos son regulares; en particular, el lenguaje de cadenas vacías {ε} = Ø* es regular. Otros ejemplos típicos incluyen el lenguaje que consta de todas las cadenas sobre el alfabeto {a, b} que contienen un número par de as, o el lenguaje que consta de todas las cadenas de la forma: varios as seguidos de varios bs.

Un ejemplo simple de un lenguaje que no es regular es el conjunto de cadenas { aⁿb ⁿ | n ≥ 0 }. Intuitivamente no se puede reconocer con un autómata finito, ya que un autómata finito tiene memoria finita y no puede recordar el número exacto de a's. Las técnicas para probar este hecho rigurosamente se dan a continuación.

Formalismos equivalentes

Un lenguaje regular satisface las siguientes propiedades equivalentes:

es el lenguaje de una expresión regular (por la definición anterior)
es el idioma aceptado por un autómata finita no determinista (NFA)
es el idioma aceptado por un autómata finita determinista (DFA)
puede ser generado por una gramática regular
es el idioma aceptado por un autómata finito alternante
es el idioma aceptado por un autómata finito de dos vías
puede ser generado por una gramática prefijo
puede ser aceptado por una sola máquina de Turing
puede definirse en la lógica monadic de segundo orden (Büchi-Elgot-Trakhtenbrot theorem)
es reconocido por un monoide sintáctico finito M, significa que es el preimage { w zioDt^* Silencio f()w) S } de un subconjunto S de un monoide finito M bajo un homomorfismo monoide f:^* → M del monoide libre en su alfabeto
el número de clases de equivalencia de su congruencia sintáctica es finito. (Este número es igual al número de estados del mínimo automatismo finito determinista que acepta L.)

Las propiedades 10. y 11. son enfoques puramente algebraicos para definir lenguajes regulares; se puede formular un conjunto similar de declaraciones para un monoide M ⊆ Σ^*. En este caso, la equivalencia sobre M conduce al concepto de una lengua reconocible.

Algunos autores usan una de las propiedades anteriores diferente de "1." como una definición alternativa de lenguajes regulares.

Algunas de las equivalencias anteriores, particularmente aquellas entre los primeros cuatro formalismos, se denominan teorema de Kleine en los libros de texto. Precisamente cuál (o qué subconjunto) se llama así varía entre los autores. Un libro de texto llama a la equivalencia de expresiones regulares y NFA ("1." y "2." arriba) "Teorema de Kleine". Otro libro de texto llama a la equivalencia de expresiones regulares y DFA ("1." y "3." arriba) "Teorema de Kleine". Otros dos libros de texto prueban primero la equivalencia expresiva de NFA y DFA ("2." y "3.") y luego establecen el "Teorema de Kleine" como la equivalencia entre expresiones regulares y autómatas finitos (se dice que este último describe "lenguajes reconocibles"). Un texto de orientación lingüística primero equipara las gramáticas regulares ("4." arriba) con DFA y NFA, llama a los lenguajes generados por (cualquiera de) estos "regulares", después de lo cual introduce regulares expresiones que utiliza para describir "lenguajes racionales", y finalmente establece el "teorema de Kleine" como la coincidencia de lenguajes regulares y racionales. Otros autores simplemente definen "expresión racional" y "expresiones regulares" como sinónimos y hacer lo mismo con "lenguajes racionales" y "idiomas regulares".

Aparentemente, el término "regular" se origina en un informe técnico de 1951 donde Kleene introdujo "eventos regulares" y dio la bienvenida explícitamente "cualquier sugerencia sobre un término más descriptivo". Noam Chomsky, en su artículo seminal de 1959, usó el término "regular" en un significado diferente al principio (refiriéndose a lo que se llama "forma normal de Chomsky&# 34; hoy), pero notó que sus "lenguajes de estado finitos" eran equivalentes a los "eventos regulares" .

Propiedades de cierre

Los lenguajes regulares se cierran bajo varias operaciones, es decir, si los lenguajes K y L son regulares, también lo es el resultado de las siguientes operaciones:

las operaciones booleanas teóricas: unión $K \cup L$ , intersección $K \cap L$ , y complemento L, por lo tanto también complemento relativo $K - L$ .
las operaciones ordinarias: $K \cup L$ , concatenación ${displaystyle Kcirc L}$ , y estrella de Kleene $L *$ .
las operaciones de trío: homomorfismo de cuerda, homomorfismo de cuerda inversa y intersección con lenguajes regulares. Como consecuencia, se cierran bajo transducciones estatales finitas arbitrarias, como un cociente K / L con un lenguaje regular. Aún más, los idiomas regulares se cierran bajo cocientes con arbitraria idiomas: Si L es regular entonces L / K es regular para cualquier K.
el reverso (o imagen del espejo) L^R. Dado un autómata finita no determinista para reconocer L, un autómata para L^R puede obtenerse revirtiendo todas las transiciones e intercambiando estados de inicio y acabado. Esto puede resultar en múltiples estados de partida; ε-transitions se puede utilizar para unirse a ellos.

Propiedades de decidibilidad

Dados dos autómatas finitos deterministas A y B, es decidible si aceptan el mismo lenguaje. Como consecuencia, utilizando las propiedades de cierre anteriores, los siguientes problemas también son decidibles para autómatas finitos deterministas A y B dados arbitrariamente, con lenguajes aceptados L_A y L_B, respectivamente:

Contención: es L_A ⊆ L_B?
La alegría: es L_A ∩ L_B ?
Vacío: es L_A ?
Universalidad: es L_A =^*?
Composición: a zioDt^*, es a ▪ L_B?

Para expresiones regulares, el problema de universalidad ya es NP-completo para un alfabeto singleton. Para alfabetos más grandes, ese problema es PSPACE-completo. Si las expresiones regulares se amplían para permitir también un operador cuadrado, con "A²" que denota lo mismo que "AA", todavía solo se pueden describir lenguajes regulares, pero el problema de la universalidad tiene un límite inferior del espacio exponencial y, de hecho, es completo para el espacio exponencial con respecto a la reducción de tiempo polinomial.

Para un alfabeto finito fijo, la teoría del conjunto de todos los idiomas, junto con las cadenas, la pertenencia a una cadena en un idioma y, para cada carácter, una función para agregar el carácter a una cadena (y ninguna otra operación) — es decidible, y su mínima subestructura elemental consiste precisamente en lenguajes regulares. Para un alfabeto binario, la teoría se llama S2S.

Resultados de complejidad

En la teoría de la complejidad computacional, la clase de complejidad de todos los idiomas regulares se denomina a veces como REGULAR o REG e iguala DSPACE(O(1)), los problemas de decisión que pueden resolverse en espacio constante (el espacio utilizado es independiente del tamaño de entrada). REGULAR √ AC0, ya que (trivialmente) contiene el problema de paridad de determinar si el número de 1 bits en la entrada es uniforme o extraño y este problema no está en AC⁰. Por otro lado, REGULAR no contiene AC⁰, porque el lenguaje no regular de palindromas, o el lenguaje no regular ${0^n 1^n: n in mathbb N}$ ambos pueden ser reconocidos en AC⁰.

Si un idioma no es regular, requiere una máquina con al menos Ω(log log n) espacio para reconocer (donde n es el tamaño de entrada). En otras palabras, DSPACE(o(log log n)) es igual a la clase de lenguajes regulares. En la práctica, la mayoría de los problemas no regulares se resuelven con máquinas que ocupan al menos un espacio logarítmico.

Ubicación en la jerarquía de Chomsky

Lenguaje regular en clases de jerarquía Chomsky.

Para ubicar los lenguajes regulares en la jerarquía de Chomsky, uno nota que cada lenguaje regular es independiente del contexto. Lo contrario no es cierto: por ejemplo, el idioma que consta de todas las cadenas que tienen el mismo número de a's que b's es independiente del contexto pero no regulares. Para demostrar que una lengua no es regular, a menudo se utiliza el teorema de Myhill-Nerode y el lema de bombeo. Otros enfoques incluyen el uso de las propiedades de cierre de los lenguajes regulares o la cuantificación de la complejidad de Kolmogorov.

Subclases importantes de lenguajes regulares incluyen

Lenguas finitas, que contienen sólo un número finito de palabras. Estos son lenguajes regulares, ya que se puede crear una expresión regular que es la unión de cada palabra en el idioma.
Idiomas libres de estrellas, aquellos que pueden ser descritos por una expresión regular construida a partir del símbolo vacío, letras, concatenación y todos los operadores booleanos (ver álgebra de conjuntos) incluyendo la complementación pero no la estrella kleene: esta clase incluye todos los idiomas finitos.

El número de palabras en un idioma normal

Vamos $s_L(n)$ denota el número de palabras de longitud $n$ dentro $L$ . La función generadora ordinaria para L es la serie de poder formal

S_L(z) = sum_{n ge 0} s_L(n) z^n .

La función generadora de un lenguaje L es una función racional si L es normal. Por lo tanto, para cada idioma regular $L$ la secuencia ${displaystyle s_{L}(n)_{ngeq 0}}$ es constante-recursivo; es decir, existe una constante entero $n_{0}$ , constantes complejas $lambda_1,,ldots,,lambda_k$ y polinomios complejos $p_1(x),,ldots,,p_k(x)$ por cada uno $n geq n_0$ el número $s_L(n)$ de palabras de longitud $n$ dentro $L$ es $s_L(n)=p_1(n)lambda_1^n+dotsb+p_k(n)lambda_k^n$ .

Así pues, la no regularidad de ciertos idiomas $L'$ se puede probar contando las palabras de una longitud determinada $L'$ . Considere, por ejemplo, el lenguaje Dyck de cadenas de paréntesis equilibradas. El número de palabras de longitud $2n$ en el idioma Dyck es igual al número catalán $C_nsimfrac{4^n}{n^{3/2}sqrt{pi}}$ , que no es de la forma $p(n)lambda^n$ , presenciar la no regularidad del lenguaje Dyck. La atención debe tomarse desde algunos de los eigenvalues $lambda _{i}$ podría tener la misma magnitud. Por ejemplo, el número de palabras de longitud $n$ en el lenguaje de todas las palabras binarias no es de la forma $p(n)lambda^n$ , pero el número de palabras de longitud incluso o extraña son de esta forma; los eigenvalues correspondientes son $2,-2$ . En general, para cada idioma regular existe una constante $d$ tal que para todos $a$ , el número de palabras de longitud $dm+a$ es asintotica $C_a m^{p_a} lambda_a^m$ .

La función zeta de un lenguaje L es

zeta_L(z) = exp left({ sum_{n ge 0} s_L(n) frac{z^n}{n} }right) .

La función zeta de un lenguaje regular no es en general racional, pero la de un lenguaje cíclico arbitrario sí lo es.

Generalizaciones

La noción de un lenguaje regular se ha generalizado a infinitas palabras (ver ω-autómatas) y árboles (ver árbol autómata).

El conjunto racional generaliza la noción (de lenguaje regular/racional) a monoides que no son necesariamente libres. Asimismo, la noción de un lenguaje reconocible (por un autómata finito) tiene homónimo como reconocible sobre un monoide que no es necesariamente libre. Howard Straubing señala en relación con estos hechos que “El término "lenguaje regular" es un poco desafortunado. Los artículos influenciados por la monografía de Eilenberg a menudo usan el término 'lenguaje reconocible', que se refiere al comportamiento de los autómatas, o 'lenguaje racional', que se refiere a analogías importantes entre Expresiones y series de potencias racionales. (De hecho, Eilenberg define subconjuntos racionales y reconocibles de monoides arbitrarios; las dos nociones, en general, no coinciden). se usa casi universalmente.”

La serie racional es otra generalización, esta vez en el contexto de una serie de potencia formal sobre un semianillo. Este enfoque da lugar a expresiones racionales ponderadas y autómatas ponderados. En este contexto algebraico, los lenguajes regulares (correspondientes a expresiones racionales con ponderación booleana) suelen denominarse lenguajes racionales. También en este contexto, el teorema de Kleene encuentra una generalización llamada teorema de Kleene-Schützenberger.