Bigrama
Un bigrama o digrama es una secuencia de dos elementos adyacentes de una cadena de tokens, que normalmente son letras, sílabas o palabras. Un bigrama es un n-grama para n=2.
La distribución de frecuencia de cada bigrama en una cadena se usa comúnmente para análisis estadístico simple de texto en muchas aplicaciones, incluida la lingüística computacional, la criptografía y el reconocimiento de voz.
Losbigramas entreabiertos o bigramas saltados son pares de palabras que permiten espacios (quizás evitando conectar palabras o permitiendo alguna simulación de dependencias, como en una gramática de dependencia).
Aplicaciones
Los bigramas, junto con otros n-gramas, se utilizan en los modelos de lenguaje más exitosos para el reconocimiento de voz.
Los ataques de frecuencia de Bigram se pueden utilizar en criptografía para resolver criptogramas. Ver análisis de frecuencia.
La frecuencia de bigramas es un método para la identificación estadística del lenguaje.
Algunas actividades en logología o lingüística recreativa involucran bigramas. Estos incluyen intentos de encontrar palabras en inglés que comiencen con todos los bigramas posibles, o palabras que contengan una cadena de bigramas repetidos, como logogogue.
Frecuencia de Bigram en el idioma inglés
La frecuencia de los bigramas de letras más comunes en un corpus grande en inglés es:
3,56% de 1,17% io 0,83% 3,07% ed 1,17% le 0,83% en 2.43% es 1.13% ve 0.83% er 2.05% it 1,12% co 0.79% 1.99% al 1.09% me 0,79% re 1.85% ar 1.07% de 0.76% on 1.76% st 1.05% hi 0.76% 1,49% a 1,05% ri 0,73% en 1.45% nt 1,04% ro 0.73% nd 1.35% ng 0.95% ic 0,70% ti 1,34% se 0,93% ne 0,69% es 1.34% ha 0.93% ea 0.69% o 1.28% como 0,87% ra 0,69% te 1.20% ou 0.87% ce 0.65%
Contenido relacionado
Morfología (lingüística)
Idioma hawaiano
Escritura tailandesa