Alineación de secuencia

Compartir Imprimir Citar
Proceso en bioinformática que identifica sitios equivalentes dentro de secuencias moleculares

En bioinformática, una alineación de secuencias es una forma de ordenar las secuencias de ADN, ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. Las secuencias alineadas de residuos de nucleótidos o aminoácidos normalmente se representan como filas dentro de una matriz. Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencias también se usan para secuencias no biológicas, como calcular el costo de la distancia entre cadenas en un lenguaje natural o en datos financieros.

Una alineación secuencial, producida por ClustalO, de proteínas de cálculo materno.
Las secuencias son los aminoácidos para residuos 120-180 de las proteínas. Residuos que se conservan en todas las secuencias se destacan en gris. Debajo de las secuencias de proteínas es una clave que indica la secuencia conservada (*), mutaciones conservadoras (:), mutaciones semiconservadoras (.), y mutaciones no conservativas ().

Interpretación

Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y las brechas como indeles (es decir, mutaciones de inserción o eliminación) introducidas en uno o ambos linajes en el tiempo desde que se separaron entre sí. En los alineamientos de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de qué tan conservada está una región particular o un motivo de secuencia entre los linajes. La ausencia de sustituciones, o la presencia de solo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugiere que esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar un papel funcional o estructural similar.

Métodos de alineación

Las secuencias muy cortas o muy similares se pueden alinear a mano. Sin embargo, la mayoría de los problemas interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no pueden alinearse únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para el alineamiento de secuencias generalmente se dividen en dos categorías: alineamientos globales y alineamientos locales. Calcular una alineación global es una forma de optimización global que "obliga" la alineación para abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, las alineaciones locales identifican regiones de similitud dentro de secuencias largas que a menudo son muy divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. Se han aplicado una variedad de algoritmos computacionales al problema de alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica. Estos también incluyen algoritmos heurísticos eficientes o métodos probabilísticos diseñados para búsquedas en bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.

Representaciones

Las alineaciones suelen representarse tanto gráficamente como en formato de texto. En casi todas las representaciones de alineación de secuencias, las secuencias se escriben en filas dispuestas de modo que los residuos alineados aparezcan en columnas sucesivas. En formatos de texto, las columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Como en la imagen de arriba, se usa un asterisco o un símbolo de tubería para mostrar la identidad entre dos columnas; otros símbolos menos comunes incluyen dos puntos para sustituciones conservadoras y un punto para sustituciones semiconservadoras. Muchos programas de visualización de secuencias también utilizan el color para mostrar información sobre las propiedades de los elementos de secuencia individuales; en las secuencias de ADN y ARN, esto equivale a asignar a cada nucleótido su propio color. En las alineaciones de proteínas, como la de la imagen de arriba, el color se usa a menudo para indicar las propiedades de los aminoácidos para ayudar a juzgar la conservación de una sustitución de aminoácido determinada. Para secuencias múltiples, la última fila de cada columna suele ser la secuencia de consenso determinada por la alineación; la secuencia consenso también suele representarse en formato gráfico con un logotipo de secuencia en el que el tamaño de cada letra de nucleótido o aminoácido corresponde a su grado de conservación.

Las alineaciones de secuencia se pueden almacenar en una amplia variedad de formatos de archivo basados en texto, muchos de los cuales se desarrollaron originalmente junto con una implementación o un programa de alineación específico. La mayoría de las herramientas basadas en la web permiten una cantidad limitada de formatos de entrada y salida, como el formato FASTA y el formato GenBank, y la salida no se puede editar fácilmente. Hay disponibles varios programas de conversión que proporcionan interfaces gráficas y/o de línea de comandos, como READSEQ y EMBOSS. También hay varios paquetes de programación que brindan esta función de conversión, como BioPython, BioRuby y BioPerl. Los archivos SAM/BAM utilizan el formato de cadena CIGAR (Informe compacto de alineación con intervalos idiosincrásicos) para representar una alineación de una secuencia con una referencia mediante la codificación de una secuencia de eventos (por ejemplo, coincidencia/desigualdad, inserciones, eliminaciones).

Formato CIGAR

Referencia: GTCGTAGAATA
Leer: CACGTAG—TA
CIGARRO: 2S5M2D2M donde:
2S = 2 recortes suaves (podrían ser discrepancias o una lectura más larga que la secuencia coincidente)
5M = 5 coincidencias o desajustes
2D = 2 eliminaciones
2M = 2 coincidencias o desajustes

El formato CIGAR original del programa de alineamiento de exoneración no distinguía entre discrepancias o coincidencias con el carácter M.

El documento de especificaciones SAMv1 define códigos CIGAR más nuevos. En la mayoría de los casos, se prefiere usar el '=' y 'X' caracteres para denotar coincidencias o discrepancias en lugar de la 'M' carácter, que es ambiguo.

CIGAR CodeBAM IntegerDescripciónConsumes queryConsumos de referencia
M0partido de alineación (puede ser un partido de secuencia o desajuste)Sí.Sí.
I1inserción a la referenciaSí.no
D2supresión de la referencianoSí.
N3región saltada de la referencianoSí.
S4clipping suave (secuencias inclinadas presentes en SEQ)Sí.no
H5clipping duro (secuencias inclinadas NO presentes en SEQ)nono
P6padding (silent deletion from padded reference)nono
=7secuencia del partidoSí.Sí.
X8secuencia de desajusteSí.Sí.

Alineaciones globales y locales

Las alineaciones globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias en el conjunto de consultas son similares y tienen aproximadamente el mismo tamaño. (Esto no significa que las alineaciones globales no puedan comenzar o terminar en espacios vacíos). Una técnica de alineación global general es el algoritmo de Needleman-Wunsch, que se basa en la programación dinámica. Los alineamientos locales son más útiles para secuencias diferentes que se sospecha que contienen regiones de similitud o motivos de secuencia similares dentro de su contexto de secuencia más grande. El algoritmo de Smith-Waterman es un método de alineación local general basado en el mismo esquema de programación dinámica pero con opciones adicionales para comenzar y terminar en cualquier lugar.

Métodos híbridos, conocidos como semiglobales o "glocal" (abreviatura de global-local), busca la mejor alineación parcial posible de las dos secuencias (en otras palabras, una combinación de uno o ambos comienzos y uno o se indica que ambos extremos están alineados). Esto puede ser especialmente útil cuando la parte aguas abajo de una secuencia se superpone con la parte aguas arriba de la otra secuencia. En este caso, ni la alineación global ni la local son totalmente apropiadas: una alineación global intentaría forzar que la alineación se extienda más allá de la región de superposición, mientras que una alineación local podría no cubrir completamente la región de superposición. Otro caso en el que la alineación semiglobal es útil es cuando una secuencia es corta (por ejemplo, una secuencia de genes) y la otra es muy larga (por ejemplo, una secuencia de cromosomas). En ese caso, la secuencia corta debe alinearse globalmente (completamente), pero solo se desea una alineación local (parcial) para la secuencia larga.

La rápida expansión de los datos genéticos desafía la velocidad de los actuales algoritmos de alineación de secuencias de ADN. Las necesidades esenciales de un método eficiente y preciso para el descubrimiento de variantes de ADN exigen enfoques innovadores para el procesamiento paralelo en tiempo real. Los enfoques de computación óptica se han sugerido como alternativas prometedoras a las implementaciones eléctricas actuales, pero aún queda por probar su aplicabilidad [1].

Alineación por pares

Los métodos de alineación de secuencias por pares se utilizan para encontrar las alineaciones por partes (locales o globales) que mejor coincidan de dos secuencias de consulta. Las alineaciones por pares solo se pueden usar entre dos secuencias a la vez, pero son eficientes para calcular y a menudo se usan para métodos que no requieren una precisión extrema (como buscar en una base de datos secuencias con una gran similitud con una consulta). Los tres métodos principales para producir alineaciones por pares son los métodos de matriz de puntos, la programación dinámica y los métodos de palabras; sin embargo, las técnicas de alineación de secuencias múltiples también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos por pares tienen dificultades con secuencias altamente repetitivas de bajo contenido de información, especialmente cuando el número de repeticiones difiere en las dos secuencias a alinear.

Coincidencia única máxima

Una forma de cuantificar la utilidad de una alineación dada por pares es la 'coincidencia única máxima' (MUM), o la subsecuencia más larga que ocurre en ambas secuencias de consulta. Las secuencias MUM más largas suelen reflejar una relación más estrecha. en la alineación de secuencias múltiples de genomas en biología computacional. La identificación de MUM y otras anclas potenciales es el primer paso en sistemas de alineación más grandes como MUMmer. Los anclajes son las áreas entre dos genomas donde son muy similares. Para entender qué es una MUM podemos desglosar cada palabra del acrónimo. Coincidencia implica que la subcadena se encuentra en ambas secuencias que se van a alinear. Único significa que la subcadena aparece solo una vez en cada secuencia. Finalmente, maximal establece que la subcadena no es parte de otra cadena más grande que cumpla con los dos requisitos anteriores. La idea detrás de esto es que las secuencias largas que coinciden exactamente y ocurren solo una vez en cada genoma son casi con seguridad parte de la alineación global.

Más precisamente:

"Con dos genomas A y B, la subestring Maximal Unique Match (MUM) es una subestring común de A y B de longitud más larga que una longitud mínima especificada d (por defecto d= 20) tal que

  • es maximal, es decir, no puede ser extendido en cualquier extremo sin incurrir en un desajuste; y
  • es único en ambas secuencias"

Métodos de matriz de puntos

Comparación de una parte de un genoma de cepa del ratón. El despliegue de puntos muestra un parche de líneas, demostrando segmentos duplicados de ADN.
Un diagrama de punto de ADN de un factor de transcripción de los dedos de zinc humano (GenBank ID NM_002383), mostrando auto-similaridad regional. La diagonal principal representa la alineación de la secuencia con sí misma; las líneas fuera de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia. Este es un ejemplo típico de una parcela de recurrencia.

El enfoque de matriz de puntos, que implícitamente produce una familia de alineaciones para regiones de secuencias individuales, es cualitativo y conceptualmente simple, aunque lleva mucho tiempo analizarlo a gran escala. En ausencia de ruido, puede ser fácil identificar visualmente ciertas características de la secuencia, como inserciones, eliminaciones, repeticiones o repeticiones invertidas, a partir de un gráfico de matriz de puntos. Para construir un diagrama de matriz de puntos, las dos secuencias se escriben a lo largo de la fila superior y la columna más a la izquierda de una matriz bidimensional y se coloca un punto en cualquier punto donde coincidan los caracteres en las columnas correspondientes; este es un diagrama de recurrencia típico. Algunas implementaciones varían el tamaño o la intensidad del punto según el grado de similitud de los dos caracteres, para acomodar sustituciones conservadoras. Los diagramas de puntos de secuencias muy estrechamente relacionadas aparecerán como una sola línea a lo largo de la diagonal principal de la matriz.

Los problemas con los diagramas de puntos como técnica de visualización de información incluyen: ruido, falta de claridad, falta de intuición, dificultad para extraer estadísticas de resumen de coincidencias y posiciones de coincidencias en las dos secuencias. También hay mucho espacio desperdiciado donde los datos coincidentes se duplican inherentemente a lo largo de la diagonal y la mayor parte del área real de la gráfica está ocupada por espacio vacío o ruido y, finalmente, las gráficas de puntos están limitadas a dos secuencias. Ninguna de estas limitaciones se aplica a los diagramas de alineación de Miropeats, pero tienen sus propios defectos particulares.

Los diagramas de puntos también se pueden usar para evaluar la repetitividad en una sola secuencia. Una secuencia se puede trazar contra sí misma y las regiones que comparten similitudes significativas aparecerán como líneas fuera de la diagonal principal. Este efecto ocurre cuando una proteína consta de múltiples dominios estructurales similares.

Programación dinámica

La técnica de programación dinámica se puede aplicar para producir alineaciones globales mediante el algoritmo de Needleman-Wunsch y alineaciones locales mediante el algoritmo de Smith-Waterman. En el uso típico, los alineamientos de proteínas utilizan una matriz de sustitución para asignar puntajes a las coincidencias o discrepancias de aminoácidos, y una penalización por brecha por hacer coincidir un aminoácido en una secuencia con una brecha en la otra. Las alineaciones de ADN y ARN pueden usar una matriz de puntuación, pero en la práctica, a menudo simplemente asignan una puntuación de coincidencia positiva, una puntuación de desajuste negativa y una penalización de brecha negativa. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos y, por lo tanto, los efectos de apilamiento de bases no se tienen en cuenta. Sin embargo, es posible tener en cuenta dichos efectos modificando el algoritmo). Una extensión común a los costos de brecha lineales estándar es el uso de dos penalizaciones de brecha diferentes para abrir una brecha y para extender una brecha. Por lo general, el primero es mucho más grande que el segundo, p. -10 para espacio abierto y -2 para extensión de espacio. Por lo tanto, la cantidad de espacios en una alineación generalmente se reduce y los residuos y los espacios se mantienen juntos, lo que generalmente tiene más sentido biológico. El algoritmo Gotoh implementa costos de brechas afines mediante el uso de tres matrices.

La programación dinámica puede ser útil para alinear secuencias de nucleótidos con proteínas, una tarea complicada por la necesidad de tener en cuenta las mutaciones de cambio de marco (generalmente inserciones o deleciones). El método de búsqueda de marcos produce una serie de alineaciones por pares globales o locales entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Su capacidad para evaluar los cambios de marco compensados por un número arbitrario de nucleótidos hace que el método sea útil para secuencias que contienen un gran número de indeles, que pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia informática o un sistema cuya arquitectura esté especializada en programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques aprovechan los efectos secundarios de las capacidades de búsqueda de secuencias de las herramientas). Hay métodos más generales disponibles en software de código abierto como GeneWise.

Se garantiza que el método de programación dinámica encontrará una alineación óptima dada una función de puntuación particular; sin embargo, identificar una buena función de puntuación es a menudo una cuestión empírica más que teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para un gran número de secuencias o secuencias extremadamente largas.

Métodos de palabras

Los métodos de Word, también conocidos como métodos de tupla k, son métodos heurísticos que no garantizan encontrar una solución de alineación óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas de bases de datos a gran escala en las que se entiende que una gran proporción de las secuencias candidatas no tendrán una coincidencia significativa con la secuencia de consulta. Los métodos de Word son mejor conocidos por su implementación en las herramientas de búsqueda de bases de datos FASTA y la familia BLAST. Los métodos de palabra identifican una serie de subsecuencias cortas que no se superponen ("palabras") en la secuencia de consulta que luego se comparan con las secuencias candidatas de la base de datos. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener una compensación; esto indicará una región de alineación si varias palabras distintas producen el mismo desplazamiento. Solo si se detecta esta región, estos métodos aplican criterios de alineación más sensibles; por lo tanto, se eliminan muchas comparaciones innecesarias con secuencias sin similitud apreciable.

En el método FASTA, el usuario define un valor k para usar como la longitud de la palabra con la que buscar en la base de datos. El método es más lento pero más sensible a valores más bajos de k, que también se prefieren para búsquedas que involucran una secuencia de consulta muy corta. La familia de métodos de búsqueda BLAST proporciona una serie de algoritmos optimizados para determinados tipos de consultas, como la búsqueda de coincidencias de secuencias lejanamente relacionadas. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar mucha precisión; Al igual que FASTA, BLAST usa una búsqueda de palabras de longitud k, pero evalúa solo las coincidencias de palabras más significativas, en lugar de todas las coincidencias de palabras como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra predeterminada fija que está optimizada para la consulta y el tipo de base de datos, y que se cambia solo en circunstancias especiales, como cuando se busca con secuencias de consulta repetitivas o muy cortas. Las implementaciones se pueden encontrar a través de varios portales web, como EMBL FASTA y NCBI BLAST.

Alineación de secuencias múltiples

Alineación de 27 secuencias de proteínas de influenza aviar coloreadas por conservación de residuos (top) y propiedades de residuos (bottom)

La alineación de secuencias múltiples es una extensión de la alineación por pares para incorporar más de dos secuencias a la vez. Múltiples métodos de alineación intentan alinear todas las secuencias en un conjunto de consultas determinado. Los alineamientos múltiples se utilizan a menudo para identificar regiones de secuencias conservadas en un grupo de secuencias hipotéticamente relacionadas evolutivamente. Dichos motivos de secuencia conservados se pueden usar junto con información estructural y mecánica para localizar los sitios activos catalíticos de las enzimas. Las alineaciones también se utilizan para ayudar a establecer relaciones evolutivas mediante la construcción de árboles filogenéticos. Las alineaciones de secuencias múltiples son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatoria NP-completos. No obstante, la utilidad de estos alineamientos en bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.

Programación dinámica

La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costoso tanto en tiempo como en memoria, rara vez se usa para más de tres o cuatro secuencias en su forma más básica. Este método requiere construir el equivalente n-dimensional de la matriz de secuencias formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. La programación dinámica estándar se usa primero en todos los pares de secuencias de consulta y luego el "espacio de alineación" se completa considerando posibles coincidencias o espacios en posiciones intermedias, eventualmente construyendo una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es costosa desde el punto de vista computacional, su garantía de una solución óptima global es útil en los casos en que solo se necesita alinear con precisión unas pocas secuencias. Un método para reducir las demandas computacionales de la programación dinámica, que se basa en la "suma de pares" función objetivo, se ha implementado en el paquete de software MSA.

Métodos progresivos

Los métodos progresivos, jerárquicos o de árbol generan una alineación de secuencias múltiples alineando primero las secuencias más similares y luego agregando sucesivamente secuencias o grupos menos relacionados a la alineación hasta que todo el conjunto de consultas se haya incorporado a la solución. El árbol inicial que describe la relación de secuencias se basa en comparaciones por pares que pueden incluir métodos heurísticos de alineación por pares similares a FASTA. Los resultados de la alineación progresiva dependen de la elección de la opción "más relacionada" secuencias y, por lo tanto, puede ser sensible a imprecisiones en las alineaciones iniciales por pares. La mayoría de los métodos progresivos de alineación de secuencias múltiples ponderan adicionalmente las secuencias en el conjunto de consultas según su relación, lo que reduce la probabilidad de hacer una mala elección de las secuencias iniciales y, por lo tanto, mejora la precisión de la alineación.

Muchas variaciones de la implementación progresiva de Clustal se utilizan para la alineación de secuencias múltiples, la construcción de árboles filogenéticos y como entrada para la predicción de la estructura de proteínas. Una variante más lenta pero más precisa del método progresivo se conoce como T-Coffee.

Métodos iterativos

Los métodos iterativos intentan mejorar la gran dependencia de la precisión de las alineaciones iniciales por pares, que es el punto débil de los métodos progresivos. Los métodos iterativos optimizan una función objetivo basada en un método de puntuación de alineación seleccionado asignando una alineación global inicial y luego realineando subconjuntos de secuencia. Los subconjuntos realineados luego se alinean para producir la alineación de secuencias múltiples de la siguiente iteración. Se revisan varias formas de seleccionar los subgrupos de secuencia y la función objetivo.

Encontrar motivo

La búsqueda de motivos, también conocida como análisis de perfiles, construye múltiples alineaciones de secuencias globales que intentan alinear motivos de secuencias cortas conservadas entre las secuencias del conjunto de consulta. Esto generalmente se hace construyendo primero una alineación de secuencia múltiple global general, después de lo cual las regiones altamente conservadas se aíslan y se usan para construir un conjunto de matrices de perfil. La matriz de perfil para cada región conservada se organiza como una matriz de puntuación, pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de caracteres de la región conservada en lugar de una distribución empírica más general. Las matrices de perfil se utilizan luego para buscar otras secuencias en busca de ocurrencias del motivo que caracterizan. En los casos en que el conjunto de datos original contenía una pequeña cantidad de secuencias, o solo secuencias muy relacionadas, se agregan pseudocuentas para normalizar las distribuciones de caracteres representadas en el motivo.

Técnicas inspiradas en la informática

Un perfil HMM modelando una alineación de secuencia múltiple

También se ha aplicado al problema de alineación de secuencias múltiples una variedad de algoritmos generales de optimización comúnmente utilizados en informática. Los modelos ocultos de Markov se han utilizado para producir puntajes de probabilidad para una familia de posibles alineaciones de secuencias múltiples para un conjunto de consultas dado; aunque los primeros métodos basados en HMM produjeron un rendimiento decepcionante, las aplicaciones posteriores los han encontrado especialmente efectivos para detectar secuencias remotamente relacionadas porque son menos susceptibles al ruido creado por sustituciones conservadoras o semiconservadoras. Los algoritmos genéticos y el recocido simulado también se han utilizado para optimizar múltiples puntajes de alineación de secuencias según lo juzgado por una función de puntaje como el método de suma de pares. Se pueden encontrar detalles más completos y paquetes de software en el artículo principal alineación de secuencias múltiples.

La transformación de Burrows-Wheeler se ha aplicado con éxito a la alineación rápida de lectura corta en herramientas populares como Bowtie y BWA. Ver índice FM.

Alineación estructural

Las alineaciones estructurales, que suelen ser específicas de proteínas y, en ocasiones, de secuencias de ARN, utilizan información sobre la estructura secundaria y terciaria de la proteína o molécula de ARN para ayudar a alinear las secuencias. Estos métodos se pueden utilizar para dos o más secuencias y normalmente producen alineaciones locales; sin embargo, debido a que dependen de la disponibilidad de información estructural, solo pueden usarse para secuencias cuyas estructuras correspondientes se conocen (generalmente a través de cristalografía de rayos X o espectroscopia de RMN). Debido a que tanto la estructura de la proteína como la del ARN están más conservadas evolutivamente que la secuencia, los alineamientos estructurales pueden ser más confiables entre secuencias que están muy lejanamente relacionadas y que han divergido tanto que la comparación de secuencias no puede detectar de manera confiable su similitud.

Las alineaciones estructurales se utilizan como el "estándar de oro" en la evaluación de alineaciones para la predicción de la estructura de la proteína basada en la homología porque alinean explícitamente regiones de la secuencia de la proteína que son estructuralmente similares en lugar de depender exclusivamente de la información de la secuencia. Sin embargo, claramente las alineaciones estructurales no se pueden usar en la predicción de estructuras porque al menos una secuencia en el conjunto de consultas es el objetivo a modelar, para el cual se desconoce la estructura. Se ha demostrado que, dada la alineación estructural entre una secuencia diana y una plantilla, se pueden producir modelos muy precisos de la secuencia de la proteína diana; un obstáculo importante en la predicción de estructuras basada en la homología es la producción de alineaciones estructuralmente precisas dada solo la información de la secuencia.

DALI

El método DALI, o alineación de matriz de distancia, es un método basado en fragmentos para construir alineaciones estructurales basadas en patrones de similitud de contacto entre hexapéptidos sucesivos en las secuencias de consulta. Puede generar alineaciones por pares o múltiples e identificar los vecinos estructurales de una secuencia de consulta en el banco de datos de proteínas (PDB). Se ha utilizado para construir la base de datos de alineación estructural FSSP (Clasificación de pliegues basada en la alineación Estructura-Estructura de Proteínas, o Familias de Proteínas Estructuralmente Similares). Se puede acceder a un servidor web DALI en DALI y el FSSP se encuentra en The Dali Database.

SSAP

SSAP (programa de alineación secuencial de estructuras) es un método de alineación estructural basado en programación dinámica que utiliza vectores átomo a átomo en el espacio estructural como puntos de comparación. Se ha ampliado desde su descripción original para incluir alineaciones múltiples y por pares, y se ha utilizado en la construcción de la clasificación jerárquica de bases de datos CATH (Clase, Arquitectura, Topología, Homología) de pliegues de proteínas. Se puede acceder a la base de datos CATH en CATH Protein Structure Classification.

Extensión combinatoria

El método de extensión combinatoria de alineación estructural genera una alineación estructural por pares mediante el uso de geometría local para alinear fragmentos cortos de las dos proteínas que se analizan y luego ensambla estos fragmentos en una alineación más grande. En función de medidas como la distancia cuadrática media de la raíz del cuerpo rígido, las distancias de los residuos, la estructura secundaria local y las características ambientales circundantes, como la hidrofobicidad de los vecinos de los residuos, las alineaciones locales se denominan "pares de fragmentos alineados". se generan y utilizan para construir una matriz de similitud que representa todas las alineaciones estructurales posibles dentro de criterios de corte predefinidos. A continuación, se traza un camino desde un estado de la estructura de la proteína hasta el otro a través de la matriz extendiendo el alineamiento creciente de un fragmento a la vez. El camino óptimo define la alineación de extensión combinatoria. Un servidor web que implementa el método y proporciona una base de datos de alineaciones de estructuras por pares en el banco de datos de proteínas se encuentra en el sitio web de Combinatorial Extension.

Análisis filogenético

La filogenética y la alineación de secuencias son campos estrechamente relacionados debido a la necesidad compartida de evaluar la relación de secuencias. El campo de la filogenética hace un amplio uso de alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que difieren las secuencias en un conjunto de consulta está relacionado cualitativamente con las secuencias' distancia evolutiva entre sí. En términos generales, una identidad de secuencia alta sugiere que las secuencias en cuestión tienen un ancestro común más reciente relativamente joven, mientras que una identidad baja sugiere que la divergencia es más antigua. Esta aproximación, que refleja el "reloj molecular" La hipótesis de que se puede usar una tasa de cambio evolutivo aproximadamente constante para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia), supone que los efectos de la mutación y la selección son constantes en todos los linajes de secuencia. Por lo tanto, no tiene en cuenta la posible diferencia entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que resultan en la incorporación de un aminoácido diferente en la proteína). Los métodos estadísticamente más precisos permiten que varíe la tasa evolutiva en cada rama del árbol filogenético, lo que produce mejores estimaciones de los tiempos de coalescencia de los genes.

Las técnicas de alineamiento múltiple progresivo producen un árbol filogenético por necesidad porque incorporan secuencias en el alineamiento creciente en orden de relación. Otras técnicas que ensamblan múltiples alineaciones de secuencias y árboles filogenéticos puntúan y clasifican los árboles primero y calculan una alineación de secuencias múltiples a partir del árbol con la puntuación más alta. Los métodos de construcción de árboles filogenéticos comúnmente utilizados son principalmente heurísticos porque el problema de seleccionar el árbol óptimo, como el problema de seleccionar la alineación óptima de secuencias múltiples, es NP-difícil.

Evaluación de importancia

Las alineaciones de secuencias son útiles en bioinformática para identificar la similitud de secuencias, producir árboles filogenéticos y desarrollar modelos de homología de estructuras de proteínas. Sin embargo, la relevancia biológica de los alineamientos de secuencias no siempre está clara. A menudo se supone que las alineaciones reflejan un grado de cambio evolutivo entre secuencias que descienden de un ancestro común; sin embargo, es formalmente posible que pueda ocurrir una evolución convergente para producir una similitud aparente entre proteínas que no están relacionadas evolutivamente pero que realizan funciones similares y tienen estructuras similares.

En búsquedas en bases de datos como BLAST, los métodos estadísticos pueden determinar la probabilidad de que surja por casualidad una alineación particular entre secuencias o regiones de secuencias dado el tamaño y la composición de la base de datos que se está buscando. Estos valores pueden variar significativamente según el espacio de búsqueda. En particular, la probabilidad de encontrar un alineamiento determinado por casualidad aumenta si la base de datos consta solo de secuencias del mismo organismo que la secuencia de consulta. Las secuencias repetitivas en la base de datos o la consulta también pueden distorsionar tanto los resultados de la búsqueda como la evaluación de la importancia estadística; BLAST filtra automáticamente este tipo de secuencias repetitivas en la consulta para evitar coincidencias aparentes que son artefactos estadísticos.

Los métodos de estimación de significancia estadística para alineaciones de secuencias con espacios están disponibles en la literatura.

Evaluación de la credibilidad

La significancia estadística indica la probabilidad de que un alineamiento de una calidad dada pueda surgir por casualidad, pero no indica qué tan superior es un alineamiento dado a los alineamientos alternativos de las mismas secuencias. Las medidas de credibilidad de la alineación indican hasta qué punto las mejores alineaciones de puntuación para un par dado de secuencias son sustancialmente similares. Los métodos de estimación de la credibilidad de la alineación para las alineaciones de secuencias con huecos están disponibles en la literatura.

Funciones de puntuación

La elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas es importante para producir buenos alineamientos. Las secuencias de proteínas se alinean con frecuencia utilizando matrices de sustitución que reflejan las probabilidades de sustituciones dadas de carácter a carácter. Una serie de matrices llamadas matrices PAM (matrices de mutación aceptada de punto, definidas originalmente por Margaret Dayhoff y a veces denominadas "matrices de Dayhoff") codifican explícitamente aproximaciones evolutivas con respecto a las tasas y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de matrices de puntuación, conocida como BLOSUM (matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Las variantes de ambos tipos de matrices se utilizan para detectar secuencias con diferentes niveles de divergencia, lo que permite a los usuarios de BLAST o FASTA restringir las búsquedas a coincidencias más estrechamente relacionadas o expandirlas para detectar secuencias más divergentes. Las penalizaciones por brechas representan la introducción de una brecha (en el modelo evolutivo, una mutación por inserción o deleción) tanto en secuencias de nucleótidos como de proteínas y, por lo tanto, los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. La calidad de las alineaciones producidas depende por tanto de la calidad de la función de puntuación.

Puede ser muy útil e instructivo probar la misma alineación varias veces con diferentes opciones de matriz de puntuación y/o valores de penalización por brecha y comparar los resultados. Las regiones donde la solución es débil o no única a menudo se pueden identificar observando qué regiones de la alineación son resistentes a las variaciones en los parámetros de alineación.

Otros usos biológicos

El ARN secuenciado, como las etiquetas de secuencia expresadas y los ARNm de longitud completa, se puede alinear con un genoma secuenciado para encontrar dónde hay genes y obtener información sobre empalmes alternativos y edición de ARN. El alineamiento de secuencias también es parte del ensamblaje del genoma, donde las secuencias se alinean para encontrar una superposición de modo que se puedan formar contigs (tramos largos de secuencia). Otro uso es el análisis SNP, donde las secuencias de diferentes individuos se alinean para encontrar pares de bases individuales que a menudo son diferentes en una población.

Usos no biológicos

Los métodos utilizados para la alineación de secuencias biológicas también han encontrado aplicaciones en otros campos, sobre todo en el procesamiento del lenguaje natural y en las ciencias sociales, donde el algoritmo de Needleman-Wunsch suele denominarse coincidencia óptima. Las técnicas que generan el conjunto de elementos a partir de los cuales se seleccionarán las palabras en los algoritmos de generación de lenguaje natural han tomado prestadas múltiples técnicas de alineación de secuencias de la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por computadora. En el campo de la lingüística histórica y comparada, la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo mediante el cual los lingüistas tradicionalmente reconstruyen las lenguas. La investigación empresarial y de marketing también ha aplicado múltiples técnicas de alineación de secuencias para analizar series de compras a lo largo del tiempo.

Software

Hay disponible una lista más completa de software disponible categorizado por algoritmo y tipo de alineación en el software de alineación de secuencias, pero las herramientas de software comunes que se usan para tareas generales de alineación de secuencias incluyen ClustalW2 y T-coffee para la alineación, y BLAST y FASTA3x para la búsqueda en la base de datos. También están disponibles herramientas comerciales como DNASTAR Lasergene, Geneious y PatternHunter. Las herramientas anotadas como que realizan la alineación de secuencias se enumeran en el registro bio.tools.

Los algoritmos de alineación y el software se pueden comparar directamente entre sí mediante un conjunto estandarizado de alineaciones de secuencias múltiples de referencia de referencia conocido como BAliBASE. El conjunto de datos consta de alineaciones estructurales, que pueden considerarse un estándar con el que se comparan los métodos puramente basados en secuencias. El rendimiento relativo de muchos métodos de alineación comunes en los problemas de alineación que se encuentran con frecuencia se tabuló y los resultados seleccionados se publicaron en línea en BAliBASE. Se puede calcular una lista completa de puntajes BAliBASE para muchas (actualmente 12) herramientas de alineación diferentes dentro del banco de trabajo de proteínas STRAP.