Matriz de sustitución

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En bioinformática y biología evolutiva, una matriz de sustitución describe la frecuencia con la que un carácter en una secuencia de nucleótidos o una secuencia de proteínas cambia a otros estados de carácter a lo largo del tiempo evolutivo. La información suele presentarse en forma de probabilidades logarítmicas de encontrar dos estados de carácter específicos alineados y depende del número supuesto de cambios evolutivos o de la disimilitud de secuencia entre secuencias comparadas. Es una aplicación de una matriz estocástica. Las matrices de sustitución generalmente se ven en el contexto de alineamientos de secuencias de aminoácidos o de ADN, donde se utilizan para calcular puntuaciones de similitud entre las secuencias alineadas.

Fondo

En el proceso de evolución, de una generación a la siguiente, las secuencias de aminoácidos de las proteínas de un organismo se alteran gradualmente mediante la acción de mutaciones del ADN. Por ejemplo, la secuencia

ALEIRYLRD

podría mutar en la secuencia

ALEINYLRD

en un solo paso, y posiblemente

AQEINYQRD

durante un período más largo de tiempo evolutivo. Es más o menos probable que cada aminoácido mute en otros aminoácidos. Por ejemplo, es más probable que un residuo hidrofílico como la arginina sea reemplazado por otro residuo hidrofílico como la glutamina, que mutado en un residuo hidrofóbico como la leucina. (Aquí, un residuo se refiere a un aminoácido despojado de un hidrógeno y/o un grupo hidroxilo e insertado en la cadena polimérica de una proteína). Esto se debe principalmente a la redundancia en el código genético, que traduce codones similares en aminoácidos similares.. Además, mutar un aminoácido a un residuo con propiedades significativamente diferentes podría afectar el plegamiento y/o la actividad de la proteína. Es probable que este tipo de sustitución disruptiva se elimine de las poblaciones mediante la acción de la selección purificadora porque la sustitución tiene una mayor probabilidad de hacer que una proteína no sea funcional.

Si tenemos dos secuencias de aminoácidos frente a nosotros, deberíamos poder decir algo sobre la probabilidad de que deriven de un ancestro común u homólogo. Si podemos alinear las dos secuencias usando un algoritmo de alineación de secuencias de modo que las mutaciones necesarias para transformar una secuencia ancestral hipotética en ambas secuencias actuales sean evolutivamente plausibles, entonces nos gustaría asignar una puntuación alta a la comparación. de las secuencias.

Con este fin, construiremos una matriz 20x20 donde la ()i,j){displaystyle (i,j)}la entrada es igual a la probabilidad de la i{displaystyle i}aminoácido transformado en j{displaystyle j}aminoácido en cierta cantidad de tiempo evolutivo. Hay muchas maneras diferentes de construir tal matriz, llamada matriz de sustitución. Aquí están los más utilizados:

Matriz de identidad

La matriz de sustitución más simple posible sería aquella en la que cada aminoácido se considere máximamente similar a sí mismo, pero no capaz de transformarse en ningún otro aminoácido. Esta matriz se vería así

[10⋯ ⋯ 000100⋮ ⋮ ⋱ ⋱ ⋮ ⋮ 001000⋯ ⋯ 01]{displaystyle {begin{bmatrix}1 ventaja0 limitadacdots < > > > > > {}}}

Esta matriz de identidad logrará el alineamiento de secuencias de aminoácidos muy similares, pero no logrará alinear dos secuencias lejanamente relacionadas. Necesitamos calcular todas las probabilidades de una manera más rigurosa. Resulta que un examen empírico de secuencias previamente alineadas funciona mejor.

Matrices logarítmicas de probabilidades

Expresamos las probabilidades de transformación en lo que se denomina puntuaciones de probabilidades logarítmicas. La matriz de puntuaciones S se define como

Si,j=log⁡ ⁡ pi⋅ ⋅ Mi,jpi⋅ ⋅ pj=log⁡ ⁡ Mi,jpj=log⁡ ⁡ frecuencia observadafrecuencia esperada,{displaystyle S_{i,j}=log {frac {p_{i}cdot M_{i,j}{p_{i}cdot {fnK}=log {fnMicroc} {fnK} {fnMicroc {texto {fnMide frecuencia observada} {texto{ frecuencia esperada}}}}}} }

Donde Mi,j{displaystyle M_{i,j} es la probabilidad de que el aminoácido i{displaystyle i} se transforma en aminoácidos j{displaystyle j}, y pi{displaystyle P_{i}, pj{displaystyle P_{j} son las frecuencias de los aminoácidos i y j. La base del logaritmo no es importante, y la misma matriz de sustitución se expresa a menudo en diferentes bases.

PAM

Una de las primeras matrices de sustitución de aminoácidos, la matriz PAM (mutación puntual aceptada), fue desarrollada por Margaret Dayhoff en la década de 1970. Esta matriz se calcula observando las diferencias en proteínas estrechamente relacionadas. Debido al uso de homólogos muy estrechamente relacionados, no se espera que las mutaciones observadas cambien significativamente las funciones comunes de las proteínas. Por tanto, las sustituciones observadas (por mutaciones puntuales) se consideran aceptadas por la selección natural.

Una unidad PAM se define como el 1% de las posiciones de aminoácidos que han sido cambiadas. Para crear una matriz de sustitución PAM1, se elige un grupo de secuencias muy relacionadas con frecuencias de mutación correspondientes a una unidad PAM. A partir de los datos mutacionales recopilados de este grupo de secuencias, se puede derivar una matriz de sustitución. Esta matriz PAM1 estima qué tasa de sustitución se esperaría si hubiera cambiado el 1% de los aminoácidos. La matriz PAM1 se utiliza como base para calcular otras matrices asumiendo que las mutaciones repetidas seguirían el mismo patrón que las de la matriz PAM1 y que pueden ocurrir múltiples sustituciones en el mismo sitio. Utilizando esta lógica, Dayhoff obtuvo matrices tan altas como PAM250. Normalmente se utilizan el PAM 30 y el PAM70.

Una matriz para secuencias más distantes se puede calcular a partir de una matriz para secuencias estrechamente relacionadas al tomar la segunda matriz a un poder. Por ejemplo, podemos aproximar aproximadamente la matriz WIKI2 de la matriz WIKI1 diciendo: W2=W12{displaystyle ¿Qué? Donde W1{displaystyle W_{1} WIKI1 y W2{displaystyle W_{2} WIKI2. Así se calcula la matriz PAM250.

FLOR

La metodología de Dayhoff de comparar especies estrechamente relacionadas resultó no funcionar muy bien para alinear secuencias evolutivamente divergentes. Los cambios de secuencia en escalas de tiempo evolutivas largas no se aproximan bien combinando pequeños cambios que ocurren en escalas de tiempo cortas. La serie de matrices BLOSUM (BLOck SUbstitution Matrix) rectifica este problema. Henikoff & Henikoff construyó estas matrices utilizando múltiples alineamientos de proteínas evolutivamente divergentes. Las probabilidades utilizadas en el cálculo matricial se calculan observando los "bloques" de secuencias conservadas encontradas en múltiples alineamientos de proteínas. Se supone que estas secuencias conservadas son de importancia funcional dentro de proteínas relacionadas y, por lo tanto, tendrán tasas de sustitución más bajas que las regiones menos conservadas. Para reducir el sesgo de secuencias estrechamente relacionadas en las tasas de sustitución, se agruparon segmentos en un bloque con una identidad de secuencia por encima de un cierto umbral, reduciendo el peso de cada uno de esos grupos (Henikoff y Henikoff). Para la matriz BLOSUM62, este umbral se fijó en 62%. Luego se contaron las frecuencias de los pares entre grupos, por lo que los pares solo se contaron entre segmentos con menos del 62% de identidad. Se usaría una matriz BLOSUM con un número más alto para alinear dos secuencias estrechamente relacionadas y un número más bajo para secuencias más divergentes.

Resulta que la matriz BLOSUM62 hace un excelente trabajo detectando similitudes en secuencias distantes, y esta es la matriz utilizada por defecto en las aplicaciones de alineación más recientes, como BLAST.

Diferencias entre PAM y BLOSUM

  1. Las matrices PAM se basan en un modelo evolutivo explícito (es decir, los reemplazos se cuentan en las ramas de un árbol filogenético), mientras que las matrices BLOSUM se basan en un modelo implícito de evolución.
  2. Las matrices PAM se basan en mutaciones observadas a lo largo de una alineación global, lo que incluye regiones altamente conservadas y muy mutables. Las matrices BLOSUM se basan sólo en regiones altamente conservadas en series de alineaciones prohibidas para contener lagunas.
  3. El método utilizado para contar los reemplazos es diferente: a diferencia de la matriz PAM, el procedimiento BLOSUM utiliza grupos de secuencias dentro de las cuales no todas las mutaciones se cuentan igual.
  4. Los números más altos en el esquema de designación de la matriz PAM denotan mayor distancia evolutiva, mientras que los números más grandes en el esquema de designación de la matriz BLOSUM denotan mayor semejanza de secuencia y por lo tanto menor distancia evolutiva. Ejemplo: PAM150 se utiliza para secuencias más distantes que PAM100; BLOSUM62 se utiliza para secuencias más cercanas que BLOSUM50.

Matrices de máxima verosimilitud

Matriz WAG

Desarrollada en 2001 por Simon Wheelan y Nick Goldman, la matriz WAG (Wheelan And Goldman) se calcula utilizando un procedimiento de estimación de máxima verosimilitud. El uso de máxima verosimilitud la hace menos propensa a errores sistemáticos que las matrices basadas simplemente en comparar homólogos estrechamente relacionados, como PAM. Las puntuaciones de sustitución se calculan en función de la probabilidad de un cambio considerando múltiples topologías de árbol derivadas mediante la unión de vecinos. Las puntuaciones corresponden a un modelo de sustitución que incluye también frecuencias estacionarias de aminoácidos y un factor de escala en la puntuación de similitud. Hay dos versiones de la matriz: matriz WAG basada en el supuesto de las mismas frecuencias estacionarias de aminoácidos en todas las proteínas comparadas y matriz WAG* con diferentes frecuencias para cada una de las familias de proteínas incluidas.

Matrices de sustitución especializadas y sus extensiones

Se han desarrollado muchas matrices de sustitución especializadas que describen las tasas de sustitución de aminoácidos en contextos estructurales o de secuencia específicos, como en hélices alfa transmembrana, para combinaciones de estados de estructura secundaria y estados de accesibilidad a disolventes, o para contextos de estructura de secuencia local. Estas matrices de sustitución específicas del contexto conducen a una calidad de alineación generalmente mejorada a un costo de velocidad, pero aún no se utilizan ampliamente. Recientemente, se han obtenido similitudes de aminoácidos específicas del contexto de secuencia que no necesitan matrices de sustitución, sino que se basan en una biblioteca de contextos de secuencia. Utilizando esta idea, se ha demostrado que una extensión específica del contexto del popular programa BLAST logra una mejora doble de la sensibilidad para secuencias relacionadas remotamente con respecto a BLAST a velocidades similares (CS-BLAST).

Terminología

Aunque la "matriz de transición" a menudo se usa indistintamente con "matriz de sustitución" En campos distintos de la bioinformática, el primer término es problemático en bioinformática. Con respecto a las sustituciones de nucleótidos, la "transición" También se usa para indicar aquellas sustituciones que están entre las purinas de dos anillos (A → G y G → A) o entre las pirimidinas de un anillo (C → T y T → C). Como estas sustituciones no requieren un cambio en el número de anillos, ocurren con más frecuencia que las otras sustituciones. "Transversión" es el término utilizado para indicar las sustituciones de velocidad más lenta que cambian una purina a una pirimidina o viceversa (A ↔ C, A ↔ T, G ↔ C y G ↔ T).

Contenido relacionado

Aquifoliales

Las Aquifoliales son un orden de plantas con flores, incluyendo la familia Aquifoliaceae y también las Helwingiaceae y las Phyllonomaceae (4 especies de...

Disminución de las poblaciones de anfibios

Desde la década de 1980, se han observado disminuciones en las poblaciones de anfibios, incluida una disminución de la población y extinciones masivas...

Delfín común

El delfín común es el cetáceo más abundante del mundo, con una población global de alrededor de seis millones. A pesar de este hecho y de su nombre...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save