Matrices utilizadas en la construcción de árboles filogenéticos
Las
matrices de distancia se utilizan en filogenia como métodos de distancia no paramétricos y se aplicaron originalmente a datos fenéticos mediante una matriz de distancias por pares. Estas distancias se concilian para generar un árbol (un filograma, con longitudes de rama informativas). La matriz de distancia puede provenir de diversas fuentes, incluyendo distancias medidas (por ejemplo, de estudios inmunológicos) o análisis morfométricos, diversas fórmulas de distancia por pares (como la distancia euclidiana) aplicadas a caracteres morfológicos discretos, o distancia genética a partir de datos de secuencias, fragmentos de restricción o alozimas. Para datos de caracteres filogenéticos, los valores de distancia brutos pueden calcularse simplemente contando el número de diferencias por pares en los estados de los caracteres (distancia de Hamming).
Métodos de distancia-matrix
Los métodos de análisis filogenético basados en matrices de distancia se basan explícitamente en una medida de «distancia genética» entre las secuencias que se clasifican y, por lo tanto, parten de un alineamiento múltiple de secuencias (AMS) como entrada. A partir de él, construyen una matriz de todos a todos que describe la distancia entre cada par de secuencias. Finalmente, construyen un árbol filogenético que ubica secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de rama reproducen con precisión las distancias observadas entre secuencias. El árbol resultante puede tener o no raíz, según el algoritmo utilizado.La distancia se define a menudo como la fracción de desajustes en posiciones alineadas, y los espacios se ignoran o se contabilizan como desajustes.Los métodos de matriz de distancia se utilizan con frecuencia como base para tipos progresivos e iterativos de alineamiento de secuencias múltiples.La principal desventaja de los métodos de matriz de distancias es su incapacidad para utilizar eficientemente la información sobre regiones locales de alta variación que aparecen en múltiples subárboles.
Vecino
Los métodos de unión de vecinos aplican técnicas generales de agrupamiento de datos al análisis de secuencias, utilizando la distancia genética como métrica de agrupamiento. El método simple de unión de vecinos produce árboles sin raíz, pero no asume una tasa de evolución constante (es decir, un reloj molecular) entre linajes.
UPGMA y WPGMA
Los métodos UPGMA (Método de Agrupamiento de Pares No Ponderados con Media Aritmética) y WPGMA (Método de Agrupamiento de Pares Ponderados con Media Aritmética) generan árboles con raíces y requieren una suposición de tasa constante; es decir, asumen un árbol ultramétrico en el que las distancias desde la raíz hasta cada extremo de la rama son iguales.
Método Fitch-Margoliash
El método Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para la agrupación en función de la distancia genética. Las secuencias estrechamente relacionadas reciben mayor peso en el proceso de construcción del árbol para corregir la mayor inexactitud en la medición de distancias entre secuencias distantes. En la práctica, la corrección de la distancia solo es necesaria cuando las tasas de evolución difieren entre ramas. Las distancias utilizadas como entrada del algoritmo deben normalizarse para evitar grandes artefactos al calcular las relaciones entre grupos estrechamente relacionados y distantes. Las distancias calculadas con este método deben ser lineales; el criterio de linealidad para las distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales sean iguales al valor esperado de la suma de las distancias de las dos ramas; esta propiedad se aplica a las secuencias biológicas solo cuando se han corregido por la posibilidad de retromutaciones en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo de Jukes-Cantor de la evolución del ADN.El criterio de mínimos cuadrados aplicado a estas distancias es más preciso, pero menos eficiente que los métodos de unión de vecinos. Una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos también puede aplicarse con un mayor coste computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo, por lo que se aplican métodos de búsqueda heurística, como los utilizados en el análisis de máxima parsimonia, a la búsqueda en el espacio del árbol.
Uso de grupos externos
La información independiente sobre la relación entre secuencias o grupos puede utilizarse para reducir el espacio de búsqueda del árbol y enraizar árboles sin raíz. El uso estándar de los métodos de matriz de distancia implica la inclusión de al menos una secuencia de grupo externo que se sabe que está distantemente relacionada con las secuencias de interés en el conjunto de consulta. Este uso puede considerarse un tipo de control experimental. Si el grupo externo se ha elegido correctamente, tendrá una distancia genética mucho mayor y, por lo tanto, una longitud de rama mayor que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. La elección de un grupo externo apropiado requiere la selección de una secuencia moderadamente relacionada con las secuencias de interés; una relación demasiado cercana frustra el propósito del grupo externo y una relación demasiado distante añade ruido al análisis. También se debe tener cuidado para evitar situaciones en las que las especies de las que se obtuvieron las secuencias estén distantemente relacionadas, pero el gen codificado por las secuencias esté altamente conservado entre linajes. La transferencia horizontal de genes, especialmente entre bacterias que, por lo demás, divergen, también puede confundir el uso del grupo externo.
Debilidades de diferentes métodos
En general, los datos de distancia por pares subestiman la distancia recorrida entre taxones en un filograma. Las distancias por pares efectivamente "acortan caminos" de forma análoga a la distancia geográfica: la distancia entre dos ciudades puede ser de 160 kilómetros en línea recta, pero un viajero puede verse obligado a recorrer 193 kilómetros debido a la disposición de las carreteras, el terreno, las paradas en el camino, etc. Entre pares de taxones, algunos cambios de caracteres ocurridos en linajes ancestrales serán indetectables, ya que cambios posteriores han borrado la evidencia (lo que a menudo se denomina aciertos múltiples y retromutaciones en datos de secuencia). Este problema es común a toda estimación filogenética, pero es particularmente agudo para los métodos de distancia, ya que solo se utilizan dos muestras para cada cálculo de distancia; otros métodos se benefician de la evidencia de estos cambios ocultos, que se encuentran en otros taxones no considerados en las comparaciones por pares. Para los datos de secuencias de nucleótidos y aminoácidos, se pueden emplear los mismos modelos estocásticos de cambio de nucleótidos utilizados en el análisis de máxima verosimilitud para corregir las distancias, lo que convierte el análisis en semiparamétrico.Existen varios algoritmos sencillos para construir un árbol directamente a partir de distancias por pares, como UPGMA y la unión de vecinos (NJ), pero estos no necesariamente producirán el mejor árbol para los datos. Para contrarrestar las posibles complicaciones mencionadas anteriormente y encontrar el mejor árbol para los datos, el análisis de distancias también puede incorporar un protocolo de búsqueda de árboles que busca satisfacer un criterio de optimalidad explícito. Dos criterios de optimalidad se aplican comúnmente a los datos de distancia: la evolución mínima (EM) y la inferencia por mínimos cuadrados. Los mínimos cuadrados forman parte de una clase más amplia de métodos basados en regresión, que se agrupan aquí para simplificar. Estas fórmulas de regresión minimizan las diferencias residuales entre las distancias de trayectoria a lo largo del árbol y las distancias por pares en la matriz de datos, ajustando eficazmente el árbol a las distancias empíricas. Por el contrario, la EM acepta el árbol con la menor suma de longitudes de rama y, por lo tanto, minimiza la evolución total asumida. ME es muy similar a la parsimonia y, en ciertas condiciones, el análisis ME de distancias basado en un conjunto de datos de caracteres discretos favorecerá el mismo árbol que el análisis de parsimonia convencional de los mismos datos.La estimación de la filogenia mediante métodos de distancia ha generado diversas controversias. UPGMA asume un árbol ultramétrico (un árbol donde todas las longitudes de los caminos desde la raíz hasta las puntas son iguales). Si la tasa de evolución fuera igual en todos los linajes muestreados (un reloj molecular) y si el árbol estuviera completamente equilibrado (igual número de taxones a ambos lados de cualquier división, para contrarrestar el efecto de la densidad de nodos), UPGMA no debería producir un resultado sesgado. La mayoría de los conjuntos de datos no cumplen estas expectativas, y aunque UPGMA es relativamente robusto a su violación, no se utiliza comúnmente para la estimación de la filogenia. La ventaja de UPGMA es su rapidez y la capacidad de manejar numerosas secuencias.La unión de vecinos es una forma de descomposición en estrella y, como método heurístico, generalmente es el que requiere menos recursos computacionales. Se utiliza con frecuencia por sí solo y, de hecho, suele producir árboles razonables. Sin embargo, carece de cualquier tipo de búsqueda de árboles y criterio de optimalidad, por lo que no se garantiza que el árbol recuperado sea el que mejor se ajuste a los datos. Un procedimiento analítico más apropiado sería utilizar NJ para generar un árbol inicial y, a continuación, emplear una búsqueda de árboles con un criterio de optimalidad para garantizar la recuperación del mejor árbol.Muchos científicos evitan los métodos de distancia por diversas razones. Una razón comúnmente citada es que las distancias son inherentemente fenéticas en lugar de filogenéticas, ya que no distinguen entre similitud ancestral (simplesiomorfía) y similitud derivada (sinapomorfía). Esta crítica no es del todo justa: la mayoría de las implementaciones actuales de parsimonia, verosimilitud e inferencia filogenética bayesiana utilizan modelos de caracteres reversibles en el tiempo y, por lo tanto, no otorgan un estatus especial a los estados de caracteres derivados o ancestrales. Con estos modelos, el árbol se estima sin raíz; el enraizamiento, y consecuentemente la determinación de la polaridad, se realiza después del análisis. La principal diferencia entre estos métodos y las distancias es que los métodos de parsimonia, verosimilitud y bayesianos ajustan caracteres individuales al árbol, mientras que los métodos de distancia ajustan todos los caracteres a la vez. No hay nada inherentemente menos filogenético en este enfoque.En términos más prácticos, se evitan los métodos de distancia porque la relación entre los caracteres individuales y el árbol se pierde en el proceso de reducción de caracteres a distancias. Estos métodos no utilizan datos de caracteres directamente, y la información contenida en la distribución de los estados de los caracteres puede perderse en las comparaciones por pares. Además, algunas relaciones filogenéticas complejas pueden producir distancias sesgadas. En cualquier filograma, las longitudes de las ramas se subestimarán porque algunos cambios no se pueden descubrir en absoluto debido a la falta de muestreo de algunas especies debido al diseño experimental o a la extinción (un fenómeno llamado efecto de densidad de nodos). Sin embargo, incluso si las distancias por pares a partir de datos genéticos se "corrigen" utilizando modelos estocásticos de evolución como se mencionó anteriormente, pueden sumarse más fácilmente a un árbol diferente que uno producido a partir del análisis de los mismos datos y modelo utilizando máxima verosimilitud. Esto se debe a que las distancias por pares no son independientes; cada rama de un árbol está representada en las mediciones de distancia de todos los taxones que separa. El error resultante de cualquier característica de esa rama que pueda confundir la filogenia (variabilidad estocástica, cambio en los parámetros evolutivos, una longitud de rama anormalmente larga o corta) se propagará a través de todas las mediciones de distancia relevantes. La matriz de distancia resultante podría entonces ajustarse mejor a un árbol alternativo (presumiblemente menos óptimo).A pesar de estos posibles problemas, los métodos de distancia son extremadamente rápidos y suelen producir una estimación razonable de la filogenia. Además, presentan ciertas ventajas sobre los métodos que utilizan caracteres directamente. Cabe destacar que permiten el uso de datos que podrían no ser fácilmente convertibles a datos de caracteres, como los ensayos de hibridación ADN-ADN. Asimismo, permiten análisis que consideran la posibilidad de que la velocidad a la que se incorporan determinados nucleótidos a las secuencias varíe a lo largo del árbol, utilizando distancias LogDet. Para algunos métodos de estimación de redes (en particular, NeighborNet), la abstracción de información sobre caracteres individuales en los datos de distancia constituye una ventaja. Al considerar carácter por carácter, el conflicto entre un carácter y un árbol debido a la reticulación no puede distinguirse del conflicto debido a la homoplasia o al error. Sin embargo, un conflicto pronunciado en los datos de distancia, que representa una amalgama de muchos caracteres, es menos probable que se deba a error u homoplasia, a menos que los datos estén muy sesgados y, por lo tanto, es más probable que se deba a la reticulación.Los métodos de distancia son populares entre los sistemáticos moleculares, muchos de los cuales utilizan NJ sin una etapa de optimización casi exclusivamente. Con la creciente velocidad de los análisis basados en caracteres, es probable que algunas de las ventajas de los métodos de distancia disminuyan. Sin embargo, las implementaciones casi instantáneas de NJ, la capacidad de incorporar un modelo evolutivo en un análisis rápido, las distancias LogDet, los métodos de estimación de redes y la necesidad ocasional de resumir relaciones con un solo número implican que los métodos de distancia probablemente se mantendrán como la norma durante mucho tiempo.
Véase también
- List of phylogenetics software
Referencias
- ^ a b c Mount DM. (2004). Bioinformática: Análisis de secuencia y genoma Segunda edición. Cold Spring Harbor Laboratory Prensa: Cold Spring Harbor, NY.
- ^ a b Felsenstein J. (2004). Infering Phylogenies Sinauer Associates: Sunderland, MA.
- ^ Fitch WM; Margoliash E (1967). "Construcción de árboles filogenéticos". Ciencia. 155 (3760): 279–284. Bibcode:1967Sci...155..279F. doi:10.1126/science.155.3760.279. PMID 5334057.
- ^ Day, WHE (1986). "Computacional complejidad de inferir fitogenias de matrices de disimilaridad". Boletín de Biología Matemática. 49 4): 461 –7. doi:10.1016/s0092-8240(87)80007-1. PMID 3664032.
Más resultados...