Clustal

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

Clustal es una serie de programas informáticos utilizados en bioinformática para el alineamiento de secuencias múltiples. Ha habido muchas versiones de Clustal durante el desarrollo del algoritmo que se enumeran a continuación. El análisis de cada herramienta y su algoritmo también se detalla en sus respectivas categorías. Los sistemas operativos disponibles enumerados en la barra lateral son una combinación de la disponibilidad del software y es posible que no sean compatibles con todas las versiones actuales de las herramientas Clustal. Clustal Omega tiene la mayor variedad de sistemas operativos de todas las herramientas de Clustal.

Múltiple alineación de secuencia de la proteína CDK4 generada con ClustalW. Las flechas indican mutaciones de puntos.

Historia

Ha habido muchas variaciones del software Clustal, todas las cuales se enumeran a continuación:

  • Clustal: El software original para múltiples alineaciones de secuencias, creado por Des Higgins en 1988, se basó en la derivación de árboles filogenéticos de secuencias pares de aminoácidos o nucleótidos.
  • ClustalV: La segunda generación del software Clustal fue publicada en 1992 y fue una reescritura del paquete original de Clustal. Introdujo la reconstrucción de árboles filogenéticos en la alineación final, la capacidad de crear alineaciones de las alineaciones existentes, y la opción de crear árboles de alineaciones utilizando un método llamado unión de vecinos.
  • ClustalW: La tercera generación, publicada en 1994, mejoró considerablemente en las versiones anteriores. Se mejoró sobre el algoritmo de alineación progresiva de varias maneras, incluyendo permitir que las secuencias individuales se ponderen hacia abajo o hacia arriba de acuerdo a la similitud o divergencia respectivamente en una alineación parcial. También incluyó la capacidad de ejecutar el programa en modo de lote desde la línea de comandos.
  • ClustalX: Esta versión, publicada en 1997, fue la primera en tener una interfaz gráfica de usuario.
  • Clustal2: Publicado en 2007, esta versión actualiza versiones de ClustalW y ClustalX con mayor precisión y eficiencia.
  • ClustalΩ (Omega): La versión estándar actual, que fue publicada en 2011.

Los artículos que describen el software Clustal han sido muy citados, dos de ellos entre los más citados de todos los tiempos.

La versión más reciente del software está disponible para Windows, Mac OS y Unix/Linux. También se utiliza habitualmente a través de una interfaz web en su página de inicio o alojada en el Instituto Europeo de Bioinformática.

Origen del nombre

El árbol guía en los programas iniciales se construyó mediante un grupoanálisisdegrupo UPGMA de las alineaciones por pares, de ahí el nombre CLUSTAL.cf. Las primeras cuatro versiones en 1988 tenían números arábigos (1 a 4), mientras que con la quinta versión Des Higgins cambió al número romano V en 1992.cf. En 1994 y en 1997, para el En las siguientes dos versiones, se utilizaron las letras después de la letra V y se hicieron corresponder a W para Ponderado y X para Ventana X.cf. El nombre omega fue elegido para marcar un cambio con respecto a los anteriores.

Función

Todas las variaciones del software Clustal alinean secuencias utilizando una heurística que construye progresivamente una alineación de secuencia múltiple a partir de una serie de alineaciones por pares. Este método funciona analizando las secuencias en su conjunto y luego utilizando el método UPGMA/unión de vecinos para generar una matriz de distancias. Luego se calcula un árbol guía a partir de las puntuaciones de las secuencias en la matriz y luego se utiliza para construir la alineación de secuencias múltiples alineando progresivamente las secuencias en orden de similitud. Esencialmente, Clustal crea múltiples alineamientos de secuencias a través de tres pasos principales:

  1. Hacer una alineación en par con el método de alineación progresiva
  2. Crear un árbol guía (o utilizar un árbol definido por el usuario)
  3. Utilice el árbol guía para realizar una alineación múltiple

Estos pasos se realizan automáticamente cuando se selecciona "Do Complete Alignment". Otras opciones son "Do Alignment from guide tree and phylogeny" y "Produce guide tree only".

Entrada/Salida

Este programa acepta una amplia gama de formatos de entrada, incluidos NBRF/PIR, FASTA, EMBL/Swiss-Prot, Clustal, GCC/MSF, GCG9 RSF y GDE.

El formato de salida puede ser uno o varios de los siguientes: Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE o NEXUS.

Leer Múltiples secuencias de alineación
Signatura Definición Significado
* asterisco posiciones que tienen un residuo único y totalmente conservado
: colon conservada: conservación entre grupos de propiedades fuertemente similares (score > 0.5 en la matriz PAM 250)
. período de sesiones semi-conservado: conservación entre grupos de propiedades débilmente similares (score ≤ 0.5 en la matriz PAM 250)
blanco no conservadas

Se muestran los mismos símbolos tanto para los alineamientos de ADN/ARN como para los alineamientos de proteínas, por lo que, si bien los símbolos * (asterisco) son útiles para ambos, los otros símbolos de consenso deben ignorarse para los alineamientos de ADN/ARN.

Configuración

Se pueden ajustar muchas configuraciones para adaptar el algoritmo de alineación a diferentes circunstancias. Los parámetros principales son la penalización por apertura de brecha y la penalización por extensión de brecha.

Clustal y ClustalV

Breve resumen

El programa original de la serie de software Clustal se desarrolló en 1988 como una forma de generar múltiples alineamientos de secuencias en computadoras personales. ClustalV se lanzó 4 años después y mejoró enormemente el original, agregando y modificando algunas características clave, y fue escrito en C en lugar de Fortran.

Algoritmo

Ambas versiones utilizan el mismo algoritmo aproximado rápido para calcular las puntuaciones de similitud entre secuencias, lo que a su vez produce alineamientos por pares. El algoritmo funciona calculando las puntuaciones de similitud como el número de coincidencias de k-tuplas entre dos secuencias, lo que representa una penalización establecida por los espacios. Cuanto más similares son las secuencias, mayor es la puntuación; cuanto más divergentes, menores son las puntuaciones. Una vez que se califican las secuencias, se genera un dendrograma a través del UPGMA para representar el orden del alineamiento de múltiples secuencias. Los conjuntos de secuencias de orden superior se alinean primero, seguidos por el resto en orden descendente. El algoritmo permite conjuntos de datos muy grandes y funciona rápido. Sin embargo, la velocidad depende del rango de coincidencias de k-tuplas elegidas para el tipo de secuencia particular.

Mejoras notables de ClustalV

Algunas de las adiciones más notables en ClustalV son las alineaciones de perfiles y las opciones completas de interfaz de línea de comandos. La capacidad de utilizar alineaciones de perfiles permite al usuario alinear dos o más alineaciones o secuencias anteriores con una nueva alineación y mover secuencias desalineadas (con puntuación baja) más abajo en el orden de alineación. Esto le da al usuario la opción de crear gradual y metódicamente múltiples alineaciones de secuencias con más control que la opción básica. La opción de ejecutar desde la línea de comandos acelera enormemente el proceso de alineación de secuencias múltiples. Las secuencias se pueden ejecutar con un comando simple,

 clustalv nameoffile.seq

o

 clustalv /infile=nameoffile.seq

y el programa determinará qué tipo de secuencia está analizando. Cuando se completa el programa, la salida de la alineación de secuencia múltiple, así como el dendrograma, van a archivos con extensiones.aln y.dnd respectivamente. La interfaz de línea de comando utiliza los parámetros predeterminados y no permite otras opciones.

ClustalW

Resumen

Depicts the steps the ClustalW software algoritmo uses for global alignments

ClustalW, al igual que las otras herramientas de Clustal, se utiliza para alinear múltiples secuencias de nucleótidos o proteínas de manera eficiente. Utiliza métodos de alineación progresiva, que alinean primero las secuencias más similares y avanzan hasta las secuencias menos similares hasta que se crea una alineación global. ClustalW es un algoritmo basado en matrices, mientras que herramientas como T-Coffee y Dialign se basan en la coherencia. ClustalW tiene un algoritmo bastante eficiente que compite bien con otro software. Este programa requiere tres o más secuencias para calcular una alineación global; para la alineación de secuencias por pares (solo dos secuencias) se deben utilizar otras herramientas como EMBOSS o LALIGN.

Diagrama mostrando método de unión vecino en alineación secuencial para bioinformática

Algoritmo

ClustalW utiliza métodos de alineación progresiva como se indicó anteriormente. En estos, las secuencias con la mejor puntuación de alineación se alinean primero, luego se alinean progresivamente grupos de secuencias más distantes. Este enfoque heurístico es necesario debido a la demanda de tiempo y memoria para encontrar la solución óptima global. El primer paso del algoritmo es calcular una matriz de distancia aproximada entre cada par de secuencias, también conocida como alineación de secuencias por pares. El siguiente paso es un método de unión de vecinos que utiliza el enraizamiento de punto medio para crear un árbol guía general. El proceso que utiliza para hacer esto se muestra en el diagrama detallado del método a la derecha. Luego, el árbol guía se utiliza como plantilla aproximada para generar una alineación global.

Complejidad del tiempo

Clustal W tiene una complejidad de tiempo O()N2){displaystyle O(N^{2}} por su uso del método de unión vecino. En la versión actualizada (ClustalW2) hay una opción incorporada en el software para utilizar UPGMA que es más rápido con grandes tamaños de entrada. La bandera de línea de comandos para utilizarla en lugar de la unión vecina es:

-agrupación=UPGMA

Por ejemplo, en un escritorio estándar, ejecutar UPGMA en 10.000 secuencias produciría resultados en menos de un minuto, mientras que la unión de vecinos tardaría más de una hora. Al ejecutar el algoritmo ClustalW con este ajuste, se ahorra una cantidad significativa de tiempo. ClustalW2 también tiene una opción para utilizar alineación iterativa para aumentar la precisión de la alineación. Si bien no es necesariamente más rápido o más eficiente en cuanto a complejidad, el aumento de la precisión es valioso y puede resultar útil para tamaños de datos más pequeños. Estas son las diversas opciones de línea de comando para lograr esto:

-Iteración=Alineación-Iteración=Árbol-numiters

La primera opción de línea de comando refina la alineación final. La segunda opción incorpora el esquema en el paso de alineación progresiva del algoritmo. El tercero especifica el número de ciclos de iteración donde el valor predeterminado se establece en 3.

Precisión y resultados

El algoritmo que utiliza ClustalW proporciona un resultado casi óptimo. Sin embargo, funciona excepcionalmente bien cuando el conjunto de datos contiene secuencias con distintos grados de divergencia. Esto se debe a que en dichos conjuntos de datos, el árbol guía se vuelve menos sensible al ruido. ClustalW fue uno de los primeros algoritmos de alineación de secuencias múltiples que combinó la alineación por pares y la alineación global para aumentar la velocidad, pero esta compensación da como resultado una menor precisión.

ClustalW, en comparación con otros algoritmos de alineación de secuencias múltiples en 2014, funcionó como uno de los más rápidos y al mismo tiempo mantuvo un nivel aceptable de precisión, pero había margen de mejora en comparación con competidores basados en la consistencia como T-Coffee. La precisión de ClustalW cuando se probó contra MAFFT, T-Coffee, Clustal Omega y otros algoritmos fue la más baja para secuencias completas, pero aún se considera aceptable. Tenía el algoritmo más eficiente en memoria (RAM) de todos los probados en el estudio. Se han realizado actualizaciones y mejoras en el algoritmo en ClustalW2 para aumentar la precisión y al mismo tiempo mantener su tan valorada velocidad.

Omega Clustal

Breve resumen

Flowchart representa el algoritmo paso a paso utilizado en Clustal Omega.

ClustalΩ (escrito alternativamente como Clustal O y Clustal Omega) es un programa rápido y escalable escrito en C y C++ que se utiliza para secuencias múltiples. alineación. Utiliza árboles guía sembrados y un nuevo motor HMM que se centra en dos perfiles para generar estas alineaciones. El programa requiere tres o más secuencias para calcular la alineación de secuencias múltiples; para dos secuencias, utilice herramientas de alineación de secuencias por pares (EMBOSS, LALIGN). Clustal Omega se basa en la coherencia y es ampliamente considerado como una de las implementaciones en línea más rápidas de todas las herramientas de alineación de secuencias múltiples y aún ocupa un lugar destacado en precisión, tanto entre los algoritmos basados en la coherencia como en los basados en matrices.

Algoritmo

La estructura de un perfil HMM utilizado en la implementación de Clustal Omega se muestra aquí.

Clustal Omega tiene cinco pasos principales para generar el alineamiento de secuencias múltiples. El primero es producir una alineación por pares utilizando el método de k-tupla, también conocido como método de palabras. En resumen, este es un método heurístico que no garantiza encontrar una solución de alineación óptima, pero es significativamente más eficiente que el método de alineación de programación dinámica. Después de eso, las secuencias se agrupan utilizando el método mBed modificado. El método mBed calcula la distancia por pares mediante la incrustación de secuencias. A este paso le sigue el método de agrupamiento de k-medias. A continuación, se construye el árbol guía utilizando el método UPGMA. Esto se muestra como múltiples pasos del árbol guía que conducen a la construcción final del árbol guía debido a la forma en que funciona el algoritmo UPGMA. En cada paso (cada diamante en el diagrama de flujo) se combinan los dos grupos más cercanos y se repite hasta que se pueda evaluar el árbol final. En el paso final, la alineación de secuencias múltiples se produce utilizando el paquete HHAlign de HH-Suite, que utiliza dos HMM de perfil. Un HMM de perfil es una máquina de estados lineal que consta de una serie de nodos, cada uno de los cuales corresponde aproximadamente a una posición (columna) en la alineación a partir de la cual se construyó.

Complejidad del tiempo

La forma exacta de calcular una alineación óptima entre N secuencias tiene una complejidad computacional de O()LN){displaystyle O(L^{N}} para N secuencias de longitud L haciéndolo prohibitivo para un pequeño número de secuencias. Clustal Omega utiliza una versión modificada de mBed que tiene una complejidad O()Nlog⁡ ⁡ N){displaystyle O(Nlog N)}, y produce árboles guía que son tan exactos como los de métodos convencionales. La velocidad y precisión de los árboles guía en Clustal Omega se atribuye a la implementación de un algoritmo modificado de mBed. También reduce los requisitos de tiempo y memoria computacionales para completar alineaciones en grandes conjuntos de datos.

Precisión y resultados

La precisión de Clustal Omega en un pequeño número de secuencias es, en promedio, muy similar a la de lo que se consideran alineadores de secuencias de alta calidad. La diferencia surge cuando se utilizan grandes conjuntos de datos con cientos de miles de secuencias. En estos casos, Clustal Omega supera a otros algoritmos en todos los ámbitos. Su tiempo de finalización y calidad general son consistentemente mejores que otros programas. Es capaz de ejecutar más de 100.000 secuencias en un procesador en unas pocas horas.

Clustal Omega utiliza el paquete HHAlign de HH-Suite, que alinea dos modelos ocultos de Markov de perfil en lugar de una comparación perfil-perfil. Esto mejora significativamente la calidad de la sensibilidad y la alineación. Esto, combinado con el método mBed, le da a Clustal Omega su ventaja sobre otros alineadores de secuencia. Los resultados acaban siendo muy precisos y muy rápidos, que es la situación óptima.

En conjuntos de datos con bases terminales no conservadas, Clustal Omega puede ser más preciso que Probcons y T-Coffee a pesar de que ambos son algoritmos basados en la consistencia, a diferencia de Clustal Omega. En una prueba de eficiencia con programas que producen puntuaciones de alta precisión, MAFFT fue el más rápido, seguido de cerca por Clustal Omega. Ambos eran más rápidos que T-Coffee; sin embargo, MAFFT y Clustal Omega requerían más memoria para ejecutarse.

Clustal2 (ClustalW/ClustalX)

Clustal2 es la versión empaquetada de ClustalW de línea de comandos y Clustal X gráfico. Ninguna de las dos son herramientas nuevas, pero son versiones actualizadas y mejoradas de las implementaciones anteriores vistas arriba. Ambas descargas vienen precompiladas para muchos sistemas operativos como Linux, Mac OS X y Windows (tanto XP como Vista). Esta versión fue diseñada para hacer el sitio web más organizado y fácil de usar, así como para actualizar los códigos fuente a sus versiones más recientes. Clustal2 es la versión 2 de ClustalW y ClustalX, de ahí su nombre. Todavía se pueden encontrar versiones anteriores en el sitio web; sin embargo, todas las precompilaciones ahora están actualizadas.

Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save