FASTA

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

FASTA es un paquete de software de alineación de secuencias de proteínas y ADN descrito por primera vez por David J. Lipman y William R. Pearson en 1985. Su legado es el formato FASTA, que ahora es omnipresente en bioinformática.

Historia

El programa FASTA original fue diseñado para la búsqueda de similitudes de secuencias de proteínas. Debido a la expansión exponencial de la información genética y a la velocidad y memoria limitadas de las computadoras, en la década de 1980 se introdujeron métodos heurísticos que alineaban una secuencia de consulta con bases de datos completas. FASTA, publicado en 1987, añadió la capacidad de realizar búsquedas de ADN:ADN, proteínas traducidas:búsquedas de ADN y también proporcionó un programa de mezcla más sofisticado para evaluar la significación estadística. Hay varios programas en este paquete que permiten el alineamiento de secuencias de proteínas y secuencias de ADN. Hoy en día, el aumento del rendimiento de las computadoras permite realizar búsquedas de detección de alineación local en una base de datos utilizando el algoritmo de Smith-Waterman.

FASTA se pronuncia "fast A" y significa "FAST-All", porque funciona con cualquier alfabeto, una extensión del "FAST-P&# original. 34; (proteína) y "FAST-N" herramientas de alineación (nucleótidos).

Mappers timeline (desde 2001). Los mappers de ADN están trazados en azul, mappers de ARN en rojo, mappers de miRNA en verde y pantaloncillos en púrpura. Las líneas con puntos grises conectan mappers relacionados (extensiones o nuevas versiones). El cronograma sólo incluye mappers con publicaciones revisadas por pares, y la fecha corresponde a la fecha más temprana de la publicación (por ejemplo, fecha de publicación avanzada en lugar de la fecha de publicación)

Usos

El paquete FASTA actual contiene programas para proteína:proteína, ADN:ADN, proteína:ADN traducido (con desplazamientos de marco) y búsquedas de péptidos ordenados o desordenados. Las versiones recientes del paquete FASTA incluyen algoritmos de búsqueda traducidos especiales que manejan correctamente los errores de desplazamiento de fotogramas (que las búsquedas traducidas en seis fotogramas no manejan muy bien) al comparar datos de secuencias de nucleótidos con proteínas.

Además de los métodos de búsqueda heurística rápida, el paquete FASTA proporciona SSEARCH, una implementación del algoritmo óptimo de Smith-Waterman.

Un enfoque importante del paquete es el cálculo de estadísticas de similitud precisas, de modo que los biólogos puedan juzgar si es probable que una alineación haya ocurrido por casualidad o si puede usarse para inferir homología. El paquete FASTA está disponible en la Universidad de Virginia y el Instituto Europeo de Bioinformática.

El formato de archivo FASTA utilizado como entrada para este software ahora se utiliza ampliamente en otras herramientas de búsqueda de bases de datos de secuencias (como BLAST) y programas de alineación de secuencias (Clustal, T-Coffee, etc.).

Método de búsqueda

FASTA toma una secuencia de nucleótidos o aminoácidos determinada y busca en una base de datos de secuencias correspondiente utilizando la alineación de secuencias local para encontrar coincidencias de secuencias de bases de datos similares.

El programa FASTA sigue un método en gran medida heurístico que contribuye a la alta velocidad de su ejecución. Inicialmente observa el patrón de coincidencias de palabras, coincidencias de palabra a palabra de una longitud determinada y marca coincidencias potenciales antes de realizar una búsqueda optimizada que requiere más tiempo utilizando un algoritmo de tipo Smith-Waterman.

El tamaño de una palabra, dado por el parámetro kmer, controla la sensibilidad y la velocidad del programa. Al aumentar el valor de k-mer, se reduce el número de visitas en segundo plano que se encuentran. A partir de las coincidencias de palabras que se devuelven, el programa busca segmentos que contengan un grupo de coincidencias cercanas. Luego investiga estos segmentos en busca de una posible coincidencia.

Existen algunas diferencias entre fastn y fastp en relación con el tipo de secuencias utilizadas, pero ambos utilizan cuatro pasos y calculan tres puntuaciones para describir y formatear los resultados de similitud de secuencia. Estos son:

  • Identificar regiones de mayor densidad en cada comparación de secuencias. Tomar un k-mer igual a 1 o 2.
En este paso todos o un grupo de identidades entre dos secuencias se encuentran usando una tabla de mirar hacia arriba. El valor k-mer determina cuántas identidades consecutivas son necesarias para que se declare un partido. Así el menor valor k-mer: el más sensible la búsqueda. k-mer=2 es tomado frecuentemente por los usuarios para secuencias de proteínas y kmer=4 o 6 para secuencias de nucleótido. Los oligonucleótidos cortos generalmente se ejecutan con k-mer= 1. El programa entonces encuentra todos similares regiones locales, representado como diagonales de cierta longitud en una parcela de punto, entre las dos secuencias contando partidos k-mer y penalizando para intervenir desajustes. Por aquí, regiones locales de los partidos de mayor densidad en una diagonal están aislados de los golpes de fondo. Para las secuencias de proteínas, los valores BLOSUM50 se utilizan para los fósforos k-mer. Esto asegura que grupos de identidades con puntajes de alta similitud contribuyan más a la puntuación diagonal local que a las identidades con puntajes de baja similitud. Las secuencias de Nucleotide usan la matriz de identidad para el mismo propósito. Las 10 mejores regiones locales seleccionadas de todas las diagonales juntas se guardan luego.
  • Restaurar las regiones tomadas usando las matrices de puntuación. recortar los extremos de la región para incluir sólo los que contribuyen a la puntuación más alta.
Restaurar las 10 regiones tomadas. Esta vez utilice la matriz de puntuación relevante mientras que recorando para permitir que las carreras de identidades sean más cortas que el valor k-mer. También mientras se toman recambios conservadores que contribuyen a la puntuación de similitud. Aunque las secuencias de proteínas utilizan la matriz BLOSUM50, las matrices de puntuación basadas en el número mínimo de cambios de base necesarios para un reemplazo específico, solo en identidades, o en una medida alternativa de similitud como PAM, también se pueden utilizar con el programa. Para cada una de las regiones diagonales reescandado de esta manera, se identifica una subregión con la puntuación máxima. Las puntuaciones iniciales encontradas en el paso1 se utilizan para clasificar las secuencias de la biblioteca. La puntuación más alta se conoce como init1 puntuación.
  • En una alineación si se encuentran varias regiones iniciales con puntuaciones superiores a un valor CUTOFF, compruebe si se pueden unir las regiones iniciales recortadas para formar una alineación aproximada con las brechas. Calcular una puntuación de similitud que es la suma de las regiones unidas penalizando por cada brecha 20 puntos. Esta partitura inicial de similitudinitn) se utiliza para clasificar las secuencias de la biblioteca. La puntuación de la mejor región inicial que se encuentra en el paso 2 se reporta (init1).
Aquí el programa calcula una alineación óptima de las regiones iniciales como una combinación de regiones compatibles con puntuación máxima. Esta alineación óptima de las regiones iniciales se puede calcular rápidamente utilizando un algoritmo de programación dinámico. El marcador resultante se utiliza para clasificar las secuencias de la biblioteca. Este proceso de unión aumenta la sensibilidad pero disminuye la selectividad. Un valor de corte cuidadosamente calculado se utiliza para controlar dónde se implementa este paso, un valor que es aproximadamente una desviación estándar por encima de la puntuación media esperada de secuencias no relacionadas en la biblioteca. Una secuencia de consulta de 200 residuos con k-mer 2 utiliza un valor 28.
  • Utilice un algoritmo de Smith-Waterman de banda para calcular una puntuación óptima para la alineación.
Este paso utiliza un algoritmo de Smith-Waterman de banda para crear una puntuación optimizada (opt) para cada alineación de secuencia de consultas a una secuencia de base de datos (libración). Se necesita una banda de 32 residuos centrados en el init1 región de paso2 para calcular la alineación óptima. Después de todas las secuencias se registran el programa traza las puntuaciones iniciales de cada secuencia de bases de datos en un histograma, y calcula el significado estadístico de la puntuación "opt". Para secuencias de proteínas, la alineación final se produce usando una alineación Smith-Waterman completa. Para secuencias de ADN, se proporciona una alineación de banda.

FASTA puede eliminar las regiones de complejidad antes de alinear las secuencias codificando regiones de baja complejidad en minúsculas y usando la opción -s. Sin embargo, el programa BLAST ofrece más opciones para corregir las estadísticas de composición sesgadas. Por lo tanto, el programa PRSS se agrega en el paquete de distribución FASTA. PRSS baraja las secuencias coincidentes en la base de datos, ya sea en el nivel de una letra o baraja segmentos cortos que la longitud puede determinar el usuario. Las secuencias barajadas ahora están alineadas nuevamente y si la puntuación aún es más alta de lo esperado, esto es causado por las regiones de baja complejidad que se mezclan aún en la consulta. Por la cantidad de la puntuación, las secuencias barajadas aún alcanzan PRSS ahora puede predecir la importancia de la puntuación de las secuencias originales. Cuanto mayor sea la puntuación de las secuencias barajadas, menos significativas son las coincidencias que se encuentran entre la base de datos original y la secuencia de consulta.

Los programas FASTA encuentran regiones de similitud local o global entre secuencias de proteínas o ADN, ya sea buscando en bases de datos de proteínas o ADN, o identificando duplicaciones locales dentro de una secuencia. Otros programas proporcionan información sobre la importancia estadística de una alineación. Al igual que BLAST, FASTA se puede utilizar para inferir relaciones funcionales y evolutivas entre secuencias, así como para ayudar a identificar miembros de familias de genes.

Contenido relacionado

Ley de Fick

La Ley de Fick es enunciado que resume la forma en la que operan los principios de difusión. Esta ley cuantifica el movimiento de una sustancia desde una...

Historia de la cámara

La historia de la cámara comenzó incluso antes de la introducción de la fotografía. Las cámaras evolucionaron desde la cámara oscura a través de muchas...

Tubo de vacío

Un tubo de vacío, tubo de electrones o válvula termoiónica, es un dispositivo que controla el flujo de corriente eléctrica en un alto vacío entre...
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save