Análisis de secuencia
En bioinformática, el análisis de secuencias es el proceso de someter una secuencia de ADN, ARN o péptido a cualquiera de una amplia gama de métodos analíticos para comprender sus características, función, estructura o evolución. Las metodologías utilizadas incluyen alineación de secuencias, búsquedas en bases de datos biológicas y otras.
Desde el desarrollo de métodos de producción de alto rendimiento de secuencias de genes y proteínas, la tasa de adición de nuevas secuencias a las bases de datos aumentó muy rápidamente. Tal colección de secuencias, por sí sola, no aumenta la comprensión científica de la biología de los organismos. Sin embargo, comparar estas nuevas secuencias con aquellas con funciones conocidas es una forma clave de comprender la biología de un organismo del que proviene la nueva secuencia. Por lo tanto, el análisis de secuencias se puede utilizar para asignar funciones a genes y proteínas mediante el estudio de las similitudes entre las secuencias comparadas. Hoy en día, existen muchas herramientas y técnicas que proporcionan comparaciones de secuencias (alineación de secuencias) y analizan el producto de la alineación para comprender su biología.
El análisis de secuencias en biología molecular incluye una amplia gama de temas relevantes:
- La comparación de secuencias para encontrar similitud, a menudo para inferir si están relacionadas (homologous)
- Identificación de características intrínsecas de la secuencia como sitios activos, sitios de modificación post-traducción, estructuras genéticas, marcos de lectura, distribuciones de intrones y exones y elementos regulatorios
- Identificación de diferencias de secuencia y variaciones como mutaciones de puntos y polimorfismo de nucleótido único (SNP) para obtener el marcador genético.
- Revelar la evolución y diversidad genética de las secuencias y organismos
- Identificación de la estructura molecular de la secuencia sola
En química, el análisis de secuencias comprende técnicas utilizadas para determinar la secuencia de un polímero formado por varios monómeros (ver Análisis de secuencias de polímeros sintéticos). En biología molecular y genética, el mismo proceso se denomina simplemente "secuenciación".
En marketing, el análisis de secuencias se utiliza a menudo en aplicaciones analíticas de gestión de relaciones con los clientes, como los modelos NPTB (próximo producto a comprar).
En las ciencias sociales y en la sociología en particular, los métodos secuenciales se utilizan cada vez más para estudiar el curso de la vida y las trayectorias profesionales, el uso del tiempo, los patrones de desarrollo organizacional y nacional, la estructura de conversación e interacción y el problema de la sincronía trabajo/familia. Este cuerpo de investigación se describe en análisis de secuencia en ciencias sociales.
Historia
Desde que Fred Sanger caracterizó las primeras secuencias de la proteína insulina en 1951, los biólogos han intentado utilizar este conocimiento para comprender la función de las moléculas. Él y sus colegas' Los descubrimientos contribuyeron a la secuenciación exitosa del primer genoma basado en ADN. El método utilizado en este estudio, que se denomina “método de Sanger” o secuenciación de Sanger, supuso un hito en la secuenciación de moléculas de cadena larga como el ADN. Este método finalmente se utilizó en el proyecto del genoma humano. Según Michael Levitt, el análisis de secuencias nació en el período 1969-1977. En 1969 se utilizó el análisis de secuencias de ARN de transferencia para inferir interacciones de residuos a partir de cambios correlacionados en las secuencias de nucleótidos, dando lugar a un modelo de estructura secundaria de ARNt. En 1970, Saul B. Needleman y Christian D. Wunsch publicaron el primer algoritmo informático para alinear dos secuencias. Durante este tiempo, los desarrollos en la obtención de la secuencia de nucleótidos mejoraron enormemente, lo que llevó a la publicación del primer genoma completo de un bacteriófago en 1977. Se creía que Robert Holley y su equipo en la Universidad de Cornell fueron los primeros en secuenciar una molécula de ARN.
Alineación de secuencias
Se conocen millones de secuencias de proteínas y nucleótidos. Estas secuencias pertenecen a muchos grupos de secuencias relacionadas conocidas como familias de proteínas o familias de genes. Las relaciones entre estas secuencias generalmente se descubren alineándolas juntas y asignando una puntuación a esta alineación. Hay dos tipos principales de alineación de secuencias. La alineación de secuencias por pares solo compara dos secuencias a la vez y la alineación de secuencias múltiples compara muchas secuencias. Dos algoritmos importantes para alinear pares de secuencias son el algoritmo de Needleman-Wunsch y el algoritmo de Smith-Waterman. Las herramientas populares para la alineación de secuencias incluyen:
- Alineación de pares - BLAST, Parcelas de punto
- Múltiple alineación - ClustalW, PROBCONS, MUSCLE, MAFFT y T-Coffee.
Un uso común para la alineación de secuencias por pares es tomar una secuencia de interés y compararla con todas las secuencias conocidas en una base de datos para identificar secuencias homólogas. En general, las coincidencias en la base de datos se ordenan para mostrar primero las secuencias más estrechamente relacionadas, seguidas de secuencias con similitud decreciente. Estas coincidencias generalmente se informan con una medida de significación estadística, como un valor de Expectativa.
Comparación de perfiles
En 1987, Michael Gribskov, Andrew McLachlan y David Eisenberg introdujeron el método de comparación de perfiles para identificar similitudes distantes entre proteínas. En lugar de utilizar una sola secuencia, los métodos de perfil utilizan un alineamiento de múltiples secuencias para codificar un perfil que contiene información sobre el nivel de conservación de cada residuo. Estos perfiles se pueden usar para buscar colecciones de secuencias para encontrar secuencias que estén relacionadas. Los perfiles también se conocen como matrices de puntuación específicas de posición (PSSM). En 1993, Anders Krogh y sus colegas introdujeron una interpretación probabilística de perfiles utilizando modelos ocultos de Markov. Estos modelos se conocen como perfil-HMM.
En los últimos años se han desarrollado métodos que permiten comparar perfiles directamente entre sí. Estos se conocen como métodos de comparación perfil-perfil.
Montaje de secuencia
El ensamblaje de secuencias hace referencia a la reconstrucción de una secuencia de ADN alineando y fusionando pequeños fragmentos de ADN. Es una parte integral de la secuenciación moderna del ADN. Dado que las tecnologías de secuenciación de ADN disponibles en la actualidad no son adecuadas para leer secuencias largas, a menudo se secuencian fragmentos grandes de ADN (como los genomas) (1) cortando el ADN en fragmentos pequeños, (2) leyendo los fragmentos pequeños y (3) reconstituyendo el ADN original fusionando la información en varios fragmentos.
Recientemente, la secuenciación de varias especies a la vez es uno de los principales objetivos de investigación. La metagenómica es el estudio de las comunidades microbianas obtenidas directamente del medio ambiente. A diferencia de los microorganismos cultivados en el laboratorio, la muestra silvestre generalmente contiene docenas, a veces incluso miles, de tipos de microorganismos de sus hábitats originales. La recuperación de los genomas originales puede resultar muy desafiante.
Predicción de genes
La predicción de genes o el hallazgo de genes se refiere al proceso de identificar las regiones del ADN genómico que codifican genes. Esto incluye genes que codifican proteínas, así como genes de ARN, pero también puede incluir la predicción de otros elementos funcionales, como las regiones reguladoras. Geri es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez secuenciado. En general, la predicción de genes bacterianos es significativamente más simple y precisa que la predicción de genes en especies eucariotas que normalmente tienen patrones complejos de intrones/exones. La identificación de genes en secuencias largas sigue siendo un problema, especialmente cuando se desconoce el número de genes. Los modelos ocultos de Markov pueden ser parte de la solución. El aprendizaje automático ha jugado un papel importante en la predicción de la secuencia de factores de transcripción. El análisis de secuenciación tradicional se centró en los parámetros estadísticos de la propia secuencia de nucleótidos (los programas más comunes utilizados se enumeran en la Tabla 4.1). Otro método es identificar secuencias homólogas basadas en otras secuencias de genes conocidas (Herramientas, consulte la Tabla 4.3). Los dos métodos descritos aquí se centran en la secuencia. Sin embargo, la característica de forma de estas moléculas, como el ADN y las proteínas, también se ha estudiado y se ha propuesto que tiene una influencia equivalente, si no mayor, en el comportamiento de estas moléculas.
Predicción de la estructura de proteínas
Las estructuras 3D de las moléculas son de gran importancia para sus funciones en la naturaleza. Dado que la predicción estructural de moléculas grandes a nivel atómico es un problema en gran medida intratable, algunos biólogos introdujeron formas de predecir la estructura 3D a nivel de secuencia primaria. Esto incluye el análisis bioquímico o estadístico de residuos de aminoácidos en regiones locales y la inferencia estructural a partir de homólogos (u otras proteínas potencialmente relacionadas) con estructuras 3D conocidas.
Ha habido una gran cantidad de enfoques diversos para resolver el problema de predicción de estructuras. Para determinar qué métodos eran más efectivos, se fundó una competencia de predicción de estructuras llamada CASP (Critical Assessment of Structure Prediction).
Metodología
Las tareas que se encuentran en el espacio del análisis de secuencias a menudo no son triviales para resolver y requieren el uso de enfoques relativamente complejos. De los muchos tipos de métodos utilizados en la práctica, los más populares incluyen:
- Programación dinámica
- Red Neural Artificial
- Modelo de Markov oculto
- Soporte Vector Machine
- Clustering
- Bayesian Network
- Análisis de regresión
- Minería de secuencias
- Análisis de secuencias sin alineación
Contenido relacionado
Ley de Fick
Presión oncótica
Sinapsis química
Presión osmótica
Neuropil