Secuencia de ADN

Compartir Imprimir Citar

Una secuencia de ácido nucleico, secuencia de ADNsecuencia de nucleótidos o secuencia genética es una sucesión de bases representada por una serie de un conjunto de cinco letras diferentes que indican el orden de los nucleótidos que forman alelos dentro de una molécula de ADN (usando GACT) o ARN (GACU). Por convención, las secuencias suelen presentarse desde el extremo 5' hasta el 3'. Para el ADN, se usa la cadena con sentido. Dado que los ácidos nucleicos son normalmente polímeros lineales (no ramificados), especificar la secuencia equivale a definir la estructura covalente de la molécula completa. Por esta razón, la secuencia de ácido nucleico también se denomina estructura primaria.

La secuencia tiene capacidad para representar información. El ácido desoxirribonucleico biológico representa la información que dirige las funciones de un organismo.

Los ácidos nucleicos también tienen una estructura secundaria y una estructura terciaria. La estructura primaria a veces se denomina erróneamente secuencia primaria. Por el contrario, no existe un concepto paralelo de secuencia secundaria o terciaria.

Nucleótidos

Los ácidos nucleicos consisten en una cadena de unidades unidas llamadas nucleótidos. Cada nucleótido consta de tres subunidades: un grupo fosfato y un azúcar (ribosa en el caso del ARN, desoxirribosa en el ADN) constituyen la columna vertebral de la hebra de ácido nucleico, y unido al azúcar se encuentra una de las bases nitrogenadas. Las nucleobases son importantes en el emparejamiento de bases de hebras para formar estructuras secundarias y terciarias de nivel superior, como la famosa doble hélice.

Las letras posibles son A, C, G y T, que representan las cuatro bases de nucleótidos de una hebra de ADN (adenina, citosina, guanina, timina) unidas covalentemente a un esqueleto de fosfodiéster. En el caso típico, las secuencias se imprimen contiguas entre sí sin espacios, como en la secuencia AAAGTCTGAC, leída de izquierda a derecha en la dirección 5' a 3'. Con respecto a la transcripción, una secuencia está en la hebra codificante si tiene el mismo orden que el ARN transcrito.

Una secuencia puede ser complementaria a otra secuencia, lo que significa que tienen la base en cada posición en el complementario (es decir, A a T, C a G) y en el orden inverso. Por ejemplo, la secuencia complementaria de TTAC es GTAA. Si una hebra del ADN de doble hebra se considera la hebra sentido, entonces la otra hebra, considerada la hebra antisentido, tendrá la secuencia complementaria a la hebra sentido.

Notación

Comparación y determinación del % de diferencia entre dos secuencias de nucleótidos.

Mientras que A, T, C y G representan un nucleótido particular en una posición, también hay letras que representan ambigüedad que se usan cuando más de un tipo de nucleótido podría aparecer en esa posición. Las reglas de la Unión Internacional de Química Pura y Aplicada (IUPAC) son las siguientes:

SímboloDescripciónBases representadasComplementar
UNuna deninaUN1T
Ccitosina _CGRAMO
GRAMOGuanina _GRAMOC
Ttimina _TUN
tutu raciltuUN
WDébil _UNT2W
Sfuerte _CGRAMOS
METROun Mino _UNCk
kketo _GRAMOTMETRO
Rpu r ineUNGRAMOY
Yp Y rimidinaCTR
Bno A ( B viene después de A)CGRAMOT3V
Dno C ( D viene después de C)UNGRAMOTH
Hno G ( H viene después de G)UNCTD
Vno T ( V viene después de T y U)UNCGRAMOB
nortecualquier nucleótido (no un hueco)UNCGRAMOT4norte
Zcero _0Z

Estos símbolos también son válidos para el ARN, excepto que U (uracilo) reemplaza a T (timina).

Aparte de la adenina (A), la citosina (C), la guanina (G), la timina (T) y el uracilo (U), el ADN y el ARN también contienen bases que se han modificado después de que se haya formado la cadena de ácido nucleico. En el ADN, la base modificada más común es la 5-metilcitidina (m5C). En el ARN, hay muchas bases modificadas, incluidas la pseudouridina (Ψ), la dihidrouridina (D), la inosina (I), la ribotimidina (rT) y la 7-metilguanosina (m7G). La hipoxantina y la xantina son dos de las muchas bases creadas por la presencia de mutágenos, ambas por desaminación (reemplazo del grupo amino por un grupo carbonilo). La hipoxantina se produce a partir de la adenina y la xantina se produce a partir de la guanina. De manera similar, la desaminación de la citosina da como resultado el uracilo.

Importancia biológica

En los sistemas biológicos, los ácidos nucleicos contienen información que es utilizada por una célula viva para construir proteínas específicas. La secuencia de nucleobases en una hebra de ácido nucleico es traducida por la maquinaria celular en una secuencia de aminoácidos que forman una hebra de proteína. Cada grupo de tres bases, llamado codón, corresponde a un solo aminoácido, y existe un código genético específico por el cual cada posible combinación de tres bases corresponde a un aminoácido específico.

El dogma central de la biología molecular describe el mecanismo por el cual las proteínas se construyen utilizando la información contenida en los ácidos nucleicos. El ADN se transcribe en moléculas de ARNm, que viaja al ribosoma, donde el ARNm se utiliza como plantilla para la construcción de la cadena de proteína. Dado que los ácidos nucleicos pueden unirse a moléculas con secuencias complementarias, existe una distinción entre secuencias "sentidas" que codifican proteínas y la secuencia "antisentido" complementaria que no es funcional en sí misma, pero puede unirse a la hebra sentido.

Determinación de secuencia

La secuenciación de ADN es el proceso de determinar la secuencia de nucleótidos de un fragmento de ADN dado. La secuencia del ADN de un ser vivo codifica la información necesaria para que ese ser vivo sobreviva y se reproduzca. Por lo tanto, determinar la secuencia es útil en la investigación fundamental sobre por qué y cómo viven los organismos, así como en temas aplicados. Debido a la importancia del ADN para los seres vivos, el conocimiento de una secuencia de ADN puede ser útil en prácticamente cualquier investigación biológica. Por ejemplo, en medicina se puede utilizar para identificar, diagnosticar y potencialmente desarrollar tratamientos para enfermedades genéticas. Del mismo modo, la investigación de patógenos puede conducir a tratamientos para enfermedades contagiosas. La biotecnología es una disciplina floreciente, con el potencial para muchos productos y servicios útiles.

El ARN no se secuencia directamente. En su lugar, se copia en un ADN mediante la transcriptasa inversa, y luego se secuencia este ADN.

Los métodos de secuenciación actuales se basan en la capacidad discriminatoria de las polimerasas de ADN y, por lo tanto, solo pueden distinguir cuatro bases. Una inosina (creada a partir de adenosina durante la edición del ARN) se lee como G, y la 5-metil-citosina (creada a partir de citosina por metilación del ADN) se lee como C. Con la tecnología actual, es difícil secuenciar pequeñas cantidades de ADN, ya que la señal es demasiado débil para medirla. Esto se supera mediante la amplificación de la reacción en cadena de la polimerasa (PCR).

Representación digital

Una vez obtenida una secuencia de ácido nucleico de un organismo, se almacena in silico en formato digital. Las secuencias genéticas digitales pueden almacenarse en bases de datos de secuencias, analizarse (consulte el análisis de secuencias a continuación), modificarse digitalmente y usarse como plantillas para crear nuevo ADN real mediante la síntesis de genes artificiales.

Análisis de secuencia

Las secuencias genéticas digitales pueden analizarse utilizando las herramientas de la bioinformática para intentar determinar su función.

Prueba genética

El ADN en el genoma de un organismo puede analizarse para diagnosticar vulnerabilidades a enfermedades hereditarias y también puede usarse para determinar la paternidad de un niño (padre genético) o la ascendencia de una persona. Normalmente, cada persona porta dos variaciones de cada gen, una heredada de su madre, la otra heredada de su padre. Se cree que el genoma humano contiene alrededor de 20 000 a 25 000 genes. Además de estudiar los cromosomas al nivel de los genes individuales, las pruebas genéticas en un sentido más amplio incluyen pruebas bioquímicas para detectar la posible presencia de enfermedades genéticas o formas mutantes de genes asociadas con un mayor riesgo de desarrollar trastornos genéticos.

Las pruebas genéticas identifican cambios en los cromosomas, genes o proteínas. Por lo general, las pruebas se usan para encontrar cambios asociados con trastornos hereditarios. Los resultados de una prueba genética pueden confirmar o descartar una condición genética sospechosa o ayudar a determinar la probabilidad de que una persona desarrolle o transmita un trastorno genético. Varios cientos de pruebas genéticas están actualmente en uso y se están desarrollando más.

Alineación de secuencia

En bioinformática, una alineación de secuencias es una forma de organizar las secuencias de ADN, ARN o proteínas para identificar regiones de similitud que pueden deberse a relaciones funcionales, estructurales o evolutivas entre las secuencias. Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y las brechas como mutaciones de inserción o deleción (indels) introducidas en uno o ambos linajes en el tiempo desde que divergieron entre sí. En los alineamientos de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de qué tan conservada está una región particular o un motivo de secuencia entre los linajes. La ausencia de sustituciones, o la presencia de solo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugierenque esta región tiene importancia estructural o funcional. Aunque las bases de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de los pares de bases puede indicar un papel funcional o estructural similar.

La filogenética computacional hace un amplio uso de alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que difieren las secuencias en un conjunto de consultas está relacionado cualitativamente con la distancia evolutiva de las secuencias entre sí. En términos generales, una identidad de secuencia alta sugiere que las secuencias en cuestión tienen un ancestro común más reciente relativamente joven, mientras que una identidad baja sugiere que la divergencia es más antigua. Esta aproximación, que refleja la hipótesis del "reloj molecular" de que se puede usar una tasa de cambio evolutivo más o menos constante para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia), asume que los efectos de la mutación y la selección son constantes a través de los linajes de secuencias. Por lo tanto, no tiene en cuenta la posible diferencia entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que resultan en la incorporación de un aminoácido diferente en la proteína). Métodos estadísticamente más precisos permiten que la tasa evolutiva en cada rama del árbol filogenético varíe, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes. no tiene en cuenta la posible diferencia entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que resultan en la incorporación de un aminoácido diferente en la proteína). Métodos estadísticamente más precisos permiten que la tasa evolutiva en cada rama del árbol filogenético varíe, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes. no tiene en cuenta la posible diferencia entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que resultan en la incorporación de un aminoácido diferente en la proteína). Métodos estadísticamente más precisos permiten que la tasa evolutiva en cada rama del árbol filogenético varíe, produciendo así mejores estimaciones de los tiempos de coalescencia de los genes.

Motivos de secuencia

Con frecuencia, la estructura primaria codifica motivos que son de importancia funcional. Algunos ejemplos de motivos de secuencia son: las cajas C/D y H/ACA de los snoRNA, el sitio de unión de Sm que se encuentra en los RNA de empalmesomas como U1, U2, U4, U5, U6, U12 y U3, la secuencia Shine-Dalgarno, el Kozak secuencia consenso y el terminador de la ARN polimerasa III.

Entropía de secuencia

En bioinformática, una entropía de secuencia, también conocida como complejidad de secuencia o perfil de información, es una secuencia numérica que proporciona una medida cuantitativa de la complejidad local de una secuencia de ADN, independientemente de la dirección del procesamiento. Las manipulaciones de los perfiles de información permiten el análisis de las secuencias utilizando técnicas libres de alineamiento, como por ejemplo en la detección de motivos y reordenamientos.