Secuenciación de Sanger
secuenciación de Sanger es un método de secuenciación de ADN que implica electroforesis y se basa en la incorporación aleatoria de didesoxinucleótidos terminales de cadena por la ADN polimerasa durante la replicación del ADN in vitro. Después de ser desarrollado por primera vez por Frederick Sanger y sus colegas en 1977, se convirtió en el método de secuenciación más utilizado durante aproximadamente 40 años. Fue comercializado por primera vez por Applied Biosystems en 1986. Más recientemente, la secuenciación Sanger de mayor volumen ha sido reemplazada por métodos de secuenciación de próxima generación, especialmente para análisis genómicos automatizados a gran escala. Sin embargo, el método Sanger sigue utilizándose ampliamente para proyectos de menor escala y para la validación de resultados de secuenciación profunda. Todavía tiene la ventaja sobre las tecnologías de secuenciación de lectura corta (como Illumina) de que puede producir lecturas de secuencias de ADN de> 500 nucleótidos y mantiene una tasa de error muy baja con precisiones de alrededor del 99,99%. La secuenciación de Sanger todavía se utiliza activamente en esfuerzos para iniciativas de salud pública, como la secuenciación de la proteína de pico del SARS-CoV-2, así como para la vigilancia de brotes de norovirus a través de CaliciNet del Centro para el Control y la Prevención de Enfermedades (CDC). Red de vigilancia.

Método

El método clásico de terminación de cadena requiere una plantilla de ADN monocatenario, un cebador de ADN, una ADN polimerasa, desoxinucleótidos trifosfato normales (dNTP) y didesoxinucleótidos trifosfato modificados (ddNTP), el último de los cuales termina el alargamiento de la cadena de ADN. . Estos nucleótidos terminales de cadena carecen de un grupo 3'-OH necesario para la formación de un enlace fosfodiéster entre dos nucleótidos, lo que hace que la ADN polimerasa deje de extender el ADN cuando se incorpora un ddNTP modificado. Los ddNTP pueden marcarse radiactiva o fluorescentemente para su detección en máquinas de secuenciación automática.
La muestra de ADN se divide en cuatro reacciones de secuenciación separadas, que contienen los cuatro desoxinucleótidos estándar (dATP, dGTP, dCTP y dTTP) y la ADN polimerasa. A cada reacción se le añade sólo uno de los cuatro didesoxinucleótidos (ddATP, ddGTP, ddCTP o ddTTP), mientras que los demás nucleótidos añadidos son ordinarios. La concentración de desoxinucleótido debe ser aproximadamente 100 veces mayor que la del didesoxinucleótido correspondiente (por ejemplo, dTTP 0,5 mM: ddTTP 0,005 mM) para permitir que se produzcan suficientes fragmentos sin dejar de transcribir la secuencia completa (pero la concentración de ddNTP también depende de la concentración deseada). longitud de la secuencia). Poniéndolo en un orden más sensato, se necesitan cuatro reacciones separadas en este proceso para probar los cuatro ddNTP. Después de rondas de extensión del ADN molde a partir del cebador unido, los fragmentos de ADN resultantes se desnaturalizan con calor y se separan por tamaño mediante electroforesis en gel. En la publicación original de 1977, la formación de bucles de ADN ss con pares de bases fue una causa de serias dificultades para resolver bandas en algunas ubicaciones. Esto se realiza frecuentemente usando un gel desnaturalizante de poliacrilamida-urea con cada una de las cuatro reacciones en uno de los cuatro carriles individuales (carriles A, T, G, C). Luego, las bandas de ADN se pueden visualizar mediante autorradiografía o luz ultravioleta, y la secuencia de ADN se puede leer directamente en la película de rayos X o en la imagen del gel.

En la imagen de la derecha, se expuso una película de rayos X al gel y las bandas oscuras corresponden a fragmentos de ADN de diferentes longitudes. Una banda oscura en un carril indica un fragmento de ADN que es el resultado de la terminación de la cadena después de la incorporación de un didesoxinucleótido (ddATP, ddGTP, ddCTP o ddTTP). Luego se utilizan las posiciones relativas de las diferentes bandas entre los cuatro carriles, de abajo hacia arriba, para leer la secuencia de ADN.

Las variaciones técnicas de la secuenciación de terminación de cadena incluyen el etiquetado con nucleótidos que contienen fósforo radiactivo para el radiomarcado o el uso de un cebador marcado en el extremo 5' Termine con un tinte fluorescente. La secuenciación de colorantes facilita la lectura en un sistema óptico para un análisis y una automatización más rápidos y económicos. El desarrollo posterior por parte de Leroy Hood y sus colaboradores de cebadores y ddNTP marcados con fluorescencia preparó el escenario para la secuenciación de ADN automatizada y de alto rendimiento.

Los métodos de terminación de cadena han simplificado enormemente la secuenciación del ADN. Por ejemplo, hay disponibles comercialmente kits basados en terminación de cadena que contienen los reactivos necesarios para la secuenciación, en alícuotas previas y listos para usar. Las limitaciones incluyen la unión no específica del cebador al ADN, que afecta la lectura precisa de la secuencia de ADN, y las estructuras secundarias del ADN que afectan la fidelidad de la secuencia.
Secuenciación del terminador de tinte

Secuenciación con terminador de tinte utiliza el etiquetado de los ddNTP terminadores de cadena, lo que permite la secuenciación en una sola reacción en lugar de cuatro reacciones como en el método de cebador marcado. En la secuenciación del terminador de tinte, cada uno de los cuatro terminadores de cadena de didesoxinucleótidos está marcado con tintes fluorescentes, cada uno de los cuales emite luz en diferentes longitudes de onda.
Debido a su mayor conveniencia y velocidad, la secuenciación con terminador de tinte es ahora el pilar de la secuenciación automatizada. Sus limitaciones incluyen efectos de tinte debido a diferencias en la incorporación de los terminadores de cadena marcados con tinte en el fragmento de ADN, lo que resulta en alturas y formas de pico desiguales en el cromatograma electrónico de trazas de secuencia de ADN después de la electroforesis capilar (ver figura a la izquierda).
Este problema se ha abordado con el uso de sistemas enzimáticos de ADN polimerasa modificados y tintes que minimizan la variabilidad de la incorporación, así como métodos para eliminar las "manchas de tinte". El método de secuenciación con terminador de tinte, junto con analizadores de secuencia de ADN automatizados de alto rendimiento, se utilizó para la gran mayoría de proyectos de secuenciación hasta la introducción de la secuenciación de próxima generación.
Automatización y preparación de muestras

Los instrumentos automatizados de secuenciación de ADN (secuenciadores de ADN) pueden secuenciar hasta 384 muestras de ADN en un solo lote. Las ejecuciones por lotes pueden realizarse hasta 24 veces al día. Los secuenciadores de ADN separan las hebras por tamaño (o longitud) mediante electroforesis capilar, detectan y registran la fluorescencia del tinte y generan datos como cromatogramas de trazas de picos fluorescentes. Las reacciones de secuenciación (termociclado y etiquetado), la limpieza y la resuspensión de muestras en una solución tampón se realizan por separado, antes de cargar las muestras en el secuenciador. Varios paquetes de software comerciales y no comerciales pueden recortar automáticamente los rastros de ADN de baja calidad. Estos programas puntúan la calidad de cada pico y eliminan los picos base de baja calidad (que generalmente se encuentran al final de la secuencia). La precisión de dichos algoritmos es inferior a la del examen visual realizado por un operador humano, pero es adecuada para el procesamiento automatizado de grandes conjuntos de datos de secuencias.
Aplicaciones de la secuenciación de terminación de colorantes
El campo de la salud pública desempeña muchas funciones para respaldar el diagnóstico de pacientes, así como la vigilancia ambiental de posibles sustancias tóxicas y patógenos biológicos circulantes. Los laboratorios de salud pública (PHL) y otros laboratorios alrededor del mundo han jugado un papel fundamental al proporcionar datos de secuenciación rápida para la vigilancia del virus SARS-CoV-2, agente causal de la COVID-19, durante la pandemia que fue declarada de salud pública. emergencia el 30 de enero de 2020. A los laboratorios se les asignó la tarea de implementar rápidamente métodos de secuenciación y se les pidió que proporcionaran datos precisos para ayudar en los modelos de toma de decisiones para el desarrollo de políticas para mitigar la propagación del virus. Muchos laboratorios recurrieron a metodologías de secuenciación de próxima generación, mientras que otros apoyaron los esfuerzos con la secuenciación de Sanger. Los esfuerzos de secuenciación del SARS-CoV-2 son muchos, mientras la mayoría de laboratorios implementaron la secuenciación del genoma completo del virus, otros han optado por secuenciar genes muy específicos del virus como el gen S, que codifica la información necesaria para producir la proteína Spike. . La alta tasa de mutación del SARS-CoV-2 conduce a diferencias genéticas dentro del gen S y estas diferencias han influido en la infectividad del virus. La secuenciación de Sanger del gen S proporciona un método rápido, preciso y más asequible para recuperar el código genético. Es posible que los laboratorios de los países de bajos ingresos no tengan la capacidad de implementar aplicaciones costosas como la secuenciación de próxima generación, por lo que los métodos de Sanger pueden prevalecer para respaldar la generación de datos de secuenciación para la vigilancia de variantes.
La secuenciación de Sanger también es el "estándar de oro" para métodos de vigilancia de norovirus para la red CaliciNet del Centro para el Control y la Prevención de Enfermedades (CDC). CalciNet es una red de vigilancia de brotes que se estableció en marzo de 2009. El objetivo de la red es recopilar datos de secuenciación de norovirus circulantes en los Estados Unidos y activar acciones posteriores para determinar la fuente de infección para mitigar la propagación del virus. La red CalciNet ha identificado muchas infecciones como enfermedades transmitidas por los alimentos. Estos datos luego se pueden publicar y utilizar para desarrollar recomendaciones para acciones futuras para prevenir la contaminación de los alimentos. Los métodos empleados para la detección de norovirus implican la amplificación dirigida de áreas específicas del genoma. Luego, los amplicones se secuencian mediante secuenciación Sanger con terminación de colorante y los cromatogramas y secuencias generados se analizan con un paquete de software desarrollado en BioNumerics. Se rastrean las secuencias y se estudia la relación de las cepas para inferir relevancia epidemiológica.
Desafíos
Los desafíos comunes de la secuenciación de ADN con el método Sanger incluyen la mala calidad en las primeras 15 a 40 bases de la secuencia debido a la unión del cebador y el deterioro de la calidad de los rastros de secuenciación después de 700 a 900 bases. El software de llamada base, como Phred, normalmente proporciona una estimación de la calidad para ayudar a recortar regiones de secuencias de baja calidad.
En los casos en los que se clonan fragmentos de ADN antes de la secuenciación, la secuencia resultante puede contener partes del vector de clonación. Por el contrario, la clonación basada en PCR y las tecnologías de secuenciación de próxima generación basadas en pirosecuenciación a menudo evitan el uso de vectores de clonación. Recientemente, se han desarrollado métodos de secuenciación Sanger en un solo paso (amplificación y secuenciación combinadas), como Ampliseq y SeqSharp, que permiten una secuenciación rápida de genes diana sin clonación ni amplificación previa.
Los métodos actuales pueden secuenciar directamente sólo fragmentos de ADN relativamente cortos (de 300 a 1.000 nucleótidos de longitud) en una sola reacción. El principal obstáculo para secuenciar fragmentos de ADN por encima de este límite de tamaño es el poder de separación insuficiente para resolver fragmentos de ADN grandes que difieren en longitud en un solo nucleótido.
Secuenciación de microfluidos de Sanger
La secuenciación microfluídica Sanger es una aplicación de laboratorio en un chip para secuenciación de ADN, en la que los pasos de secuenciación Sanger (ciclado térmico, purificación de muestras y electroforesis capilar) se integran en un chip a escala de oblea utilizando una muestra a escala de nanolitros. volúmenes. Esta tecnología genera lecturas de secuencia largas y precisas, al tiempo que elimina muchas de las deficiencias importantes del método Sanger convencional (por ejemplo, alto consumo de reactivos costosos, dependencia de equipos costosos, manipulaciones que requieren mucho personal, etc.) al integrar y automatizar los pasos de secuenciación Sanger. .
En sus inicios modernos, la secuenciación del genoma de alto rendimiento implica la fragmentación del genoma en pequeños fragmentos monocatenarios, seguido de la amplificación de los fragmentos mediante la reacción en cadena de la polimerasa (PCR). Al adoptar el método Sanger, cada fragmento de ADN se termina irreversiblemente con la incorporación de un nucleótido de terminación de cadena didesoxi marcado con fluorescencia, produciendo así una “escalera” de fragmentos de ADN que difieren en longitud en una base y llevan una etiqueta fluorescente específica de la base en la base terminal. Luego, las escaleras de bases amplificadas se separan mediante electroforesis de matriz capilar (CAE) con detección automatizada de “línea de meta” in situ de los fragmentos de ADNss marcados con fluorescencia, lo que proporciona una secuencia ordenada de los fragmentos. Luego, estas lecturas de secuencia se ensamblan por computadora en secuencias superpuestas o contiguas (denominadas "cóntigos") que se asemejan a la secuencia genómica completa una vez completamente ensambladas.
Los métodos de Sanger alcanzan longitudes de lectura máximas de aproximadamente 800 pb (normalmente 500 a 600 pb con ADN no enriquecido). Las longitudes de lectura más largas en los métodos de Sanger muestran ventajas significativas sobre otros métodos de secuenciación, especialmente en términos de secuenciación de regiones repetitivas del genoma. Un desafío para los datos de secuencias de lectura corta es particularmente un problema en la secuenciación de nuevos genomas (de novo) y en la secuenciación de segmentos del genoma altamente reordenados, típicamente aquellos que se ven en genomas de cáncer o en regiones de cromosomas que exhiben variación estructural. .
Aplicaciones de las tecnologías de secuenciación de microfluidos
Otras aplicaciones útiles de la secuenciación de ADN incluyen la detección de polimorfismo de un solo nucleótido (SNP), el análisis de heterodúplex del polimorfismo de conformación monocatenario (SSCP) y el análisis de repeticiones cortas en tándem (STR). Resolver fragmentos de ADN según diferencias de tamaño y/o conformación es el paso más crítico en el estudio de estas características del genoma.
Diseño del dispositivo
El chip de secuenciación tiene una construcción de cuatro capas, que consta de tres obleas de vidrio de 100 mm de diámetro (en las que se microfabrican los elementos del dispositivo) y una membrana de polidimetilsiloxano (PDMS). Las cámaras de reacción y los canales de electroforesis capilar están grabados entre las dos obleas de vidrio superiores, que están unidas térmicamente. Las interconexiones de canales tridimensionales y las microválvulas están formadas por el PDMS y la oblea de vidrio del colector inferior.
El dispositivo consta de tres unidades funcionales, cada una de las cuales corresponde a los pasos de secuenciación de Sanger. La unidad de ciclo térmico (TC) es una cámara de reacción de 250 nanolitros con detector de temperatura resistivo integrado, microválvulas y un calentador de superficie. El movimiento del reactivo entre la capa superior de vidrio y la capa inferior de vidrio de PDMS se produce a través de orificios de paso de 500 μm de diámetro. Después del ciclo térmico, la mezcla de reacción se purifica en la cámara de captura/purificación y luego se inyecta en la cámara de electroforesis capilar (CE). La unidad CE consta de un capilar de 30 cm que se pliega en un patrón compacto en curva mediante giros de 65 μm de ancho.
Química de secuenciación
- Ciclismo térmico
- En la cámara de reacción de TC, el dye-terminator secuenciando reactivos, el ADN de la plantilla y las imprimaciones se cargan en la cámara TC y ciclo térmico para 35 ciclos (a 95 °C durante 12 segundos y a 60 °C durante 55 segundos).
- Purificación
- La mezcla de reacción cargada (que contiene fragmentos de extensión, ADN de plantilla y reagente de secuenciación excesiva) se realiza a través de una cámara de captura/purificación a 30 °C a través de un campo eléctrico de 33 Voltios/cm aplicado entre los puertos de salida de captura y entrada. El gel de captura a través del cual la muestra es impulsada, consta de 40 μM de oligonucleótido (complementario a las imprimaciones) ligado covalentemente a una matriz de poliacrílamida. Los fragmentos de extensión están inmovilizados por la matriz del gel, y el exceso de la plantilla, los nucleótidos libres y las sales se elutizan a través del puerto de residuos de captura. El gel de captura se calienta a 67-75 °C para liberar fragmentos de extensión.
- Electroforesis capilar
- Los fragmentos de extensión se inyectan en la cámara CE donde se electroforizan a través de un campo de 125-167-V/cm.
Plataformas
La plataforma Apollo 100 (Microchip Biotechnologies Inc., Dublin, CA) integra los dos primeros pasos de secuenciación de Sanger (ciclado térmico y purificación) en un sistema totalmente automatizado. El fabricante afirma que las muestras están listas para la electroforesis capilar dentro de las tres horas posteriores a la carga de la muestra y los reactivos en el sistema. La plataforma Apollo 100 requiere volúmenes de reactivos inferiores a microlitros.
Comparaciones con otras técnicas de secuenciación
Tecnología | Número de calles | Volumen de inyección (nL) | Tiempo de análisis | Longitud media de lectura | Mediación (incluido el análisis; Mb/h) | Gel pouring | Rastreo de carril |
---|---|---|---|---|---|---|---|
gel de la placa | 96 | 500–1000 | 6 a 8 horas | 700 bp | 0,0672 | Sí. | Sí. |
Electroforesis de matriz capilar | 96 | 1–5 | 1 a 3 horas | 700 bp | 0.166 | No | No |
Microchip | 96 | 0.1–0.5 | 6 a 30 minutos | 430 bp | 0.660 | No | No |
454/Roche FLX (2008) | Identificada | 4 horas | 200–300 bp | 20 a 30 | |||
Illumina/Solexa (2008) | 2 a 3 días | 30–100 bp | 20 | ||||
ABI/SOLiD (2008) | 8 días | 35 bp | 5 a 15 | ||||
Illumina MiSeq (2019) | 1 a 3 días | 2x75-2x300 bp | 170 a 250 | ||||
Illumina NovaSeq (2019) | 1 a 2 días | 2x50–2x150 bp | 22.000 a 67.000 | ||||
Ion Torrent Ion 530 (2019) | 2.5 a 4 horas | 200–600 bp | 110–920 | ||||
BGI MGISEQ-T7 (2019) | 1 día | 2x150 bp | 250.000 | ||||
Pacific Biosciences SMRT (2019) | 10 a 20 horas | 10–30 kb | 1.300 | ||||
Oxford Nanopore MinIon (2019) | 3 días | 13–20 kb | 700 |
El objetivo final de la secuenciación de alto rendimiento es desarrollar sistemas que sean de bajo costo y extremadamente eficientes para obtener longitudes de lectura extendidas (más largas). Las longitudes de lectura más largas de cada separación electroforética individual reducen sustancialmente el costo asociado con la secuenciación de ADN de novo y la cantidad de plantillas necesarias para secuenciar contigs de ADN con una redundancia determinada. Los microfluidos pueden permitir un ensamblaje de secuencias más rápido, económico y sencillo.