Secuenciador de ADN
Un secuenciador de ADN es un instrumento científico que se utiliza para automatizar el proceso de secuenciación del ADN. Dada una muestra de ADN, se utiliza un secuenciador de ADN para determinar el orden de las cuatro bases: G (guanina), C (citosina), A (adenina) y T (timina). Esto luego se informa como una cadena de texto, llamada lectura. Algunos secuenciadores de ADN también pueden considerarse instrumentos ópticos, ya que analizan las señales de luz que se originan en los fluorocromos unidos a los nucleótidos.
El primer secuenciador de ADN automatizado, inventado por Lloyd M. Smith, fue presentado por Applied Biosystems en 1987. Utilizaba el método de secuenciación de Sanger, una tecnología que constituyó la base de la "primera generación" de secuenciadores de ADN y permitió la finalización del proyecto del genoma humano en 2001. Esta primera generación de secuenciadores de ADN son esencialmente sistemas de electroforesis automatizados que detectan la migración de fragmentos de ADN marcados. Por lo tanto, estos secuenciadores también se pueden usar en el genotipado de marcadores genéticos donde solo se necesita determinar la longitud de un fragmento de ADN (por ejemplo, microsatélites, AFLP).
El Proyecto Genoma Humano estimuló el desarrollo de plataformas más económicas, de alto rendimiento y más precisas conocidas como Secuenciadores de Próxima Generación (NGS) para secuenciar el genoma humano. Estos incluyen las plataformas de secuenciación de ADN 454, SOLiD e Illumina. Las máquinas de secuenciación de próxima generación han aumentado sustancialmente la tasa de secuenciación de ADN, en comparación con los métodos anteriores de Sanger. Las muestras de ADN se pueden preparar automáticamente en tan solo 90 minutos, mientras que un genoma humano se puede secuenciar con una cobertura de 15 veces en cuestión de días.
Los secuenciadores de ADN de tercera generación más recientes, como PacBio SMRT y Oxford Nanopore, miden la adición de nucleótidos a una sola molécula de ADN en tiempo real. Ambas tecnologías ofrecen la posibilidad de secuenciar moléculas largas, en comparación con tecnologías de lectura corta como Illumina SBS o MGI Tech's DNBSEQ.
Debido a las limitaciones en la tecnología de secuenciación de ADN, las lecturas de muchas de estas tecnologías son cortas, en comparación con la longitud de un genoma, por lo que las lecturas deben ensamblarse en contigs más largos. Los datos también pueden contener errores, causados por limitaciones en la técnica de secuenciación del ADN o por errores durante la amplificación por PCR. Los fabricantes de secuenciadores de ADN utilizan varios métodos diferentes para detectar qué bases de ADN están presentes. Los protocolos específicos aplicados en diferentes plataformas de secuenciación tienen un impacto en los datos finales que se generan. Por lo tanto, comparar la calidad y el costo de los datos en diferentes tecnologías puede ser una tarea abrumadora. Cada fabricante proporciona sus propias formas de informar los errores de secuenciación y las puntuaciones. Sin embargo, los errores y puntajes entre diferentes plataformas no siempre se pueden comparar directamente. Dado que estos sistemas se basan en diferentes enfoques de secuenciación de ADN, la elección del mejor método y secuenciador de ADN dependerá normalmente de los objetivos del experimento y del presupuesto disponible.
Historia
Los primeros métodos de secuenciación de ADN fueron desarrollados por Gilbert (1973) y Sanger (1975). Gilbert introdujo un método de secuenciación basado en la modificación química del ADN seguido de la escisión en bases específicas, mientras que la técnica de Sanger se basa en la terminación de la cadena de didesoxinucleótidos. El método Sanger se hizo popular debido a su mayor eficiencia y baja radiactividad. El primer secuenciador de ADN automatizado fue el AB370A, presentado en 1986 por Applied Biosystems. El AB370A pudo secuenciar 96 muestras simultáneamente, 500 kilobases por día y alcanzó longitudes de lectura de hasta 600 bases. Este fue el comienzo de la "primera generación" de secuenciadores de ADN, que implementaron la secuenciación de Sanger, didesoxinucleótidos fluorescentes y gel de poliacrilamida intercalados entre placas de vidrio - geles losa. El siguiente gran avance fue el lanzamiento en 1995 del AB310, que utilizaba un polímero lineal en un capilar en lugar del gel en placa para la separación de cadenas de ADN por electroforesis. Estas técnicas formaron la base para la finalización del proyecto del genoma humano en 2001. El proyecto del genoma humano estimuló el desarrollo de plataformas más económicas, de alto rendimiento y más precisas conocidas como Next Generation Sequencers (NGS). En 2005, 454 Life Sciences lanzó el secuenciador 454, seguido de Solexa Genome Analyzer y SOLiD (Detección de ligadura de oligos compatible) de Agencourt en 2006. Applied Biosystems adquirió Agencourt en 2006 y, en 2007, Roche compró 454 Life Sciences, mientras que Illumina compró Solexa. Ion Torrent ingresó al mercado en 2010 y fue adquirido por Life Technologies (ahora Thermo Fisher Scientific). Y BGI comenzó a fabricar secuenciadores en China después de adquirir Complete Genomics bajo su brazo MGI. Estos siguen siendo los sistemas NGS más comunes debido a su costo competitivo, precisión y rendimiento.
Más recientemente, se introdujo una tercera generación de secuenciadores de ADN. Los métodos de secuenciación aplicados por estos secuenciadores no requieren amplificación de ADN (reacción en cadena de la polimerasa - PCR), lo que acelera la preparación de la muestra antes de la secuenciación y reduce los errores. Además, se recopilan datos de secuenciación de las reacciones provocadas por la adición de nucleótidos en la cadena complementaria en tiempo real. Dos empresas introdujeron diferentes enfoques en sus secuenciadores de tercera generación. Los secuenciadores de Pacific Biosciences utilizan un método llamado Single-molecule real-time (SMRT), donde los datos de secuenciación se producen mediante la luz (capturada por una cámara) emitida cuando se agrega un nucleótido a la hebra complementaria mediante enzimas que contienen tintes fluorescentes. Oxford Nanopore Technologies es otra empresa que desarrolla secuenciadores de tercera generación utilizando sistemas electrónicos basados en tecnologías de detección de nanoporos.
Fabricantes de secuenciadores de ADN
Los secuenciadores de ADN han sido desarrollados, fabricados y vendidos por las siguientes empresas, entre otras.
Roche
El secuenciador de ADN 454 fue el primer secuenciador de próxima generación en tener éxito comercial. Fue desarrollado por 454 Life Sciences y adquirido por Roche en 2007. 454 utiliza la detección de pirofosfato liberado por la reacción de la ADN polimerasa al agregar un nucleótido a la cepa molde.
Roche fabrica actualmente dos sistemas basados en su tecnología de pirosecuenciación: el GS FLX+ y el GS Junior System. El sistema GS FLX+ promete longitudes de lectura de aproximadamente 1000 pares de bases, mientras que el sistema GS Junior promete lecturas de 400 pares de bases. Un predecesor de GS FLX+, el sistema 454 GS FLX Titanium se lanzó en 2008 y logró una salida de 0,7 G de datos por ejecución, con una precisión del 99,9 % después del filtro de calidad y una longitud de lectura de hasta 700 pb. En 2009, Roche lanzó el GS Junior, una versión de sobremesa del secuenciador 454 con una longitud de lectura de hasta 400 pb y una preparación de bibliotecas y un procesamiento de datos simplificados.
Una de las ventajas de los sistemas 454 es su velocidad de funcionamiento. La mano de obra se puede reducir con la automatización de la preparación de bibliotecas y la semiautomatización de la PCR en emulsión. Una desventaja del sistema 454 es que es propenso a errores al estimar el número de bases en una cadena larga de nucleótidos idénticos. Esto se conoce como error de homopolímero y ocurre cuando hay 6 o más bases idénticas en fila. Otra desventaja es que el precio de los reactivos es relativamente más caro en comparación con otros secuenciadores de última generación.
En 2013, Roche anunció que suspendería el desarrollo de la tecnología 454 y eliminaría gradualmente 454 máquinas por completo en 2016 cuando su tecnología dejara de ser competitiva.
Roche produce una serie de herramientas de software optimizadas para el análisis de datos de secuenciación 454. Como,
- GS Run Processor convierte imágenes crudas generadas por un secuenciado en valores de intensidad. El proceso consiste en dos pasos principales: procesamiento de imágenes y procesamiento de señales. El software también aplica la normalización, corrección de señales, escalado base y puntuaciones de calidad para lecturas individuales. El software produce datos en los archivos Standard Flowgram Format (o SFF) para ser utilizados en aplicaciones de análisis de datos (GS De Novo Assembler, GS Reference Mapper o GS Amplicon Variant Analyzer).
- GS De Novo Assembler es una herramienta para de novo ensamblaje de números enteros de hasta 3 GB de tamaño de escopeta lee solo o combinado con datos finales pareados generados por 454 secuenciadores. También soporta el montaje de novo de transcripciones (incluyendo el análisis), y también la detección de variantes isoform.
- GS Reference Mapper maps short lee a un genoma de referencia, generando una secuencia de consenso. El software es capaz de generar archivos de salida para la evaluación, indicando inserciones, eliminaciones y SNPs. Puede manejar genomas grandes y complejos de cualquier tamaño.
- Finalmente, el GS Amplicon Variant Analyzer alineación lee de muestras de amplicon contra una referencia, identificando variantes (enlazados o no) y sus frecuencias. También se puede utilizar para detectar variantes desconocidas y de baja frecuencia. Incluye herramientas gráficas para el análisis de alineaciones.
Ilumina
Illumina produce una serie de máquinas de secuenciación de próxima generación utilizando tecnología adquirida de Manteia Predictive Medicine y desarrollada por Solexa. Illumina fabrica una serie de máquinas de secuenciación de próxima generación que utilizan esta tecnología, incluidas HiSeq, Genome Analyzer IIx, MiSeq y HiScanSQ, que también pueden procesar microarrays.
La tecnología que conduce a estos secuenciadores de ADN fue lanzada por primera vez por Solexa en 2006 como Genome Analyzer. Illumina compró Solexa en 2007. El analizador de genoma utiliza un método de secuenciación por síntesis. El primer modelo produjo 1G por ejecución. Durante el año 2009, la producción aumentó de 20 G por ejecución en agosto a 50 G por ejecución en diciembre. En 2010, Illumina lanzó HiSeq 2000 con una producción de 200 y luego 600 G por ejecución, lo que llevaría 8 días. En su lanzamiento, HiSeq 2000 proporcionó una de las plataformas de secuenciación más baratas a $ 0,02 por millón de bases según el costo del Instituto de Genómica de Beijing.
En 2011, Illumina lanzó un secuenciador de sobremesa llamado MiSeq. En su lanzamiento, MiSeq podría generar 1,5 G por ejecución con lecturas emparejadas de 150 pb. Se puede realizar un ciclo de secuenciación en 10 horas cuando se utiliza la preparación automática de muestras de ADN.
El Illumina HiSeq utiliza dos herramientas de software para calcular el número y la posición de los grupos de ADN para evaluar la calidad de la secuenciación: el sistema de control HiSeq y el analizador en tiempo real. Estos métodos ayudan a evaluar si los clústeres cercanos interfieren entre sí.
Tecnologías de vida
Life Technologies (ahora Thermo Fisher Scientific) produce secuenciadores de ADN bajo las marcas Applied Biosystems e Ion Torrent. Applied Biosystems fabrica la plataforma de secuenciación de última generación SOLiD y los secuenciadores de ADN basados en Sanger, como el 3500 Genetic Analyzer. Bajo la marca Ion Torrent, Applied Biosystems produce cuatro secuenciadores de próxima generación: los sistemas Ion PGM System, Ion Proton System, Ion S5 e Ion S5xl. También se cree que la compañía está desarrollando su nuevo secuenciador de ADN capilar llamado SeqStudio que se lanzará a principios de 2018.
Los sistemas SOLiD fueron adquiridos por Applied Biosystems en 2006. SOLiD aplica la secuenciación por ligación y codificación de doble base. El primer sistema SOLiD se lanzó en 2007 y generó longitudes de lectura de 35 pb y datos 3G por ejecución. Después de cinco actualizaciones, el sistema de secuenciación 5500xl se lanzó en 2010, aumentando considerablemente la longitud de lectura a 85 pb, mejorando la precisión hasta en un 99,99 % y produciendo 30 G por ejecución de 7 días.
La longitud de lectura limitada de SOLiD sigue siendo una deficiencia importante y, hasta cierto punto, ha limitado su uso a experimentos en los que la longitud de lectura es menos vital, como la resecuenciación y el análisis de transcriptomas y, más recientemente, los experimentos de metilación y ChIP-Seq. El tiempo de preparación de muestras de ADN para los sistemas SOLiD se ha vuelto mucho más rápido con la automatización de las preparaciones de bibliotecas de secuenciación, como el sistema Tecan.
Los datos del espacio de color producidos por la plataforma SOLiD se pueden decodificar en bases de ADN para su posterior análisis; sin embargo, el software que considera la información del espacio de color original puede brindar resultados más precisos. Life Technologies ha lanzado BioScope, un paquete de análisis de datos para resecuenciación, ChiP-Seq y análisis de transcriptomas. Utiliza el algoritmo MaxMapper para mapear las lecturas del espacio de color.
Beckman Coulter
Beckman Coulter (ahora Danaher) ha fabricado anteriormente secuenciadores de ADN basados en electroforesis capilar y terminación de cadena con el nombre de modelo CEQ, incluido el CEQ 8000. La empresa ahora produce el sistema de análisis genético GeXP, que utiliza secuenciación de terminación de colorante. Este método utiliza un termociclador de forma muy similar a la PCR para desnaturalizar, hibridar y extender fragmentos de ADN, amplificando los fragmentos secuenciados.
Biociencias del Pacífico
Pacific Biosciences produce los sistemas de secuenciación PacBio RS y Sequel utilizando un método de secuenciación en tiempo real de una sola molécula, o SMRT. Este sistema puede producir longitudes de lectura de varios miles de pares de bases. Los errores de lectura sin procesar más altos se corrigen mediante el consenso circular, en el que se lee la misma hebra una y otra vez, o mediante estrategias de ensamblaje optimizadas. Los científicos han informado una precisión del 99,9999% con estas estrategias. El sistema Sequel se lanzó en 2015 con una mayor capacidad y un precio más bajo.
Nanoporo Oxford
Tecnologías de nanoporos de Oxford' El secuenciador MinION se basa en la evolución de la tecnología de secuenciación de nanoporos para los análisis de ácidos nucleicos. El dispositivo mide cuatro pulgadas de largo y recibe energía de un puerto USB. MinION decodifica el ADN directamente a medida que la molécula se extrae a una velocidad de 450 bases/segundo a través de un nanoporo suspendido en una membrana. Los cambios en la corriente eléctrica indican qué base está presente. Inicialmente, el dispositivo tenía una precisión del 60 al 85 por ciento, en comparación con el 99,9 por ciento de las máquinas convencionales. Incluso los resultados inexactos pueden resultar útiles porque producen longitudes de lectura largas. A principios de 2021, los investigadores de la Universidad de Columbia Británica utilizaron etiquetas moleculares especiales y pudieron reducir la tasa de error del dispositivo del cinco al 15 por ciento a menos del 0,005 por ciento, incluso al secuenciar muchos tramos largos de ADN a la vez. Hay dos iteraciones de productos más basadas en MinION; el primero es GridION, que es un secuenciador un poco más grande que procesa hasta cinco celdas de flujo MinION a la vez. Y el segundo es PromethION, que utiliza hasta 100 000 poros en paralelo, más adecuado para la secuenciación de gran volumen.
MGI
MGI produce secuenciadores de alto rendimiento para investigación científica y aplicaciones clínicas como DNBSEQ-G50, DNBSEQ-G400 y DNBSEQ-T7, bajo una tecnología DNBSEQ patentada. Se basa en la secuenciación de nanobolas de ADN y las tecnologías de síntesis de anclaje de sonda combinatoria, en las que las nanobolas de ADN (DNB) se cargan en un chip de matriz modelado a través del sistema de fluidos y luego se agrega un cebador de secuenciación a la región adaptadora de los DNB para la hibridación. DNBSEQ-T7 puede generar lecturas cortas a gran escala, hasta 60 genomas humanos por día. DNBSEQ-T7 se utilizó para generar lecturas de extremos emparejados de 150 pb, secuenciación 30X, para secuenciar el genoma de SARS-CoV-2 o COVID-19 para identificar la predisposición de las variantes genéticas en la enfermedad grave de COVID-19. Usando una técnica novedosa, los investigadores de China National GeneBank secuenciaron bibliotecas sin PCR en matrices DNBSEQ sin PCR de MGI para obtener por primera vez una verdadera secuenciación del genoma completo sin PCR. MGISEQ-2000 se utilizó en la secuenciación de ARN de una sola célula para estudiar la patogénesis subyacente y la recuperación en pacientes con COVID-19, según lo publicado en Nature Medicine.
Comparación
Las ofertas actuales en tecnología de secuenciación de ADN muestran un jugador dominante: Illumina (diciembre de 2019), seguido de PacBio, MGI y Oxford Nanopore.
Secuenciador | Ion Torrent PGM | 454 GS FLX | HiSeq 2000 | SOLiDv4 | PacBio | Sanger 3730xl | MGI DNBSEQ-G400 |
---|---|---|---|---|---|---|---|
Fabricantes | Ion Torrent (Life Technologies) | 454 Life Sciences (Roche) | Illumina | Biosistemas aplicados (Life Technologies) | Pacific Biosciences | Biosistemas aplicados (Life Technologies) | MGI |
Clasificación de química | Ion semiconductor secuenciación | Pirosequencing | Secuencia basada en la polimerasa por síntesis | Clasificación basada en la ligación | nucleótidos fluorescentes fosforados | Terminación de cadena Dideoxy | Secuencia basada en la polimerasa por síntesis |
Enfoque de amplificación | Emulsion PCR | Emulsion PCR | Amplificación del puente | Emulsion PCR | Molécula única; sin amplificación | PCR | Generación de nanoball (DNB) |
Producción de datos por ejecución | 100-200 Mb | 0,7 Gb | 600 Gb | 120 Gb | 0,5 - 1,0 Gb | 1.9~84 Kb | 1440 Gb / 1500-1800 M lee |
Precisión | 99% | 99,9% | 99,9% | 99,94% | 88.0% (con99.9999% CCS o HGAP) | 99,999% | 99,90% |
Hora por hora | 2 horas | 24 horas | 3 a 10 días | 7 a 14 días | 2 a 4 horas | 20 minutos - 3 horas | 3 a 5 días |
Longitud de lectura | 200-400 bp | 700 bp | 100x100 bp final pareado | 50x50 bp final pareado | 14,000 bp (N50) | 400-900 bp | 100/150/200 bp final pareado |
Costo por partida | US$350 | US$7.000 | US$6,000 (30x genoma humano) | US$4,000 | $125–300 USD | US$4 (single read/reaction) | N/A |
Costo por Mb | US$1.00 | US$10 | US$0.07 | US$0.13 | $0.13 - US$0.60 | US$2400 | $0.007 |
Costo por instrumento | 80.000 dólares | 500.000 dólares | US$690,000 | 495.000 dólares | 695.000 dólares | 95.000 dólares | N/A |
Contenido relacionado
EO Wilson
Digital
Cuerpo