Genómica

Compartir Imprimir Citar

La genómica es un campo interdisciplinario de la biología que se enfoca en la estructura, función, evolución, mapeo y edición de genomas. Un genoma es el conjunto completo de ADN de un organismo, incluidos todos sus genes, así como su configuración estructural tridimensional jerárquica. A diferencia de la genética, que se refiere al estudio de genes individuales y sus funciones en la herencia, la genómica tiene como objetivo la caracterización y cuantificación colectiva de todos los genes de un organismo, sus interrelaciones e influencia en el organismo.Los genes pueden dirigir la producción de proteínas con la ayuda de enzimas y moléculas mensajeras. A su vez, las proteínas forman estructuras corporales como órganos y tejidos, además de controlar las reacciones químicas y llevar señales entre las células. La genómica también implica la secuenciación y el análisis de genomas mediante el uso de bioinformática y secuenciación de ADN de alto rendimiento para ensamblar y analizar la función y la estructura de genomas completos. Los avances en genómica han desencadenado una revolución en la investigación basada en descubrimientos y la biología de sistemas para facilitar la comprensión incluso de los sistemas biológicos más complejos, como el cerebro.

El campo también incluye estudios de fenómenos intragenómicos (dentro del genoma) como epistasis (efecto de un gen sobre otro), pleiotropía (un gen que afecta a más de un rasgo), heterosis (vigor híbrido) y otras interacciones entre loci y alelos dentro de el genoma

Historia

Etimología

Del griego ΓΕΝ gen, "gen" (gamma, epsilon, nu, epsilon) que significa "llegar a ser, crear, creación, nacimiento", y variantes posteriores: genealogía, génesis, genética, gen, genoma, genotipo, género, etc. Mientras que el La palabra genoma (del alemán Genom, atribuida a Hans Winkler) estaba en uso en inglés ya en 1926, el término genómica fue acuñado por Tom Roderick, un genetista del Laboratorio Jackson (Bar Harbor, Maine), mientras tomaba una cerveza en una reunión. celebrada en Maryland sobre el mapeo del genoma humano en 1986.

Esfuerzos de secuenciación temprana

Después de la confirmación de Rosalind Franklin de la estructura helicoidal del ADN, la publicación de la estructura del ADN por parte de James D. Watson y Francis Crick en 1953 y la publicación de la secuencia de aminoácidos de la insulina por parte de Fred Sanger en 1955, la secuenciación de ácidos nucleicos se convirtió en un objetivo importante de las primeras investigaciones moleculares. biólogos En 1964, Robert W. Holley y sus colegas publicaron la primera secuencia de ácido nucleico jamás determinada, la secuencia de ribonucleótidos del ARN de transferencia de alanina. Ampliando este trabajo, Marshall Nirenberg y Philip Leder revelaron la naturaleza triplete del código genético y pudieron determinar las secuencias de 54 de los 64 codones en sus experimentos.En 1972, Walter Fiers y su equipo del Laboratorio de Biología Molecular de la Universidad de Ghent (Ghent, Bélgica) fueron los primeros en determinar la secuencia de un gen: el gen de la proteína de cubierta del bacteriófago MS2. El grupo de Fiers amplió su trabajo con la proteína de cubierta MS2, determinando la secuencia de nucleótidos completa del bacteriófago MS2-RNA (cuyo genoma codifica solo cuatro genes en 3569 pares de bases [pb]) y el virus Simian 40 en 1976 y 1978, respectivamente.

Tecnología de secuenciación de ADN desarrollada

Además de su trabajo seminal sobre la secuencia de aminoácidos de la insulina, Frederick Sanger y sus colegas jugaron un papel clave en el desarrollo de técnicas de secuenciación de ADN que permitieron el establecimiento de proyectos integrales de secuenciación del genoma. En 1975, él y Alan Coulson publicaron un procedimiento de secuenciación utilizando ADN polimerasa con nucleótidos radiomarcados que denominó técnica Plus and Minus.Esto involucró dos métodos estrechamente relacionados que generaron oligonucleótidos cortos con extremos 3' definidos. Estos podrían fraccionarse mediante electroforesis en un gel de poliacrilamida (llamada electroforesis en gel de poliacrilamida) y visualizarse mediante autorradiografía. El procedimiento podía secuenciar hasta 80 nucleótidos de una sola vez y supuso una gran mejora, pero seguía siendo muy laborioso. Sin embargo, en 1977 su grupo fue capaz de secuenciar la mayoría de los 5.386 nucleótidos del bacteriófago monocatenario φX174, completando el primer genoma completamente secuenciado basado en ADN. El refinamiento del Más y el MenosEl método resultó en la terminación de la cadena, o método de Sanger (ver más abajo), que formó la base de las técnicas de secuenciación de ADN, mapeo del genoma, almacenamiento de datos y análisis bioinformático más utilizadas en el siguiente cuarto de siglo de investigación. En el mismo año, Walter Gilbert y Allan Maxam de la Universidad de Harvard desarrollaron de forma independiente el método Maxam-Gilbert (también conocido como método químico) de secuenciación del ADN, que implica la escisión preferencial del ADN en bases conocidas, un método menos eficiente. Por su innovador trabajo en la secuenciación de ácidos nucleicos, Gilbert y Sanger compartieron la mitad del Premio Nobel de química de 1980 con Paul Berg (ADN recombinante).

Genomas completos

El advenimiento de estas tecnologías resultó en una rápida intensificación del alcance y la velocidad de finalización de los proyectos de secuenciación del genoma. La primera secuencia completa del genoma de un orgánulo eucariota, la mitocondria humana (16 568 pb, alrededor de 16,6 kb [kilobase]), se informó en 1981, y los primeros genomas de cloroplastos siguieron en 1986. En 1992, el primer cromosoma eucariota, el cromosoma III de Se secuenció la levadura de cerveza Saccharomyces cerevisiae (315 kb). El primer organismo de vida libre que se secuenció fue el de Haemophilus influenzae (1,8 Mb [megabase]) en 1995.Al año siguiente, un consorcio de investigadores de laboratorios de América del Norte, Europa y Japón anunció la finalización de la primera secuencia completa del genoma de un eucariota, S. cerevisiae (12,1 Mb), y desde entonces los genomas se han seguido secuenciando a un ritmo exponencialmente creciente. ritmo. A partir de octubre de 2011, las secuencias completas están disponibles para: 2719 virus, 1115 arqueas y bacterias, y 36 eucariotas, de los cuales aproximadamente la mitad son hongos.

La mayoría de los microorganismos cuyos genomas han sido completamente secuenciados son patógenos problemáticos, como Haemophilus influenzae, lo que ha resultado en un sesgo pronunciado en su distribución filogenética en comparación con la amplitud de la diversidad microbiana. De las otras especies secuenciadas, la mayoría fueron elegidas porque eran organismos modelo bien estudiados o prometían convertirse en buenos modelos. La levadura (Saccharomyces cerevisiae) ha sido durante mucho tiempo un organismo modelo importante para la célula eucariota, mientras que la mosca de la fruta Drosophila melanogaster ha sido una herramienta muy importante (sobre todo en la genética premolecular temprana). El gusano Caenorhabditis elegans es un modelo simple de uso frecuente para organismos multicelulares. el pez cebraBrachydanio rerio se utiliza para muchos estudios de desarrollo a nivel molecular, y la planta Arabidopsis thaliana es un organismo modelo para las plantas con flores. El pez globo japonés (Takifugu rubripes) y el pez globo verde manchado (Tetraodon nigroviridis) son interesantes debido a sus genomas pequeños y compactos, que contienen muy poco ADN no codificante en comparación con la mayoría de las especies. Los mamíferos perro (Canis familiaris), rata marrón (Rattus norvegicus), ratón (Mus musculus) y chimpancé (Pan troglodytes) son animales modelo importantes en la investigación médica.

El Proyecto Genoma Humano completó un borrador del genoma humano a principios de 2001, creando mucha fanfarria. Este proyecto, completado en 2003, secuenció el genoma completo de una persona específica, y en 2007 esta secuencia se declaró "terminada" (menos de un error en 20.000 bases y todos los cromosomas ensamblados). En los años transcurridos desde entonces, se han secuenciado los genomas de muchos otros individuos, en parte bajo los auspicios del Proyecto 1000 Genomas, que anunció la secuenciación de 1092 genomas en octubre de 2012. La finalización de este proyecto fue posible gracias al desarrollo de mucho más tecnologías de secuenciación eficientes y requirió el compromiso de importantes recursos bioinformáticos de una gran colaboración internacional.El análisis continuo de los datos genómicos humanos tiene profundas repercusiones políticas y sociales para las sociedades humanas.

La revolución "ómica"

El neologismo en inglés omics se refiere informalmente a un campo de estudio de la biología que termina en -ómica, como la genómica, la proteómica o la metabolómica. El sufijo relacionado -oma se utiliza para referirse a los objetos de estudio de dichos campos, como el genoma, el proteoma o el metaboloma, respectivamente. El sufijo -oma, tal como se usa en biología molecular, se refiere a una totalidad de algún tipo; De manera similar, la ómica ha llegado a referirse generalmente al estudio de conjuntos de datos biológicos grandes y completos. Si bien el crecimiento en el uso del término ha llevado a algunos científicos (Jonathan Eisen, entre otros) a afirmar que se ha sobrevendido,refleja el cambio de orientación hacia el análisis cuantitativo de la variedad completa o casi completa de todos los constituyentes de un sistema. En el estudio de la simbiosis, por ejemplo, los investigadores que alguna vez se limitaron al estudio de un solo producto génico ahora pueden comparar simultáneamente el complemento total de varios tipos de moléculas biológicas.

Análisis del genoma

Una vez que se ha seleccionado un organismo, los proyectos del genoma involucran tres componentes: la secuenciación del ADN, el ensamblaje de esa secuencia para crear una representación del cromosoma original y la anotación y el análisis de esa representación.

Secuenciación

Históricamente, la secuenciación se realizaba en centros de secuenciación, instalaciones centralizadas (que van desde grandes instituciones independientes, como el Instituto Conjunto del Genoma, que secuencia docenas de terabases al año, hasta instalaciones centrales locales de biología molecular) que contienen laboratorios de investigación con la instrumentación costosa y el soporte técnico necesario. Sin embargo, a medida que la tecnología de secuenciación continúa mejorando, una nueva generación de secuenciadores de sobremesa efectivos y de respuesta rápida ha llegado al alcance del laboratorio académico promedio. En general, los enfoques de secuenciación del genoma se dividen en dos categorías amplias, secuenciación aleatoria y de alto rendimiento (o de próxima generación).

Secuencia de escopeta

La secuenciación de escopeta es un método de secuenciación diseñado para el análisis de secuencias de ADN de más de 1000 pares de bases, hasta cromosomas completos incluidos. Se nombra por analogía con el patrón de disparo casi aleatorio de rápida expansión de una escopeta. Dado que la secuenciación por electroforesis en gel solo se puede usar para secuencias bastante cortas (100 a 1000 pares de bases), las secuencias de ADN más largas deben dividirse en pequeños segmentos aleatorios que luego se secuencian para obtener lecturas. Se obtienen múltiples lecturas superpuestas para el ADN objetivo realizando varias rondas de esta fragmentación y secuenciación. Luego, los programas de computadora usan los extremos superpuestos de diferentes lecturas para ensamblarlos en una secuencia continua. La secuenciación de escopeta es un proceso de muestreo aleatorio, que requiere un muestreo excesivo para garantizar que un nucleótido dado esté representado en la secuencia reconstruida; el número medio de lecturas por las que se sobremuestrea un genoma se denomina cobertura.

Durante gran parte de su historia, la tecnología subyacente a la secuenciación de escopeta fue el método clásico de terminación de cadena o "método de Sanger", que se basa en la incorporación selectiva de didesoxinucleótidos de terminación de cadena por la ADN polimerasa durante la replicación in vitro del ADN. Recientemente, la secuenciación automática ha sido reemplazada por métodos de secuenciación de alto rendimiento, especialmente para análisis de genoma automatizados a gran escala. Sin embargo, el método de Sanger sigue siendo de uso generalizado, principalmente para proyectos de menor escala y para obtener lecturas de secuencias de ADN contiguas especialmente largas (>500 nucleótidos).Los métodos de terminación de cadena requieren una plantilla de ADN monocatenario, un cebador de ADN, una polimerasa de ADN, desoxinucleósidotrifosfatos normales (dNTP) y nucleótidos modificados (didesoxiNTP) que terminan el alargamiento de la cadena de ADN. Estos nucleótidos que terminan la cadena carecen de un grupo 3'-OH necesario para la formación de un enlace fosfodiéster entre dos nucleótidos, lo que provoca que la ADN polimerasa detenga la extensión del ADN cuando se incorpora un ddNTP. Los ddNTP pueden marcarse de forma radiactiva o fluorescente para su detección en secuenciadores de ADN. Por lo general, estas máquinas pueden secuenciar hasta 96 muestras de ADN en un solo lote (corrida) en hasta 48 corridas por día.

Secuenciación de alto rendimiento

La gran demanda de secuenciación de bajo costo ha impulsado el desarrollo de tecnologías de secuenciación de alto rendimiento que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias a la vez. La secuenciación de alto rendimiento pretende reducir el costo de la secuenciación de ADN más allá de lo que es posible con los métodos estándar de terminación de colorante. En la secuenciación de ultra alto rendimiento, se pueden ejecutar en paralelo hasta 500 000 operaciones de secuenciación por síntesis.

El método de secuenciación de colorantes de Illumina se basa en terminadores de colorantes reversibles y fue desarrollado en 1996 en el Instituto de Investigación Biomédica de Ginebra por Pascal Mayer [fr] y Laurent Farinelli.En este método, las moléculas de ADN y los cebadores se unen primero en un portaobjetos y se amplifican con polimerasa para que se formen colonias clonales locales, inicialmente denominadas "colonias de ADN". Para determinar la secuencia, se añaden cuatro tipos de bases terminadoras reversibles (bases RT) y se eliminan por lavado los nucleótidos no incorporados. A diferencia de la pirosecuenciación, las cadenas de ADN se extienden un nucleótido a la vez y la adquisición de imágenes se puede realizar en un momento retrasado, lo que permite capturar conjuntos muy grandes de colonias de ADN mediante imágenes secuenciales tomadas desde una sola cámara. El desacoplamiento de la reacción enzimática y la captura de imágenes permite un rendimiento óptimo y una capacidad de secuenciación teóricamente ilimitada; con una configuración óptima, el rendimiento final del instrumento depende únicamente de la tasa de conversión A/D de la cámara.

Un enfoque alternativo, la secuenciación de semiconductores de iones, se basa en la química estándar de replicación del ADN. Esta tecnología mide la liberación de un ion de hidrógeno cada vez que se incorpora una base. Un micropocillo que contiene ADN plantilla se inunda con un solo nucleótido, si el nucleótido es complementario a la hebra plantilla, se incorporará y se liberará un ion de hidrógeno. Esta liberación activa un sensor de iones ISFET. Si un homopolímero está presente en la secuencia molde, se incorporarán múltiples nucleótidos en un solo ciclo de inundación y la señal eléctrica detectada será proporcionalmente mayor.

Asamblea

El ensamblaje de secuencias se refiere a alinear y fusionar fragmentos de una secuencia de ADN mucho más larga para reconstruir la secuencia original. Esto es necesario ya que la tecnología actual de secuenciación de ADN no puede leer genomas completos como una secuencia continua, sino que lee pequeños fragmentos de entre 20 y 1000 bases, según la tecnología utilizada. Las tecnologías de secuenciación de tercera generación, como PacBio o Oxford Nanopore, generan rutinariamente lecturas de secuenciación de más de 10 kb de longitud; sin embargo, tienen una alta tasa de error de aproximadamente el 15 por ciento. Por lo general, los fragmentos cortos, llamados lecturas, resultan de la secuenciación rápida del ADN genómico o transcripciones de genes (EST).

Enfoques de montaje

El ensamblaje se puede clasificar en términos generales en dos enfoques: ensamblaje de novo, para genomas que no son similares a ninguno secuenciado en el pasado, y ensamblaje comparativo, que utiliza la secuencia existente de un organismo estrechamente relacionado como referencia durante el ensamblaje. En relación con el ensamblaje comparativo, el ensamblaje de novo es computacionalmente difícil (NP-difícil), lo que lo hace menos favorable para las tecnologías NGS de lectura corta. Dentro de la de novoEn el paradigma de ensamblaje, existen dos estrategias principales para el ensamblaje, las estrategias de ruta euleriana y las estrategias de consenso de diseño superpuesto (OLC). Las estrategias OLC en última instancia intentan crear un camino hamiltoniano a través de un gráfico de superposición que es un problema NP-difícil. Las estrategias de ruta euleriana son computacionalmente más manejables porque intentan encontrar una ruta euleriana a través de un gráfico de deBruijn.

Refinamiento

Los genomas terminados se definen como aquellos que tienen una única secuencia contigua sin ambigüedades que representen cada replicón.

Anotación

El ensamblaje de la secuencia de ADN por sí solo tiene poco valor sin un análisis adicional. La anotación del genoma es el proceso de adjuntar información biológica a las secuencias y consta de tres pasos principales:

  1. identificar porciones del genoma que no codifican para proteínas
  2. identificar elementos en el genoma, un proceso llamado predicción de genes, y
  3. adjuntando información biológica a estos elementos.

Las herramientas de anotación automática intentan realizar estos pasos in silico, a diferencia de la anotación manual (también conocida como curación), que implica la experiencia humana y una posible verificación experimental. Idealmente, estos enfoques coexisten y se complementan entre sí en la misma canalización de anotaciones (ver también a continuación).

Tradicionalmente, el nivel básico de anotación es usar BLAST para encontrar similitudes y luego anotar genomas basados ​​en homólogos. Más recientemente, se agrega información adicional a la plataforma de anotación. La información adicional permite a los anotadores manuales resolver las discrepancias entre los genes que reciben la misma anotación. Algunas bases de datos utilizan información del contexto del genoma, puntajes de similitud, datos experimentales e integraciones de otros recursos para proporcionar anotaciones del genoma a través de su enfoque de subsistemas. Otras bases de datos (p. ej., Ensembl) se basan tanto en fuentes de datos seleccionadas como en una variedad de herramientas de software en su tubería de anotación genómica automatizada. La anotación estructural consiste en la identificación de elementos genómicos, principalmente ORFs y su localización, o estructura génica. La anotación funcional consiste en adjuntar información biológica a elementos genómicos.

Secuenciación de canalizaciones y bases de datos

La necesidad de reproducibilidad y gestión eficiente de la gran cantidad de datos asociados con los proyectos de genoma significa que las canalizaciones computacionales tienen importantes aplicaciones en genómica.

Áreas de investigación

Genómica funcional

La genómica funcional es un campo de la biología molecular que intenta hacer uso de la gran cantidad de datos producidos por proyectos genómicos (como los proyectos de secuenciación del genoma) para describir funciones e interacciones de genes (y proteínas). La genómica funcional se centra en los aspectos dinámicos, como la transcripción de genes, la traducción y las interacciones proteína-proteína, a diferencia de los aspectos estáticos de la información genómica, como la secuencia o las estructuras del ADN. La genómica funcional intenta responder preguntas sobre la función del ADN a nivel de genes, transcritos de ARN y productos proteicos. Una característica clave de los estudios de genómica funcional es su enfoque de genoma completo para estas preguntas, que generalmente involucra métodos de alto rendimiento en lugar de un enfoque más tradicional "gen por gen".

Una rama importante de la genómica todavía se ocupa de la secuenciación de los genomas de varios organismos, pero el conocimiento de los genomas completos ha creado la posibilidad para el campo de la genómica funcional, que se ocupa principalmente de los patrones de expresión génica en diversas condiciones. Las herramientas más importantes aquí son los microarrays y la bioinformática.

Genómica estructural

La genómica estructural busca describir la estructura tridimensional de cada proteína codificada por un genoma dado.Este enfoque basado en el genoma permite un método de alto rendimiento para la determinación de la estructura mediante una combinación de enfoques experimentales y de modelado. La principal diferencia entre la genómica estructural y la predicción estructural tradicional es que la genómica estructural intenta determinar la estructura de cada proteína codificada por el genoma, en lugar de centrarse en una proteína en particular. Con las secuencias del genoma completo disponibles, la predicción de la estructura se puede hacer más rápidamente a través de una combinación de enfoques experimentales y de modelado, especialmente porque la disponibilidad de un gran número de genomas secuenciados y estructuras de proteínas previamente resueltas permite a los científicos modelar la estructura de la proteína en las estructuras de los previamente resueltos. homólogos. La genómica estructural implica la adopción de un gran número de enfoques para la determinación de la estructura, incluidos los métodos experimentales que utilizan secuencias genómicas o enfoques basados ​​en modelos basados ​​en la secuencia o la homología estructural con una proteína de estructura conocida o basados ​​en principios químicos y físicos para una proteína sin homología con ninguna estructura conocida. A diferencia de la biología estructural tradicional, la determinación de la estructura de una proteína a través de un esfuerzo de genómica estructural a menudo (pero no siempre) llega antes de que se sepa nada sobre la función de la proteína. Esto plantea nuevos retos en bioinformática estructural, es decir, determinar la función de la proteína a partir de su estructura 3D. A diferencia de la biología estructural tradicional, la determinación de la estructura de una proteína a través de un esfuerzo de genómica estructural a menudo (pero no siempre) llega antes de que se sepa nada sobre la función de la proteína. Esto plantea nuevos retos en bioinformática estructural, es decir, determinar la función de la proteína a partir de su estructura 3D. A diferencia de la biología estructural tradicional, la determinación de la estructura de una proteína a través de un esfuerzo de genómica estructural a menudo (pero no siempre) llega antes de que se sepa nada sobre la función de la proteína. Esto plantea nuevos retos en bioinformática estructural, es decir, determinar la función de la proteína a partir de su estructura 3D.

Epigenómica

La epigenómica es el estudio del conjunto completo de modificaciones epigenéticas sobre el material genético de una célula, conocido como epigenoma. Las modificaciones epigenéticas son modificaciones reversibles en el ADN o las histonas de una célula que afectan la expresión génica sin alterar la secuencia del ADN (Russell 2010 p. 475). Dos de las modificaciones epigenéticas más caracterizadas son la metilación del ADN y la modificación de histonas. Las modificaciones epigenéticas juegan un papel importante en la expresión y regulación génica, y están implicadas en numerosos procesos celulares como la diferenciación/desarrollo y la tumorigénesis. El estudio de la epigenética a nivel global ha sido posible recientemente gracias a la adaptación de ensayos genómicos de alto rendimiento.

Metagenómica

La metagenómica es el estudio de los metagenomas, material genético recuperado directamente de muestras ambientales. El amplio campo también puede denominarse genómica ambiental, ecogenómica o genómica comunitaria. Mientras que la microbiología tradicional y la secuenciación del genoma microbiano se basan en cultivos clonales cultivados, la secuenciación genética ambiental temprana clonó genes específicos (a menudo el gen 16S rRNA) para producir un perfil de diversidad en una muestra natural. Dicho trabajo reveló que la gran mayoría de la biodiversidad microbiana se había perdido con los métodos basados ​​en el cultivo. Estudios recientes utilizan la secuenciación "escopeta" de Sanger o la pirosecuenciación paralela masiva para obtener muestras en gran medida imparciales de todos los genes de todos los miembros de las comunidades muestreadas.Debido a su poder para revelar la diversidad previamente oculta de la vida microscópica, la metagenómica ofrece una lente poderosa para ver el mundo microbiano que tiene el potencial de revolucionar la comprensión de todo el mundo vivo.

Sistemas modelo

Virus y bacteriófagos

Los bacteriófagos han jugado y continúan jugando un papel clave en la genética bacteriana y la biología molecular. Históricamente, se utilizaron para definir la estructura y la regulación de los genes. Además, el primer genoma que se secuenció fue un bacteriófago. Sin embargo, la investigación de bacteriófagos no lideró la revolución genómica, que está claramente dominada por la genómica bacteriana. Solo muy recientemente se ha vuelto prominente el estudio de los genomas de bacteriófagos, lo que permite a los investigadores comprender los mecanismos subyacentes a la evolución de los fagos. Las secuencias del genoma del bacteriófago se pueden obtener mediante la secuenciación directa de bacteriófagos aislados, pero también se pueden derivar como parte de los genomas microbianos. El análisis de los genomas bacterianos ha demostrado que una cantidad sustancial de ADN microbiano consiste en secuencias de profagos y elementos similares a profagos.Una base de datos detallada de estas secuencias ofrece información sobre el papel de los profagos en la configuración del genoma bacteriano: en general, este método verificó muchos grupos de bacteriófagos conocidos, lo que lo convierte en una herramienta útil para predecir las relaciones de los profagos con los genomas bacterianos.

Cianobacterias

En la actualidad hay 24 cianobacterias para las que se dispone de una secuencia genómica total. 15 de estas cianobacterias proceden del medio marino. Se trata de seis cepas de Prochlorococcus, siete cepas marinas de Synechococcus, Trichodesmium erythraeum IMS101 y Crocosphaera watsonii WH8501. Varios estudios han demostrado cómo estas secuencias podrían usarse con mucho éxito para inferir importantes características ecológicas y fisiológicas de las cianobacterias marinas. Sin embargo, hay muchos más proyectos de genoma actualmente en curso, entre los que hay más aislamientos de Prochlorococcus y Synechococcus marino, Acaryochloris y Prochloron., las cianobacterias filamentosas fijadoras de N 2 Nodularia spumigena, Lyngbya aestuarii y Lyngbya majuscula, así como los bacteriófagos que infectan a las cianobacterias marinas. Por lo tanto, el creciente cuerpo de información sobre el genoma también se puede aprovechar de una manera más general para abordar problemas globales mediante la aplicación de un enfoque comparativo. Algunos ejemplos nuevos y emocionantes de progreso en este campo son la identificación de genes para ARN reguladores, la comprensión del origen evolutivo de la fotosíntesis o la estimación de la contribución de la transferencia horizontal de genes a los genomas que se han analizado.

Aplicaciones de la genómica

La genómica ha proporcionado aplicaciones en muchos campos, incluida la medicina, la biotecnología, la antropología y otras ciencias sociales.

Medicina genómica

Las tecnologías genómicas de próxima generación permiten a los médicos e investigadores biomédicos aumentar drásticamente la cantidad de datos genómicos recopilados en grandes poblaciones de estudio. Cuando se combina con nuevos enfoques informáticos que integran muchos tipos de datos con datos genómicos en la investigación de enfermedades, esto permite a los investigadores comprender mejor las bases genéticas de la respuesta a los medicamentos y la enfermedad. Los primeros esfuerzos para aplicar el genoma a la medicina incluyeron los de un equipo de Stanford dirigido por Euan Ashley, quien desarrolló las primeras herramientas para la interpretación médica de un genoma humano.El programa de investigación Genomes2People en Brigham and Women's Hospital, Broad Institute y Harvard Medical School se estableció en 2012 para realizar investigaciones empíricas sobre la traducción de la genómica en salud. El Brigham and Women's Hospital abrió una clínica de genómica preventiva en agosto de 2019, y el Hospital General de Massachusetts la siguió un mes después. El programa de investigación All of Us tiene como objetivo recopilar datos de secuencias del genoma de 1 millón de participantes para convertirse en un componente fundamental de la plataforma de investigación de medicina de precisión.

Biología sintética y bioingeniería

El crecimiento del conocimiento genómico ha permitido aplicaciones cada vez más sofisticadas de la biología sintética. En 2010, investigadores del Instituto J. Craig Venter anunciaron la creación de una especie de bacteria parcialmente sintética, Mycoplasma laboratorium, derivada del genoma de Mycoplasma genitalium.

Genómica de poblaciones y conservación

La genómica de poblaciones se ha convertido en un campo de investigación popular, donde los métodos de secuenciación genómica se utilizan para realizar comparaciones a gran escala de secuencias de ADN entre poblaciones, más allá de los límites de los marcadores genéticos, como los productos de PCR de corto alcance o los microsatélites que se utilizan tradicionalmente en la genética de poblaciones. La genómica de poblaciones estudia los efectos en todo el genoma para mejorar nuestra comprensión de la microevolución para que podamos aprender la historia filogenética y la demografía de una población. Los métodos de genómica de poblaciones se utilizan en muchos campos diferentes, como la biología evolutiva, la ecología, la biogeografía, la biología de la conservación y la gestión pesquera. Del mismo modo, la genómica del paisajese ha desarrollado a partir de la genética del paisaje para utilizar métodos genómicos para identificar relaciones entre patrones de variación ambiental y genética.

Los conservacionistas pueden usar la información recopilada por la secuenciación genómica para evaluar mejor los factores genéticos clave para la conservación de especies, como la diversidad genética de una población o si un individuo es heterocigoto para un trastorno genético hereditario recesivo. Mediante el uso de datos genómicos para evaluar los efectos de los procesos evolutivos y detectar patrones de variación en una población determinada, los conservacionistas pueden formular planes para ayudar a una especie determinada sin que queden tantas variables desconocidas como las que no se abordan mediante enfoques genéticos estándar.