Genómica funcional

Genómica funcional es un campo de la biología molecular que intenta describir las funciones e interacciones de genes (y proteínas). La genómica funcional hace uso de la gran cantidad de datos generados por proyectos genómicos y transcriptómicos (como proyectos de secuenciación del genoma y secuenciación de ARN). La genómica funcional se centra en los aspectos dinámicos como la transcripción de genes, la traducción, la regulación de la expresión génica y las interacciones proteína-proteína, a diferencia de los aspectos estáticos de la información genómica como la secuencia o las estructuras del ADN. Una característica clave de los estudios de genómica funcional es su enfoque de todo el genoma para estas cuestiones, que generalmente implica métodos de alto rendimiento en lugar de un método más tradicional de "gen candidato". acercarse.
Definición y objetivos de la genómica funcional
Para comprender la genómica funcional es importante definir primero la función. En su artículo Graur et al. Defina la función de dos maneras posibles. Estos son "efecto seleccionado" y "papel causal". El "efecto seleccionado" función se refiere a la función para la cual se selecciona un rasgo (ADN, ARN, proteína, etc.). El "papel causal" función se refiere a la función para la cual un rasgo es suficiente y necesario. La genómica funcional suele poner a prueba el "papel causal" definición de función.
El objetivo de la genómica funcional es comprender la función de los genes o las proteínas y, en última instancia, de todos los componentes de un genoma. El término genómica funcional se utiliza a menudo para referirse a los numerosos enfoques técnicos para estudiar los genes y proteínas de un organismo, incluidos los "bioquímicos, celulares, y/o propiedades fisiológicas de todos y cada uno de los productos genéticos" mientras que algunos autores incluyen en su definición el estudio de elementos nogénicos. La genómica funcional también puede incluir estudios de la variación genética a lo largo del tiempo (como el desarrollo de un organismo) o del espacio (como su regiones del cuerpo), así como alteraciones funcionales como mutaciones.
La promesa de la genómica funcional es generar y sintetizar el conocimiento genómico y proteómico para comprender las propiedades dinámicas de un organismo. Potencialmente, esto podría proporcionar una imagen más completa de cómo el genoma especifica la función en comparación con los estudios de genes individuales. La integración de datos de genómica funcional suele ser parte de los enfoques de biología de sistemas.
Técnicas y aplicaciones
La genómica funcional incluye aspectos relacionados con la función del propio genoma, como la mutación y el polimorfismo (como el análisis del polimorfismo de un solo nucleótido (SNP), así como la medición de las actividades moleculares. Estos últimos comprenden una serie de "-ómicas" como la transcriptómica (expresión genética), la proteómica (producción de proteínas) y la metabolómica. La genómica funcional utiliza principalmente técnicas multiplex para medir la abundancia de muchos o todos los productos genéticos, como ARNm o proteínas, dentro de una muestra biológica. Un enfoque de genómica funcional más centrado podría probar la función de todas las variantes de un gen y cuantificar los efectos de los mutantes mediante el uso de la secuenciación como lectura de la actividad. Juntas, estas modalidades de medición intentan cuantificar los diversos procesos biológicos y mejorar nuestra comprensión de las funciones e interacciones de genes y proteínas.
A nivel de ADN
Mapeo de interacciones genéticas
La eliminación sistemática de genes por pares o la inhibición de la expresión genética se puede utilizar para identificar genes con funciones relacionadas, incluso si no interactúan físicamente. Epistasis se refiere al hecho de que los efectos de dos genes knockout diferentes pueden no ser aditivos; es decir, el fenotipo que resulta cuando se inhiben dos genes puede ser diferente de la suma de los efectos de inhibiciones individuales.
Interacciones ADN/Proteína
Las proteínas formadas por la traducción del ARNm (ARN mensajero, una información codificada del ADN para la síntesis de proteínas) desempeñan un papel importante en la regulación de la expresión genética. Para comprender cómo regulan la expresión genética es necesario identificar las secuencias de ADN con las que interactúan. Se han desarrollado técnicas para identificar sitios de interacciones ADN-proteína. Estos incluyen secuenciación ChIP, secuenciación CUT&RUN y tarjetas telefónicas.
Ensayos de accesibilidad del ADN
Se han desarrollado ensayos para identificar regiones del genoma que son accesibles. Estas regiones de cromatina accesible son regiones reguladoras candidatas. Estos ensayos incluyen ATAC-seq, DNase-Seq y FAIRE-Seq.
A nivel de ARN
Microarrays

Los microarrays miden la cantidad de ARNm en una muestra que corresponde a un gen determinado o a una secuencia de ADN sonda. Las secuencias de la sonda se inmovilizan sobre una superficie sólida y se les permite hibridar con células "objetivo" marcadas fluorescentemente. ARNm. La intensidad de la fluorescencia de una mancha es proporcional a la cantidad de secuencia diana que se ha hibridado con esa mancha y, por tanto, a la abundancia de esa secuencia de ARNm en la muestra. Los microarrays permiten la identificación de genes candidatos involucrados en un proceso determinado basándose en la variación entre niveles de transcripción para diferentes condiciones y patrones de expresión compartidos con genes de función conocida.
SABIO
El análisis en serie de la expresión genética (SAGE) es un método alternativo de análisis basado en la secuenciación de ARN en lugar de la hibridación. SAGE se basa en la secuenciación de etiquetas de 10 a 17 pares de bases que son únicas para cada gen. Estas etiquetas se producen a partir de ARNm poli-A y se ligan de extremo a extremo antes de la secuenciación. SAGE proporciona una medición imparcial del número de transcripciones por célula, ya que no depende del conocimiento previo de qué transcripciones estudiar (como lo hacen los microarrays).
Secuenciación de ARN
La secuenciación de ARN se ha apoderado de la tecnología de microarrays y SAGE en los últimos años, como se señaló en 2016, y se ha convertido en la forma más eficiente de estudiar la transcripción y la expresión genética. Esto normalmente se hace mediante secuenciación de próxima generación.
Un subconjunto de ARN secuenciados son ARN pequeños, una clase de moléculas de ARN no codificantes que son reguladores clave del silenciamiento de genes transcripcional y postranscripcional, o silenciamiento de ARN. La secuenciación de próxima generación es la herramienta estándar de oro para el descubrimiento, la elaboración de perfiles y el análisis de expresión de ARN no codificante.
Ensayos de reporteros masivos paralelos (MPRA)
Los ensayos de reportero masivamente paralelos son una tecnología para probar la actividad reguladora cis de secuencias de ADN. Los MPRA utilizan un plásmido con un elemento regulador cis sintético aguas arriba de un promotor que impulsa un gen sintético como la proteína fluorescente verde. Una biblioteca de elementos reguladores cis generalmente se prueba utilizando MPRA; una biblioteca puede contener de cientos a miles de elementos reguladores cis. La actividad reguladora en cis de los elementos se analiza utilizando la actividad informadora aguas abajo. La actividad de todos los miembros de la biblioteca se analiza en paralelo utilizando códigos de barras para cada elemento regulador cis. Una limitación de los MPRA es que la actividad se analiza en un plásmido y es posible que no capture todos los aspectos de la regulación genética observados en el genoma.
Secuencia STARR
STARR-seq es una técnica similar a las MPRA para analizar la actividad potenciadora de fragmentos genómicos cortados aleatoriamente. En la publicación original, se colocaron fragmentos cortados aleatoriamente del genoma de Drosophila aguas abajo de un promotor mínimo. Los potenciadores candidatos entre los fragmentos cortados aleatoriamente se transcribirán utilizando el promotor mínimo. Al utilizar la secuenciación como lectura y controlar las cantidades de entrada de cada secuencia, se analiza mediante este método la fuerza de los potenciadores putativos.
Secuencia perturbadora

Perturb-seq combina la eliminación de genes mediada por CRISPR con la expresión de genes unicelulares. Se utilizan modelos lineales para calcular el efecto de la desactivación de un solo gen en la expresión de múltiples genes.
A nivel de proteínas
Sistema de dos híbridos de levadura
Un análisis de dos híbridos de levadura (Y2H) prueba un "cebo" proteína contra muchas proteínas potenciales que interactúan ("presa") para identificar interacciones físicas entre proteínas. Este sistema se basa en un factor de transcripción, originalmente GAL4, cuyos dominios separados de activación de la transcripción y de unión al ADN son necesarios para que la proteína provoque la transcripción de un gen informador. En una pantalla Y2H, el "cebo" La proteína se fusiona con el dominio de unión de GAL4 y se crea una biblioteca de "presas" (que interactúan) se expresa de forma recombinante en un vector con el dominio de activación. La interacción in vivo de las proteínas del cebo y las presas en una célula de levadura acerca los dominios de activación y unión de GAL4 lo suficientemente cerca como para dar como resultado la expresión de un gen informador. También es posible probar sistemáticamente una biblioteca de proteínas cebo frente a una biblioteca de proteínas presa para identificar todas las posibles interacciones en una célula.
MS y AP/MS
La espectrometría de masas (EM) puede identificar proteínas y sus niveles relativos, por lo que puede utilizarse para estudiar la expresión de proteínas. Cuando se utiliza en combinación con la purificación por afinidad, la espectrometría de masas (AP/MS) se puede utilizar para estudiar complejos de proteínas, es decir, qué proteínas interactúan entre sí en complejos y en qué proporciones. Para purificar los complejos proteicos se suele utilizar un "cebo" La proteína se etiqueta con una proteína o péptido específico que se puede usar para extraer el complejo de una mezcla compleja. La purificación suele realizarse utilizando un anticuerpo o un compuesto que se une a la parte de fusión. Luego, las proteínas se digieren en fragmentos peptídicos cortos y se utiliza espectrometría de masas para identificar las proteínas en función de las relaciones masa-carga de esos fragmentos.
Escaneo mutacional profundo
En el escaneo mutacional profundo, primero se sintetiza cada posible cambio de aminoácido en una proteína determinada. La actividad de cada una de estas variantes de proteínas se analiza en paralelo utilizando códigos de barras para cada variante. Al comparar la actividad con la proteína de tipo salvaje, se identifica el efecto de cada mutación. Si bien es posible analizar cada posible cambio de aminoácido debido a la combinatoria, es difícil probar dos o más mutaciones concurrentes. También se han utilizado experimentos de exploración mutacional profunda para inferir la estructura de las proteínas y las interacciones entre proteínas.
Mutagénesis y fenotipado
Una característica funcional importante de los genes es el fenotipo causado por mutaciones. Los mutantes pueden producirse mediante mutaciones aleatorias o mediante mutagénesis dirigida, incluida la mutagénesis dirigida al sitio, la eliminación de genes completos u otras técnicas.
Knock-outs (gene deletions)
La función genética se puede investigar "eliminando" genes uno por uno. Esto se hace mediante deleción o alteración de la función (como por mutagénesis por inserción) y los organismos resultantes se analizan en busca de fenotipos que proporcionen pistas sobre la función del gen alterado. Se han producido knock-outs para genomas completos, es decir, eliminando todos los genes de un genoma. Para genes esenciales esto no es posible, por lo que se utilizan otras técnicas, p. eliminar un gen mientras se expresa el gen a partir de un plásmido, utilizando un promotor inducible, de modo que el nivel del producto genético pueda cambiarse a voluntad (y así lograrse una eliminación "funcional").
Mutagénesis dirigida al sitio
La mutagénesis dirigida a un sitio se utiliza para mutar bases específicas (y, por tanto, aminoácidos). Esto es fundamental para investigar la función de aminoácidos específicos en una proteína, p. en el sitio activo de una enzima.
ARNi
Los métodos de interferencia de ARN (ARNi) se pueden utilizar para silenciar o anular transitoriamente la expresión génica utilizando ARN bicatenario de ~20 pares de bases que normalmente se administra mediante la transfección de moléculas de ARN de interferencia corta (ARNip) sintéticas de ~20 unidades o por vía viral. ARN de horquilla corta codificados (shRNA). Las pruebas de detección de ARNi, que normalmente se realizan en ensayos basados en cultivos celulares u organismos experimentales (como C. elegans), se pueden utilizar para alterar sistemáticamente casi todos los genes de un genoma o subconjuntos de genes (subgenomas); Se pueden asignar posibles funciones de genes alterados en función de los fenotipos observados.
Pantallas CRISPR

CRISPR-Cas9 se ha utilizado para eliminar genes de manera múltiple en las líneas celulares. Cuantificar la cantidad de guía-ARNs para cada gen antes y después del experimento puede apuntar hacia genes esenciales. Si un guía-RNA interrumpe un gen esencial, conducirá a la pérdida de esa célula y por lo tanto habrá un agotamiento de esa guía-RNA en particular después de la pantalla. En un reciente experimento CRISPR-cas9 en líneas celulares mamíferas, alrededor de 2000 genes fueron encontrados esenciales en múltiples líneas celulares. Algunos de estos genes eran esenciales en una sola línea celular. La mayoría de los genes son parte de complejos multiproteína. Este enfoque se puede utilizar para identificar la letalidad sintética utilizando el fondo genético apropiado. CRISPRi y CRISPRa permiten que las pantallas de pérdida de funcionamiento y ganancia de funciones sean similares. CRISPRi identificó ~2100 genes esenciales en la línea celular K562. Las pantallas de eliminación de CRISPR también se han utilizado para identificar elementos reguladores potenciales de un gen. Por ejemplo, se publicó una técnica llamada ScanDel que intentó este enfoque. Los autores eliminaron regiones fuera de un gen de interés (HPRT1 implicados en un trastorno mendeliano) en un intento de identificar elementos regulatorios de este gen. Gassperini et al. no identificaron ningún elemento regulador distal para HPRT1 utilizando este enfoque, sin embargo estos enfoques pueden extenderse a otros genes de interés.
Anotaciones funcionales para genes
Anotación del genoma
Los genes putativos se pueden identificar escaneando un genoma en busca de regiones que probablemente codifiquen proteínas, en función de características como marcos de lectura abiertos largos, secuencias de iniciación transcripcional y sitios de poliadenilación. Una secuencia identificada como un gen putativo debe ser confirmada por evidencia adicional, como similitud con secuencias de ADNc o EST del mismo organismo, similitud de la secuencia de proteína predicha con proteínas conocidas, asociación con secuencias promotoras o evidencia de que la mutación de la secuencia produce un gen. fenotipo observable.
Aproximación a la piedra Rosetta
El método del cálculo de Rosetta es un método computacional para la predicción de novo de la función de las proteínas. Se basa en la hipótesis de que algunas proteínas implicadas en un proceso fisiológico determinado pueden existir como dos genes separados en un organismo y como un solo gen en otro. Los genomas se escanean en busca de secuencias que sean independientes en un organismo y en un único marco de lectura abierto en otro. Si dos genes se han fusionado, se predice que tendrán funciones biológicas similares que hacen que dicha corregulación sea ventajosa.
Métodos bioinformáticos para genómica funcional
Debido a la gran cantidad de datos producidos por estas técnicas y al deseo de encontrar patrones biológicamente significativos, la bioinformática es crucial para el análisis de datos genómicos funcionales. Ejemplos de técnicas de esta clase son la agrupación de datos o el análisis de componentes principales para el aprendizaje automático no supervisado (detección de clases), así como las redes neuronales artificiales o máquinas de vectores de soporte para el aprendizaje automático supervisado (predicción de clases, clasificación). El análisis de enriquecimiento funcional se utiliza para determinar el grado de sobreexpresión o subexpresión (reguladores positivos o negativos en el caso de pantallas de ARNi) de categorías funcionales en relación con conjuntos de fondo. El análisis de enriquecimiento basado en ontología genética lo proporciona DAVID y el análisis de enriquecimiento de conjuntos de genes (GSEA), el análisis basado en rutas de Ingenuity and Pathway Studio y el análisis basado en complejos de proteínas de COMPLEAT.

Se han desarrollado nuevos métodos computacionales para comprender los resultados de un experimento de escaneo mutacional profundo. 'fidmos' compara el resultado de un experimento de exploración mutacional profunda con un árbol filogenético. Esto permite al usuario inferir si el proceso de selección en la naturaleza aplica restricciones similares a una proteína como lo indican los resultados del escaneo mutacional profundo. Esto puede permitir al experimentador elegir entre diferentes condiciones experimentales en función de qué tan bien reflejan la naturaleza. También se ha utilizado la exploración mutacional profunda para inferir interacciones proteína-proteína. Los autores utilizaron un modelo termodinámico para predecir los efectos de las mutaciones en diferentes partes de un dímero. La estructura mutacional profunda también se puede utilizar para inferir la estructura de las proteínas. Una fuerte epistasis positiva entre dos mutaciones en una exploración mutacional profunda puede ser indicativa de dos partes de la proteína que están cercanas entre sí en el espacio tridimensional. Esta información luego se puede utilizar para inferir la estructura de las proteínas. Dos grupos demostraron una prueba de principio de este enfoque utilizando la proteína GB1.
Los resultados de los experimentos MPRA han requerido enfoques de aprendizaje automático para interpretar los datos. Se ha utilizado un modelo SVM de k-mer con espacios para inferir los kmers que están enriquecidos dentro de secuencias reguladoras en cis con alta actividad en comparación con secuencias con menor actividad. Estos modelos proporcionan un alto poder predictivo. También se han utilizado enfoques de aprendizaje profundo y bosque aleatorio para interpretar los resultados de estos experimentos de alta dimensión. Estos modelos están empezando a ayudar a desarrollar una mejor comprensión de la función del ADN no codificante en la regulación genética.
Proyectos del consorcio centrados en Genómica Funcional
El proyecto ENCODE
El proyecto ENCODE (Encyclopedia of DNA elements) es un análisis en profundidad del genoma humano cuyo objetivo es identificar todos los elementos funcionales del ADN genómico, tanto en regiones codificantes como no codificantes. Los resultados importantes incluyen evidencia de matrices de mosaicos genómicos de que la mayoría de los nucleótidos se transcriben como transcripciones codificantes, ARN no codificantes o transcripciones aleatorias, el descubrimiento de sitios reguladores transcripcionales adicionales y una mayor aclaración de los mecanismos de modificación de la cromatina.
El proyecto Genotipo-Expresión Tisular (GTEx)

El proyecto GTEx es un proyecto de genética humana cuyo objetivo es comprender el papel de la variación genética en la configuración de la variación del transcriptoma en los tejidos. El proyecto ha recolectado una variedad de muestras de tejido (> 50 tejidos diferentes) de más de 700 donantes post mortem. Esto ha dado como resultado la recolección de>11.000 muestras. GTEx ha ayudado a comprender el intercambio de tejidos y la especificidad de los tejidos de los eQTL. El recurso genómico se desarrolló para "enriquecer nuestra comprensión de cómo las diferencias en nuestra secuencia de ADN contribuyen a la salud y la enfermedad".