Transcriptoma
El transcriptoma es el conjunto de todos los transcritos de ARN, incluidos los codificantes y no codificantes, en un individuo o una población de células. A veces, el término también se puede utilizar para referirse a todos los ARN, o solo al ARNm, según el experimento en particular. El término transcriptoma es un acrónimo de las palabras transcripción y genoma; está asociado con el proceso de producción de transcripción durante el proceso biológico de transcripción.
Las primeras etapas de las anotaciones de transcriptomas comenzaron con las bibliotecas de ADNc publicadas en la década de 1980. Posteriormente, la llegada de la tecnología de alto rendimiento condujo a formas más rápidas y eficientes de obtener datos sobre el transcriptoma. Se utilizan dos técnicas biológicas para estudiar el transcriptoma, a saber, microarrays de ADN, una técnica basada en la hibridación, y RNA-seq, un enfoque basado en secuencias. RNA-seq es el método preferido y ha sido la técnica transcriptómica dominante desde la década de 2010. La transcriptómica unicelular permite el seguimiento de los cambios de transcripción a lo largo del tiempo dentro de células individuales.
Los datos obtenidos del transcriptoma se utilizan en investigaciones para comprender mejor procesos como la diferenciación celular, la carcinogénesis, la regulación de la transcripción y el descubrimiento de biomarcadores, entre otros. Los datos obtenidos del transcriptoma también encuentran aplicaciones para establecer relaciones filogenéticas durante el proceso de evolución y en la fertilización in vitro. El transcriptoma está estrechamente relacionado con otros campos de estudio biológicos basados en algunos; es complementario al proteoma y al metaboloma y abarca el translatoma, el exoma, el meioma y el tanatotranscriptoma, que pueden verse como algunos campos que estudian tipos específicos de transcripciones de ARN. Existen relaciones cuantificables y conservadas entre el transcriptoma y otros -omas, y los datos de transcriptómica se pueden utilizar de forma eficaz para predecir otras especies moleculares, como los metabolitos. Existen numerosas bases de datos de transcriptomas disponibles públicamente.
Etimología e historia
La palabra transcriptoma es una combinación de las palabras transcripción y genoma. Apareció junto con otros neologismos formados utilizando los sufijos -ome y -omics para denotar todos los estudios realizados a escala de todo el genoma en los campos de las ciencias biológicas y la tecnología. Como tal, transcriptoma y transcriptómica fueron una de las primeras palabras que surgieron junto con genoma y proteoma. El primer estudio que presentó un caso de una colección de una biblioteca de ADNc para el ARNm de la polilla de la seda se publicó en 1979. El primer estudio fundamental que mencionó e investigó el transcriptoma de un organismo se publicó en 1997 y describió 60.633 transcripciones expresadas en . S. cerevisiae mediante análisis seriados de expresión génica (SAGE). Con el auge de las tecnologías de alto rendimiento y la bioinformática y el consiguiente aumento de la potencia computacional, se volvió cada vez más eficiente y fácil caracterizar y analizar enormes cantidades de datos. Los intentos de caracterizar el transcriptoma se hicieron más prominentes con la llegada de la secuenciación automatizada de ADN durante la década de 1980. Durante la década de 1990, la secuenciación de etiquetas de secuencia expresada se utilizó para identificar genes y sus fragmentos. A esto le siguieron técnicas como el análisis en serie de la expresión génica (SAGE), el análisis cap de la expresión génica (CAGE) y la secuenciación masiva de firmas paralelas (MPSS).
Transcripción
El transcriptoma abarca todas las transcripciones de ácido ribonucleico (ARN) presentes en un determinado organismo o muestra experimental. El ARN es el principal portador de información genética responsable del proceso de conversión del ADN en el fenotipo de un organismo. Un gen puede dar lugar a un ARN mensajero monocatenario (ARNm) mediante un proceso molecular conocido como transcripción; este ARNm es complementario a la cadena de ADN de la que se originó. La enzima ARN polimerasa II se une a la cadena de ADN plantilla y cataliza la adición de ribonucleótidos a la cadena 3' final de la secuencia creciente de la transcripción de ARNm.
Para iniciar su función, la ARN polimerasa II necesita reconocer una secuencia promotora, ubicada aguas arriba (5') del gen. En eucariotas, este proceso está mediado por factores de transcripción, en particular el factor de transcripción II D (TFIID), que reconoce la caja TATA y ayuda a posicionar la ARN polimerasa en el sitio de inicio apropiado. Para finalizar la producción del transcrito de ARN, la terminación suele tener lugar a varios cientos de nucleótidos de la secuencia de terminación y tiene lugar la escisión. Este proceso ocurre en el núcleo de una célula junto con el procesamiento del ARN mediante el cual las moléculas de ARNm se cubren, se empalman y se poliadenilan para aumentar su estabilidad antes de ser llevadas posteriormente al citoplasma. El ARNm da lugar a proteínas mediante el proceso de traducción que tiene lugar en los ribosomas.
Tipos de transcripciones de ARN
Casi todas las transcripciones funcionales se derivan de genes conocidos. Las únicas excepciones son una pequeña cantidad de transcripciones que podrían desempeñar un papel directo en la regulación de la expresión genética cerca de los indicadores de genes conocidos. (Ver ARN potenciador).
Los genes ocupan la mayor parte de los genomas procarióticos, por lo que la mayoría de sus genomas se transcriben. Muchos genomas eucariotas son muy grandes y los genes conocidos pueden ocupar sólo una fracción del genoma. En los mamíferos, por ejemplo, los genes conocidos sólo representan entre el 40 y el 50% del genoma. Sin embargo, las transcripciones identificadas a menudo se asignan a una fracción mucho mayor del genoma, lo que sugiere que el transcriptoma contiene transcripciones espurias que no provienen de genes. Se sabe que algunos de estos transcriptos no son funcionales porque se asignan a pseudogenes transcritos o transposones y virus degenerativos. Otros se asignan a regiones no identificadas del genoma que pueden ser ADN basura.
La transcripción espuria es muy común en eucariotas, especialmente aquellos con genomas grandes que pueden contener una gran cantidad de ADN basura. Algunos científicos afirman que si una transcripción no ha sido asignada a un gen conocido, entonces la suposición predeterminada debe ser que se trata de ARN basura hasta que se demuestre que es funcional. Esto significaría que gran parte del transcriptoma en especies con genomas grandes probablemente sea ARN basura. (Ver ARN no codificante)
El transcriptoma incluye las transcripciones de genes codificantes de proteínas (ARNm más intrones), así como las transcripciones de genes no codificantes (ARN funcionales más intrones).
- RNA/RNA ribosomal: Normalmente el ARN más abundante en el transcriptoma.
- RNA/LncRNA: Trascripciones de ARN no codificación que tienen más de 200 nucleótidos de largo. Los miembros de este grupo comprenden la mayor fracción de la transcripción no codificación que no sea introns. No se sabe cuántos de estas transcripciones son funcionales y cuántos son RNA basura.
- RNA/tRNA
- micro ARN/miRNA: 19-24 nucleótidos (nt) de largo. Micro ARNs altos o desregulados niveles de expresión de mRNAs por el proceso de interferencia del ARN en el nivel post-transcripción.
- RNA/siRNA: 20-24 nt
- nucleolar RNA/snoRNA
- RNA/piRNA: 24-31 nt. Interaccionan con las proteínas de Piwi de la familia Argonaute y tienen una función en la selección y liberación de transposones.
- potenciador RNA/eRNA:
Ámbito de estudio
En el genoma humano, todos los genes se transcriben en ARN porque así es como se define el gen molecular. (Ver Gen.) El transcriptoma consta de regiones codificantes de ARNm más UTR no codificantes, intrones, ARN no codificantes y transcripciones espurias no funcionales.
Varios factores hacen que el contenido del transcriptoma sea difícil de establecer. Estos incluyen empalme alternativo, edición de ARN y transcripción alternativa, entre otros. Además, las técnicas de transcriptoma son capaces de capturar la transcripción que ocurre en una muestra en un momento específico, aunque el contenido del transcriptoma puede cambiar durante la diferenciación. Los principales objetivos de la transcriptómica son los siguientes: catalogar todas las especies de transcritos, incluidos los ARNm, los ARN no codificantes y los ARN pequeños; determinar la estructura transcripcional de genes, en términos de sus sitios de inicio, extremos 5' y 3', patrones de empalme y otras modificaciones postranscripcionales; y cuantificar los niveles de expresión cambiantes de cada transcripción durante el desarrollo y en diferentes condiciones".
El término se puede aplicar al conjunto total de transcripciones en un organismo determinado, o al subconjunto específico de transcripciones presentes en un tipo de célula particular. A diferencia del genoma, que está fijado de forma aproximada para una línea celular determinada (excluyendo las mutaciones), el transcriptoma puede variar según las condiciones ambientales externas. Debido a que incluye todas las transcripciones de ARNm de la célula, el transcriptoma refleja los genes que se expresan activamente en un momento dado, con la excepción de los fenómenos de degradación del ARNm, como la atenuación transcripcional. El estudio de la transcriptómica (que incluye perfiles de expresión, análisis de variantes de empalme, etc.), examina el nivel de expresión de los ARN en una población celular determinada, a menudo centrándose en el ARNm, pero a veces incluye otros como los ARNt y los ARNs.
Métodos de construcción
La transcriptómica es la ciencia cuantitativa que abarca la asignación de una lista de cadenas ("lecturas") al objeto ("transcripciones" en el genoma). Para calcular la fuerza de la expresión se cuenta la densidad de lecturas correspondientes a cada objeto. Inicialmente, los transcriptomas se analizaron y estudiaron utilizando bibliotecas de etiquetas de secuencia expresadas y análisis de expresión génica en serie y de límite (SAGE).
Actualmente, las dos técnicas transcriptómicas principales incluyen microarrays de ADN y RNA-Seq. Ambas técnicas requieren el aislamiento del ARN mediante técnicas de extracción de ARN, seguido de su separación de otros componentes celulares y enriquecimiento del ARNm.
Existen dos métodos generales para inferir secuencias de transcriptomas. Un enfoque asigna lecturas de secuencia a un genoma de referencia, ya sea del propio organismo (cuyo transcriptoma se está estudiando) o de una especie estrechamente relacionada. El otro enfoque, el ensamblaje del transcriptoma de novo, utiliza software para inferir transcripciones directamente a partir de lecturas de secuencias cortas y se utiliza en organismos con genomas que no están secuenciados.
Microarrays de ADN

Los primeros estudios del transcriptoma se basaron en técnicas de microarrays (también conocidos como chips de ADN). Los microarrays consisten en finas capas de vidrio con puntos en los que se colocan oligonucleótidos, conocidos como "sondas" están dispuestos; cada punto contiene una secuencia de ADN conocida.
Al realizar análisis de microarrays, el ARNm se recolecta de una muestra de control y una experimental, esta última suele ser representativa de una enfermedad. El ARN de interés se convierte en ADNc para aumentar su estabilidad y se marca con fluoróforos de dos colores, normalmente verde y rojo, para los dos grupos. El ADNc se extiende sobre la superficie del microarray donde se hibrida con los oligonucleótidos del chip y se utiliza un láser para escanear. La intensidad de fluorescencia en cada punto del microarray corresponde al nivel de expresión genética y, según el color de los fluoróforos seleccionados, se puede determinar cuál de las muestras exhibe niveles más altos del ARNm de interés.
Un microarray normalmente contiene suficientes oligonucleótidos para representar todos los genes conocidos; sin embargo, los datos obtenidos mediante microarrays no proporcionan información sobre genes desconocidos. Durante la década de 2010, los microarrays fueron reemplazados casi por completo por técnicas de próxima generación que se basan en la secuenciación del ADN.
Secuenciación de ARN
La secuenciación de ARN es una tecnología de secuenciación de próxima generación; como tal, sólo requiere una pequeña cantidad de ARN y ningún conocimiento previo del genoma. Permite el análisis tanto cualitativo como cuantitativo de transcripciones de ARN; el primero permite el descubrimiento de nuevas transcripciones y el segundo una medida de cantidades relativas de transcripciones en una muestra.
Los tres pasos principales de la secuenciación de transcriptomas de cualquier muestra biológica incluyen la purificación del ARN, la síntesis de una biblioteca de ARN o ADNc y la secuenciación de la biblioteca. El proceso de purificación de ARN es diferente para ARN cortos y largos. Este paso suele ir seguido de una evaluación de la calidad del ARN, con el fin de evitar contaminantes como el ADN o contaminantes técnicos relacionados con el procesamiento de muestras. La calidad del ARN se mide mediante espectrometría UV con un pico de absorbancia de 260 nm. La integridad del ARN también se puede analizar cuantitativamente comparando la proporción y la intensidad del ARN 28S con el ARN 18S informadas en la puntuación del Número de integridad del ARN (RIN). Dado que el ARNm es la especie de interés y representa sólo el 3% de su contenido total, la muestra de ARN debe tratarse para eliminar los transcritos de ARNr, ARNt y ARN específicos de tejido.
El paso de preparación de la biblioteca con el objetivo de producir fragmentos cortos de ADNc, comienza con la fragmentación del ARN para transcritos con una longitud de entre 50 y 300 pares de bases. La fragmentación puede ser enzimática (ARN endonucleasas), química (tampón de sal de trismagnesio, hidrólisis química) o mecánica (sonicación, nebulización). La transcripción inversa se utiliza para convertir las plantillas de ARN en ADNc y se pueden utilizar tres métodos de cebado para lograrlo, incluido oligo-DT, utilizando cebadores aleatorios o ligando oligos adaptadores especiales.
Transcriptómica unicelular
La transcripción también se puede estudiar a nivel de células individuales mediante transcriptómica unicelular. La secuenciación de ARN unicelular (scRNA-seq) es una técnica desarrollada recientemente que permite el análisis del transcriptoma de células individuales, incluidas las bacterias. Con la transcriptómica unicelular, también se tienen en cuenta subpoblaciones de tipos de células que constituyen el tejido de interés. Este enfoque permite identificar si los cambios en muestras experimentales se deben a cambios celulares fenotípicos y no a proliferación, con lo que un tipo celular específico podría sobreexpresarse en la muestra. Además, al evaluar la progresión celular a través de la diferenciación, los perfiles de expresión promedio solo pueden ordenar las células por tiempo en lugar de por etapa de desarrollo y, en consecuencia, no pueden mostrar tendencias en los niveles de expresión genética específicos de ciertas etapas. Se han utilizado técnicas transcriptómicas unicelulares para caracterizar poblaciones de células raras, como células tumorales circulantes, células madre cancerosas en tumores sólidos y células madre embrionarias (ESC) en blastocistos de mamíferos.
Aunque no existen técnicas estandarizadas para la transcriptómica unicelular, es necesario realizar varios pasos. El primer paso incluye el aislamiento celular, que se puede realizar mediante técnicas de bajo y alto rendimiento. A esto le sigue un paso de qPCR y luego RNAseq unicelular donde el ARN de interés se convierte en ADNc. Los avances más recientes en transcriptómica unicelular permiten la preservación de la localización subcelular y tisular mediante la criosección de cortes finos de tejido y la secuenciación del transcriptoma en cada corte. Otra técnica permite la visualización de transcripciones individuales bajo un microscopio preservando al mismo tiempo la información espacial de cada célula individual donde se expresan.
Análisis
Se han construido y anotado varias bases de datos de transcriptomas específicas de organismos para ayudar en la identificación de genes que se expresan diferencialmente en distintas poblaciones de células.
RNA-seq está surgiendo (2013) como el método de elección para medir los transcriptomas de organismos, aunque todavía se utiliza la técnica más antigua de microarrays de ADN. RNA-seq mide la transcripción de un gen específico convirtiendo ARN largos en una biblioteca de fragmentos de ADNc. Luego, los fragmentos de ADNc se secuencian utilizando tecnología de secuenciación de alto rendimiento y se alinean con un genoma o transcriptoma de referencia que luego se utiliza para crear un perfil de expresión de los genes.
Aplicaciones
Mamíferos
Los transcriptomas de células madre y células cancerosas son de particular interés para los investigadores que buscan comprender los procesos de diferenciación celular y carcinogénesis. Se puede utilizar una tubería que utiliza RNA-seq o datos de matriz de genes para rastrear los cambios genéticos que ocurren en las células madre y precursoras y requiere al menos tres datos de expresión genética independientes del tipo de célula anterior y de las células maduras.
El análisis de los transcriptomas de ovocitos y embriones humanos se utiliza para comprender los mecanismos moleculares y las vías de señalización que controlan el desarrollo embrionario temprano y, en teoría, podría ser una herramienta poderosa para realizar una selección adecuada de embriones en la fertilización in vitro. Los análisis del contenido del transcriptoma de la placenta en el primer trimestre del embarazo en fertilización in vitro y transferencia de embriones (IVT-ET) revelaron diferencias en la expresión genética que se asocian con una mayor frecuencia de resultados perinatales adversos. Esta información se puede utilizar para optimizar la práctica. Los análisis del transcriptoma también se pueden utilizar para optimizar la criopreservación de ovocitos, al reducir las lesiones asociadas con el proceso.
La transcriptómica es un campo emergente y en continuo crecimiento en el descubrimiento de biomarcadores para su uso en la evaluación de la seguridad de los medicamentos o la evaluación de riesgos químicos.
Los transcriptomas también se pueden utilizar para inferir relaciones filogenéticas entre individuos o para detectar patrones evolutivos de conservación del transcriptoma.
Se utilizaron análisis de transcriptomas para descubrir la incidencia de la transcripción antisentido, su papel en la expresión genética a través de la interacción con genes circundantes y su abundancia en diferentes cromosomas. RNA-seq también se utilizó para mostrar cómo las isoformas de ARN, transcripciones que provienen del mismo gen pero con estructuras diferentes, pueden producir fenotipos complejos a partir de genomas limitados.
Plantas
El análisis del transcriptoma se ha utilizado para estudiar la evolución y el proceso de diversificación de especies de plantas. En 2014 se completó el Proyecto 1000 Genomas de Plantas en el que se secuenciaron los transcriptomas de 1.124 especies de plantas de las familias viridiplantae, glaucophyta y rhodophyta. Posteriormente se compararon las secuencias codificantes de proteínas para inferir relaciones filogenéticas entre plantas y caracterizar el momento de su diversificación en el proceso de evolución. Se han utilizado estudios de transcriptoma para caracterizar y cuantificar la expresión genética en polen maduro. Se descubrió que los genes implicados en el metabolismo de la pared celular y el citoesqueleto estaban sobreexpresados. Los enfoques de transcriptoma también permitieron rastrear cambios en la expresión genética a través de diferentes etapas de desarrollo del polen, desde microsporas hasta granos de polen maduros; Además, dichas etapas podrían compararse entre especies de diferentes plantas, incluidas Arabidopsis, arroz y tabaco.
Relación con otros campos

Al igual que otras tecnologías basadas en -ome, el análisis del transcriptoma permite un enfoque imparcial al validar hipótesis experimentalmente. Este enfoque también permite el descubrimiento de nuevos mediadores en las vías de señalización. Al igual que con otras tecnologías basadas en -ómicas, el transcriptoma se puede analizar dentro del alcance de un enfoque multiómico. Es complementario a la metabolómica pero, a diferencia de la proteómica, no se puede establecer una asociación directa entre una transcripción y un metabolito.
Hay varios campos que pueden verse como subcategorías del transcriptoma. El exoma se diferencia del transcriptoma en que incluye sólo aquellas moléculas de ARN que se encuentran en una población celular específica y, por lo general, incluye la cantidad o concentración de cada molécula de ARN además de las identidades moleculares. Además, el transcriptoma también se diferencia del translatoma, que es el conjunto de ARN en proceso de traducción.
El término meioma se utiliza en genómica funcional para describir el transcriptoma meiótico o el conjunto de transcripciones de ARN producidas durante el proceso de meiosis. La meiosis es una característica clave de los eucariotas que se reproducen sexualmente e implica el emparejamiento de cromosomas homólogos, sinapsis y recombinación. Dado que la meiosis en la mayoría de los organismos ocurre en un corto período de tiempo, la elaboración de perfiles de transcripción meiótica es difícil debido al desafío que supone el aislamiento (o enriquecimiento) de las células meióticas (meiocitos). Al igual que con los análisis del transcriptoma, el meioma se puede estudiar a nivel de todo el genoma utilizando técnicas transcriptómicas a gran escala. El meioma se ha caracterizado bien en sistemas de mamíferos y levaduras y de manera algo menos extensa en plantas.
El tanatotranscriptoma consta de todas las transcripciones de ARN que continúan expresándose o que comienzan a reexpresarse en los órganos internos de un cadáver entre 24 y 48 horas después de la muerte. Algunos genes incluyen aquellos que se inhiben después del desarrollo fetal. Si el tanatotranscriptoma está relacionado con el proceso de muerte celular programada (apoptosis), se le puede denominar tanatotranscriptoma apoptótico. Los análisis del tanatotranscriptoma se utilizan en medicina forense.
La cartografía eQTL se puede utilizar para complementar la genómica con transcripcionómica; variantes genéticas a nivel de ADN y medidas de expresión genética a nivel de ARN.
Relación con proteoma
El transcriptoma se puede ver como un subconjunto del proteoma, es decir, todo el conjunto de proteínas expresadas por un genoma.
Sin embargo, el análisis de niveles relativos de expresión mRNA puede ser complicado por el hecho de que cambios relativamente pequeños en la expresión mRNA pueden producir grandes cambios en la cantidad total de la proteína correspondiente presente en la célula. Un método de análisis, conocido como análisis de enriquecimiento de conjuntos de genes, identifica redes de genes coregulados en lugar de genes individuales que están regulados en diferentes poblaciones celulares.
Aunque los estudios de microarrays pueden revelar las cantidades relativas de diferentes ARNm en la célula, los niveles de ARNm no son directamente proporcionales al nivel de expresión de las proteínas que codifican. El número de moléculas de proteína sintetizadas utilizando una molécula de ARNm determinada como plantilla depende en gran medida de las características de inicio de la traducción de la secuencia de ARNm; en particular, la capacidad de la secuencia de inicio de la traducción es un determinante clave en el reclutamiento de ribosomas para la traducción de proteínas.
Bases de datos de Transcripción
- Ensembl: [2]
- OmicTools: [3]
- Transcripción Navegador: [4]
- ArrayExpress: [5]