Micromatriz de ADN

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Colección de microscópicos manchas de ADN adheridas a una superficie sólida

Cómo utilizar un microarray para el genotipado. El video muestra el proceso de extracción de genotipos de una muestra de escupe humano utilizando microarrayos. El genotipado es un uso importante de las microarrayas de ADN, pero con algunas modificaciones también se pueden utilizar para otros fines tales como la medición de la expresión del gen y los marcadores epigenéticos.

Un microarreglo de ADN (también conocido comúnmente como chip de ADN o biochip) es una colección de puntos microscópicos de ADN adheridos a una superficie sólida. Los científicos usan micromatrices de ADN para medir los niveles de expresión de un gran número de genes simultáneamente o para genotipar múltiples regiones de un genoma. Cada mancha de ADN contiene picomoles (10⁻¹² moles) de una secuencia de ADN específica, conocida como sondas (o reporteros u oligos). Estos pueden ser una sección corta de un gen u otro elemento de ADN que se utiliza para hibridar una muestra de ADNc o ARNc (también llamado ARN antisentido) (llamada objetivo) en condiciones de alta rigurosidad. La hibridación de sonda-objetivo generalmente se detecta y cuantifica mediante la detección de objetivos marcados con fluoróforo, plata o quimioluminiscencia para determinar la abundancia relativa de secuencias de ácido nucleico en el objetivo. Las matrices originales de ácidos nucleicos eran macromatrices de aproximadamente 9 cm × 12 cm y el primer análisis computarizado basado en imágenes se publicó en 1981. Fue inventado por Patrick O. Brown. Un ejemplo de su aplicación es en arreglos de SNPs para polimorfismos en enfermedades cardiovasculares, cáncer, patógenos y análisis GWAS. También se utiliza para la identificación de variaciones estructurales y la medición de la expresión génica.

Principio

Híbridación del objetivo a la sonda

El principio central detrás de los microarreglos es la hibridación entre dos cadenas de ADN, la propiedad de las secuencias de ácido nucleico complementarias para emparejarse específicamente entre sí mediante la formación de enlaces de hidrógeno entre pares de bases de nucleótidos complementarios. Un alto número de pares de bases complementarias en una secuencia de nucleótidos significa un enlace no covalente más estrecho entre las dos hebras. Después de lavar las secuencias de unión no específicas, solo las hebras fuertemente emparejadas permanecerán hibridadas. Las secuencias diana marcadas con fluorescencia que se unen a una secuencia de sonda generan una señal que depende de las condiciones de hibridación (como la temperatura) y del lavado después de la hibridación. La fuerza total de la señal, desde un punto (característica), depende de la cantidad de muestra objetivo que se une a las sondas presentes en ese punto. Los microarreglos utilizan la cuantificación relativa en la que la intensidad de una característica se compara con la intensidad de la misma característica en condiciones diferentes, y la identidad de la característica se conoce por su posición.

Los pasos requeridos en un experimento de microarray

Usos y tipos

Dos chips Affymetrix. Un partido se muestra en la parte inferior izquierda para comparación de tamaño.

Existen muchos tipos de arreglos y la distinción más amplia es si están dispuestos espacialmente en una superficie o en cuentas codificadas:

La tradicional matriz de fase sólida es una colección de "spots" microscópicas ordenadas, llamadas características, cada una con miles de sondas idénticas y específicas conectadas a una superficie sólida, como vidrio, plástico o biochip de silicio (conocido comúnmente como un chip de genoma, chip de ADN o gene array). Miles de estas características se pueden colocar en lugares conocidos en un solo microarray de ADN.
La matriz de cuentas alternativa es una colección de cuentas microscópicas de poliestireno, cada una con una sonda específica y una relación de dos o más tintes, que no interfieren con los tintes fluorescentes utilizados en la secuencia de destino.

Las micromatrices de ADN se pueden usar para detectar ADN (como en la hibridación genómica comparativa) o detectar ARN (más comúnmente como ADNc después de la transcripción inversa) que puede traducirse o no en proteínas. El proceso de medir la expresión génica a través del ADNc se denomina análisis de expresión o perfilado de expresión.

Las aplicaciones incluyen:

Aplicación o tecnología	Sinopsis
Perfil de expresión genética	En un experimento de perfiles de expresión mRNA o gen, los niveles de expresión de miles de genes se supervisan simultáneamente para estudiar los efectos de ciertos tratamientos, enfermedades y etapas de desarrollo en la expresión genética. Por ejemplo, la elaboración de perfiles de expresión de genes basados en microarray puede utilizarse para identificar genes cuya expresión se cambia en respuesta a patógenos u otros organismos comparando la expresión de genes en infectados con la de células o tejidos no infectados.
Hibridación genómica comparada	Evaluación del contenido del genoma en diferentes células o organismos estrechamente relacionados, como lo describió originalmente Patrick Brown, Jonathan Pollack, Ash Alizadeh y colegas de Stanford.
GeneID	Microarrayas pequeñas para comprobar identificaciones de organismos en alimentos y piensos (como GMO [1]), micoplasmas en la cultura celular o patógenos para la detección de enfermedades, combinando principalmente la tecnología PCR y microarray.
Inmunoprecipitación de cromatina en Chip	Las secuencias de ADN ligadas a una proteína particular pueden ser aisladas por inmunoprecipitating que la proteína (ChIP), estos fragmentos pueden ser entonces híbridos a un microarray (como una matriz de nivelación) permitiendo la determinación de la ocupación del sitio de unión de proteínas en todo el genoma. Las proteínas de ejemplo para inmunoprecipitar son modificaciones de piedra (H3K27me3, H3K4me2, H3K9me3, etc.), proteína de grupo de policomb (PRC2:Suz12, PRC1:YY1) y proteína de grupo trithorax (Ash1) para estudiar el paisaje epigenético o Polimerasa RNA II para estudiar el paisaje de transcripción.
DamID	Análogamente a la CIP, las regiones genómicas ligadas por una proteína de interés pueden ser aisladas y utilizadas para sondear un microarray para determinar la ocupación del sitio vinculante. A diferencia del ChIP, DamID no requiere anticuerpos, pero hace uso de la metilación adenina cerca de los sitios de unión de la proteína para amplificar selectivamente esas regiones, introducidas expresando cantidades minúsculas de proteína de interés fusionadas con el ADN bacteriano adenina metiltransferasa.
Detección de SNP	Identificar el polimorfismo nucleótido único entre alelos dentro o entre poblaciones. Varias aplicaciones de microarrays hacen uso de la detección de SNP, incluyendo genotipado, análisis forenses, medición de predisposición a la enfermedad, identificación de fármacos candidatos, evaluación de mutaciones de línea germinal en individuos o mutaciones somáticas en cánceres, evaluación de la pérdida de heterocigosidad o análisis de vinculación genética.
Detección de espolvos alternativos	An exon junction array diseño utiliza sondas específicas para los sitios de empalmes esperados o potenciales de exones predichos para un gen. Es de densidad intermedia, o cobertura, a un array de expresión gen típico (con 1–3 sondas por gen) y una matriz de nivel genómico (con cientos o miles de sondas por gen). Se utiliza para ensayar la expresión de formas alternativas de empalme de un gen. Los arrays exon tienen un diseño diferente, empleando sondas diseñadas para detectar cada exón individual para genes conocidos o predichos, y se pueden utilizar para detectar diferentes isoformas de espiga.
Microarray de genes de fusión	Un microarray gen Fusion puede detectar transcripciones de fusión, Por ejemplo. de especímenes de cáncer. El principio detrás de esto se basa en las microarrayas de esparcimiento alternativo. La estrategia de diseño oligo permite mediciones combinadas de uniones de transcripción chimérica con mediciones exon-wise de socios de fusión individuales.
Tiling array	Los arrays de azulejos genomas consisten en sondas superpuestas diseñadas para representar densamente una región genómica de interés, a veces tan grande como un cromosoma humano entero. El propósito es detectar empíricamente la expresión de las transcripciones o formas esculpidas alternativamente que no hayan sido previamente conocidas o predichas.
Microarrayos B-DNA dobles	Las microarrayas B-DNA de doble tirada derecha se pueden utilizar para caracterizar fármacos y biológicos novedosos que se pueden emplear para vincular regiones específicas de ADN inmovilizado, intacto y doble. Este enfoque se puede utilizar para inhibir la expresión génica. También permiten caracterizar su estructura en diferentes condiciones ambientales.
Microarrayos Z-DNA dobles	Se pueden utilizar microarrayos Z-DNA de doble tirada izquierda para identificar secuencias cortas de la estructura alternativa Z-DNA situada dentro de tramos más largos de genes B-DNA de mano derecha (por ejemplo, mejora transcripcional, recombinación, edición RNA). Las microarrayas también permiten caracterizar su estructura bajo diferentes condiciones ambientales.
Microarrayos de ADN polifacéticos (microarrayos triplex-DNA y microarrayos cuadruplex-DNA)	Se pueden utilizar microarrayos de ADN y ARN múltiples para identificar fármacos novedosos que se unen a estas secuencias de ácidos nucleicos polifacéticos. Este enfoque se puede utilizar para descubrir nuevos fármacos y biológicos que tienen la capacidad de inhibir la expresión génica. Estas microarrayas también permiten caracterizar su estructura bajo diferentes condiciones ambientales.

Las matrices especializadas adaptadas a cultivos particulares se están volviendo cada vez más populares en las aplicaciones de mejoramiento molecular. En el futuro, podrían usarse para seleccionar plántulas en etapas tempranas para reducir la cantidad de plántulas innecesarias probadas en operaciones de mejoramiento.

Fabricación

Los microarreglos se pueden fabricar de diferentes maneras, según la cantidad de sondas que se examinen, los costos, los requisitos de personalización y el tipo de pregunta científica que se plantee. Los arreglos de proveedores comerciales pueden tener tan solo 10 sondas o hasta 5 millones o más de sondas de escala micrométrica.

Arreglos sintetizados in situ o vistos

Un microarray de ADN que es impreso por un robot en la Universidad de Delaware

Los micromatrices se pueden fabricar utilizando una variedad de tecnologías, incluida la impresión con alfileres de punta fina en portaobjetos de vidrio, fotolitografía con máscaras prefabricadas, fotolitografía con dispositivos de microespejos dinámicos, impresión por inyección de tinta o electroquímica en matrices de microelectrodos.

En los microarrays de puntos, las sondas son oligonucleótidos, ADNc o pequeños fragmentos de productos de PCR que corresponden a ARNm. Las sondas se sintetizan antes de depositarlas en la superficie de la matriz y luego se "spotean" sobre vidrio. Un enfoque común utiliza una matriz de alfileres o agujas finas controladas por un brazo robótico que se sumerge en pozos que contienen sondas de ADN y luego deposita cada sonda en ubicaciones designadas en la superficie de la matriz. La "cuadrícula" resultante de sondas representa los perfiles de ácido nucleico de las sondas preparadas y está listo para recibir cDNA o cRNA "objetivos" derivados de muestras experimentales o clínicas. Esta técnica es utilizada por científicos investigadores de todo el mundo para producir "internamente" microarreglos impresos en sus propios laboratorios. Estas matrices se pueden personalizar fácilmente para cada experimento, ya que los investigadores pueden elegir las sondas y las ubicaciones de impresión en las matrices, sintetizar las sondas en su propio laboratorio (o centro colaborador) y detectar las matrices. Luego pueden generar sus propias muestras etiquetadas para la hibridación, hibridar las muestras con la matriz y, finalmente, escanear las matrices con su propio equipo. Esto proporciona un microarreglo de costo relativamente bajo que se puede personalizar para cada estudio y evita los costos de comprar arreglos comerciales a menudo más costosos que pueden representar una gran cantidad de genes que no son de interés para el investigador. Existen publicaciones que indican que es posible que los microarreglos de puntos internos no proporcionen el mismo nivel de sensibilidad en comparación con los arreglos de oligonucleótidos comerciales, posiblemente debido a los tamaños de lote pequeños y a las eficiencias de impresión reducidas en comparación con los arreglos de oligonucleótidos fabricados industrialmente.

En microarreglos de oligonucleótidos, las sondas son secuencias cortas diseñadas para coincidir con partes de la secuencia de marcos de lectura abiertos conocidos o previstos. Aunque las sondas de oligonucleótidos se utilizan a menudo en "spotted" microarrays, el término "matriz de oligonucleótidos" más a menudo se refiere a una técnica específica de fabricación. Las matrices de oligonucleótidos se producen imprimiendo secuencias de oligonucleótidos cortas diseñadas para representar un solo gen o una familia de variantes de empalme de genes sintetizando esta secuencia directamente en la superficie de la matriz en lugar de depositar secuencias intactas. Las secuencias pueden ser más largas (sondas de 60 mer como el diseño de Agilent) o más cortas (sondas de 25 mer producidas por Affymetrix) según el propósito deseado; las sondas más largas son más específicas para los genes diana individuales, las sondas más cortas pueden detectarse con mayor densidad en toda la matriz y son más económicas de fabricar. Una técnica utilizada para producir matrices de oligonucleótidos incluye la síntesis fotolitográfica (Affymetrix) sobre un sustrato de sílice donde se utilizan agentes de enmascaramiento sensibles a la luz y la luz para "construir" una secuencia de un nucleótido a la vez en toda la matriz. Cada sonda aplicable se "desenmascara" de forma selectiva. antes de bañar la matriz en una solución de un solo nucleótido, se lleva a cabo una reacción de enmascaramiento y se desenmascara el siguiente conjunto de sondas en preparación para una exposición de nucleótido diferente. Después de muchas repeticiones, las secuencias de cada sonda se construyen por completo. Más recientemente, Maskless Array Synthesis de NimbleGen Systems ha combinado flexibilidad con un gran número de sondas.

Detección de dos canales frente a uno

Diagrama del experimento típico de microarrayo de doble color

Los

microarreglos de dos colores o microarreglos de dos canales suelen hibridarse con ADNc preparado a partir de dos muestras para comparar (por ejemplo, tejido enfermo versus tejido sano) y que se etiquetan con dos fluoróforos diferentes. Los tintes fluorescentes comúnmente utilizados para el etiquetado de cDNA incluyen Cy3, que tiene una longitud de onda de emisión de fluorescencia de 570 nm (que corresponde a la parte verde del espectro de luz), y Cy5 con una longitud de onda de emisión de fluorescencia de 670 nm (que corresponde a la parte roja de la luz). espectro). Las dos muestras de ADNc marcadas con Cy se mezclan y se hibridan en una sola micromatriz que luego se escanea en un escáner de micromatrices para visualizar la fluorescencia de los dos fluoróforos después de la excitación con un rayo láser de una longitud de onda definida. A continuación, las intensidades relativas de cada fluoróforo se pueden usar en un análisis basado en proporciones para identificar genes regulados al alza y a la baja.

Las micromatrices de oligonucleótidos suelen llevar sondas de control diseñadas para hibridarse con complementos de ARN. El grado de hibridación entre los complementos y las sondas de control se usa para normalizar las mediciones de hibridación para las sondas objetivo. Aunque los niveles absolutos de expresión génica pueden determinarse en la matriz de dos colores en raras ocasiones, las diferencias relativas en la expresión entre diferentes puntos dentro de una muestra y entre muestras es el método preferido de análisis de datos para el sistema de dos colores. Entre los ejemplos de proveedores de dichos microarreglos se incluyen Agilent con su plataforma Dual-Mode, Eppendorf con su plataforma DualChip para el etiquetado colorimétrico Silverquant y TeleChem International con Arrayit.

En microarreglos de un solo canal o microarreglos de un solo color, los arreglos brindan datos de intensidad para cada sonda o conjunto de sondas que indican un nivel relativo de hibridación con el objetivo marcado. Sin embargo, no indican realmente los niveles de abundancia de un gen, sino la abundancia relativa en comparación con otras muestras o condiciones cuando se procesan en el mismo experimento. Cada molécula de ARN encuentra un sesgo específico del protocolo y del lote durante las fases de amplificación, etiquetado e hibridación del experimento, lo que hace que las comparaciones entre genes para el mismo microarreglo no sean informativas. La comparación de dos condiciones para el mismo gen requiere dos hibridaciones separadas de un solo colorante. Varios sistemas populares de un solo canal son Affymetrix "Gene Chip", Illumina "Bead Chip", arreglos de un solo canal de Agilent, Applied Microarrays "CodeLink" matrices, y Eppendorf "DualChip & Silverquant". Una fortaleza del sistema de un solo tinte radica en el hecho de que una muestra aberrante no puede afectar los datos sin procesar derivados de otras muestras, porque cada chip de matriz está expuesto a solo una muestra (a diferencia de un sistema de dos colores en el que un solo bajo). -la calidad de la muestra puede afectar drásticamente la precisión general de los datos, incluso si la otra muestra fuera de alta calidad). Otro beneficio es que los datos se comparan más fácilmente con matrices de diferentes experimentos, siempre que se hayan tenido en cuenta los efectos por lotes.

Un microarray de canal puede ser la única opción en algunas situaciones. Suppose $i$ las muestras deben ser comparadas: entonces el número de experimentos requeridos usando los dos arrays de canales rápidamente se vuelve inviable, a menos que una muestra se utilice como referencia.

Número de muestras	microarrayo de un canal	dos canales de microarray	dos canales de microarray (con referencia)
1	1	1	1
2	2	1	1
3	3	3	2
4	4	6	3
$i$	$i$	${displaystyle i(i-1)/2}$	$i-1$

Un protocolo típico

Ejemplos de niveles de aplicación de microarrays. Dentro de los organismos, los genes se transcriben y se espílan para producir transcripciones mRNA maduras (rojo). El mRNA se extrae del organismo y la transcriptasa inversa se utiliza para copiar el mRNA en ds-cDNA estable (azul). En microarrays, el ds-cDNA está fragmentado y fluorescentemente etiquetado (orange). Los fragmentos etiquetados se unen a un conjunto ordenado de oligonucleótidos complementarios, y la medición de intensidad fluorescente en todo el array indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias suelen ser elegidas específicamente para informar sobre genes de interés dentro del genoma del organismo.

Este es un ejemplo de un experimento de microarrays de ADN que incluye detalles de un caso particular para explicar mejor los experimentos de microarrays de ADN, al tiempo que enumera las modificaciones para el ARN u otros experimentos alternativos.

Las dos muestras que deben compararse (comparación de pares) se cultivan o se adquieren. En este ejemplo, muestra tratada (caso) y muestra no tratada (control).
El ácido nucleico del interés se purifica: esto puede ser ARN para la profilación de la expresión, ADN para la hibridación comparativa, o ADN/RNA ligado a una proteína particular que es inmunoprecipitada (ChIP-on-chip) para estudios epigenéticos o de regulación. En este ejemplo, el ARN total está aislado (tanto nuclear como citoplasmático) por Guanidinium thiocyanate-phenol-cloroform extraction (por ejemplo, Trizol) que aísla la mayoría del ARN (cuando los métodos de columna tienen un corte de 200 nucleótidos) y si se hace correctamente tiene una mejor pureza.
El ARN purificado se analiza por calidad (por electroforesis capilar) y cantidad (por ejemplo, mediante un espectrómetro NanoDrop o NanoPhotometer). Si el material es de calidad aceptable y la cantidad suficiente está presente (por ejemplo, >1μg, aunque la cantidad necesaria varía según la plataforma de microarray), el experimento puede continuar.
El producto etiquetado se genera mediante transcripción inversa y seguida de una amplificación PCR opcional. El ARN es reverso transcribido con cualquiera de las cartillas de politización (que amplifican solamente mRNA) o de las imprimaciones aleatorias (que amplifican todos los ARN, la mayoría de los cuales es rRNA). # Los microarrayos ARN ligan un oligonucleótido al ARN pequeño purificado (aislado con un fraccionador), que luego se transcribe y amplifica.
- La etiqueta se añade durante el paso de transcripción inversa, o después de la amplificación si se realiza. El etiquetado sensorial depende de la microarray; por ejemplo, si la etiqueta se añade con la mezcla RT, el cDNA es antisense y la sonda de microarray es sentido, excepto en el caso de controles negativos.
- La etiqueta es típicamente fluorescente; sólo una máquina utiliza etiquetas de radio.
- El etiquetado puede ser directo (no utilizado) o indirecto (requiere una etapa de acoplamiento). Para los arrays de dos canales, la etapa de acoplamiento ocurre antes de la hibridación, utilizando aminoal uridine triphosphate (aminoallyl-UTP, o aaUTP) y NHS amino-reactive dyes (como los tintes cianinos); para los arrays de un solo canal, la etapa de acoplamiento se produce después de la hibridación, utilizando biotina y streptavidina etiquetada. Los nucleótidos modificados (generalmente en una relación de 1 aaUTP: 4 TTP (trifosfato timidinano)) se añaden enzimáticamente en una baja proporción a los nucleótidos normales, que normalmente resultan en 1 cada 60 bases. El aaDNA se purifica con una columna (utilizando una solución de búfer fosfato, ya que Tris contiene grupos de amina). El grupo aminoal es un grupo de amina en un enlace largo unido a la nucleobase, que reacciona con un tinte reactiva.
  - Una forma de réplica conocida como un tinte se puede realizar para controlar los artefactos de tinte en experimentos de dos canales; para un tinte, se utiliza una segunda diapositiva, con las etiquetas intercambiadas (la muestra que fue etiquetada con Cy3 en la primera diapositiva se etiqueta con Cy5, y viceversa). En este ejemplo, aminoallyl-UTP está presente en la mezcla reversa.
Las muestras etiquetadas se mezclan con una solución patentada de hibridación que puede consistir en SDS, SSC, sulfato de dextran, un agente bloqueador (como ADN de Cot-1, ADN de esperma salmón, ADN de timo de becerro, PolyA o PolyT), solución de Denhardt o formamina.
La mezcla está denaturizada y agregada a los agujeros del microarray. Los agujeros están sellados y el microarray híbrido, ya sea en un horno de hidra, donde el microarray se mezcla por rotación, o en un mezclador, donde el microarray se mezcla por presión alterna en los agujeros.
Después de una hibridación de la noche a la mañana, toda unión no específica se lava (SDS y SSC).
El microarray es secado y escaneado por una máquina que utiliza un láser para excitar el tinte y mide los niveles de emisión con un detector.
La imagen se recubre con una plantilla y se cuantifican las intensidades de cada característica (compuestas por varios píxeles).
Los datos brutos se normalizan; el método de normalización más simple es restar intensidad y escala de fondo para que las intensidades totales de las características de los dos canales sean iguales, o utilizar la intensidad de un gen de referencia para calcular el valor t para todas las intensidades. Los métodos más sofisticados incluyen z-ratio, loess y baja regresión y RMA (análisis multichip) para chips Affymetrix (canal de tubo, chip de silicio, in situ oligonucleótidos cortos sintetizados).

Microarreglos y bioinformática

Los valores de expresión genética de los experimentos de microarray pueden ser representados como mapas de calor para visualizar el resultado del análisis de datos.

La llegada de los experimentos de microarrays económicos creó varios desafíos bioinformáticos específicos: los múltiples niveles de replicación en el diseño experimental (diseño experimental); el número de plataformas y grupos independientes y formato de datos (Estandarización); el tratamiento estadístico de los datos (Análisis de datos); asignar cada sonda al transcrito de ARNm que mide (anotación); el gran volumen de datos y la capacidad de compartirlos (almacenamiento de datos).

Diseño experimental

Debido a la complejidad biológica de la expresión génica, las consideraciones de diseño experimental que se analizan en el artículo sobre perfiles de expresión son de vital importancia si se deben extraer conclusiones estadística y biológicamente válidas de los datos.

Hay tres elementos principales a tener en cuenta al diseñar un experimento de microarrays. Primero, la replicación de las muestras biológicas es esencial para sacar conclusiones del experimento. En segundo lugar, las réplicas técnicas (por ejemplo, dos muestras de ARN obtenidas de cada unidad experimental) pueden ayudar a cuantificar la precisión. Las réplicas biológicas incluyen extracciones de ARN independientes. Las réplicas técnicas pueden ser dos alícuotas de la misma extracción. En tercer lugar, las manchas de cada clon u oligonucleótido de cDNA están presentes como réplicas (al menos duplicados) en el portaobjetos de micromatriz, para proporcionar una medida de precisión técnica en cada hibridación. Es fundamental que se discuta la información sobre la preparación y el manejo de la muestra, para ayudar a identificar las unidades independientes en el experimento y evitar estimaciones infladas de importancia estadística.

Estandarización

Los datos de micromatrices son difíciles de intercambiar debido a la falta de estandarización en la fabricación de plataformas, protocolos de ensayo y métodos de análisis. Esto presenta un problema de interoperabilidad en bioinformática. Varios proyectos de código abierto de base están tratando de facilitar el intercambio y el análisis de datos producidos con chips no patentados:

Por ejemplo, la "Información mínima sobre un experimento de microarrays" (MIAME) ayuda a definir el nivel de detalle que debe existir y está siendo adoptada por muchas revistas como un requisito para la presentación de artículos que incorporan resultados de microarrays. Pero MIAME no describe el formato de la información, por lo que, si bien muchos formatos pueden admitir los requisitos de MIAME, a partir de 2007 ningún formato permite la verificación del cumplimiento semántico completo. El proyecto "Control de calidad de microarrays (MAQC)" está siendo llevado a cabo por la Administración de Drogas y Alimentos de los EE. UU. (FDA) para desarrollar estándares y métricas de control de calidad que eventualmente permitirán el uso de datos de MicroArray en el descubrimiento de fármacos, la práctica clínica y la toma de decisiones regulatorias. La Sociedad MGED ha desarrollado estándares para la representación de resultados de experimentos de expresión génica y anotaciones relevantes.

Análisis de datos

National Center for Toxicological Research scientific reviews microarray data

Los conjuntos de datos de micromatrices suelen ser muy grandes y la precisión analítica se ve influida por una serie de variables. Los desafíos estadísticos incluyen tener en cuenta los efectos del ruido de fondo y la normalización adecuada de los datos. Los métodos de normalización pueden ser adecuados para plataformas específicas y, en el caso de plataformas comerciales, el análisis puede ser propietario. Los algoritmos que afectan el análisis estadístico incluyen:

Análisis de imagen: rejilla, reconocimiento de manchas de la imagen escaneada (algoritmo de segmentación), eliminación o marcación de características de baja calidad y baja intensidad (llamado bandera).
Procesamiento de datos: subtracción de antecedentes (basada en antecedentes globales o locales), determinación de intensidades puntuales y ratios de intensidad, visualización de datos (p. ej. ver diagrama MA), y transformación de registros de ratios, normalización global o local de ratios de intensidad, y segmentación en diferentes regiones del número de copia utilizando algoritmos de detección de pasos.
Análisis de descubrimiento de clase: Este enfoque analítico, a veces llamado clasificación no supervisada o descubrimiento del conocimiento, trata de identificar si microarrayos (objetos, pacientes, ratones, etc.) o genes agrupados en grupos. Identificar grupos de objetos naturalmente existentes (microarrays o genes) que agrupan juntos pueden permitir el descubrimiento de nuevos grupos que de otro modo no se conocían previamente. Durante el análisis del conocimiento, se pueden emplear diversas técnicas de clasificación no supervisadas con datos de microarray de ADN para identificar nuevos clusters (clases) de arrays. Este tipo de enfoque no está impulsado por hipótesis, sino que se basa en el reconocimiento iterativo de patrones o métodos de aprendizaje estadístico para encontrar un número "optimal" de clusters en los datos. Ejemplos de métodos de análisis no supervisados incluyen mapas autoorganizados, gas neuronal, análisis de racimo de k-means, análisis de cúmulos jerárquicos, elaboración de cúmulos basados en el procesamiento de señales genómicas y análisis de cúmulos basados en modelos. Para algunos de estos métodos el usuario también tiene que definir una medida de distancia entre pares de objetos. Aunque el coeficiente de correlación de Pearson generalmente se emplea, se han propuesto y evaluado varias otras medidas en la literatura. Los datos de entrada utilizados en los análisis de descubrimientos de clase se basan comúnmente en listas de genes que tienen alta información (bajo ruido) basado en valores bajos del coeficiente de variación o valores altos de la entropía Shannon, etc. La determinación del número más probable o óptimo de grupos obtenidos de un análisis no supervisado se denomina validez de racimo. Algunas métricas de uso común para la validez de los racimos son el índice de silueta, el índice Davies-Bouldin, el índice de Dunn o el de Hubert $Gamma$ estadística.
Análisis de predicción de clase: Este enfoque, denominado clasificación supervisada, establece la base para desarrollar un modelo predictivo en el que se puedan introducir objetos de prueba desconocidos futuros para predecir la composición de clase más probable de los objetos de prueba. El análisis supervisado para la predicción de clases implica el uso de técnicas tales como regresión lineal, vecino de k-nearest, aprendizaje de cuantificación vectorial, análisis de árboles de decisión, bosques aleatorios, bahías ingenuasivas, regresión logística, regresión del núcleo, redes neuronales artificiales, máquinas vectoriales de apoyo, mezcla de expertos y gas neural supervisado. Además, se emplean varios métodos metaheurísticos, como algoritmos genéticos, autoadaptación de la matriz de covariancia, optimización de partículas y optimización de la colonia de hormigas. Los datos de entrada para la predicción de clases se basan generalmente en listas filtradas de genes que son predictivos de clase, determinados utilizando pruebas de hipótesis clásicas (sección siguiente), índice de diversidad Gini, o ganancia de información (entropía).
Análisis estadístico basado en la hipótesis: La identificación de cambios estadísticamente significativos en la expresión génica se identifican comúnmente usando la prueba t, ANOVA, método BayesianMann-Whitney métodos de prueba adaptados a conjuntos de datos de microarray, que tienen en cuenta múltiples comparaciones o análisis de racimo. Estos métodos evalúan la potencia estadística sobre la base de la variación presente en los datos y el número de réplicas experimentales, y pueden ayudar a minimizar errores tipo I y tipo II en los análisis.
Reducción dimensional: Los analistas a menudo reducen el número de dimensiones (genes) antes del análisis de datos. Esto puede implicar enfoques lineales como el análisis de componentes principales (PCA), o el aprendizaje múltiple no lineal (aprendizaje métrico de distancia) utilizando el núcleo PCA, mapas de difusión, eigenmaps laplacianos, embedding lineal local, proyecciones localmente preservadas y mapeo de Sammon.
Métodos basados en la red: Métodos estadísticos que tienen en cuenta la estructura subyacente de las redes de genes, representando interacciones o dependencias asociativas o causativas entre los productos genéticos. El análisis de la red de coexpresión genética ponderada es ampliamente utilizado para identificar módulos de coexpresión y genes de núcleo intramodular. Los módulos pueden corresponder a tipos de celda o vías. Los centros intramodulares altamente conectados representan mejor sus respectivos módulos.

Los datos de micromatrices pueden requerir un procesamiento adicional destinado a reducir la dimensionalidad de los datos para facilitar la comprensión y un análisis más centrado. Otros métodos permiten el análisis de datos que consisten en un bajo número de repeticiones biológicas o técnicas; por ejemplo, la prueba de error agrupado local (LPE) agrupa las desviaciones estándar de genes con niveles de expresión similares en un esfuerzo por compensar la replicación insuficiente.

Anotación

La relación entre una sonda y el ARNm que se espera que detecte no es trivial. Algunos ARNm pueden hibridar de forma cruzada con sondas en la matriz que se supone que detectan otro ARNm. Además, los ARNm pueden experimentar un sesgo de amplificación que es específico de secuencia o molécula. En tercer lugar, las sondas que están diseñadas para detectar el ARNm de un gen en particular pueden depender de la información genómica de EST que está incorrectamente asociada con ese gen.

Almacenamiento de datos

Se descubrió que los datos de micromatrices son más útiles en comparación con otros conjuntos de datos similares. El gran volumen de datos, los formatos especializados (como MIAME) y los esfuerzos de conservación asociados con los conjuntos de datos requieren bases de datos especializadas para almacenar los datos. Se han creado varias soluciones de almacenamiento de datos de código abierto, como InterMine y BioMart, con el propósito específico de integrar diversos conjuntos de datos biológicos y también respaldar el análisis.

Tecnologías alternativas

Los avances en la secuenciación paralela masiva han llevado al desarrollo de la tecnología RNA-Seq, que permite un enfoque de escopeta de transcriptoma completo para caracterizar y cuantificar la expresión génica. A diferencia de los microarreglos, que necesitan un genoma de referencia y un transcriptoma para estar disponibles antes de que se pueda diseñar el propio microarreglo, RNA-Seq también se puede usar para nuevos organismos modelo cuyo genoma aún no se ha secuenciado.

Glosario

An array o diapositiva es una colección de características ordenación espacial en una cuadrícula bidimensional, dispuesta en columnas y filas.
Bloque o Subarray: un grupo de manchas, típicamente hechas en una ronda de impresión; varios subarrays / bloques forman un array.
Caso/control: un paradigma de diseño experimental especialmente adaptado al sistema de dos colores, en el que se compara una afección elegida como control (como tejido o estado sano) con una afección alterada (como un tejido o estado enfermo).
Canal: la salida de fluorescencia grabada en el escáner para un fluoroforo individual e incluso puede ser ultravioleta.
Dye flip o - Sí. o fluor reversal: etiquetado recíproco de objetivos de ADN con los dos tintes para contabilizar el sesgo de tinte en experimentos.
Scanner: un instrumento utilizado para detectar y cuantificar la intensidad de fluorescencia de manchas en una diapositiva de microarray, mediante fluoróforos selectivamente excitantes con un láser y midiendo la fluorescencia con un sistema fotomultiplerio filtro (optics).
Spot o función: un área pequeña en una diapositiva de matriz que contiene picomoles de muestras específicas de ADN.
Para otros términos relevantes ver:
- Glosario de términos de expresión génica
- Protocolo (ciencias naturales)

Contenido relacionado

Más resultados...