Genoma humano

Ajustar Compartir Imprimir Citar

Conjunto completo de secuencias de ácido nucleico para humanos

El genoma humano es un conjunto completo de secuencias de ácido nucleico para humanos, codificado como ADN dentro de los 23 pares de cromosomas en los núcleos celulares y en una pequeña molécula de ADN que se encuentra dentro de las mitocondrias individuales. Estos generalmente se tratan por separado como el genoma nuclear y el genoma mitocondrial. Los genomas humanos incluyen secuencias de ADN que codifican proteínas y varios tipos de ADN que no codifican proteínas. Esta última es una categoría diversa que incluye el ADN que codifica para el ARN no traducido, como el del ARN ribosómico, el ARN de transferencia, las ribozimas, los ARN nucleares pequeños y varios tipos de ARN reguladores. También incluye promotores y sus elementos reguladores de genes asociados, ADN que desempeña funciones estructurales y de replicación, como regiones de andamiaje, telómeros, centrómeros y orígenes de replicación, además de un gran número de elementos transponibles, ADN viral insertado, pseudogenes no funcionales y simples., secuencias altamente repetitivas. Los intrones constituyen un gran porcentaje del ADN no codificante. Parte de este ADN no codificante es ADN basura no funcional, como los pseudogenes, pero no existe un consenso firme sobre la cantidad total de ADN basura.

Los genomas humanos haploides, que están contenidos en las células germinales (el óvulo y el espermatozoide creados en la fase de meiosis de la reproducción sexual antes de la fertilización) constan de 3 054 815 472 pares de bases de ADN (si se usa el cromosoma X), mientras que los genomas diploides femeninos (que se encuentran en las células somáticas) tienen el doble de contenido de ADN.

Si bien existen diferencias significativas entre los genomas de los individuos humanos (del orden del 0,1 % debido a las variantes de un solo nucleótido y del 0,6 % cuando se consideran los indeles), estas son considerablemente menores que las diferencias entre los humanos y sus parientes vivos más cercanos, los bonobos y los chimpancés (~ 1,1% de variantes fijas de un solo nucleótido y 4% cuando se incluyen indeles). El tamaño en pares de bases también puede variar; la longitud de los telómeros disminuye después de cada ronda de replicación del ADN.

Aunque la secuencia del genoma humano se ha determinado por completo mediante la secuenciación del ADN, aún no se comprende por completo. La mayoría de los genes, pero no todos, han sido identificados mediante una combinación de enfoques bioinformáticos y experimentales de alto rendimiento, pero aún queda mucho trabajo por hacer para dilucidar aún más las funciones biológicas de sus productos de proteínas y ARN (en particular, la anotación del CHM13v2 completo). La secuencia.0 todavía está en curso). Y, sin embargo, los genes superpuestos son bastante comunes, lo que en algunos casos permite que dos genes que codifican proteínas de cada hebra reutilicen los pares de bases dos veces (por ejemplo, los genes DCDC2 y KAAG1). Los resultados recientes sugieren que la mayoría de las grandes cantidades de ADN no codificante dentro del genoma tienen actividades bioquímicas asociadas, incluida la regulación de la expresión génica, la organización de la arquitectura cromosómica y las señales que controlan la herencia epigenética. También hay una cantidad significativa de retrovirus en el ADN humano, de los cuales se ha demostrado que al menos 3 poseen una función importante (es decir, HERV-K, HERV-W y HERV-FRD similares al VIH juegan un papel en la formación de la placenta al induciendo la fusión célula-célula).

En 2003, los científicos informaron sobre la secuenciación del 85 % del genoma humano completo, pero a partir de 2020 aún faltaba al menos el 8 %.

En 2021, los científicos informaron sobre la secuenciación del genoma femenino completo (es decir, sin el cromosoma Y). Esta secuencia identificó 19.969 secuencias codificantes de proteínas, que representan aproximadamente el 1,5% del genoma, y 63.494 genes en total, la mayoría de ellos genes de ARN no codificantes. El genoma consta de secuencias de ADN reguladoras, LINE, SINE, intrones y secuencias para las que aún no se ha determinado su función. El cromosoma Y humano, que consta de 62 460 029 pares de bases de una línea celular diferente y se encuentra en todos los hombres, se secuenció por completo en enero de 2022.

Secuenciación

Las primeras secuencias del genoma humano fueron publicadas en forma de borrador casi completo en febrero de 2001 por Human Genome Project y Celera Corporation. La finalización del esfuerzo de secuenciación del Proyecto del Genoma Humano se anunció en 2004 con la publicación de un borrador de la secuencia del genoma, dejando solo 341 espacios en la secuencia, lo que representa ADN altamente repetitivo y de otro tipo que no se pudo secuenciar con la tecnología disponible en el tiempo. El genoma humano fue el primero de todos los vertebrados en ser secuenciado hasta casi completarse y, a partir de 2018, los genomas diploides de más de un millón de humanos individuales se determinaron mediante secuenciación de próxima generación.

Estos datos se utilizan en todo el mundo en ciencias biomédicas, antropología, ciencia forense y otras ramas de la ciencia. Dichos estudios genómicos han llevado a avances en el diagnóstico y tratamiento de enfermedades y a nuevos conocimientos en muchos campos de la biología, incluida la evolución humana.

Para 2018, el número total de genes había aumentado a por lo menos 46 831, más otros 2300 genes de micro-ARN. Una encuesta de población de 2018 encontró otros 300 millones de bases del genoma humano que no estaban en la secuencia de referencia. Antes de la adquisición de la secuencia completa del genoma, las estimaciones del número de genes humanos oscilaban entre 50 000 y 140 000 (con vaguedades ocasionales acerca de si estas estimaciones incluían genes que no codifican proteínas). A medida que mejoraba la calidad de la secuencia del genoma y los métodos para identificar los genes que codifican proteínas, el recuento de genes codificadores de proteínas reconocidos se redujo a 19.000-20.000.

En junio de 2016, los científicos anunciaron formalmente HGP-Write, un plan para sintetizar el genoma humano.

En 2022, el consorcio Telómero a telómero (T2T) informó la secuencia completa de un genoma femenino humano, llenando todos los espacios en el cromosoma X (2020) y los 22 autosomas (mayo de 2021). Las partes previamente no secuenciadas contienen genes de respuesta inmune que ayudan a adaptarse y sobrevivir a las infecciones, así como genes que son importantes para predecir la respuesta a los medicamentos. La secuencia completa del genoma humano también proporcionará una mejor comprensión de la formación humana como organismo individual y cómo los humanos varían entre sí y entre otras especies.

Lograr la integridad

Aunque la 'finalización' del proyecto del genoma humano se anunció en 2001, quedaban cientos de lagunas, con alrededor del 5-10% de la secuencia total sin determinar. La información genética faltante se encontraba principalmente en regiones heterocromáticas repetitivas y cerca de los centrómeros y telómeros, pero también en algunas regiones eucromáticas que codifican genes. Quedaban 160 lagunas eucromáticas en 2015 cuando se determinaron las secuencias que abarcaban otras 50 regiones no secuenciadas anteriormente. Solo en 2020 se determinó la primera secuencia verdaderamente completa de telómero a telómero de un cromosoma humano, concretamente del cromosoma X. La primera secuencia completa de telómero a telómero de un cromosoma autosómico humano, el cromosoma 8, siguió un año después. El genoma humano completo (sin cromosoma Y) se publicó en 2021, mientras que con cromosoma Y en enero de 2022.

Organización molecular y contenido genético

La longitud total del genoma humano de referencia, que no representa la secuencia de ningún individuo específico. El genoma está organizado en 22 pares de cromosomas, denominados autosomas, más el par 23 de cromosomas sexuales (XX) en la mujer y (XY) en el hombre. El genoma haploide es de 3 054 815 472 pares de bases, cuando se incluye el cromosoma X, y de 2 963 015 935 pares de bases cuando se sustituye el cromosoma Y por el cromosoma X. Estos cromosomas son grandes moléculas de ADN lineal contenidas dentro del núcleo celular. El genoma también incluye el ADN mitocondrial, una molécula circular comparativamente pequeña presente en múltiples copias en cada mitocondria.

Human reference data, by chromosome
Chromo- some	Length	Base pairs	Varia- tions	Protein- coding genes	Pseudo- genes	Total long ncRNA	Total small ncRNA	miRNA	rRNA	snRNA	snoRNA	Misc ncRNA	Links	Centromere position (Mbp)	Cumu- lative (%)
1	8.5 cm	248,387,328	12,151,146	2058	1220	1200	496	134	66	221	145	192	EBI	125	7.9
2	8.3 cm	242,696,752	12,945,965	1309	1023	1037	375	115	40	161	117	176	EBI	93.3	16.2
3	6.7 cm	201,105,948	10,638,715	1078	763	711	298	99	29	138	87	134	EBI	91	23
4	6.5 cm	193,574,945	10,165,685	752	727	657	228	92	24	120	56	104	EBI	50.4	29.6
5	6.2 cm	182,045,439	9,519,995	876	721	844	235	83	25	106	61	119	EBI	48.4	35.8
6	5.8 cm	172,126,628	9,130,476	1048	801	639	234	81	26	111	73	105	EBI	61	41.6
7	5.4 cm	160,567,428	8,613,298	989	885	605	208	90	24	90	76	143	EBI	59.9	47.1
8	5.0 cm	146,259,331	8,221,520	677	613	735	214	80	28	86	52	82	EBI	45.6	52
9	4.8 cm	150,617,247	6,590,811	786	661	491	190	69	19	66	51	96	EBI	49	56.3
10	4.6 cm	134,758,134	7,223,944	733	568	579	204	64	32	87	56	89	EBI	40.2	60.9
11	4.6 cm	135,127,769	7,535,370	1298	821	710	233	63	24	74	76	97	EBI	53.7	65.4
12	4.5 cm	133,324,548	7,228,129	1034	617	848	227	72	27	106	62	115	EBI	35.8	70
13	3.9 cm	113,566,686	5,082,574	327	372	397	104	42	16	45	34	75	EBI	17.9	73.4
14	3.6 cm	101,161,492	4,865,950	830	523	533	239	92	10	65	97	79	EBI	17.6	76.4
15	3.5 cm	99,753,195	4,515,076	613	510	639	250	78	13	63	136	93	EBI	19	79.3
16	3.1 cm	96,330,374	5,101,702	873	465	799	187	52	32	53	58	51	EBI	36.6	82
17	2.8 cm	84,276,897	4,614,972	1197	531	834	235	61	15	80	71	99	EBI	24	84.8
18	2.7 cm	80,542,538	4,035,966	270	247	453	109	32	13	51	36	41	EBI	17.2	87.4
19	2.0 cm	61,707,364	3,858,269	1472	512	628	179	110	13	29	31	61	EBI	26.5	89.3
20	2.1 cm	66,210,255	3,439,621	544	249	384	131	57	15	46	37	68	EBI	27.5	91.4
21	1.6 cm	45,090,682	2,049,697	234	185	305	71	16	5	21	19	24	EBI	13.2	92.6
22	1.7 cm	51,324,926	2,135,311	488	324	357	78	31	5	23	23	62	EBI	14.7	93.8
X	5.3 cm	154,259,566	5,753,881	842	874	271	258	128	22	85	64	100	EBI	60.6	99.1
Y	2.0 cm	62,460,029	211,643	71	388	71	30	15	7	17	3	8	EBI	10.4	100
mtDNA	5.4 μm	16,569	929	13	0	0	24	0	2	0	0	0	EBI	N/A	100

hapl 1-23 + X	104 cm	3,054,815,472		20328	14212	14656	4983	1741	523	1927	1518	2205
hapl 1-23 + Y	101 cm	2,963,015,935		19557	13726	14456	4755	1628	508	1859	1457	2113
dipl + mt`♀`	208.23 cm	6,109,647,513		40669	28424	29312	9990	3482	1048	3854	3036	4410
dipl + mt`♂`	205.00 cm	6,017,847,976		39898	27938	29112	9762	3369	1033	3786	2975	4318

Análisis original publicado en la base de datos Ensembl del Instituto Europeo de Bioinformática (EBI) y Wellcome Trust Sanger Institute. Longitudes cromosómicas estimadas multiplicando el número de pares base (de genoma de referencia más antiguo, no CHM13v2.0) por 0,34 nanometros (distancia entre pares base pico en la estructura más común del doble helix de ADN; una estimación reciente de longitudes de cromosoma humano basado en informes de datos actualizados 205.00 cm para el genoma masculino diploide y 208.23 cm para hembra 6.41 respectivamente. El número de proteínas se basa en el número de transcripciones iniciales de precursores mRNA, y no incluye productos de brote alternativo premRNA, o modificaciones a la estructura de proteínas que ocurren después de la traducción.

Las variaciones son diferencias únicas de secuencia de ADN que se han identificado en las secuencias individuales del genoma humano analizadas por Ensembl a diciembre de 2016. Se espera que el número de variaciones identificadas aumente a medida que se secuencian y analizan otros genomas personales. Además del contenido gen que se muestra en esta tabla, se ha identificado un gran número de secuencias funcionales no expresadas en todo el genoma humano (ver abajo). Los enlaces abren ventanas a las secuencias cromosómicas de referencia en el navegador del genoma EBI.

Los ARN pequeños no codificadores son ARNs de hasta 200 bases que no tienen potencial de codificación de proteínas. Estos incluyen: microRNAs, o miRNAs (reguladores post-transcriptionales de expresión génica), pequeños ARN nucleares, o snRNAs (los componentes ARN de los spliceosomas), y pequeños ARN nucleolares, o snoRNA (involucrados en modificaciones químicas guía a otras moléculas del ARN). Los ARN largos no codificación son moléculas de ARN más de 200 bases que no tienen potencial de codificación de proteínas. Estos incluyen: ARN ribosomal, o ARNs (los componentes del ARN de ribosomas), y una variedad de otros ARN largos que están involucrados en la regulación de la expresión genética, modificaciones epigenéticas de los nucleótidos de ADN y proteínas de cálculo, y regulación de la actividad de genes de codificación de proteínas. Las pequeñas discrepancias entre los números totales-pequeños-ncRNA y los números de tipos específicos de pequeñas NcNRAs resultan de los antiguos valores que se generan de la versión 87 de Ensembl y de la versión 68 de Ensembl.

El número de genes en el genoma humano no está completamente claro porque la función de numerosas transcripciones no está clara. Esto es especialmente cierto para el ARN no codificación. El número de genes de codificación de proteínas es mejor conocido, pero todavía hay en el orden de 1.400 genes cuestionables que pueden o no codificar las proteínas funcionales, generalmente codificados por marcos de lectura abiertos cortos.

Discrepancias en estimaciones del número de genes humanos entre diferentes bases de datos, a julio de 2018
	Gencode	Ensembl	Refseq	CHESS
genes de codificación de proteínas	19,901	20.376	20.345	21,306
genes de lncRNA	15,779	14,720	17.712	18.484
ARN antisentido	5501		28	2694
ARN diverso	2213	2222	13,899	4347
Pseudogenes	14,723	1740	15.952
transcripciones totales	203,835	203,903	154,484	328.827

Número de genes (orange) y pares base (verde, en millones) en cada cromosoma

Contenido de información

El genoma humano haploide (23 cromosomas) tiene una longitud de unos 3.000 millones de pares de bases y contiene alrededor de 30.000 genes. Dado que cada par de bases se puede codificar con 2 bits, se trata de unos 750 megabytes de datos. Una célula somática (diploide) individual contiene el doble de esta cantidad, es decir, unos 6 000 millones de pares de bases. Los hombres tienen menos que las mujeres porque el cromosoma Y tiene alrededor de 62 millones de pares de bases, mientras que el X tiene alrededor de 154 millones. Dado que los genomas individuales varían en secuencia en menos del 1 % entre sí, las variaciones del genoma de un ser humano determinado a partir de una referencia común se pueden comprimir sin pérdidas hasta aproximadamente 4 megabytes.

La tasa de entropía del genoma difiere significativamente entre secuencias codificantes y no codificantes. Está cerca del máximo de 2 bits por par de bases para las secuencias de codificación (alrededor de 45 millones de pares de bases), pero menos para las partes no codificantes. Varía entre 1,5 y 1,9 bits por par de bases para el cromosoma individual, a excepción del cromosoma Y, que tiene una tasa de entropía inferior a 0,9 bits por par de bases.

ADN codificante frente a no codificante

El contenido del genoma humano se suele dividir en secuencias de ADN codificantes y no codificantes. El ADN codificante se define como aquellas secuencias que pueden transcribirse en ARNm y traducirse en proteínas durante el ciclo de vida humano; estas secuencias ocupan solo una pequeña fracción del genoma (<2%). El ADN no codificante está formado por todas aquellas secuencias (aproximadamente el 98 % del genoma) que no se utilizan para codificar proteínas.

Algunos ADN no codificantes contienen genes para moléculas de ARN con funciones biológicas importantes (ARN no codificante, por ejemplo, ARN ribosómico y ARN de transferencia). La exploración de la función y el origen evolutivo del ADN no codificante es un objetivo importante de la investigación genómica contemporánea, incluido el proyecto ENCODE (Enciclopedia de los elementos del ADN), cuyo objetivo es estudiar todo el genoma humano, utilizando una variedad de herramientas experimentales cuyos resultados son indicativos. de actividad molecular. Sin embargo, se discute si la actividad molecular (transcripción de ADN en ARN) por sí sola implica que el ARN producido tiene una función biológica significativa, ya que los experimentos han demostrado que el ADN no funcional aleatorio también reclutará de manera reproducible factores de transcripción que darán como resultado la transcripción en ARN no funcional.

No hay consenso sobre lo que constituye un "funcional" elemento en el genoma ya que los genetistas, los biólogos evolutivos y los biólogos moleculares emplean diferentes definiciones y métodos. Debido a la ambigüedad en la terminología, han surgido diferentes escuelas de pensamiento. En definiciones evolutivas, "funcional" El ADN, ya sea codificante o no codificante, contribuye a la aptitud del organismo y, por lo tanto, se mantiene mediante una presión evolutiva negativa, mientras que el ADN "no funcional" El ADN no tiene ningún beneficio para el organismo y, por lo tanto, está bajo una presión selectiva neutra. Este tipo de ADN se ha descrito como ADN basura En las definiciones genéticas, "funcional" El ADN está relacionado con la forma en que los segmentos de ADN se manifiestan por fenotipo y "no funcionales" está relacionado con los efectos de pérdida de función en el organismo. En definiciones bioquímicas, "funcional" El ADN se relaciona con secuencias de ADN que especifican productos moleculares (por ejemplo, ARN no codificantes) y actividades bioquímicas con funciones mecánicas en la regulación de genes o genomas (es decir, secuencias de ADN que afectan la actividad a nivel celular, como el tipo de célula, la condición y los procesos moleculares). No existe un consenso en la literatura sobre la cantidad de ADN funcional ya que, dependiendo de cómo "funcione" se entiende, se han estimado rangos desde hasta el 90% del genoma humano es probablemente ADN no funcional (ADN basura) hasta hasta el 80% del genoma es probablemente funcional. También es posible que el ADN basura adquiera una función en el futuro y, por lo tanto, desempeñe un papel en la evolución, pero es probable que esto ocurra muy raramente. Finalmente, el ADN que es perjudicial para el organismo y está bajo presión selectiva negativa se denomina ADN basura.

Debido a que el ADN no codificante supera con creces al ADN codificante, el concepto de genoma secuenciado se ha convertido en un concepto analítico más centrado que el concepto clásico del gen codificante de ADN.

Secuencias codificantes (genes codificadores de proteínas)

Los genes humanos categorizados por función de las proteínas transscritas, dados tanto como número de genes de codificación y porcentaje de todos los genes

Las secuencias de codificación de proteínas representan el componente más ampliamente estudiado y mejor comprendido del genoma humano. Estas secuencias finalmente conducen a la producción de todas las proteínas humanas, aunque varios procesos biológicos (por ejemplo, reordenamientos de ADN y corte y empalme alternativo de pre-ARNm) pueden conducir a la producción de muchas más proteínas únicas que la cantidad de genes que codifican proteínas. La capacidad modular completa de codificación de proteínas del genoma está contenida dentro del exoma y consiste en secuencias de ADN codificadas por exones que pueden traducirse en proteínas. Debido a su importancia biológica y al hecho de que constituye menos del 2% del genoma, la secuenciación del exoma fue el primer hito importante del Proyecto Genoma Humano.

Número de genes codificadores de proteínas. Se han anotado unas 20.000 proteínas humanas en bases de datos como Uniprot. Históricamente, las estimaciones de la cantidad de genes de proteínas han variado ampliamente, llegando a 2 000 000 a fines de la década de 1960, pero varios investigadores señalaron a principios de la década de 1970 que la carga mutacional estimada de mutaciones perjudiciales colocaba un límite superior de aproximadamente 40 000 para la cantidad total. de loci funcionales (esto incluye genes codificantes de proteínas y no codificantes funcionales). El número de genes humanos que codifican proteínas no es significativamente mayor que el de muchos organismos menos complejos, como el gusano redondo y la mosca de la fruta. Esta diferencia puede deberse al uso extensivo de empalmes alternativos de pre-ARNm en humanos, que brinda la capacidad de construir una gran cantidad de proteínas modulares a través de la incorporación selectiva de exones.

Capacidad de codificación de proteínas por cromosoma. Los genes que codifican proteínas se distribuyen de manera desigual en los cromosomas, desde unas pocas docenas hasta más de 2000, con una densidad de genes especialmente alta en los cromosomas 1, 11 y 19. Cada cromosoma contiene varias regiones ricas en genes y pobres en genes, que puede estar correlacionado con las bandas cromosómicas y el contenido de GC. La importancia de estos patrones no aleatorios de densidad de genes no se comprende bien.

Tamaño de los genes codificadores de proteínas. El tamaño de los genes que codifican proteínas dentro del genoma humano muestra una enorme variabilidad. Por ejemplo, el gen de la histona H1a (HIST1HIA) es relativamente pequeño y simple, carece de intrones y codifica un ARNm de 781 nucleótidos de largo que produce una proteína de 215 aminoácidos a partir de su marco de lectura abierto de 648 nucleótidos. La distrofina (DMD) fue el gen codificador de proteínas más grande en el genoma de referencia humano de 2001, que abarca un total de 2,2 millones de nucleótidos, mientras que un metanálisis sistemático más reciente de datos actualizados del genoma humano identificó un gen codificador de proteínas aún más grande, RBFOX1 (proteína de unión a ARN, homólogo de fox-1 1), que abarca un total de 2,47 millones de nucleótidos. La titina (TTN) tiene la secuencia de codificación más larga (114 414 nucleótidos), el mayor número de exones (363) y el exón individual más largo (17 106 nucleótidos). Según una estimación basada en un conjunto curado de genes codificadores de proteínas en todo el genoma, el tamaño medio es de 26 288 nucleótidos (media = 66 577), el tamaño medio del exón, 133 nucleótidos (media = 309), el número medio de exones, 8 (media = 11), y la proteína codificada mediana tiene 425 aminoácidos (media = 553) de longitud.

Ejemplos de genes de codificación de proteínas humanas
Proteína	Chrom	Gene	Duración	Exones	Longitud exon	Longitud de hierro	Alt splicing
Cáncer de mama tipo 2 proteína de susceptibilidad	13	BRCA2	83.736	27	11.386	72.350	Sí.
Regulador de conductividad de fibrosis quística transmembrana	7	CFTR	202,881	27	4.440	198,441	Sí.
Cytochrome b	MT	MTCYB	1.140	1	1.140	0	no
Dystrophin	X	DMD	2.220.381	79	10.500	2.209.881	Sí.
Glyceraldehyde-3-phosphate dehydrogenase	12	GAPDH	4.444	9	1.425	3.019	Sí.
Subunidad de hemoglobina beta	11	HBB	1,605	3	626	979	no
Histone H1A	6	HIST1H1A	781	1	781	0	no
Titin	2	TTN	281,434	364	104.301	177,133	Sí.

ADN no codificante (ADNnc)

El ADN no codificante se define como todas las secuencias de ADN dentro de un genoma que no se encuentran dentro de los exones que codifican proteínas y, por lo tanto, nunca se representan dentro de la secuencia de aminoácidos de las proteínas expresadas. Según esta definición, más del 98% de los genomas humanos está compuesto por ncDNA.

Se han identificado numerosas clases de ADN no codificante, incluidos genes para ARN no codificante (por ejemplo, ARNt y ARNr), pseudogenes, intrones, regiones no traducidas de ARNm, secuencias reguladoras de ADN, secuencias repetitivas de ADN y secuencias relacionadas con elementos genéticos móviles.

Numerosas secuencias que están incluidas dentro de los genes también se definen como ADN no codificante. Estos incluyen genes para ARN no codificante (p. ej., ARNt, ARNr) y componentes no traducidos de genes codificadores de proteínas (p. ej., intrones y regiones no traducidas 5' y 3' de ARNm).

Las secuencias de codificación de proteínas (específicamente, la codificación de exones) constituyen menos del 1,5 % del genoma humano. Además, alrededor del 26% del genoma humano son intrones. Además de los genes (exones e intrones) y las secuencias reguladoras conocidas (8 a 20 %), el genoma humano contiene regiones de ADN no codificante. La cantidad exacta de ADN no codificante que desempeña un papel en la fisiología celular ha sido objeto de acalorados debates. Un análisis reciente del proyecto ENCODE indica que el 80 % del genoma humano completo se transcribe, se une a proteínas reguladoras o se asocia con alguna otra actividad bioquímica.

Sin embargo, sigue siendo controvertido si toda esta actividad bioquímica contribuye a la fisiología celular o si una parte sustancial de esto es el resultado del ruido transcripcional y bioquímico, que el organismo debe filtrar activamente. Excluyendo las secuencias de codificación de proteínas, los intrones y las regiones reguladoras, gran parte del ADN no codificante se compone de: Muchas secuencias de ADN que no juegan un papel en la expresión génica tienen importantes funciones biológicas. Los estudios de genómica comparativa indican que alrededor del 5% del genoma contiene secuencias de ADN no codificante que están altamente conservadas, a veces en escalas de tiempo que representan cientos de millones de años, lo que implica que estas regiones no codificantes están bajo una fuerte presión evolutiva y una selección purificadora.

Muchas de estas secuencias regulan la estructura de los cromosomas limitando las regiones de formación de heterocromatina y regulando las características estructurales de los cromosomas, como los telómeros y centrómeros. Otras regiones no codificantes sirven como orígenes de la replicación del ADN. Finalmente, varias regiones se transcriben en ARN no codificante funcional que regula la expresión de genes que codifican proteínas (por ejemplo), la traducción y la estabilidad del ARNm (ver miARN), la estructura de la cromatina (incluidas las modificaciones de histonas, por ejemplo), la metilación del ADN (por ejemplo), recombinación de ADN (por ejemplo) y regulación cruzada de otros ARN no codificantes (por ejemplo). También es probable que muchas regiones no codificantes transcritas no cumplan ninguna función y que esta transcripción sea el producto de la actividad de la ARN polimerasa no específica.

Pseudogenes

Los pseudogenes son copias inactivas de genes que codifican proteínas, a menudo generados por la duplicación de genes, que se han vuelto no funcionales debido a la acumulación de mutaciones inactivantes. El número de pseudogenes en el genoma humano es del orden de 13.000, y en algunos cromosomas es casi el mismo que el número de genes codificadores de proteínas funcionales. La duplicación de genes es un mecanismo importante a través del cual se genera nuevo material genético durante la evolución molecular.

Por ejemplo, la familia de genes de receptores olfativos es uno de los ejemplos mejor documentados de pseudogenes en el genoma humano. Más del 60 por ciento de los genes de esta familia son pseudogenes no funcionales en humanos. En comparación, solo el 20 por ciento de los genes en la familia de genes de receptores olfativos de ratón son pseudogenes. La investigación sugiere que esta es una característica específica de la especie, ya que los primates más estrechamente relacionados tienen proporcionalmente menos pseudogenes. Este descubrimiento genético ayuda a explicar el sentido del olfato menos agudo en los humanos en relación con otros mamíferos.

Genes para ARN no codificante (ncRNA)

Las moléculas de ARN no codificantes desempeñan muchas funciones esenciales en las células, especialmente en las numerosas reacciones de la síntesis de proteínas y el procesamiento del ARN. El ARN no codificante incluye ARNt, ARN ribosómico, microARN, ARNsn y otros genes de ARN no codificante, incluidos aproximadamente 60 000 ARN no codificantes largos (lncRNA). Aunque el número de genes lncRNA informados continúa aumentando y aún no se ha definido el número exacto en el genoma humano, se argumenta que muchos de ellos no son funcionales.

Muchos ncRNA son elementos críticos en la regulación y expresión génica. El ARN no codificante también contribuye a la epigenética, la transcripción, el empalme del ARN y la maquinaria de traducción. El papel del ARN en la regulación genética y la enfermedad ofrece un nuevo nivel potencial de complejidad genómica inexplorada.

Introns y regiones no traducidas de mRNA

Además de las moléculas de ncRNA que están codificadas por genes discretos, las transcripciones iniciales de los genes codificadores de proteínas suelen contener extensas secuencias no codificantes, en forma de intrones, regiones 5' no traducidas (5'-UTR), y 3'-regiones no traducidas (3'-UTR). Dentro de la mayoría de los genes que codifican proteínas del genoma humano, la longitud de las secuencias de intrones es de 10 a 100 veces la longitud de las secuencias de exones.

Secuencias de ADN reguladoras

El genoma humano tiene muchas secuencias reguladoras diferentes que son cruciales para controlar la expresión génica. Las estimaciones conservadoras indican que estas secuencias constituyen el 8% del genoma, sin embargo, las extrapolaciones del proyecto ENCODE dan que el 20-40% del genoma es una secuencia reguladora de genes. Algunos tipos de ADN no codificante son 'interruptores' genéticos. que no codifican proteínas, pero regulan cuándo y dónde se expresan los genes (llamados potenciadores).

Las secuencias reglamentarias se conocen desde finales de la década de 1960. La primera identificación de secuencias reguladoras en el genoma humano se basó en la tecnología del ADN recombinante. Más tarde, con el advenimiento de la secuenciación genómica, la identificación de estas secuencias podría inferirse por conservación evolutiva. La rama evolutiva entre los primates y el ratón, por ejemplo, ocurrió hace entre 70 y 90 millones de años. Por lo tanto, las comparaciones informáticas de secuencias de genes que identifican secuencias no codificantes conservadas serán una indicación de su importancia en tareas como la regulación de genes.

Se han secuenciado otros genomas con la misma intención de ayudar a los métodos guiados por la conservación, por ejemplo, el genoma del pez globo. Sin embargo, las secuencias reguladoras desaparecen y vuelven a evolucionar durante la evolución a un ritmo elevado.

A partir de 2012, los esfuerzos se han centrado en encontrar interacciones entre el ADN y las proteínas reguladoras mediante la técnica ChIP-Seq, o brechas donde el ADN no está empaquetado por histonas (sitios hipersensibles a la ADNasa), los cuales indican dónde hay actividad secuencias reguladoras en el tipo celular investigado.

Secuencias repetitivas de ADN

Las secuencias de ADN repetitivas comprenden aproximadamente el 50 % del genoma humano.

Alrededor del 8 % del genoma humano consiste en matrices de ADN en tándem o repeticiones en tándem, secuencias repetidas de baja complejidad que tienen varias copias adyacentes (por ejemplo, "CAGCAGCAG..."). Las secuencias en tándem pueden tener longitudes variables, desde dos nucleótidos hasta decenas de nucleótidos. Estas secuencias son muy variables, incluso entre individuos estrechamente emparentados, por lo que se utilizan para pruebas de ADN genealógico y análisis de ADN forense.

Las secuencias repetidas de menos de diez nucleótidos (por ejemplo, la repetición de dinucleótidos (AC)_n) se denominan secuencias de microsatélites. Entre las secuencias de microsatélites, las repeticiones de trinucleótidos son de particular importancia, ya que a veces ocurren dentro de las regiones codificantes de genes para proteínas y pueden conducir a trastornos genéticos. Por ejemplo, la enfermedad de Huntington resulta de una expansión de la repetición de trinucleótidos (CAG)_n dentro del gen Huntingtin en el cromosoma 4 humano. Los telómeros (los extremos de los cromosomas) terminan con una repetición hexanucleotídica microsatélite de la secuencia (TTAGGG)_n.

Las repeticiones en tándem de secuencias más largas (matrices de secuencias repetidas de 10 a 60 nucleótidos de largo) se denominan minisatélites.

Elementos genéticos móviles (transposones) y sus reliquias

Los elementos genéticos transponibles, secuencias de ADN que pueden replicarse e insertar copias de sí mismos en otros lugares dentro del genoma del huésped, son un componente abundante en el genoma humano. El linaje de transposones más abundante, Alu, tiene unas 50.000 copias activas y puede insertarse en regiones intragénicas e intergénicas. Otro linaje, LINE-1, tiene alrededor de 100 copias activas por genoma (el número varía entre las personas). Junto con las reliquias no funcionales de transposones antiguos, representan más de la mitad del ADN humano total. A veces llamados 'genes saltadores', los transposones han desempeñado un papel importante en la estructura del genoma humano. Algunas de estas secuencias representan retrovirus endógenos, copias de ADN de secuencias virales que se han integrado permanentemente en el genoma y ahora se transmiten a las generaciones sucesivas.

Los elementos móviles del genoma humano se pueden clasificar en retrotransposones LTR (8,3 % del genoma total), SINE (13,1 % del genoma total), incluidos los elementos Alu, LINE (20,4 % del genoma total), SVA (SINE-VNTR- Alu) y transposones de ADN de Clase II (2,9% del genoma total).

Variación genómica en humanos

Genoma humano de referencia

Con la excepción de los gemelos idénticos, todos los humanos muestran una variación significativa en las secuencias de ADN genómico. El genoma de referencia humano (HRG) se utiliza como referencia de secuencia estándar.

Hay varios puntos importantes relacionados con el genoma de referencia humano:

El HRG es una secuencia haploida. Cada cromosoma se representa una vez.
El HRG es una secuencia compuesta, y no corresponde a ningún individuo humano real.
El HRG se actualiza periódicamente para corregir errores, ambigüedades y "gaps" desconocidos.
El HRG de ninguna manera representa un individuo humano "ideal" o "perfecto". Es simplemente una representación estandarizada o modelo que se utiliza para fines comparativos.

El Consorcio de Referencia del Genoma es responsable de actualizar el HRG. La versión 38 se lanzó en diciembre de 2013.

Medición de la variación genética humana

La mayoría de los estudios sobre la variación genética humana se han centrado en los polimorfismos de un solo nucleótido (SNP), que son sustituciones en bases individuales a lo largo de un cromosoma. La mayoría de los análisis estiman que los SNP ocurren 1 en 1000 pares de bases, en promedio, en el genoma humano eucromático, aunque no ocurren en una densidad uniforme. De ahí la afirmación popular de que 'todos somos, independientemente de la raza, genéticamente iguales en un 99,9 %', aunque la mayoría de los genetistas lo matizarían un poco. Por ejemplo, ahora se cree que una fracción mucho mayor del genoma está involucrada en la variación del número de copias. El Proyecto Internacional HapMap está llevando a cabo un esfuerzo de colaboración a gran escala para catalogar las variaciones de SNP en el genoma humano.

Los loci genómicos y la longitud de ciertos tipos de pequeñas secuencias repetitivas son muy variables de una persona a otra, lo cual es la base de las tecnologías de pruebas de paternidad y huellas dactilares de ADN. También se cree que las porciones heterocromáticas del genoma humano, que suman varios cientos de millones de pares de bases, son bastante variables dentro de la población humana (son tan repetitivas y tan largas que no se pueden secuenciar con precisión con la tecnología actual). Estas regiones contienen pocos genes y no está claro si algún efecto fenotípico significativo resulta de la variación típica en las repeticiones o la heterocromatina.

La mayoría de las mutaciones genómicas graves en las células germinales de los gametos probablemente den como resultado embriones inviables; sin embargo, varias enfermedades humanas están relacionadas con anomalías genómicas a gran escala. El síndrome de Down, el síndrome de Turner y otras enfermedades resultan de la falta de disyunción de cromosomas completos. Las células cancerosas frecuentemente tienen aneuploidía de cromosomas y brazos cromosómicos, aunque no se ha establecido una relación de causa y efecto entre la aneuploidía y el cáncer.

Mapeo de la variación genómica humana

Mientras que una secuencia genómica enumera el orden de cada base de ADN en un genoma, un mapa genómico identifica los puntos de referencia. Un mapa del genoma es menos detallado que una secuencia del genoma y ayuda a navegar por el genoma.

Un ejemplo de un mapa de variación es el HapMap que está desarrollando el Proyecto Internacional HapMap. El HapMap es un mapa de haplotipos del genoma humano, "que describirá los patrones comunes de variación de la secuencia del ADN humano". Cataloga los patrones de variaciones a pequeña escala en el genoma que involucran letras o bases de ADN individuales.

Los investigadores publicaron el primer mapa basado en secuencias de variación estructural a gran escala en el genoma humano en la revista Nature en mayo de 2008. Las variaciones estructurales a gran escala son diferencias en el genoma entre personas que varían de unos pocos miles a unos pocos millones de bases de ADN; algunos son ganancias o pérdidas de tramos de secuencia del genoma y otros aparecen como reordenamientos de tramos de secuencia. Estas variaciones incluyen diferencias en el número de copias que tienen los individuos de un gen en particular, deleciones, translocaciones e inversiones.

Variación estructural

La variación estructural se refiere a las variantes genéticas que afectan a segmentos más grandes del genoma humano, a diferencia de las mutaciones puntuales. A menudo, las variantes estructurales (SV) se definen como variantes de 50 pares de bases (pb) o más, como deleciones, duplicaciones, inserciones, inversiones y otros reordenamientos. Alrededor del 90% de las variantes estructurales son deleciones no codificantes, pero la mayoría de las personas tienen más de mil deleciones de este tipo; el tamaño de las deleciones varía desde docenas de pares de bases hasta decenas de miles de pb. En promedio, los individuos portan ~3 variantes estructurales raras que alteran las regiones de codificación, p. eliminar exones. Alrededor del 2% de las personas tienen variantes estructurales de escala megabase ultra raras, especialmente reordenamientos. Es decir, pueden invertirse millones de pares de bases dentro de un cromosoma; ultra-raro significa que solo se encuentran en individuos o miembros de su familia y, por lo tanto, han surgido muy recientemente.

Frecuencia de SNP en el genoma humano

Los polimorfismos de un solo nucleótido (SNP) no ocurren de manera homogénea en todo el genoma humano. De hecho, existe una enorme diversidad en la frecuencia de SNP entre genes, lo que refleja diferentes presiones selectivas en cada gen, así como diferentes tasas de mutación y recombinación en todo el genoma. Sin embargo, los estudios sobre SNP están sesgados hacia las regiones de codificación, es poco probable que los datos generados a partir de ellos reflejen la distribución general de SNP en todo el genoma. Por lo tanto, el protocolo SNP Consortium se diseñó para identificar SNP sin sesgo hacia las regiones de codificación y los 100 000 SNP del Consortium generalmente reflejan la diversidad de secuencias en los cromosomas humanos. El Consorcio SNP tiene como objetivo ampliar el número de SNP identificados en todo el genoma a 300 000 para fines del primer trimestre de 2001.

TSC SNP distribution along the long arm of chromosome 22 (from https://web.archive.org/web/20130903043223/http://snp.cshl.org/). Cada columna representa un intervalo de 1 Mb; la posición citogenética aproximada se da en el eje x. Se pueden ver picos y tropiezos claros de densidad SNP, posiblemente reflejando diferentes tasas de mutación, recombinación y selección.

Los cambios en la secuencia no codificante y los cambios sinónimos en la secuencia codificante son generalmente más comunes que los cambios no sinónimos, lo que refleja una mayor presión selectiva que reduce la diversidad en las posiciones que dictan los aminoácidos. identidad. Los cambios de transición son más comunes que las transversiones, y los dinucleótidos CpG muestran la tasa de mutación más alta, presumiblemente debido a la desaminación.

Genomas personales

Una secuencia del genoma personal es una secuencia (casi) completa de los pares de bases químicas que componen el ADN de una sola persona. Debido a que los tratamientos médicos tienen diferentes efectos en diferentes personas debido a variaciones genéticas como los polimorfismos de un solo nucleótido (SNP), el análisis de genomas personales puede conducir a un tratamiento médico personalizado basado en genotipos individuales.

La primera secuencia del genoma personal que se determinó fue la de Craig Venter en 2007. Los genomas personales no habían sido secuenciados en el Proyecto Genoma Humano público para proteger la identidad de los voluntarios que proporcionaron muestras de ADN. Esa secuencia se derivó del ADN de varios voluntarios de una población diversa. Sin embargo, al principio del esfuerzo de secuenciación del genoma de Celera Genomics dirigido por Venter, se tomó la decisión de pasar de la secuenciación de una muestra compuesta al uso de ADN de un solo individuo, que más tarde se reveló que había sido el propio Venter. Por lo tanto, la secuencia del genoma humano de Celera publicada en 2000 fue en gran parte la de un solo hombre. El reemplazo posterior de los primeros datos derivados de compuestos y la determinación de la secuencia diploide, que representa ambos conjuntos de cromosomas, en lugar de una secuencia haploide informada originalmente, permitió la liberación del primer genoma personal. En abril de 2008 también se completó la de James Watson. En 2009, Stephen Quake publicó su propia secuencia genómica derivada de un secuenciador de su propio diseño, el Heliscope. Un equipo de Stanford dirigido por Euan Ashley publicó un marco para la interpretación médica de los genomas humanos implementado en el genoma de Quake y por primera vez tomó decisiones médicas informadas sobre el genoma completo. Ese equipo amplió aún más el enfoque a la familia West, la primera familia secuenciada como parte del programa de secuenciación del genoma personal de Illumina. Desde entonces, se han publicado cientos de secuencias genómicas personales, incluidas las de Desmond Tutu y las de un paleoesquimal. En 2012, se hicieron públicas las secuencias del genoma completo de dos tríos familiares entre 1092 genomas. En noviembre de 2013, una familia española puso a disposición del público cuatro conjuntos de datos de exomas personales (alrededor del 1% del genoma) bajo una licencia de dominio público Creative Commons. El Proyecto del Genoma Personal (iniciado en 2005) es uno de los pocos que pone a disposición del público tanto las secuencias del genoma como los fenotipos médicos correspondientes.

La secuenciación de genomas individuales reveló aún más niveles de complejidad genética que no se habían apreciado antes. La genómica personal ayudó a revelar el nivel significativo de diversidad en el genoma humano atribuido no solo a los SNP sino también a las variaciones estructurales. Sin embargo, la aplicación de dicho conocimiento al tratamiento de enfermedades y en el campo médico está solo en sus comienzos. La secuenciación del exoma se ha vuelto cada vez más popular como herramienta para ayudar en el diagnóstico de enfermedades genéticas porque el exoma contribuye solo con el 1 % de la secuencia genómica, pero representa aproximadamente el 85 % de las mutaciones que contribuyen significativamente a la enfermedad.

Nocauts humanos

En los seres humanos, las inactivaciones genéticas se producen naturalmente como inactivaciones genéticas con pérdida de función heterocigotas u homocigotas. Estos knockouts a menudo son difíciles de distinguir, especialmente dentro de antecedentes genéticos heterogéneos. También son difíciles de encontrar ya que ocurren en bajas frecuencias.

Las poblaciones con un alto nivel de parentesco causan un mayor número de nóminas de genes homocigous en comparación con las poblaciones desfavorecidas.

Las poblaciones con altos índices de consanguinidad, como los países con altos índices de matrimonios entre primos hermanos, muestran las frecuencias más altas de desactivación de genes homocigóticos. Tales poblaciones incluyen a las poblaciones de Pakistán, Islandia y Amish. Estas poblaciones con un alto nivel de parentesco con los padres han sido sujetos de investigación de eliminación humana que ha ayudado a determinar la función de genes específicos en humanos. Al distinguir las inactivaciones específicas, los investigadores pueden utilizar análisis fenotípicos de estos individuos para ayudar a caracterizar el gen que ha sido inactivado.

Un pedigrí que muestra un apareamiento de primera cadena (carriers ambos portadores de golpes heterocigous mating como marcado por doble línea) que conduce a la descendencia poseyendo un homozygous gen knockout

Los knockouts en genes específicos pueden causar enfermedades genéticas, potencialmente tener efectos beneficiosos o incluso no producir ningún efecto fenotípico. Sin embargo, determinar el efecto fenotípico de un golpe de gracia y en humanos puede ser un desafío. Los desafíos para caracterizar e interpretar clínicamente los knockouts incluyen la dificultad para llamar a las variantes de ADN, determinar la interrupción de la función de la proteína (anotación) y considerar la cantidad de influencia que tiene el mosaicismo en el fenotipo.

Un estudio importante que investigó los knock-outs humanos es el estudio Pakistan Risk of Myocardial Infarction. Se encontró que las personas que poseían un gen de pérdida de función heterocigótica para el gen APOC3 tenían triglicéridos más bajos en la sangre después de consumir una comida rica en grasas en comparación con las personas sin la mutación. Sin embargo, los individuos que poseían genes homocigóticos de pérdida de función del gen APOC3 mostraron el nivel más bajo de triglicéridos en la sangre después de la prueba de carga de grasa, ya que no producen proteína APOC3 funcional.

Trastornos genéticos humanos

La mayoría de los aspectos de la biología humana involucran tanto factores genéticos (heredados) como no genéticos (ambientales). Algunas variaciones heredadas influyen en aspectos de nuestra biología que no son de naturaleza médica (altura, color de ojos, capacidad para saborear u oler ciertos compuestos, etc.). Además, algunos trastornos genéticos solo causan enfermedades en combinación con los factores ambientales apropiados (como la dieta). Con estas advertencias, los trastornos genéticos pueden describirse como enfermedades clínicamente definidas causadas por la variación de la secuencia de ADN genómico. En los casos más sencillos, el trastorno puede estar asociado con la variación en un solo gen. Por ejemplo, la fibrosis quística es causada por mutaciones en el gen CFTR y es el trastorno recesivo más común en las poblaciones caucásicas con más de 1300 mutaciones diferentes conocidas.

Las mutaciones que causan enfermedades en genes específicos suelen ser graves en términos de la función de los genes y, afortunadamente, son raras, por lo que los trastornos genéticos son igualmente raros individualmente. Sin embargo, dado que hay muchos genes que pueden variar para causar trastornos genéticos, en conjunto constituyen un componente significativo de las condiciones médicas conocidas, especialmente en medicina pediátrica. Los trastornos genéticos caracterizados molecularmente son aquellos para los que se ha identificado el gen causal subyacente. Actualmente hay aproximadamente 2200 trastornos de este tipo anotados en la base de datos OMIM.

Los estudios de trastornos genéticos a menudo se realizan mediante estudios basados en la familia. En algunos casos, se emplean enfoques basados en la población, particularmente en el caso de las llamadas poblaciones fundadoras, como las de Finlandia, Canadá francés, Utah, Cerdeña, etc. El diagnóstico y el tratamiento de los trastornos genéticos generalmente los realiza un médico genetista. capacitados en genética clínica/médica. Es probable que los resultados del Proyecto del Genoma Humano brinden una mayor disponibilidad de pruebas genéticas para los trastornos relacionados con los genes y, finalmente, un mejor tratamiento. Los padres pueden ser evaluados en busca de condiciones hereditarias y asesorados sobre las consecuencias, la probabilidad de herencia y cómo evitarla o mejorarla en su descendencia.

Hay muchos tipos diferentes de variación de la secuencia de ADN, que van desde cromosomas extra o faltantes completos hasta cambios de un solo nucleótido. En general, se supone que gran parte de la variación genética que ocurre naturalmente en las poblaciones humanas es fenotípicamente neutra, es decir, tiene poco o ningún efecto detectable en la fisiología del individuo (aunque puede haber diferencias fraccionarias en la aptitud definida a lo largo de marcos de tiempo evolutivos). Los trastornos genéticos pueden ser causados por cualquiera o todos los tipos conocidos de variación de secuencia. Para caracterizar molecularmente un nuevo trastorno genético, es necesario establecer un vínculo causal entre una variante de secuencia genómica particular y la enfermedad clínica que se investiga. Tales estudios constituyen el ámbito de la genética molecular humana.

Con la llegada del Genoma Humano y el Proyecto Internacional HapMap, se ha vuelto factible explorar influencias genéticas sutiles en muchas enfermedades comunes como diabetes, asma, migraña, esquizofrenia, etc. Aunque se han establecido algunos vínculos causales entre la genómica Las variantes de secuencia en genes particulares y algunas de estas enfermedades, a menudo con mucha publicidad en los medios de comunicación, generalmente no se consideran trastornos genéticos per se ya que sus causas son complejas, involucrando muchos factores genéticos y ambientales diferentes. factores Por lo tanto, puede haber desacuerdo en casos particulares sobre si una condición médica específica debe denominarse trastorno genético.

Los trastornos genéticos adicionales que se mencionan son el síndrome de Kallman y el síndrome de Pfeiffer (gen FGFR1), la distrofia corneal de Fuchs (gen TCF4), la enfermedad de Hirschsprung (genes RET y FECH), el síndrome de Bardet-Biedl 1 (genes CCDC28B y BBS1), el síndrome de Bardet-Biedl 10 (gen BBS10) y la distrofia muscular facioescapulohumeral tipo 2 (genes D4Z4 y SMCHD1).

La secuenciación del genoma ahora puede reducir el genoma a ubicaciones específicas para encontrar con mayor precisión las mutaciones que darán lugar a un trastorno genético. Las variantes del número de copias (CNV) y las variantes de un solo nucleótido (SNV) también se pueden detectar al mismo tiempo que la secuenciación del genoma con los procedimientos de secuenciación más nuevos disponibles, llamados secuenciación de próxima generación (NGS). Esto solo analiza una pequeña porción del genoma, alrededor del 1-2%. Los resultados de esta secuenciación se pueden utilizar para el diagnóstico clínico de una condición genética, incluido el síndrome de Usher, enfermedad de la retina, deficiencias auditivas, diabetes, epilepsia, enfermedad de Leigh, cánceres hereditarios, enfermedades neuromusculares, inmunodeficiencias primarias, inmunodeficiencia combinada grave (SCID) y enfermedades de las mitocondrias. NGS también se puede utilizar para identificar portadores de enfermedades antes de la concepción. Las enfermedades que se pueden detectar en esta secuenciación incluyen la enfermedad de Tay-Sachs, el síndrome de Bloom, la enfermedad de Gaucher, la enfermedad de Canavan, la disautonomía familiar, la fibrosis quística, la atrofia muscular espinal y el síndrome de X frágil. La secuenciación del próximo genoma se puede reducir para buscar específicamente enfermedades más prevalentes en ciertas poblaciones étnicas.

Prevalencia y gen/cromosoma asociado para algunos trastornos genéticos humanos
Trastorno	Prevalencia	Cromosoma o gen involucrados
Condiciones cromosómicas
Síndrome de Down	1:600	Cromosoma 21
Síndrome de Klinefelter	1:500–1000 hombres	cromosoma X adicional
Síndrome de Turner	1:2000 hembras	Pérdida de cromosoma X
anemia falciforme	1 de cada 50 nacimientos en partes de África; más raras en otras partes	β-globina (en cromosoma 11)
Síndrome de Bloom	1:48000 judíos ashkenazis	BLM
Cánceres
Cáncer de mama/Ovario (susceptibilidad)	~5% de los casos de estos tipos de cáncer	BRCA1, BRCA2
FAP (hereditary nonpolyposis coli)	1:3500	APC
Síndrome de Lynch	5–10% de todos los casos de cáncer de intestino	MLH1, MSH2, MSH6, PMS2
Anemia de Fanconi	1:130000 nacimientos	FANCC
Condiciones neurológicas
Enfermedad de Huntington	1:20000	Huntingtin
Enfermedad de Alzheimer - inicio temprano	1:2500	PS1, PS2, APP
Tay-Sachs	1:3600 nacimientos en judíos ashkenazis	gen HEXA (en cromosoma 15)
Enfermedad de Canavan	2.5% Ancestro judío de Europa oriental	gen ASPA (en cromosoma 17)
Disautonomia familiar	600 casos conocidos en todo el mundo desde el descubrimiento	gen IKBKAP (en cromosoma 9)
Síndrome X frágil	1.4:10000 en hombres, 0.9:10000 en hembras	gen FMR1 (en cromosoma X)
Mucolipidosis tipo IV	1:90 a 1:100 en Ashkenazi Judíos	MCOLN1
Otras condiciones
Fibrosis quística	1:2500	CFTR
distrofia muscular Duchenne	1:3500 niños	Dystrophin
Distrofia muscular de Becker	1.5-6:100000 hombres	DMD
Beta talasemia	1:100000	HBB
Hiperplasia suprarrenal congénita	1:280 en los nativos americanos y Yupik Eskimos 1:15000 en caucásicos americanos	CYP21A2
Enfermedad de almacenamiento de glucógeno tipo I	1:100000 nacimientos en América	G6PC
Enfermedad de la orina de jarabe de arce	1:180000 en EE.UU. 1:176 en comunidades menonitas/Amish 1:250000 en Austria	BCKDHA, BCKDHB, DBT, DLD
Enfermedad de Niemann-Pick, SMPD1-asociada	1.200 casos en todo el mundo	SMPD1
Síndrome de usher	1:23000 en EE.UU. 1:28000 en Noruega 1:12500 en Alemania	CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A

Evolución

Hominin timeline

−10 -

–

−9 - 9

–

−8 –

–

−7 -

–

−6 -

–

5 - 5

–

−4 -

–

−3 -

–

−2 -

–

−1 -

–

0 -

Mioceno

Pliocene

Pleistoceno

Hominini

Nakalipithecus

Nuestro "anopithecus"

Oreopithecus

Sahelanthropus

Orrorin

Ardipithecus

Australopithecus

Homo habilis

Homo erectus

Homo bodoensis

Homo sapiens

Neanderthals,Denisovans

←

Formas anteriores

←

Gorilla split

←

Chimpanzee split

←

Bipedal más temprano

←

Principales herramientas de piedra

←

Dispersal beyond Africa

←

Fuego más temprano / cocina

←

Ropa más temprana

←

Humanos modernos

Hominids

(Hace millones de años)

Los estudios de genómica comparativa de genomas de mamíferos sugieren que aproximadamente el 5 % del genoma humano ha sido conservado por la evolución desde la divergencia de los linajes existentes hace aproximadamente 200 millones de años, que contienen la gran mayoría de los genes. El genoma del chimpancé publicado difiere del genoma humano en un 1,23% en las comparaciones directas de secuencias. Alrededor del 20% de esta cifra se explica por la variación dentro de cada especie, lo que deja solo ~1,06% de divergencia de secuencia constante entre humanos y chimpancés en genes compartidos. Sin embargo, esta diferencia nucleótido por nucleótido se ve empequeñecida por la porción de cada genoma que no se comparte, incluido alrededor del 6% de los genes funcionales que son exclusivos de humanos o chimpancés.

En otras palabras, las considerables diferencias observables entre humanos y chimpancés pueden deberse tanto o más a la variación a nivel del genoma en el número, función y expresión de los genes que a cambios en la secuencia de ADN en genes compartidos. De hecho, incluso dentro de los seres humanos, se ha descubierto que existe una cantidad de variación del número de copias (CNV) que antes no se había apreciado y que puede representar hasta un 5-15 % del genoma humano. En otras palabras, entre humanos, podría haber +/- 500,000,000 de pares de bases de ADN, algunos siendo genes activos, otros inactivados o activos en diferentes niveles. Queda por ver el significado completo de este hallazgo. En promedio, un gen codificador de proteínas humano típico difiere de su ortólogo de chimpancé en solo dos sustituciones de aminoácidos; casi un tercio de los genes humanos tienen exactamente la misma traducción de proteínas que sus ortólogos de chimpancé. Una diferencia importante entre los dos genomas es el cromosoma 2 humano, que es equivalente a un producto de fusión de los cromosomas 12 y 13 del chimpancé (más tarde renombrados como cromosomas 2A y 2B, respectivamente).

Los seres humanos han sufrido una pérdida extraordinaria de genes de receptores olfativos durante nuestra evolución reciente, lo que explica nuestro sentido del olfato relativamente tosco en comparación con la mayoría de los otros mamíferos. La evidencia evolutiva sugiere que la aparición de la visión del color en los humanos y en varias otras especies de primates ha disminuido la necesidad del sentido del olfato.

En septiembre de 2016, los científicos informaron que, según los estudios genéticos del ADN humano, todos los no africanos del mundo actual se pueden rastrear hasta una sola población que salió de África hace entre 50 000 y 80 000 años.

ADN mitocondrial

El ADN mitocondrial humano es de gran interés para los genetistas, ya que indudablemente desempeña un papel en la enfermedad mitocondrial. También arroja luz sobre la evolución humana; por ejemplo, el análisis de la variación en el genoma mitocondrial humano ha llevado a la postulación de un ancestro común reciente para todos los humanos en la línea de descendencia materna (ver Eva mitocondrial).

Debido a la falta de un sistema para comprobar los errores de copia, el ADN mitocondrial (ADNmt) tiene una tasa de variación más rápida que el ADN nuclear. Esta tasa de mutación 20 veces mayor permite que el mtDNA se use para un rastreo más preciso de la ascendencia materna. Los estudios de mtDNA en poblaciones han permitido rastrear antiguas rutas de migración, como la migración de los nativos americanos de Siberia o los polinesios del sureste de Asia. También se ha utilizado para demostrar que no hay rastro de ADN neandertal en la mezcla de genes europeos heredados a través del linaje puramente materno. Debido a la forma restrictiva de todo o nada de la herencia del ADNmt, este resultado (ningún rastro de ADNmt neandertal) sería probable a menos que hubiera un gran porcentaje de ascendencia neandertal, o que hubiera una fuerte selección positiva para ese ADNmt. Por ejemplo, retrocediendo 5 generaciones, solo 1 de los 32 ancestros de una persona contribuyó al ADNmt de esa persona, por lo que si uno de estos 32 era neandertal puro, se esperaba ~3% del ADN de esa persona. El ADN autosómico sería de origen neandertal, pero tendrían un ~97% de probabilidad de no tener rastros de ADNmt neandertal.

Epigenoma

La epigenética describe una variedad de características del genoma humano que trascienden su secuencia primaria de ADN, como el empaquetamiento de la cromatina, las modificaciones de histonas y la metilación del ADN, y que son importantes para regular la expresión génica, la replicación del genoma y otros procesos celulares. Los marcadores epigenéticos fortalecen y debilitan la transcripción de ciertos genes pero no afectan la secuencia real de nucleótidos de ADN. La metilación del ADN es una forma importante de control epigenético sobre la expresión génica y uno de los temas más estudiados en epigenética. Durante el desarrollo, el perfil de metilación del ADN humano experimenta cambios drásticos. En las primeras células de la línea germinal, el genoma tiene niveles de metilación muy bajos. Estos niveles bajos generalmente describen genes activos. A medida que avanza el desarrollo, las etiquetas de impronta parental conducen a una mayor actividad de metilación.

Los patrones epigenéticos se pueden identificar entre los tejidos dentro de un individuo, así como entre los propios individuos. Los genes idénticos que tienen diferencias únicamente en su estado epigenético se denominan epialelos. Los epialelos se pueden clasificar en tres categorías: los determinados directamente por el genotipo de un individuo, los influenciados por el genotipo y los totalmente independientes del genotipo. El epigenoma también está influenciado significativamente por factores ambientales. La dieta, las toxinas y las hormonas afectan el estado epigenético. Los estudios de manipulación dietética han demostrado que las dietas deficientes en metilo están asociadas con la hipometilación del epigenoma. Dichos estudios establecen la epigenética como una interfaz importante entre el medio ambiente y el genoma.

Te puede interesar
Cladística
(leer más)
Te puede interesar
Gymnadenia conopsea
(leer más)
Te puede interesar
Integrina
(leer más)
Más resultados...