Genoma humano

Ajustar Compartir Imprimir Citar
Conjunto completo de secuencias de ácido nucleico para humanos

El genoma humano es un conjunto completo de secuencias de ácido nucleico para humanos, codificado como ADN dentro de los 23 pares de cromosomas en los núcleos celulares y en una pequeña molécula de ADN que se encuentra dentro de las mitocondrias individuales. Estos generalmente se tratan por separado como el genoma nuclear y el genoma mitocondrial. Los genomas humanos incluyen secuencias de ADN que codifican proteínas y varios tipos de ADN que no codifican proteínas. Esta última es una categoría diversa que incluye el ADN que codifica para el ARN no traducido, como el del ARN ribosómico, el ARN de transferencia, las ribozimas, los ARN nucleares pequeños y varios tipos de ARN reguladores. También incluye promotores y sus elementos reguladores de genes asociados, ADN que desempeña funciones estructurales y de replicación, como regiones de andamiaje, telómeros, centrómeros y orígenes de replicación, además de un gran número de elementos transponibles, ADN viral insertado, pseudogenes no funcionales y simples., secuencias altamente repetitivas. Los intrones constituyen un gran porcentaje del ADN no codificante. Parte de este ADN no codificante es ADN basura no funcional, como los pseudogenes, pero no existe un consenso firme sobre la cantidad total de ADN basura.

Los genomas humanos haploides, que están contenidos en las células germinales (el óvulo y el espermatozoide creados en la fase de meiosis de la reproducción sexual antes de la fertilización) constan de 3 054 815 472 pares de bases de ADN (si se usa el cromosoma X), mientras que los genomas diploides femeninos (que se encuentran en las células somáticas) tienen el doble de contenido de ADN.

Si bien existen diferencias significativas entre los genomas de los individuos humanos (del orden del 0,1 % debido a las variantes de un solo nucleótido y del 0,6 % cuando se consideran los indeles), estas son considerablemente menores que las diferencias entre los humanos y sus parientes vivos más cercanos, los bonobos y los chimpancés (~ 1,1% de variantes fijas de un solo nucleótido y 4% cuando se incluyen indeles). El tamaño en pares de bases también puede variar; la longitud de los telómeros disminuye después de cada ronda de replicación del ADN.

Aunque la secuencia del genoma humano se ha determinado por completo mediante la secuenciación del ADN, aún no se comprende por completo. La mayoría de los genes, pero no todos, han sido identificados mediante una combinación de enfoques bioinformáticos y experimentales de alto rendimiento, pero aún queda mucho trabajo por hacer para dilucidar aún más las funciones biológicas de sus productos de proteínas y ARN (en particular, la anotación del CHM13v2 completo). La secuencia.0 todavía está en curso). Y, sin embargo, los genes superpuestos son bastante comunes, lo que en algunos casos permite que dos genes que codifican proteínas de cada hebra reutilicen los pares de bases dos veces (por ejemplo, los genes DCDC2 y KAAG1). Los resultados recientes sugieren que la mayoría de las grandes cantidades de ADN no codificante dentro del genoma tienen actividades bioquímicas asociadas, incluida la regulación de la expresión génica, la organización de la arquitectura cromosómica y las señales que controlan la herencia epigenética. También hay una cantidad significativa de retrovirus en el ADN humano, de los cuales se ha demostrado que al menos 3 poseen una función importante (es decir, HERV-K, HERV-W y HERV-FRD similares al VIH juegan un papel en la formación de la placenta al induciendo la fusión célula-célula).

En 2003, los científicos informaron sobre la secuenciación del 85 % del genoma humano completo, pero a partir de 2020 aún faltaba al menos el 8 %.

En 2021, los científicos informaron sobre la secuenciación del genoma femenino completo (es decir, sin el cromosoma Y). Esta secuencia identificó 19.969 secuencias codificantes de proteínas, que representan aproximadamente el 1,5% del genoma, y 63.494 genes en total, la mayoría de ellos genes de ARN no codificantes. El genoma consta de secuencias de ADN reguladoras, LINE, SINE, intrones y secuencias para las que aún no se ha determinado su función. El cromosoma Y humano, que consta de 62 460 029 pares de bases de una línea celular diferente y se encuentra en todos los hombres, se secuenció por completo en enero de 2022.

Secuenciación

Las primeras secuencias del genoma humano fueron publicadas en forma de borrador casi completo en febrero de 2001 por Human Genome Project y Celera Corporation. La finalización del esfuerzo de secuenciación del Proyecto del Genoma Humano se anunció en 2004 con la publicación de un borrador de la secuencia del genoma, dejando solo 341 espacios en la secuencia, lo que representa ADN altamente repetitivo y de otro tipo que no se pudo secuenciar con la tecnología disponible en el tiempo. El genoma humano fue el primero de todos los vertebrados en ser secuenciado hasta casi completarse y, a partir de 2018, los genomas diploides de más de un millón de humanos individuales se determinaron mediante secuenciación de próxima generación.

Estos datos se utilizan en todo el mundo en ciencias biomédicas, antropología, ciencia forense y otras ramas de la ciencia. Dichos estudios genómicos han llevado a avances en el diagnóstico y tratamiento de enfermedades y a nuevos conocimientos en muchos campos de la biología, incluida la evolución humana.

Para 2018, el número total de genes había aumentado a por lo menos 46 831, más otros 2300 genes de micro-ARN. Una encuesta de población de 2018 encontró otros 300 millones de bases del genoma humano que no estaban en la secuencia de referencia. Antes de la adquisición de la secuencia completa del genoma, las estimaciones del número de genes humanos oscilaban entre 50 000 y 140 000 (con vaguedades ocasionales acerca de si estas estimaciones incluían genes que no codifican proteínas). A medida que mejoraba la calidad de la secuencia del genoma y los métodos para identificar los genes que codifican proteínas, el recuento de genes codificadores de proteínas reconocidos se redujo a 19.000-20.000.

En junio de 2016, los científicos anunciaron formalmente HGP-Write, un plan para sintetizar el genoma humano.

En 2022, el consorcio Telómero a telómero (T2T) informó la secuencia completa de un genoma femenino humano, llenando todos los espacios en el cromosoma X (2020) y los 22 autosomas (mayo de 2021). Las partes previamente no secuenciadas contienen genes de respuesta inmune que ayudan a adaptarse y sobrevivir a las infecciones, así como genes que son importantes para predecir la respuesta a los medicamentos. La secuencia completa del genoma humano también proporcionará una mejor comprensión de la formación humana como organismo individual y cómo los humanos varían entre sí y entre otras especies.

Lograr la integridad

Aunque la 'finalización' del proyecto del genoma humano se anunció en 2001, quedaban cientos de lagunas, con alrededor del 5-10% de la secuencia total sin determinar. La información genética faltante se encontraba principalmente en regiones heterocromáticas repetitivas y cerca de los centrómeros y telómeros, pero también en algunas regiones eucromáticas que codifican genes. Quedaban 160 lagunas eucromáticas en 2015 cuando se determinaron las secuencias que abarcaban otras 50 regiones no secuenciadas anteriormente. Solo en 2020 se determinó la primera secuencia verdaderamente completa de telómero a telómero de un cromosoma humano, concretamente del cromosoma X. La primera secuencia completa de telómero a telómero de un cromosoma autosómico humano, el cromosoma 8, siguió un año después. El genoma humano completo (sin cromosoma Y) se publicó en 2021, mientras que con cromosoma Y en enero de 2022.

Organización molecular y contenido genético

La longitud total del genoma humano de referencia, que no representa la secuencia de ningún individuo específico. El genoma está organizado en 22 pares de cromosomas, denominados autosomas, más el par 23 de cromosomas sexuales (XX) en la mujer y (XY) en el hombre. El genoma haploide es de 3 054 815 472 pares de bases, cuando se incluye el cromosoma X, y de 2 963 015 935 pares de bases cuando se sustituye el cromosoma Y por el cromosoma X. Estos cromosomas son grandes moléculas de ADN lineal contenidas dentro del núcleo celular. El genoma también incluye el ADN mitocondrial, una molécula circular comparativamente pequeña presente en múltiples copias en cada mitocondria.

Human reference data, by chromosome
Chromo-
some
Length Base
pairs
Varia-
tions
Protein-
coding
genes
Pseudo-
genes
Total
long
ncRNA
Total
small
ncRNA
miRNA rRNA snRNA snoRNA Misc
ncRNA
Links Centromere
position
(Mbp)
Cumu-
lative
(%)
1 8.5 cm 248,387,328 12,151,146 2058 1220 1200 496 134 66 221 145 192 EBI 125 7.9
2 8.3 cm 242,696,752 12,945,965 1309 1023 1037 375 115 40 161 117 176 EBI 93.3 16.2
3 6.7 cm 201,105,948 10,638,715 1078 763 711 298 99 29 138 87 134 EBI 91 23
4 6.5 cm 193,574,945 10,165,685 752 727 657 228 92 24 120 56 104 EBI 50.4 29.6
5 6.2 cm 182,045,439 9,519,995 876 721 844 235 83 25 106 61 119 EBI 48.4 35.8
6 5.8 cm 172,126,628 9,130,476 1048 801 639 234 81 26 111 73 105 EBI 61 41.6
7 5.4 cm 160,567,428 8,613,298 989 885 605 208 90 24 90 76 143 EBI 59.9 47.1
8 5.0 cm 146,259,331 8,221,520 677 613 735 214 80 28 86 52 82 EBI 45.6 52
9 4.8 cm 150,617,247 6,590,811 786 661 491 190 69 19 66 51 96 EBI 49 56.3
10 4.6 cm 134,758,134 7,223,944 733 568 579 204 64 32 87 56 89 EBI 40.2 60.9
11 4.6 cm 135,127,769 7,535,370 1298 821 710 233 63 24 74 76 97 EBI 53.7 65.4
12 4.5 cm 133,324,548 7,228,129 1034 617 848 227 72 27 106 62 115 EBI 35.8 70
13 3.9 cm 113,566,686 5,082,574 327 372 397 104 42 16 45 34 75 EBI 17.9 73.4
14 3.6 cm 101,161,492 4,865,950 830 523 533 239 92 10 65 97 79 EBI 17.6 76.4
15 3.5 cm 99,753,195 4,515,076 613 510 639 250 78 13 63 136 93 EBI 19 79.3
16 3.1 cm 96,330,374 5,101,702 873 465 799 187 52 32 53 58 51 EBI 36.6 82
17 2.8 cm 84,276,897 4,614,972 1197 531 834 235 61 15 80 71 99 EBI 24 84.8
18 2.7 cm 80,542,538 4,035,966 270 247 453 109 32 13 51 36 41 EBI 17.2 87.4
19 2.0 cm 61,707,364 3,858,269 1472 512 628 179 110 13 29 31 61 EBI 26.5 89.3
20 2.1 cm 66,210,255 3,439,621 544 249 384 131 57 15 46 37 68 EBI 27.5 91.4
21 1.6 cm 45,090,682 2,049,697 234 185 305 71 16 5 21 19 24 EBI 13.2 92.6
22 1.7 cm 51,324,926 2,135,311 488 324 357 78 31 5 23 23 62 EBI 14.7 93.8
X 5.3 cm 154,259,566 5,753,881 842 874 271 258 128 22 85 64 100 EBI 60.6 99.1
Y 2.0 cm 62,460,029 211,643 71 388 71 30 15 7 17 3 8 EBI 10.4 100
mtDNA 5.4 μm 16,569 929 13 0 0 24 0 2 0 0 0 EBI N/A 100
hapl 1-23 + X 104 cm 3,054,815,472 20328 14212 14656 4983 1741 523 1927 1518 2205
hapl 1-23 + Y 101 cm 2,963,015,935 19557 13726 14456 4755 1628 508 1859 1457 2113
dipl + mt 208.23 cm 6,109,647,513 40669 28424 29312 9990 3482 1048 3854 3036 4410
dipl + mt 205.00 cm 6,017,847,976 39898 27938 29112 9762 3369 1033 3786 2975 4318
Análisis original publicado en la base de datos Ensembl del Instituto Europeo de Bioinformática (EBI) y Wellcome Trust Sanger Institute. Longitudes cromosómicas estimadas multiplicando el número de pares base (de genoma de referencia más antiguo, no CHM13v2.0) por 0,34 nanometros (distancia entre pares base pico en la estructura más común del doble helix de ADN; una estimación reciente de longitudes de cromosoma humano basado en informes de datos actualizados 205.00 cm para el genoma masculino diploide y 208.23 cm para hembra 6.41 respectivamente. El número de proteínas se basa en el número de transcripciones iniciales de precursores mRNA, y no incluye productos de brote alternativo premRNA, o modificaciones a la estructura de proteínas que ocurren después de la traducción.

Las variaciones son diferencias únicas de secuencia de ADN que se han identificado en las secuencias individuales del genoma humano analizadas por Ensembl a diciembre de 2016. Se espera que el número de variaciones identificadas aumente a medida que se secuencian y analizan otros genomas personales. Además del contenido gen que se muestra en esta tabla, se ha identificado un gran número de secuencias funcionales no expresadas en todo el genoma humano (ver abajo). Los enlaces abren ventanas a las secuencias cromosómicas de referencia en el navegador del genoma EBI.

Los ARN pequeños no codificadores son ARNs de hasta 200 bases que no tienen potencial de codificación de proteínas. Estos incluyen: microRNAs, o miRNAs (reguladores post-transcriptionales de expresión génica), pequeños ARN nucleares, o snRNAs (los componentes ARN de los spliceosomas), y pequeños ARN nucleolares, o snoRNA (involucrados en modificaciones químicas guía a otras moléculas del ARN). Los ARN largos no codificación son moléculas de ARN más de 200 bases que no tienen potencial de codificación de proteínas. Estos incluyen: ARN ribosomal, o ARNs (los componentes del ARN de ribosomas), y una variedad de otros ARN largos que están involucrados en la regulación de la expresión genética, modificaciones epigenéticas de los nucleótidos de ADN y proteínas de cálculo, y regulación de la actividad de genes de codificación de proteínas. Las pequeñas discrepancias entre los números totales-pequeños-ncRNA y los números de tipos específicos de pequeñas NcNRAs resultan de los antiguos valores que se generan de la versión 87 de Ensembl y de la versión 68 de Ensembl.

El número de genes en el genoma humano no está completamente claro porque la función de numerosas transcripciones no está clara. Esto es especialmente cierto para el ARN no codificación. El número de genes de codificación de proteínas es mejor conocido, pero todavía hay en el orden de 1.400 genes cuestionables que pueden o no codificar las proteínas funcionales, generalmente codificados por marcos de lectura abiertos cortos.
Discrepancias en estimaciones del número de genes humanos entre diferentes bases de datos, a julio de 2018
Gencode Ensembl Refseq CHESS
genes de codificación de proteínas 19,901 20.376 20.345 21,306
genes de lncRNA 15,779 14,720 17.712 18.484
ARN antisentido 5501 28 2694
ARN diverso 2213 2222 13,899 4347
Pseudogenes 14,723 1740 15.952
transcripciones totales 203,835 203,903 154,484 328.827
Número de genes (orange) y pares base (verde, en millones) en cada cromosoma

Contenido de información

El genoma humano haploide (23 cromosomas) tiene una longitud de unos 3.000 millones de pares de bases y contiene alrededor de 30.000 genes. Dado que cada par de bases se puede codificar con 2 bits, se trata de unos 750 megabytes de datos. Una célula somática (diploide) individual contiene el doble de esta cantidad, es decir, unos 6 000 millones de pares de bases. Los hombres tienen menos que las mujeres porque el cromosoma Y tiene alrededor de 62 millones de pares de bases, mientras que el X tiene alrededor de 154 millones. Dado que los genomas individuales varían en secuencia en menos del 1 % entre sí, las variaciones del genoma de un ser humano determinado a partir de una referencia común se pueden comprimir sin pérdidas hasta aproximadamente 4 megabytes.

La tasa de entropía del genoma difiere significativamente entre secuencias codificantes y no codificantes. Está cerca del máximo de 2 bits por par de bases para las secuencias de codificación (alrededor de 45 millones de pares de bases), pero menos para las partes no codificantes. Varía entre 1,5 y 1,9 bits por par de bases para el cromosoma individual, a excepción del cromosoma Y, que tiene una tasa de entropía inferior a 0,9 bits por par de bases.

ADN codificante frente a no codificante

El contenido del genoma humano se suele dividir en secuencias de ADN codificantes y no codificantes. El ADN codificante se define como aquellas secuencias que pueden transcribirse en ARNm y traducirse en proteínas durante el ciclo de vida humano; estas secuencias ocupan solo una pequeña fracción del genoma (<2%). El ADN no codificante está formado por todas aquellas secuencias (aproximadamente el 98 % del genoma) que no se utilizan para codificar proteínas.

Algunos ADN no codificantes contienen genes para moléculas de ARN con funciones biológicas importantes (ARN no codificante, por ejemplo, ARN ribosómico y ARN de transferencia). La exploración de la función y el origen evolutivo del ADN no codificante es un objetivo importante de la investigación genómica contemporánea, incluido el proyecto ENCODE (Enciclopedia de los elementos del ADN), cuyo objetivo es estudiar todo el genoma humano, utilizando una variedad de herramientas experimentales cuyos resultados son indicativos. de actividad molecular. Sin embargo, se discute si la actividad molecular (transcripción de ADN en ARN) por sí sola implica que el ARN producido tiene una función biológica significativa, ya que los experimentos han demostrado que el ADN no funcional aleatorio también reclutará de manera reproducible factores de transcripción que darán como resultado la transcripción en ARN no funcional.

No hay consenso sobre lo que constituye un "funcional" elemento en el genoma ya que los genetistas, los biólogos evolutivos y los biólogos moleculares emplean diferentes definiciones y métodos. Debido a la ambigüedad en la terminología, han surgido diferentes escuelas de pensamiento. En definiciones evolutivas, "funcional" El ADN, ya sea codificante o no codificante, contribuye a la aptitud del organismo y, por lo tanto, se mantiene mediante una presión evolutiva negativa, mientras que el ADN "no funcional" El ADN no tiene ningún beneficio para el organismo y, por lo tanto, está bajo una presión selectiva neutra. Este tipo de ADN se ha descrito como ADN basura En las definiciones genéticas, "funcional" El ADN está relacionado con la forma en que los segmentos de ADN se manifiestan por fenotipo y "no funcionales" está relacionado con los efectos de pérdida de función en el organismo. En definiciones bioquímicas, "funcional" El ADN se relaciona con secuencias de ADN que especifican productos moleculares (por ejemplo, ARN no codificantes) y actividades bioquímicas con funciones mecánicas en la regulación de genes o genomas (es decir, secuencias de ADN que afectan la actividad a nivel celular, como el tipo de célula, la condición y los procesos moleculares). No existe un consenso en la literatura sobre la cantidad de ADN funcional ya que, dependiendo de cómo "funcione" se entiende, se han estimado rangos desde hasta el 90% del genoma humano es probablemente ADN no funcional (ADN basura) hasta hasta el 80% del genoma es probablemente funcional. También es posible que el ADN basura adquiera una función en el futuro y, por lo tanto, desempeñe un papel en la evolución, pero es probable que esto ocurra muy raramente. Finalmente, el ADN que es perjudicial para el organismo y está bajo presión selectiva negativa se denomina ADN basura.

Debido a que el ADN no codificante supera con creces al ADN codificante, el concepto de genoma secuenciado se ha convertido en un concepto analítico más centrado que el concepto clásico del gen codificante de ADN.

Secuencias codificantes (genes codificadores de proteínas)

Los genes humanos categorizados por función de las proteínas transscritas, dados tanto como número de genes de codificación y porcentaje de todos los genes

Las secuencias de codificación de proteínas representan el componente más ampliamente estudiado y mejor comprendido del genoma humano. Estas secuencias finalmente conducen a la producción de todas las proteínas humanas, aunque varios procesos biológicos (por ejemplo, reordenamientos de ADN y corte y empalme alternativo de pre-ARNm) pueden conducir a la producción de muchas más proteínas únicas que la cantidad de genes que codifican proteínas. La capacidad modular completa de codificación de proteínas del genoma está contenida dentro del exoma y consiste en secuencias de ADN codificadas por exones que pueden traducirse en proteínas. Debido a su importancia biológica y al hecho de que constituye menos del 2% del genoma, la secuenciación del exoma fue el primer hito importante del Proyecto Genoma Humano.

Número de genes codificadores de proteínas. Se han anotado unas 20.000 proteínas humanas en bases de datos como Uniprot. Históricamente, las estimaciones de la cantidad de genes de proteínas han variado ampliamente, llegando a 2 000 000 a fines de la década de 1960, pero varios investigadores señalaron a principios de la década de 1970 que la carga mutacional estimada de mutaciones perjudiciales colocaba un límite superior de aproximadamente 40 000 para la cantidad total. de loci funcionales (esto incluye genes codificantes de proteínas y no codificantes funcionales). El número de genes humanos que codifican proteínas no es significativamente mayor que el de muchos organismos menos complejos, como el gusano redondo y la mosca de la fruta. Esta diferencia puede deberse al uso extensivo de empalmes alternativos de pre-ARNm en humanos, que brinda la capacidad de construir una gran cantidad de proteínas modulares a través de la incorporación selectiva de exones.

Capacidad de codificación de proteínas por cromosoma. Los genes que codifican proteínas se distribuyen de manera desigual en los cromosomas, desde unas pocas docenas hasta más de 2000, con una densidad de genes especialmente alta en los cromosomas 1, 11 y 19. Cada cromosoma contiene varias regiones ricas en genes y pobres en genes, que puede estar correlacionado con las bandas cromosómicas y el contenido de GC. La importancia de estos patrones no aleatorios de densidad de genes no se comprende bien.

Tamaño de los genes codificadores de proteínas. El tamaño de los genes que codifican proteínas dentro del genoma humano muestra una enorme variabilidad. Por ejemplo, el gen de la histona H1a (HIST1HIA) es relativamente pequeño y simple, carece de intrones y codifica un ARNm de 781 nucleótidos de largo que produce una proteína de 215 aminoácidos a partir de su marco de lectura abierto de 648 nucleótidos. La distrofina (DMD) fue el gen codificador de proteínas más grande en el genoma de referencia humano de 2001, que abarca un total de 2,2 millones de nucleótidos, mientras que un metanálisis sistemático más reciente de datos actualizados del genoma humano identificó un gen codificador de proteínas aún más grande, RBFOX1 (proteína de unión a ARN, homólogo de fox-1 1), que abarca un total de 2,47 millones de nucleótidos. La titina (TTN) tiene la secuencia de codificación más larga (114 414 nucleótidos), el mayor número de exones (363) y el exón individual más largo (17 106 nucleótidos). Según una estimación basada en un conjunto curado de genes codificadores de proteínas en todo el genoma, el tamaño medio es de 26 288 nucleótidos (media = 66 577), el tamaño medio del exón, 133 nucleótidos (media = 309), el número medio de exones, 8 (media = 11), y la proteína codificada mediana tiene 425 aminoácidos (media = 553) de longitud.

Ejemplos de genes de codificación de proteínas humanas
ProteínaChromGeneDuraciónExonesLongitud exonLongitud de hierroAlt splicing
Cáncer de mama tipo 2 proteína de susceptibilidad13BRCA283.7362711.38672.350Sí.
Regulador de conductividad de fibrosis quística transmembrana7CFTR202,881274.440198,441Sí.
Cytochrome bMTMTCYB1.14011.1400no
DystrophinXDMD2.220.3817910.5002.209.881Sí.
Glyceraldehyde-3-phosphate dehydrogenase12GAPDH4.44491.4253.019Sí.
Subunidad de hemoglobina beta11HBB1,6053626979no
Histone H1A6HIST1H1A78117810no
Titin2TTN281,434364104.301177,133Sí.

ADN no codificante (ADNnc)

El ADN no codificante se define como todas las secuencias de ADN dentro de un genoma que no se encuentran dentro de los exones que codifican proteínas y, por lo tanto, nunca se representan dentro de la secuencia de aminoácidos de las proteínas expresadas. Según esta definición, más del 98% de los genomas humanos está compuesto por ncDNA.

Se han identificado numerosas clases de ADN no codificante, incluidos genes para ARN no codificante (por ejemplo, ARNt y ARNr), pseudogenes, intrones, regiones no traducidas de ARNm, secuencias reguladoras de ADN, secuencias repetitivas de ADN y secuencias relacionadas con elementos genéticos móviles.

Numerosas secuencias que están incluidas dentro de los genes también se definen como ADN no codificante. Estos incluyen genes para ARN no codificante (p. ej., ARNt, ARNr) y componentes no traducidos de genes codificadores de proteínas (p. ej., intrones y regiones no traducidas 5' y 3' de ARNm).

Las secuencias de codificación de proteínas (específicamente, la codificación de exones) constituyen menos del 1,5 % del genoma humano. Además, alrededor del 26% del genoma humano son intrones. Además de los genes (exones e intrones) y las secuencias reguladoras conocidas (8 a 20 %), el genoma humano contiene regiones de ADN no codificante. La cantidad exacta de ADN no codificante que desempeña un papel en la fisiología celular ha sido objeto de acalorados debates. Un análisis reciente del proyecto ENCODE indica que el 80 % del genoma humano completo se transcribe, se une a proteínas reguladoras o se asocia con alguna otra actividad bioquímica.

Sin embargo, sigue siendo controvertido si toda esta actividad bioquímica contribuye a la fisiología celular o si una parte sustancial de esto es el resultado del ruido transcripcional y bioquímico, que el organismo debe filtrar activamente. Excluyendo las secuencias de codificación de proteínas, los intrones y las regiones reguladoras, gran parte del ADN no codificante se compone de: Muchas secuencias de ADN que no juegan un papel en la expresión génica tienen importantes funciones biológicas. Los estudios de genómica comparativa indican que alrededor del 5% del genoma contiene secuencias de ADN no codificante que están altamente conservadas, a veces en escalas de tiempo que representan cientos de millones de años, lo que implica que estas regiones no codificantes están bajo una fuerte presión evolutiva y una selección purificadora.

Muchas de estas secuencias regulan la estructura de los cromosomas limitando las regiones de formación de heterocromatina y regulando las características estructurales de los cromosomas, como los telómeros y centrómeros. Otras regiones no codificantes sirven como orígenes de la replicación del ADN. Finalmente, varias regiones se transcriben en ARN no codificante funcional que regula la expresión de genes que codifican proteínas (por ejemplo), la traducción y la estabilidad del ARNm (ver miARN), la estructura de la cromatina (incluidas las modificaciones de histonas, por ejemplo), la metilación del ADN (por ejemplo), recombinación de ADN (por ejemplo) y regulación cruzada de otros ARN no codificantes (por ejemplo). También es probable que muchas regiones no codificantes transcritas no cumplan ninguna función y que esta transcripción sea el producto de la actividad de la ARN polimerasa no específica.

Pseudogenes

Los pseudogenes son copias inactivas de genes que codifican proteínas, a menudo generados por la duplicación de genes, que se han vuelto no funcionales debido a la acumulación de mutaciones inactivantes. El número de pseudogenes en el genoma humano es del orden de 13.000, y en algunos cromosomas es casi el mismo que el número de genes codificadores de proteínas funcionales. La duplicación de genes es un mecanismo importante a través del cual se genera nuevo material genético durante la evolución molecular.

Por ejemplo, la familia de genes de receptores olfativos es uno de los ejemplos mejor documentados de pseudogenes en el genoma humano. Más del 60 por ciento de los genes de esta familia son pseudogenes no funcionales en humanos. En comparación, solo el 20 por ciento de los genes en la familia de genes de receptores olfativos de ratón son pseudogenes. La investigación sugiere que esta es una característica específica de la especie, ya que los primates más estrechamente relacionados tienen proporcionalmente menos pseudogenes. Este descubrimiento genético ayuda a explicar el sentido del olfato menos agudo en los humanos en relación con otros mamíferos.

Genes para ARN no codificante (ncRNA)

Las moléculas de ARN no codificantes desempeñan muchas funciones esenciales en las células, especialmente en las numerosas reacciones de la síntesis de proteínas y el procesamiento del ARN. El ARN no codificante incluye ARNt, ARN ribosómico, microARN, ARNsn y otros genes de ARN no codificante, incluidos aproximadamente 60 000 ARN no codificantes largos (lncRNA). Aunque el número de genes lncRNA informados continúa aumentando y aún no se ha definido el número exacto en el genoma humano, se argumenta que muchos de ellos no son funcionales.

Muchos ncRNA son elementos críticos en la regulación y expresión génica. El ARN no codificante también contribuye a la epigenética, la transcripción, el empalme del ARN y la maquinaria de traducción. El papel del ARN en la regulación genética y la enfermedad ofrece un nuevo nivel potencial de complejidad genómica inexplorada.

Introns y regiones no traducidas de mRNA

Además de las moléculas de ncRNA que están codificadas por genes discretos, las transcripciones iniciales de los genes codificadores de proteínas suelen contener extensas secuencias no codificantes, en forma de intrones, regiones 5' no traducidas (5'-UTR), y 3'-regiones no traducidas (3'-UTR). Dentro de la mayoría de los genes que codifican proteínas del genoma humano, la longitud de las secuencias de intrones es de 10 a 100 veces la longitud de las secuencias de exones.

Secuencias de ADN reguladoras

El genoma humano tiene muchas secuencias reguladoras diferentes que son cruciales para controlar la expresión génica. Las estimaciones conservadoras indican que estas secuencias constituyen el 8% del genoma, sin embargo, las extrapolaciones del proyecto ENCODE dan que el 20-40% del genoma es una secuencia reguladora de genes. Algunos tipos de ADN no codificante son 'interruptores' genéticos. que no codifican proteínas, pero regulan cuándo y dónde se expresan los genes (llamados potenciadores).

Las secuencias reglamentarias se conocen desde finales de la década de 1960. La primera identificación de secuencias reguladoras en el genoma humano se basó en la tecnología del ADN recombinante. Más tarde, con el advenimiento de la secuenciación genómica, la identificación de estas secuencias podría inferirse por conservación evolutiva. La rama evolutiva entre los primates y el ratón, por ejemplo, ocurrió hace entre 70 y 90 millones de años. Por lo tanto, las comparaciones informáticas de secuencias de genes que identifican secuencias no codificantes conservadas serán una indicación de su importancia en tareas como la regulación de genes.

Se han secuenciado otros genomas con la misma intención de ayudar a los métodos guiados por la conservación, por ejemplo, el genoma del pez globo. Sin embargo, las secuencias reguladoras desaparecen y vuelven a evolucionar durante la evolución a un ritmo elevado.

A partir de 2012, los esfuerzos se han centrado en encontrar interacciones entre el ADN y las proteínas reguladoras mediante la técnica ChIP-Seq, o brechas donde el ADN no está empaquetado por histonas (sitios hipersensibles a la ADNasa), los cuales indican dónde hay actividad secuencias reguladoras en el tipo celular investigado.

Secuencias repetitivas de ADN

Las secuencias de ADN repetitivas comprenden aproximadamente el 50 % del genoma humano.

Alrededor del 8 % del genoma humano consiste en matrices de ADN en tándem o repeticiones en tándem, secuencias repetidas de baja complejidad que tienen varias copias adyacentes (por ejemplo, "CAGCAGCAG..."). Las secuencias en tándem pueden tener longitudes variables, desde dos nucleótidos hasta decenas de nucleótidos. Estas secuencias son muy variables, incluso entre individuos estrechamente emparentados, por lo que se utilizan para pruebas de ADN genealógico y análisis de ADN forense.

Las secuencias repetidas de menos de diez nucleótidos (por ejemplo, la repetición de dinucleótidos (AC)n) se denominan secuencias de microsatélites. Entre las secuencias de microsatélites, las repeticiones de trinucleótidos son de particular importancia, ya que a veces ocurren dentro de las regiones codificantes de genes para proteínas y pueden conducir a trastornos genéticos. Por ejemplo, la enfermedad de Huntington resulta de una expansión de la repetición de trinucleótidos (CAG)n dentro del gen Huntingtin en el cromosoma 4 humano. Los telómeros (los extremos de los cromosomas) terminan con una repetición hexanucleotídica microsatélite de la secuencia (TTAGGG)n.

Las repeticiones en tándem de secuencias más largas (matrices de secuencias repetidas de 10 a 60 nucleótidos de largo) se denominan minisatélites.

Elementos genéticos móviles (transposones) y sus reliquias

Los elementos genéticos transponibles, secuencias de ADN que pueden replicarse e insertar copias de sí mismos en otros lugares dentro del genoma del huésped, son un componente abundante en el genoma humano. El linaje de transposones más abundante, Alu, tiene unas 50.000 copias activas y puede insertarse en regiones intragénicas e intergénicas. Otro linaje, LINE-1, tiene alrededor de 100 copias activas por genoma (el número varía entre las personas). Junto con las reliquias no funcionales de transposones antiguos, representan más de la mitad del ADN humano total. A veces llamados 'genes saltadores', los transposones han desempeñado un papel importante en la estructura del genoma humano. Algunas de estas secuencias representan retrovirus endógenos, copias de ADN de secuencias virales que se han integrado permanentemente en el genoma y ahora se transmiten a las generaciones sucesivas.

Los elementos móviles del genoma humano se pueden clasificar en retrotransposones LTR (8,3 % del genoma total), SINE (13,1 % del genoma total), incluidos los elementos Alu, LINE (20,4 % del genoma total), SVA (SINE-VNTR- Alu) y transposones de ADN de Clase II (2,9% del genoma total).

Variación genómica en humanos

Genoma humano de referencia

Con la excepción de los gemelos idénticos, todos los humanos muestran una variación significativa en las secuencias de ADN genómico. El genoma de referencia humano (HRG) se utiliza como referencia de secuencia estándar.

Hay varios puntos importantes relacionados con el genoma de referencia humano:

El Consorcio de Referencia del Genoma es responsable de actualizar el HRG. La versión 38 se lanzó en diciembre de 2013.

Medición de la variación genética humana

La mayoría de los estudios sobre la variación genética humana se han centrado en los polimorfismos de un solo nucleótido (SNP), que son sustituciones en bases individuales a lo largo de un cromosoma. La mayoría de los análisis estiman que los SNP ocurren 1 en 1000 pares de bases, en promedio, en el genoma humano eucromático, aunque no ocurren en una densidad uniforme. De ahí la afirmación popular de que 'todos somos, independientemente de la raza, genéticamente iguales en un 99,9 %', aunque la mayoría de los genetistas lo matizarían un poco. Por ejemplo, ahora se cree que una fracción mucho mayor del genoma está involucrada en la variación del número de copias. El Proyecto Internacional HapMap está llevando a cabo un esfuerzo de colaboración a gran escala para catalogar las variaciones de SNP en el genoma humano.

Los loci genómicos y la longitud de ciertos tipos de pequeñas secuencias repetitivas son muy variables de una persona a otra, lo cual es la base de las tecnologías de pruebas de paternidad y huellas dactilares de ADN. También se cree que las porciones heterocromáticas del genoma humano, que suman varios cientos de millones de pares de bases, son bastante variables dentro de la población humana (son tan repetitivas y tan largas que no se pueden secuenciar con precisión con la tecnología actual). Estas regiones contienen pocos genes y no está claro si algún efecto fenotípico significativo resulta de la variación típica en las repeticiones o la heterocromatina.

La mayoría de las mutaciones genómicas graves en las células germinales de los gametos probablemente den como resultado embriones inviables; sin embargo, varias enfermedades humanas están relacionadas con anomalías genómicas a gran escala. El síndrome de Down, el síndrome de Turner y otras enfermedades resultan de la falta de disyunción de cromosomas completos. Las células cancerosas frecuentemente tienen aneuploidía de cromosomas y brazos cromosómicos, aunque no se ha establecido una relación de causa y efecto entre la aneuploidía y el cáncer.

Mapeo de la variación genómica humana

Mientras que una secuencia genómica enumera el orden de cada base de ADN en un genoma, un mapa genómico identifica los puntos de referencia. Un mapa del genoma es menos detallado que una secuencia del genoma y ayuda a navegar por el genoma.

Un ejemplo de un mapa de variación es el HapMap que está desarrollando el Proyecto Internacional HapMap. El HapMap es un mapa de haplotipos del genoma humano, "que describirá los patrones comunes de variación de la secuencia del ADN humano". Cataloga los patrones de variaciones a pequeña escala en el genoma que involucran letras o bases de ADN individuales.

Los investigadores publicaron el primer mapa basado en secuencias de variación estructural a gran escala en el genoma humano en la revista Nature en mayo de 2008. Las variaciones estructurales a gran escala son diferencias en el genoma entre personas que varían de unos pocos miles a unos pocos millones de bases de ADN; algunos son ganancias o pérdidas de tramos de secuencia del genoma y otros aparecen como reordenamientos de tramos de secuencia. Estas variaciones incluyen diferencias en el número de copias que tienen los individuos de un gen en particular, deleciones, translocaciones e inversiones.

Variación estructural

La variación estructural se refiere a las variantes genéticas que afectan a segmentos más grandes del genoma humano, a diferencia de las mutaciones puntuales. A menudo, las variantes estructurales (SV) se definen como variantes de 50 pares de bases (pb) o más, como deleciones, duplicaciones, inserciones, inversiones y otros reordenamientos. Alrededor del 90% de las variantes estructurales son deleciones no codificantes, pero la mayoría de las personas tienen más de mil deleciones de este tipo; el tamaño de las deleciones varía desde docenas de pares de bases hasta decenas de miles de pb. En promedio, los individuos portan ~3 variantes estructurales raras que alteran las regiones de codificación, p. eliminar exones. Alrededor del 2% de las personas tienen variantes estructurales de escala megabase ultra raras, especialmente reordenamientos. Es decir, pueden invertirse millones de pares de bases dentro de un cromosoma; ultra-raro significa que solo se encuentran en individuos o miembros de su familia y, por lo tanto, han surgido muy recientemente.

Frecuencia de SNP en el genoma humano

Los polimorfismos de un solo nucleótido (SNP) no ocurren de manera homogénea en todo el genoma humano. De hecho, existe una enorme diversidad en la frecuencia de SNP entre genes, lo que refleja diferentes presiones selectivas en cada gen, así como diferentes tasas de mutación y recombinación en todo el genoma. Sin embargo, los estudios sobre SNP están sesgados hacia las regiones de codificación, es poco probable que los datos generados a partir de ellos reflejen la distribución general de SNP en todo el genoma. Por lo tanto, el protocolo SNP Consortium se diseñó para identificar SNP sin sesgo hacia las regiones de codificación y los 100 000 SNP del Consortium generalmente reflejan la diversidad de secuencias en los cromosomas humanos. El Consorcio SNP tiene como objetivo ampliar el número de SNP identificados en todo el genoma a 300 000 para fines del primer trimestre de 2001.

TSC SNP distribution along the long arm of chromosome 22 (from https://web.archive.org/web/20130903043223/http://snp.cshl.org/). Cada columna representa un intervalo de 1 Mb; la posición citogenética aproximada se da en el eje x. Se pueden ver picos y tropiezos claros de densidad SNP, posiblemente reflejando diferentes tasas de mutación, recombinación y selección.

Los cambios en la secuencia no codificante y los cambios sinónimos en la secuencia codificante son generalmente más comunes que los cambios no sinónimos, lo que refleja una mayor presión selectiva que reduce la diversidad en las posiciones que dictan los aminoácidos. identidad. Los cambios de transición son más comunes que las transversiones, y los dinucleótidos CpG muestran la tasa de mutación más alta, presumiblemente debido a la desaminación.

Genomas personales

Una secuencia del genoma personal es una secuencia (casi) completa de los pares de bases químicas que componen el ADN de una sola persona. Debido a que los tratamientos médicos tienen diferentes efectos en diferentes personas debido a variaciones genéticas como los polimorfismos de un solo nucleótido (SNP), el análisis de genomas personales puede conducir a un tratamiento médico personalizado basado en genotipos individuales.

La primera secuencia del genoma personal que se determinó fue la de Craig Venter en 2007. Los genomas personales no habían sido secuenciados en el Proyecto Genoma Humano público para proteger la identidad de los voluntarios que proporcionaron muestras de ADN. Esa secuencia se derivó del ADN de varios voluntarios de una población diversa. Sin embargo, al principio del esfuerzo de secuenciación del genoma de Celera Genomics dirigido por Venter, se tomó la decisión de pasar de la secuenciación de una muestra compuesta al uso de ADN de un solo individuo, que más tarde se reveló que había sido el propio Venter. Por lo tanto, la secuencia del genoma humano de Celera publicada en 2000 fue en gran parte la de un solo hombre. El reemplazo posterior de los primeros datos derivados de compuestos y la determinación de la secuencia diploide, que representa ambos conjuntos de cromosomas, en lugar de una secuencia haploide informada originalmente, permitió la liberación del primer genoma personal. En abril de 2008 también se completó la de James Watson. En 2009, Stephen Quake publicó su propia secuencia genómica derivada de un secuenciador de su propio diseño, el Heliscope. Un equipo de Stanford dirigido por Euan Ashley publicó un marco para la interpretación médica de los genomas humanos implementado en el genoma de Quake y por primera vez tomó decisiones médicas informadas sobre el genoma completo. Ese equipo amplió aún más el enfoque a la familia West, la primera familia secuenciada como parte del programa de secuenciación del genoma personal de Illumina. Desde entonces, se han publicado cientos de secuencias genómicas personales, incluidas las de Desmond Tutu y las de un paleoesquimal. En 2012, se hicieron públicas las secuencias del genoma completo de dos tríos familiares entre 1092 genomas. En noviembre de 2013, una familia española puso a disposición del público cuatro conjuntos de datos de exomas personales (alrededor del 1% del genoma) bajo una licencia de dominio público Creative Commons. El Proyecto del Genoma Personal (iniciado en 2005) es uno de los pocos que pone a disposición del público tanto las secuencias del genoma como los fenotipos médicos correspondientes.

La secuenciación de genomas individuales reveló aún más niveles de complejidad genética que no se habían apreciado antes. La genómica personal ayudó a revelar el nivel significativo de diversidad en el genoma humano atribuido no solo a los SNP sino también a las variaciones estructurales. Sin embargo, la aplicación de dicho conocimiento al tratamiento de enfermedades y en el campo médico está solo en sus comienzos. La secuenciación del exoma se ha vuelto cada vez más popular como herramienta para ayudar en el diagnóstico de enfermedades genéticas porque el exoma contribuye solo con el 1 % de la secuencia genómica, pero representa aproximadamente el 85 % de las mutaciones que contribuyen significativamente a la enfermedad.

Nocauts humanos

En los seres humanos, las inactivaciones genéticas se producen naturalmente como inactivaciones genéticas con pérdida de función heterocigotas u homocigotas. Estos knockouts a menudo son difíciles de distinguir, especialmente dentro de antecedentes genéticos heterogéneos. También son difíciles de encontrar ya que ocurren en bajas frecuencias.

Las poblaciones con un alto nivel de parentesco causan un mayor número de nóminas de genes homocigous en comparación con las poblaciones desfavorecidas.

Las poblaciones con altos índices de consanguinidad, como los países con altos índices de matrimonios entre primos hermanos, muestran las frecuencias más altas de desactivación de genes homocigóticos. Tales poblaciones incluyen a las poblaciones de Pakistán, Islandia y Amish. Estas poblaciones con un alto nivel de parentesco con los padres han sido sujetos de investigación de eliminación humana que ha ayudado a determinar la función de genes específicos en humanos. Al distinguir las inactivaciones específicas, los investigadores pueden utilizar análisis fenotípicos de estos individuos para ayudar a caracterizar el gen que ha sido inactivado.

Un pedigrí que muestra un apareamiento de primera cadena (carriers ambos portadores de golpes heterocigous mating como marcado por doble línea) que conduce a la descendencia poseyendo un homozygous gen knockout

Los knockouts en genes específicos pueden causar enfermedades genéticas, potencialmente tener efectos beneficiosos o incluso no producir ningún efecto fenotípico. Sin embargo, determinar el efecto fenotípico de un golpe de gracia y en humanos puede ser un desafío. Los desafíos para caracterizar e interpretar clínicamente los knockouts incluyen la dificultad para llamar a las variantes de ADN, determinar la interrupción de la función de la proteína (anotación) y considerar la cantidad de influencia que tiene el mosaicismo en el fenotipo.

Un estudio importante que investigó los knock-outs humanos es el estudio Pakistan Risk of Myocardial Infarction. Se encontró que las personas que poseían un gen de pérdida de función heterocigótica para el gen APOC3 tenían triglicéridos más bajos en la sangre después de consumir una comida rica en grasas en comparación con las personas sin la mutación. Sin embargo, los individuos que poseían genes homocigóticos de pérdida de función del gen APOC3 mostraron el nivel más bajo de triglicéridos en la sangre después de la prueba de carga de grasa, ya que no producen proteína APOC3 funcional.

Trastornos genéticos humanos

La mayoría de los aspectos de la biología humana involucran tanto factores genéticos (heredados) como no genéticos (ambientales). Algunas variaciones heredadas influyen en aspectos de nuestra biología que no son de naturaleza médica (altura, color de ojos, capacidad para saborear u oler ciertos compuestos, etc.). Además, algunos trastornos genéticos solo causan enfermedades en combinación con los factores ambientales apropiados (como la dieta). Con estas advertencias, los trastornos genéticos pueden describirse como enfermedades clínicamente definidas causadas por la variación de la secuencia de ADN genómico. En los casos más sencillos, el trastorno puede estar asociado con la variación en un solo gen. Por ejemplo, la fibrosis quística es causada por mutaciones en el gen CFTR y es el trastorno recesivo más común en las poblaciones caucásicas con más de 1300 mutaciones diferentes conocidas.

Las mutaciones que causan enfermedades en genes específicos suelen ser graves en términos de la función de los genes y, afortunadamente, son raras, por lo que los trastornos genéticos son igualmente raros individualmente. Sin embargo, dado que hay muchos genes que pueden variar para causar trastornos genéticos, en conjunto constituyen un componente significativo de las condiciones médicas conocidas, especialmente en medicina pediátrica. Los trastornos genéticos caracterizados molecularmente son aquellos para los que se ha identificado el gen causal subyacente. Actualmente hay aproximadamente 2200 trastornos de este tipo anotados en la base de datos OMIM.

Los estudios de trastornos genéticos a menudo se realizan mediante estudios basados en la familia. En algunos casos, se emplean enfoques basados en la población, particularmente en el caso de las llamadas poblaciones fundadoras, como las de Finlandia, Canadá francés, Utah, Cerdeña, etc. El diagnóstico y el tratamiento de los trastornos genéticos generalmente los realiza un médico genetista. capacitados en genética clínica/médica. Es probable que los resultados del Proyecto del Genoma Humano brinden una mayor disponibilidad de pruebas genéticas para los trastornos relacionados con los genes y, finalmente, un mejor tratamiento. Los padres pueden ser evaluados en busca de condiciones hereditarias y asesorados sobre las consecuencias, la probabilidad de herencia y cómo evitarla o mejorarla en su descendencia.

Hay muchos tipos diferentes de variación de la secuencia de ADN, que van desde cromosomas extra o faltantes completos hasta cambios de un solo nucleótido. En general, se supone que gran parte de la variación genética que ocurre naturalmente en las poblaciones humanas es fenotípicamente neutra, es decir, tiene poco o ningún efecto detectable en la fisiología del individuo (aunque puede haber diferencias fraccionarias en la aptitud definida a lo largo de marcos de tiempo evolutivos). Los trastornos genéticos pueden ser causados por cualquiera o todos los tipos conocidos de variación de secuencia. Para caracterizar molecularmente un nuevo trastorno genético, es necesario establecer un vínculo causal entre una variante de secuencia genómica particular y la enfermedad clínica que se investiga. Tales estudios constituyen el ámbito de la genética molecular humana.

Con la llegada del Genoma Humano y el Proyecto Internacional HapMap, se ha vuelto factible explorar influencias genéticas sutiles en muchas enfermedades comunes como diabetes, asma, migraña, esquizofrenia, etc. Aunque se han establecido algunos vínculos causales entre la genómica Las variantes de secuencia en genes particulares y algunas de estas enfermedades, a menudo con mucha publicidad en los medios de comunicación, generalmente no se consideran trastornos genéticos per se ya que sus causas son complejas, involucrando muchos factores genéticos y ambientales diferentes. factores Por lo tanto, puede haber desacuerdo en casos particulares sobre si una condición médica específica debe denominarse trastorno genético.

Los trastornos genéticos adicionales que se mencionan son el síndrome de Kallman y el síndrome de Pfeiffer (gen FGFR1), la distrofia corneal de Fuchs (gen TCF4), la enfermedad de Hirschsprung (genes RET y FECH), el síndrome de Bardet-Biedl 1 (genes CCDC28B y BBS1), el síndrome de Bardet-Biedl 10 (gen BBS10) y la distrofia muscular facioescapulohumeral tipo 2 (genes D4Z4 y SMCHD1).

La secuenciación del genoma ahora puede reducir el genoma a ubicaciones específicas para encontrar con mayor precisión las mutaciones que darán lugar a un trastorno genético. Las variantes del número de copias (CNV) y las variantes de un solo nucleótido (SNV) también se pueden detectar al mismo tiempo que la secuenciación del genoma con los procedimientos de secuenciación más nuevos disponibles, llamados secuenciación de próxima generación (NGS). Esto solo analiza una pequeña porción del genoma, alrededor del 1-2%. Los resultados de esta secuenciación se pueden utilizar para el diagnóstico clínico de una condición genética, incluido el síndrome de Usher, enfermedad de la retina, deficiencias auditivas, diabetes, epilepsia, enfermedad de Leigh, cánceres hereditarios, enfermedades neuromusculares, inmunodeficiencias primarias, inmunodeficiencia combinada grave (SCID) y enfermedades de las mitocondrias. NGS también se puede utilizar para identificar portadores de enfermedades antes de la concepción. Las enfermedades que se pueden detectar en esta secuenciación incluyen la enfermedad de Tay-Sachs, el síndrome de Bloom, la enfermedad de Gaucher, la enfermedad de Canavan, la disautonomía familiar, la fibrosis quística, la atrofia muscular espinal y el síndrome de X frágil. La secuenciación del próximo genoma se puede reducir para buscar específicamente enfermedades más prevalentes en ciertas poblaciones étnicas.

Prevalencia y gen/cromosoma asociado para algunos trastornos genéticos humanos
Trastorno Prevalencia Cromosoma o gen involucrados
Condiciones cromosómicas
Síndrome de Down 1:600 Cromosoma 21
Síndrome de Klinefelter 1:500–1000 hombres cromosoma X adicional
Síndrome de Turner 1:2000 hembras Pérdida de cromosoma X
anemia falciforme 1 de cada 50 nacimientos en partes de África; más raras en otras partes β-globina (en cromosoma 11)
Síndrome de Bloom 1:48000 judíos ashkenazis BLM
Cánceres
Cáncer de mama/Ovario (susceptibilidad) ~5% de los casos de estos tipos de cáncer BRCA1, BRCA2
FAP (hereditary nonpolyposis coli) 1:3500 APC
Síndrome de Lynch 5–10% de todos los casos de cáncer de intestino MLH1, MSH2, MSH6, PMS2
Anemia de Fanconi 1:130000 nacimientos FANCC
Condiciones neurológicas
Enfermedad de Huntington 1:20000 Huntingtin
Enfermedad de Alzheimer - inicio temprano 1:2500 PS1, PS2, APP
Tay-Sachs 1:3600 nacimientos en judíos ashkenazis gen HEXA (en cromosoma 15)
Enfermedad de Canavan 2.5% Ancestro judío de Europa oriental gen ASPA (en cromosoma 17)
Disautonomia familiar 600 casos conocidos en todo el mundo desde el descubrimiento gen IKBKAP (en cromosoma 9)
Síndrome X frágil 1.4:10000 en hombres, 0.9:10000 en hembras gen FMR1 (en cromosoma X)
Mucolipidosis tipo IV 1:90 a 1:100 en Ashkenazi Judíos MCOLN1
Otras condiciones
Fibrosis quística 1:2500 CFTR
distrofia muscular Duchenne 1:3500 niños Dystrophin
Distrofia muscular de Becker 1.5-6:100000 hombres DMD
Beta talasemia 1:100000 HBB
Hiperplasia suprarrenal congénita 1:280 en los nativos americanos y Yupik Eskimos

1:15000 en caucásicos americanos

CYP21A2
Enfermedad de almacenamiento de glucógeno tipo I 1:100000 nacimientos en América G6PC
Enfermedad de la orina de jarabe de arce 1:180000 en EE.UU.

1:176 en comunidades menonitas/Amish

1:250000 en Austria

BCKDHA, BCKDHB, DBT, DLD
Enfermedad de Niemann-Pick, SMPD1-asociada 1.200 casos en todo el mundo SMPD1
Síndrome de usher 1:23000 en EE.UU.

1:28000 en Noruega

1:12500 en Alemania

CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A

Evolución

Los estudios de genómica comparativa de genomas de mamíferos sugieren que aproximadamente el 5 % del genoma humano ha sido conservado por la evolución desde la divergencia de los linajes existentes hace aproximadamente 200 millones de años, que contienen la gran mayoría de los genes. El genoma del chimpancé publicado difiere del genoma humano en un 1,23% en las comparaciones directas de secuencias. Alrededor del 20% de esta cifra se explica por la variación dentro de cada especie, lo que deja solo ~1,06% de divergencia de secuencia constante entre humanos y chimpancés en genes compartidos. Sin embargo, esta diferencia nucleótido por nucleótido se ve empequeñecida por la porción de cada genoma que no se comparte, incluido alrededor del 6% de los genes funcionales que son exclusivos de humanos o chimpancés.

En otras palabras, las considerables diferencias observables entre humanos y chimpancés pueden deberse tanto o más a la variación a nivel del genoma en el número, función y expresión de los genes que a cambios en la secuencia de ADN en genes compartidos. De hecho, incluso dentro de los seres humanos, se ha descubierto que existe una cantidad de variación del número de copias (CNV) que antes no se había apreciado y que puede representar hasta un 5-15 % del genoma humano. En otras palabras, entre humanos, podría haber +/- 500,000,000 de pares de bases de ADN, algunos siendo genes activos, otros inactivados o activos en diferentes niveles. Queda por ver el significado completo de este hallazgo. En promedio, un gen codificador de proteínas humano típico difiere de su ortólogo de chimpancé en solo dos sustituciones de aminoácidos; casi un tercio de los genes humanos tienen exactamente la misma traducción de proteínas que sus ortólogos de chimpancé. Una diferencia importante entre los dos genomas es el cromosoma 2 humano, que es equivalente a un producto de fusión de los cromosomas 12 y 13 del chimpancé (más tarde renombrados como cromosomas 2A y 2B, respectivamente).

Los seres humanos han sufrido una pérdida extraordinaria de genes de receptores olfativos durante nuestra evolución reciente, lo que explica nuestro sentido del olfato relativamente tosco en comparación con la mayoría de los otros mamíferos. La evidencia evolutiva sugiere que la aparición de la visión del color en los humanos y en varias otras especies de primates ha disminuido la necesidad del sentido del olfato.

En septiembre de 2016, los científicos informaron que, según los estudios genéticos del ADN humano, todos los no africanos del mundo actual se pueden rastrear hasta una sola población que salió de África hace entre 50 000 y 80 000 años.

ADN mitocondrial

El ADN mitocondrial humano es de gran interés para los genetistas, ya que indudablemente desempeña un papel en la enfermedad mitocondrial. También arroja luz sobre la evolución humana; por ejemplo, el análisis de la variación en el genoma mitocondrial humano ha llevado a la postulación de un ancestro común reciente para todos los humanos en la línea de descendencia materna (ver Eva mitocondrial).

Debido a la falta de un sistema para comprobar los errores de copia, el ADN mitocondrial (ADNmt) tiene una tasa de variación más rápida que el ADN nuclear. Esta tasa de mutación 20 veces mayor permite que el mtDNA se use para un rastreo más preciso de la ascendencia materna. Los estudios de mtDNA en poblaciones han permitido rastrear antiguas rutas de migración, como la migración de los nativos americanos de Siberia o los polinesios del sureste de Asia. También se ha utilizado para demostrar que no hay rastro de ADN neandertal en la mezcla de genes europeos heredados a través del linaje puramente materno. Debido a la forma restrictiva de todo o nada de la herencia del ADNmt, este resultado (ningún rastro de ADNmt neandertal) sería probable a menos que hubiera un gran porcentaje de ascendencia neandertal, o que hubiera una fuerte selección positiva para ese ADNmt. Por ejemplo, retrocediendo 5 generaciones, solo 1 de los 32 ancestros de una persona contribuyó al ADNmt de esa persona, por lo que si uno de estos 32 era neandertal puro, se esperaba ~3% del ADN de esa persona. El ADN autosómico sería de origen neandertal, pero tendrían un ~97% de probabilidad de no tener rastros de ADNmt neandertal.

Epigenoma

La epigenética describe una variedad de características del genoma humano que trascienden su secuencia primaria de ADN, como el empaquetamiento de la cromatina, las modificaciones de histonas y la metilación del ADN, y que son importantes para regular la expresión génica, la replicación del genoma y otros procesos celulares. Los marcadores epigenéticos fortalecen y debilitan la transcripción de ciertos genes pero no afectan la secuencia real de nucleótidos de ADN. La metilación del ADN es una forma importante de control epigenético sobre la expresión génica y uno de los temas más estudiados en epigenética. Durante el desarrollo, el perfil de metilación del ADN humano experimenta cambios drásticos. En las primeras células de la línea germinal, el genoma tiene niveles de metilación muy bajos. Estos niveles bajos generalmente describen genes activos. A medida que avanza el desarrollo, las etiquetas de impronta parental conducen a una mayor actividad de metilación.

Los patrones epigenéticos se pueden identificar entre los tejidos dentro de un individuo, así como entre los propios individuos. Los genes idénticos que tienen diferencias únicamente en su estado epigenético se denominan epialelos. Los epialelos se pueden clasificar en tres categorías: los determinados directamente por el genotipo de un individuo, los influenciados por el genotipo y los totalmente independientes del genotipo. El epigenoma también está influenciado significativamente por factores ambientales. La dieta, las toxinas y las hormonas afectan el estado epigenético. Los estudios de manipulación dietética han demostrado que las dietas deficientes en metilo están asociadas con la hipometilación del epigenoma. Dichos estudios establecen la epigenética como una interfaz importante entre el medio ambiente y el genoma.