Código genético

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

El código genético es el conjunto de reglas que utilizan las células vivas para traducir la información codificada dentro del material genético (secuencias de ADN o ARNm de tripletes de nucleótidos o codones ) en proteínas. La traducción la realiza el ribosoma, que une los aminoácidos proteinogénicos en un orden especificado por el ARN mensajero (ARNm), utilizando moléculas de ARN de transferencia (ARNt) para transportar aminoácidos y leer el ARNm tres nucleótidos a la vez. El código genético es muy similar entre todos los organismos y se puede expresar en una tabla simple con 64 entradas.

Los codones especifican qué aminoácido se agregará a continuación durante la síntesis de proteínas. Con algunas excepciones, un codón de tres nucleótidos en una secuencia de ácido nucleico especifica un solo aminoácido. La gran mayoría de los genes están codificados con un solo esquema (consulte la tabla de codones de ARN). Ese esquema a menudo se denomina código genético canónico o estándar, o simplemente código genético, aunque existen códigos variantes (como en las mitocondrias).

Historia

Los esfuerzos para comprender cómo se codifican las proteínas comenzaron después de que se descubriera la estructura del ADN en 1953. George Gamow postuló que se deben emplear conjuntos de tres bases para codificar los 20 aminoácidos estándar utilizados por las células vivas para construir proteínas, lo que permitiría un máximo de 4 = 64 aminoácidos.

Codones

El experimento de Crick, Brenner, Barnett y Watts-Tobin demostró por primera vez que los codones constan de tres bases de ADN. Marshall Nirenberg y Heinrich J. Matthaei fueron los primeros en revelar la naturaleza de un codón en 1961.

Utilizaron un sistema libre de células para traducir una secuencia de ARN de poliuracilo (es decir, UUUUU...) y descubrieron que el polipéptido que habían sintetizado consistía únicamente en el aminoácido fenilalanina. De este modo dedujeron que el codón UUU especificaba el aminoácido fenilalanina.

A esto le siguieron experimentos en el laboratorio de Severo Ochoa que demostraron que la secuencia de ARN de poliadenina (AAAAA...) codificaba para el polipéptido poli-lisina y que la secuencia de ARN de policitosina (CCCCC...) codificaba para el polipéptido poli -prolina. Por lo tanto, el codón AAA especificaba el aminoácido lisina y el codón CCC especificaba el aminoácido prolina. Usando varios copolímeros, se determinaron la mayoría de los codones restantes.

El trabajo posterior de Har Gobind Khorana identificó el resto del código genético. Poco tiempo después, Robert W. Holley determinó la estructura del ARN de transferencia (ARNt), la molécula adaptadora que facilita el proceso de convertir el ARN en proteína. Este trabajo se basó en los estudios anteriores de Ochoa, lo que le valió a este último el Premio Nobel de Fisiología o Medicina en 1959 por su trabajo en la enzimología de la síntesis de ARN.

Ampliando este trabajo, Nirenberg y Philip Leder revelaron la naturaleza del triplete del código y descifraron sus codones. En estos experimentos, se pasaron varias combinaciones de ARNm a través de un filtro que contenía ribosomas, los componentes de las células que traducen el ARN en proteína. Los tripletes únicos promovieron la unión de ARNt específicos al ribosoma. Leder y Nirenberg pudieron determinar las secuencias de 54 de los 64 codones en sus experimentos. Khorana, Holley y Nirenberg recibieron el Nobel de 1968 por su trabajo.

Los tres codones de parada fueron nombrados por los descubridores Richard Epstein y Charles Steinberg. "Amber" recibió su nombre de su amigo Harris Bernstein, cuyo apellido significa "ámbar" en alemán. Los otros dos codones de terminación se denominaron "ocre" y "ópalo" para mantener el tema de los "nombres de colores".

Códigos genéticos expandidos (biología sintética)

En una amplia audiencia académica, el concepto de la evolución del código genético desde el código genético original y ambiguo hasta un código bien definido ("congelado") con el repertorio de 20 (+2) aminoácidos canónicos es ampliamente aceptado. Sin embargo, hay diferentes opiniones, conceptos, enfoques e ideas, que es la mejor manera de cambiarlo experimentalmente. Incluso se proponen modelos que predicen "puntos de entrada" para la invasión del código genético por aminoácidos sintéticos.

Desde 2001, se han agregado 40 aminoácidos no naturales a la proteína mediante la creación de un codón único (recodificación) y un correspondiente par de ARN de transferencia: aminoacil – ARNt-sintetasa para codificarlo con diversas propiedades fisicoquímicas y biológicas para poder usarlo como una herramienta para explorar la estructura y la función de las proteínas o para crear proteínas nuevas o mejoradas.

H. Murakami y M. Sisido extendieron algunos codones para tener cuatro y cinco bases. Steven A. Benner construyó un codón 65 funcional ( in vivo ).

En 2015, N. Budisa, D. Söll y colaboradores informaron la sustitución completa de los 20 899 residuos de triptófano (codones UGG) con tienopirrol-alanina no natural en el código genético de la bacteria Escherichia coli.

En 2016 se creó el primer organismo semisintético estable. Era una bacteria (de una sola célula) con dos bases sintéticas (llamadas X e Y). Las bases sobrevivieron a la división celular.

En 2017, investigadores en Corea del Sur informaron que habían diseñado un ratón con un código genético extendido que puede producir proteínas con aminoácidos no naturales.

En mayo de 2019, los investigadores informaron sobre la creación de una nueva cepa "Syn61" de la bacteria Escherichia coli. Esta cepa tiene un genoma totalmente sintético que se refactoriza (todas las superposiciones se expanden), se recodifica (eliminando completamente el uso de tres de los 64 codones) y se modifica aún más para eliminar los ahora innecesarios ARNt y factores de liberación. Es completamente viable y crece 1,6 veces más lento que su contraparte de tipo salvaje "MDS42".

Características

Marco de lectura

Un marco de lectura se define por el triplete inicial de nucleótidos a partir del cual comienza la traducción. Establece el marco para una serie de codones sucesivos que no se superponen, lo que se conoce como "marco de lectura abierto" (ORF). Por ejemplo, la cadena 5'-AAATGAACG-3' (ver figura), si se lee desde la primera posición, contiene los codones AAA, TGA y ACG; si se lee desde la segunda posición, contiene los codones AAT y GAA; y si se lee desde la tercera posición, contiene los codones ATG y AAC. Cada secuencia puede, por lo tanto, leerse en su dirección 5' → 3' en tres marcos de lectura, cada uno de los cuales produce una secuencia de aminoácidos posiblemente distinta: en el ejemplo dado, Lys (K)-Trp (W)-Thr (T), Asn (N)-Glu (E), o Met (M)-Asn (N), respectivamente (al traducir con el código mitocondrial de vertebrados). Cuando el ADN es de doble cadena,Los marcos de codificación de proteínas están definidos por un codón de inicio, generalmente el primer codón AUG (ATG) en la secuencia de ARN (ADN).

En eucariotas, los ORF de los exones a menudo son interrumpidos por intrones.

Codones de inicio y parada

La traducción comienza con un codón de iniciación de cadena o un codón de inicio. El codón de inicio por sí solo no es suficiente para comenzar el proceso. También se requieren secuencias cercanas como la secuencia Shine-Dalgarno en E. coli y factores de iniciación para comenzar la traducción. El codón de inicio más común es AUG, que se lee como metionina o, en bacterias, como formilmetionina. Los codones de inicio alternativos según el organismo incluyen "GUG" o "UUG"; estos codones normalmente representan valina y leucina, respectivamente, pero como codones de inicio se traducen como metionina o formilmetionina.

Los tres codones de terminación tienen nombres: UAG es ámbar, UGA es ópalo (a veces también llamado ámbar ) y UAA es ocre. Los codones de terminación también se denominan codones de "terminación" o "sin sentido". Señalan la liberación del polipéptido naciente del ribosoma porque ningún ARNt afín tiene anticodones complementarios a estas señales de parada, lo que permite que un factor de liberación se una al ribosoma en su lugar.

Efecto de las mutaciones

Durante el proceso de replicación del ADN, ocasionalmente ocurren errores en la polimerización de la segunda hebra. Estos errores, mutaciones, pueden afectar el fenotipo de un organismo, especialmente si ocurren dentro de la secuencia de codificación de proteínas de un gen. Las tasas de error suelen ser de 1 error en cada 10 a 100 millones de bases, debido a la capacidad de "corrección de pruebas" de las polimerasas de ADN.

Las mutaciones sin sentido y las mutaciones sin sentido son ejemplos de mutaciones puntuales que pueden causar enfermedades genéticas como la enfermedad de células falciformes y la talasemia, respectivamente. Las mutaciones sin sentido clínicamente importantes generalmente cambian las propiedades del residuo de aminoácido codificado entre estados básicos, ácidos, polares o no polares, mientras que las mutaciones sin sentido dan como resultado un codón de parada.

Las mutaciones que interrumpen la secuencia del marco de lectura por indeles (inserciones o deleciones) de un no múltiplo de 3 bases de nucleótidos se conocen como mutaciones de cambio de marco. Estas mutaciones generalmente dan como resultado una traducción completamente diferente de la original y probablemente provocan la lectura de un codón de parada, que trunca la proteína. Estas mutaciones pueden afectar la función de la proteína y, por lo tanto, son raras en las secuencias codificantes de proteínas in vivo. Una de las razones por las que la herencia de las mutaciones de cambio de marco es rara es que, si la proteína que se traduce es esencial para el crecimiento bajo las presiones selectivas que enfrenta el organismo, la ausencia de una proteína funcional puede causar la muerte antes de que el organismo se vuelva viable. Las mutaciones de cambio de marco pueden provocar enfermedades genéticas graves, como la enfermedad de Tay-Sachs.

Aunque la mayoría de las mutaciones que cambian las secuencias de proteínas son dañinas o neutrales, algunas mutaciones tienen beneficios. Estas mutaciones pueden permitir que el organismo mutante soporte tensiones ambientales particulares mejor que los organismos de tipo salvaje, o que se reproduzca más rápidamente. En estos casos, una mutación tenderá a volverse más común en una población a través de la selección natural. Los virus que usan ARN como material genético tienen tasas de mutación rápidas, lo que puede ser una ventaja, ya que estos virus evolucionan rápidamente y, por lo tanto, evaden las respuestas defensivas del sistema inmunitario. En grandes poblaciones de organismos que se reproducen asexualmente, por ejemplo, E. coli, pueden coexistir múltiples mutaciones beneficiosas. Este fenómeno se denomina interferencia clonal y provoca competencia entre las mutaciones.

Degeneración

La degeneración es la redundancia del código genético. Este término fue dado por Bernfield y Nirenberg. El código genético tiene redundancia pero no ambigüedad (consulte las tablas de codones a continuación para ver la correlación completa). Por ejemplo, aunque los codones GAA y GAG especifican ácido glutámico (redundancia), ninguno especifica otro aminoácido (sin ambigüedad). Los codones que codifican un aminoácido pueden diferir en cualquiera de sus tres posiciones. Por ejemplo, el aminoácido leucina se especifica mediante codones Y U R o CU N (UUA, UUG, CUU, CUC, CUA o CUG) (la diferencia en la primera o tercera posición se indica mediante la notación IUPAC), mientras que el aminoácido serina está especificado por UC N o AG Y(UCA, UCG, UCC, UCU, AGU o AGC) codones (diferencia en la primera, segunda o tercera posición).Una consecuencia práctica de la redundancia es que los errores en la tercera posición del triplete codón provocan sólo una mutación silenciosa o un error que no afectaría a la proteína porque la hidrofilicidad o hidrofobicidad se mantiene por sustitución equivalente de aminoácidos; por ejemplo, un codón de NUN (donde N = cualquier nucleótido) tiende a codificar aminoácidos hidrofóbicos. NCN produce residuos de aminoácidos que son pequeños en tamaño y moderados en hidropaticidad; NAN codifica residuos hidrófilos de tamaño medio. El código genético está tan bien estructurado para la hidropaticidad que un análisis matemático (descomposición de valores singulares) de 12 variables (4 nucleótidos x 3 posiciones) produce una correlación notable (C = 0,95) para predecir la hidropaticidad del aminoácido codificado directamente a partir del secuencia de nucleótidos triplete,sin traducción. Nótese en la siguiente tabla que ocho aminoácidos no se ven afectados en absoluto por mutaciones en la tercera posición del codón, mientras que en la figura anterior, es probable que una mutación en la segunda posición provoque un cambio radical en las propiedades fisicoquímicas del codón. aminoácido codificado. Sin embargo, los cambios en la primera posición de los codones son más importantes que los cambios en la segunda posición a escala global. La razón puede ser que la inversión de carga (de una carga positiva a una negativa o viceversa) solo puede ocurrir con mutaciones en la primera posición de ciertos codones, pero no con cambios en la segunda posición de cualquier codón. Tal inversión de carga puede tener consecuencias dramáticas para la estructura o función de una proteína. Este aspecto puede haber sido subestimado en gran medida por estudios previos.

Sesgo de uso de codones

La frecuencia de los codones, también conocida como sesgo de uso de codones, puede variar de una especie a otra con implicaciones funcionales para el control de la traducción. El codón varía según el organismo; por ejemplo, el codón de prolina más común en E. coli es CCG, mientras que en humanos es el codón de prolina menos utilizado.

showTabla de frecuencia de codones del genoma humano

Códigos genéticos alternativos

Aminoácidos no estándar

En algunas proteínas, los codones de terminación estándar sustituyen a los aminoácidos no estándar, según las secuencias señal asociadas en el ARN mensajero. Por ejemplo, UGA puede codificar selenocisteína y UAG puede codificar pirrolisina. La selenocisteína llegó a ser vista como el aminoácido 21 y la pirrolisina como el 22. A diferencia de la selenocisteína, el UAG codificado por pirrolisina se traduce con la participación de una aminoacil-tRNA sintetasa dedicada. Tanto la selenocisteína como la pirrolisina pueden estar presentes en el mismo organismo. Aunque el código genético normalmente está fijado en un organismo, el procariota achaeal Acetohalobium arabaticum puede expandir su código genético de 20 a 21 aminoácidos (incluyendo pirrolisina) bajo diferentes condiciones de crecimiento.

Variaciones

Originalmente había un argumento simple y ampliamente aceptado de que el código genético debería ser universal: a saber, que cualquier variación en el código genético sería letal para el organismo (aunque Crick había declarado que los virus eran una excepción). Esto se conoce como el argumento del "accidente congelado" a favor de la universalidad del código genético. Sin embargo, en su artículo seminal sobre los orígenes del código genético en 1968, Francis Crick todavía afirmó que la universalidad del código genético en todos los organismos era una suposición no probada y probablemente no era cierta en algunos casos. Predijo que "El código es universal (el mismo en todos los organismos) o casi". La primera variación fue descubierta en 1979 por investigadores que estudiaban genes mitocondriales humanos. A partir de entonces, se descubrieron muchas variantes leves,incluyendo varios códigos mitocondriales alternativos. Estas variantes menores, por ejemplo, implican la traducción del codón UGA como triptófano en especies de Mycoplasma, y ​​la traducción de CUG como serina en lugar de leucina en levaduras del "clado CTG" (como Candida albicans ). Debido a que los virus deben usar el mismo código genético que sus huéspedes, las modificaciones del código genético estándar podrían interferir con la síntesis o el funcionamiento de las proteínas virales. Sin embargo, virus como los totivirus se han adaptado a la modificación del código genético del huésped. En bacterias y arqueas, GUG y UUG son codones de inicio comunes. En casos raros, ciertas proteínas pueden usar codones de inicio alternativos. Sorprendentemente, también existen variaciones en la interpretación del código genético en los genes codificados por el núcleo humano: en 2016, los investigadores que estudiaban la traducción de la malato deshidrogenasa descubrieron que en aproximadamente el 4 % de los ARNm que codifican esta enzima, el codón de terminación se usa naturalmente para codificar el aminoácidos triptófano y arginina. Este tipo de recodificación es inducida por un contexto de codón de parada de lectura completa y se denomina lectura completa traduccional funcional.

A pesar de estas diferencias, todos los códigos naturales conocidos son muy similares. El mecanismo de codificación es el mismo para todos los organismos: codones de tres bases, ARNt, ribosomas, lectura en una sola dirección y traducción de codones simples en aminoácidos simples. Las variaciones más extremas ocurren en ciertos ciliados donde el significado de los codones de terminación depende de su posición dentro del ARNm. Cuando están cerca del extremo 3', actúan como terminadores, mientras que en posiciones internas codifican aminoácidos como en Condylostoma magnum o activan el cambio de marco ribosómico como en Euplotes.

Los orígenes y la variación del código genético, incluidos los mecanismos detrás de la capacidad de evolución del código genético, se han estudiado ampliamente y se han realizado algunos estudios experimentales para evolucionar el código genético de algunos organismos.

Inferencia

Los códigos genéticos variantes utilizados por un organismo se pueden inferir identificando genes altamente conservados codificados en ese genoma y comparando su uso de codones con los aminoácidos en proteínas homólogas de otros organismos. Por ejemplo, el programa FACIL infiere un código genético al buscar qué aminoácidos en los dominios de proteínas homólogas se alinean con mayor frecuencia con cada codón. Las probabilidades resultantes de aminoácidos (o codón de terminación) para cada codón se muestran en un logotipo de código genético.

A partir de enero de 2022, Shulgina y Eddy realizaron la encuesta más completa de códigos genéticos, quienes examinaron 250 000 genomas procarióticos utilizando su herramienta Codetta. Esta herramienta utiliza un enfoque similar a FACIL con una base de datos Pfam más grande. A pesar de que el NCBI ya proporcionaba 33 tablas de traducción, los autores pudieron encontrar nuevas 5 variaciones del código genético (corroboradas por mutaciones de ARNt) y corregir varias atribuciones erróneas.

Origen

El código genético es una parte clave de la historia de la vida, según una versión de la cual las moléculas de ARN autorreplicantes precedieron a la vida tal como la conocemos. Esta es la hipótesis del mundo del ARN. Bajo esta hipótesis, cualquier modelo para el surgimiento del código genético está íntimamente relacionado con un modelo de transferencia de ribozimas (enzimas de ARN) a proteínas como las principales enzimas en las células. De acuerdo con la hipótesis del mundo del ARN, las moléculas de ARN de transferencia parecen haber evolucionado antes que las aminoacil-tRNA sintetasas modernas, por lo que estas últimas no pueden ser parte de la explicación de sus patrones.

Un código genético hipotético que evolucionó aleatoriamente motiva aún más un modelo bioquímico o evolutivo para su origen. Si los aminoácidos se asignaran al azar a codones de triplete, habría 1,5 × 10 códigos genéticos posibles. Este número se encuentra calculando el número de formas en que se pueden colocar 21 elementos (20 aminoácidos más una parada) en 64 contenedores, donde cada elemento se usa al menos una vez. Sin embargo, la distribución de asignaciones de codones en el código genético no es aleatoria. En particular, el código genético agrupa ciertas asignaciones de aminoácidos.

Los aminoácidos que comparten la misma vía biosintética tienden a tener la misma primera base en sus codones. Esto podría ser una reliquia evolutiva de un código genético temprano más simple con menos aminoácidos que luego evolucionó para codificar un conjunto más grande de aminoácidos. También podría reflejar propiedades estéricas y químicas que tuvieron otro efecto sobre el codón durante su evolución. Los aminoácidos con propiedades físicas similares también tienden a tener codones similares, lo que reduce los problemas causados ​​por mutaciones puntuales y errores de traducción.

Dado el esquema de codificación de tripletes genéticos no aleatorios, una hipótesis sostenible para el origen del código genético podría abordar múltiples aspectos de la tabla de codones, como la ausencia de codones para D-aminoácidos, patrones de codones secundarios para algunos aminoácidos, confinamiento de sinónimos. posiciones a la tercera posición, el pequeño conjunto de solo 20 aminoácidos (en lugar de un número cercano a 64), y la relación de los patrones de codones de terminación con los patrones de codificación de aminoácidos.

Tres hipótesis principales abordan el origen del código genético. Muchos modelos pertenecen a uno de ellos o a un híbrido:

  • Congelación aleatoria: el código genético se creó aleatoriamente. Por ejemplo, las primeras ribozimas similares a ARNt pueden haber tenido diferentes afinidades por los aminoácidos, con codones que emergen de otra parte de la ribozima que exhibía una variabilidad aleatoria. Una vez que se codificaron suficientes péptidos, cualquier cambio aleatorio importante en el código genético habría sido letal; por lo tanto, se "congeló".
  • Afinidad estereoquímica: el código genético es el resultado de una alta afinidad entre cada aminoácido y su codón o anticodón; la última opción implica que las moléculas de pre-tRNA coincidían con sus aminoácidos correspondientes por esta afinidad. Más tarde, durante la evolución, este emparejamiento fue reemplazado gradualmente por el emparejamiento de aminoacil-tRNA sintetasas.
  • Optimalidad: el código genético continuó evolucionando después de su creación inicial, de modo que el código actual maximiza alguna función de aptitud, generalmente algún tipo de minimización de errores.

Las hipótesis han abordado una variedad de escenarios:

  • Los principios químicos gobiernan la interacción específica del ARN con los aminoácidos. Los experimentos con aptámeros mostraron que algunos aminoácidos tienen una afinidad química selectiva por sus codones. Los experimentos mostraron que de los 8 aminoácidos probados, 6 muestran alguna asociación de aminoácidos y tripletes de ARN.
  • Expansión biosintética. El código genético creció a partir de un código anterior más simple a través de un proceso de "expansión biosintética". La vida primordial "descubrió" nuevos aminoácidos (por ejemplo, como subproductos del metabolismo) y más tarde incorporó algunos de ellos a la maquinaria de la codificación genética. Aunque se ha encontrado mucha evidencia circunstancial que sugiere que en el pasado se usaban menos tipos de aminoácidos, las hipótesis precisas y detalladas sobre qué aminoácidos entraron en el código y en qué orden son controvertidas. Sin embargo, varios estudios han sugerido que Gly, Ala, Asp, Val, Ser, Pro, Glu, Leu, Thr pueden pertenecer a un grupo de aminoácidos de adición temprana, mientras que Cys, Met, Tyr, Trp, His, Phe pueden pertenecer a un grupo de aminoácidos de adición posterior.
  • La selección natural ha llevado a asignaciones de codones del código genético que minimizan los efectos de las mutaciones. Una hipótesis reciente sugiere que el código triplete se derivó de códigos que usaban codones más largos que los tripletes (como los codones cuádruples). Una decodificación más larga que el triplete aumentaría la redundancia de codones y sería más resistente a los errores. Esta característica podría permitir una decodificación precisa en ausencia de una maquinaria de traducción compleja como el ribosoma, como antes de que las células comenzaran a producir ribosomas.
  • Canales de información: Los enfoques teóricos de la información modelan el proceso de traducir el código genético en los aminoácidos correspondientes como un canal de información propenso a errores. El ruido inherente (es decir, el error) en el canal plantea al organismo una pregunta fundamental: ¿cómo se puede construir un código genético para resistir el ruido mientras se traduce la información de manera precisa y eficiente? Estos modelos de "distorsión de velocidad" sugieren que el código genético se originó como resultado de la interacción de las tres fuerzas evolutivas en conflicto: las necesidades de diversos aminoácidos, de tolerancia a erroresy por un costo mínimo de recursos. El código surge en una transición cuando el mapeo de codones a aminoácidos deja de ser aleatorio. La aparición del código se rige por la topología definida por los errores probables y está relacionada con el problema de coloración del mapa.
  • Teoría de juegos: Los modelos basados ​​en juegos de señalización combinan elementos de teoría de juegos, selección natural y canales de información. Dichos modelos se han utilizado para sugerir que los primeros polipéptidos probablemente eran cortos y no tenían una función enzimática. Los modelos de teoría de juegos sugirieron que la organización de las cadenas de ARN en las células pudo haber sido necesaria para evitar el uso "engañoso" del código genético, es decir, evitar que el equivalente antiguo de los virus abrumara el mundo del ARN.
  • Codones de parada: Los codones para las paradas de traducción también son un aspecto interesante del problema del origen del código genético. Como ejemplo para abordar la evolución de los codones de parada, se ha sugerido que los codones de parada son tales que es más probable que terminen la traducción antes de tiempo en el caso de un error de cambio de marco. Por el contrario, algunos modelos moleculares estereoquímicos explican el origen de los codones de parada como "no asignables".