Diseño de proteínas

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Diseño de proteínas es el diseño racional de nuevas moléculas de proteínas para diseñar actividades, comportamientos o propósitos novedosos y avanzar en la comprensión básica de la función de las proteínas. Las proteínas se pueden diseñar desde cero (diseño de novo) o creando variantes calculadas de una estructura proteica conocida y su secuencia (lo que se denomina rediseño de proteínas). Los enfoques de diseño racional de proteínas realizan predicciones de secuencias de proteínas que se plegarán en estructuras específicas. Estas secuencias predichas pueden luego validarse experimentalmente mediante métodos como la síntesis de péptidos, la mutagénesis dirigida al sitio o la síntesis de genes artificiales.

El diseño racional de proteínas se remonta a mediados de la década de 1970. Sin embargo, recientemente ha habido numerosos ejemplos de diseño racional exitoso de péptidos y proteínas solubles en agua e incluso transmembrana, en parte debido a una mejor comprensión de los diferentes factores que contribuyen a la estabilidad de la estructura de las proteínas y al desarrollo de mejores métodos computacionales.

Descripción general e historia

El objetivo del diseño racional de proteínas es predecir secuencias de aminoácidos que se plegarán en una estructura proteica específica. Aunque el número de posibles secuencias de proteínas es enorme y crece exponencialmente con el tamaño de la cadena de proteínas, sólo un subconjunto de ellas se plegará de forma fiable y rápida a un estado nativo. El diseño de proteínas implica la identificación de secuencias novedosas dentro de este subconjunto. El estado nativo de una proteína es el mínimo de energía libre conformacional de la cadena. Así, el diseño de proteínas es la búsqueda de secuencias que tengan la estructura elegida como mínimo de energía libre. En cierto sentido, es lo contrario de la predicción de la estructura de las proteínas. En el diseño, se especifica una estructura terciaria y se identifica una secuencia que se plegará a ella. Por lo tanto, también se denomina plegamiento inverso. El diseño de proteínas es entonces un problema de optimización: utilizando algunos criterios de puntuación, se elige una secuencia optimizada que se plegará hasta la estructura deseada.

Cuando las primeras proteínas se diseñaron racionalmente durante las décadas de 1970 y 1980, la secuencia de estas se optimizó manualmente basándose en análisis de otras proteínas conocidas, la composición de la secuencia, las cargas de aminoácidos y la geometría de la estructura deseada. Las primeras proteínas diseñadas se atribuyen a Bernd Gutte, quien diseñó una versión reducida de un catalizador conocido, la ribonucleasa bovina, y estructuras terciarias que consisten en láminas beta y hélices alfa, incluido un aglutinante de DDT. Posteriormente, Urry y sus colegas diseñaron péptidos fibrosos similares a la elastina basándose en reglas sobre la composición de secuencias. Richardson y sus compañeros de trabajo diseñaron una proteína de 79 residuos sin homología de secuencia con una proteína conocida. En la década de 1990, la llegada de potentes computadoras, bibliotecas de conformaciones de aminoácidos y campos de fuerza desarrollados principalmente para simulaciones de dinámica molecular permitieron el desarrollo de herramientas computacionales de diseño de proteínas basadas en estructuras. Tras el desarrollo de estas herramientas computacionales, se han logrado grandes éxitos en los últimos 30 años en el diseño de proteínas. La primera proteína diseñada con éxito completamente de novo fue realizada por Stephen Mayo y sus compañeros de trabajo en 1997 y, poco después, en 1999, Peter S. Kim y sus compañeros diseñaron dímeros, trímeros y tetrámeros de células diestras no naturales. bobinas enrolladas. En 2003, el laboratorio de David Baker diseñó una proteína completa con un pliegue nunca antes visto en la naturaleza. Posteriormente, en 2008, el grupo de Baker diseñó computacionalmente enzimas para dos reacciones diferentes. En 2010, se aisló uno de los anticuerpos ampliamente neutralizantes más potentes del suero de un paciente utilizando una sonda proteica diseñada computacionalmente. Debido a estos y otros éxitos (por ejemplo, ver ejemplos a continuación), el diseño de proteínas se ha convertido en una de las herramientas más importantes disponibles para la ingeniería de proteínas. Hay grandes esperanzas de que el diseño de nuevas proteínas, pequeñas y grandes, tenga usos en biomedicina y bioingeniería.

Modelos subyacentes de estructura y función de proteínas

Los programas de diseño de proteínas utilizan modelos informáticos de las fuerzas moleculares que impulsan las proteínas en entornos in vivo. Para que el problema sea manejable, estas fuerzas se simplifican mediante modelos de diseño de proteínas. Aunque los programas de diseño de proteínas varían mucho, tienen que abordar cuatro preguntas principales de modelado: cuál es la estructura objetivo del diseño, qué flexibilidad se permite en la estructura objetivo, qué secuencias se incluyen en la búsqueda y qué campo de fuerza se utilizará para secuencias y estructuras de partituras.

Estructura objetivo

La proteína Top7 fue una de las primeras proteínas diseñadas para un pliegue que nunca se había visto antes en la naturaleza

La función de las proteínas depende en gran medida de la estructura de las proteínas, y el diseño racional de proteínas utiliza esta relación para diseñar la función mediante el diseño de proteínas que tienen una estructura o pliegue objetivo. Así, por definición, en el diseño racional de proteínas, la estructura objetivo o el conjunto de estructuras deben conocerse de antemano. Esto contrasta con otras formas de ingeniería de proteínas, como la evolución dirigida, donde se utilizan una variedad de métodos para encontrar proteínas que logren una función específica, y con la predicción de la estructura de las proteínas, donde se conoce la secuencia, pero se desconoce la estructura.

Muy a menudo, la estructura objetivo se basa en una estructura conocida de otra proteína. Sin embargo, se han hecho cada vez más posibles pliegues novedosos que no se ven en la naturaleza. Peter S. Kim y sus compañeros de trabajo diseñaron trímeros y tetrámeros de bobinas enrolladas no naturales, que no se habían visto antes en la naturaleza. La proteína Top7, desarrollada en el laboratorio de David Baker, se diseñó íntegramente utilizando algoritmos de diseño de proteínas, con un pliegue completamente novedoso. Más recientemente, Baker y sus compañeros de trabajo desarrollaron una serie de principios para diseñar estructuras de proteínas globulares ideales basadas en embudos de plegamiento de proteínas que sirven de puente entre la predicción de estructuras secundarias y las estructuras terciarias. Estos principios, que se basan tanto en la predicción de la estructura de las proteínas como en el diseño de las proteínas, se utilizaron para diseñar cinco topologías de proteínas novedosas diferentes.

Espacio de secuencia

FSD-1 (shown in blue, PDB id: 1FSV) fue el primero *de novo* Diseño computacional de una proteína completa. El pliegue objetivo era el dedo de zinc en residuos 33-60 de la estructura de proteína Zif268 (muestra en rojo, PDB id: 1ZAA). La secuencia diseñada tenía muy poca identidad de secuencia con cualquier secuencia de proteína conocida.

En el diseño racional de proteínas, las proteínas se pueden rediseñar a partir de la secuencia y estructura de una proteína conocida, o completamente desde cero en el diseño de proteínas de novo. En el rediseño de proteínas, la mayoría de los residuos de la secuencia se mantienen como aminoácidos de tipo salvaje, mientras que a unos pocos se les permite mutar. En el diseño de novo, toda la secuencia se diseña de nuevo, sin basarse en ninguna secuencia anterior.

Tanto los diseños de novo como los rediseños de proteínas pueden establecer reglas en el espacio de secuencia: los aminoácidos específicos que están permitidos en cada posición de residuo mutable. Por ejemplo, la composición de la superficie de la sonda RSC3 para seleccionar anticuerpos ampliamente neutralizantes del VIH se restringió en función de datos evolutivos y equilibrio de carga. Muchos de los primeros intentos de diseño de proteínas se basaron en gran medida en reglas empíricas sobre el espacio de secuencia. Además, el diseño de proteínas fibrosas suele seguir reglas estrictas sobre el espacio de secuencia. Las proteínas diseñadas a base de colágeno, por ejemplo, suelen estar compuestas de patrones repetidos de Gly-Pro-X. La llegada de las técnicas computacionales permite diseñar proteínas sin intervención humana en la selección de secuencias.

Flexibilidad estructural

Los programas comunes de diseño de proteínas utilizan bibliotecas rotativas para simplificar el espacio conformacional de cadenas laterales de proteínas. Esta animación se extiende a través de todos los rotadores del aminoácido isoleucino basado en la Biblioteca Penúltima Rotamer (total de 7 rotadores).

En el diseño de proteínas, se conoce la estructura (o estructuras) objetivo de la proteína. Sin embargo, un enfoque de diseño racional de proteínas debe modelar cierta flexibilidad en la estructura objetivo para aumentar el número de secuencias que se pueden diseñar para esa estructura y minimizar la posibilidad de que una secuencia se pliegue a una estructura diferente. . Por ejemplo, en el rediseño de una proteína de un pequeño aminoácido (como la alanina) en el núcleo apretado de una proteína, un enfoque de diseño racional predeciría que muy pocos mutantes se plegarían a la estructura objetivo, si las cadenas laterales circundantes No se permite volver a empaquetarlos.

Por lo tanto, un parámetro esencial de cualquier proceso de diseño es la cantidad de flexibilidad permitida tanto para las cadenas laterales como para la columna vertebral. En los modelos más simples, la columna vertebral de la proteína se mantiene rígida mientras que a algunas de las cadenas laterales de la proteína se les permite cambiar de conformación. Sin embargo, las cadenas laterales pueden tener muchos grados de libertad en las longitudes de sus enlaces, ángulos de enlace y ángulos diédricos χ. Para simplificar este espacio, los métodos de diseño de proteínas utilizan bibliotecas de rotámeros que asumen valores ideales para las longitudes y ángulos de enlace, al tiempo que restringen los ángulos diédricos χ a unas pocas conformaciones de baja energía observadas con frecuencia denominadas rotámeros.

Las bibliotecas de rotameros se derivan del análisis estadístico de muchas estructuras de proteínas. Las bibliotecas de rotámeros independientes de la columna vertebral describen todos los rotámeros. Por el contrario, las bibliotecas de rotámeros dependientes de la columna vertebral describen la probabilidad de que los rotámeros aparezcan dependiendo de la disposición de la columna vertebral de la proteína alrededor de la cadena lateral. La mayoría de los programas de diseño de proteínas utilizan una conformación (p. ej., el valor modal para los diédricos del rotámero en el espacio) o varios puntos en la región descrita por el rotámero; el programa de diseño de proteínas OSPREY, por el contrario, modela toda la región continua.

Aunque el diseño racional de proteínas debe preservar el pliegue general de la columna vertebral de una proteína, permitir cierta flexibilidad de la columna vertebral puede aumentar significativamente el número de secuencias que se pliegan en la estructura mientras se mantiene el pliegue general de la proteína. La flexibilidad de la columna vertebral es especialmente importante en el rediseño de proteínas porque las mutaciones de secuencia a menudo resultan en pequeños cambios en la estructura de la columna vertebral. Además, la flexibilidad de la columna vertebral puede ser esencial para aplicaciones más avanzadas de diseño de proteínas, como la predicción de enlaces y el diseño de enzimas. Algunos modelos de flexibilidad de la columna vertebral del diseño de proteínas incluyen movimientos globales pequeños y continuos de la columna vertebral, muestras discretas de la columna vertebral alrededor del pliegue objetivo, movimientos de frotamiento posterior y flexibilidad del bucle de proteínas.

Función energética

Las técnicas de diseño racional de proteínas deben poder discriminar secuencias que serán estables bajo el pliegue objetivo de aquellas que preferirían otros estados competitivos de baja energía. Por lo tanto, el diseño de proteínas requiere funciones energéticas precisas que puedan clasificar y puntuar secuencias según qué tan bien se pliegan en la estructura objetivo. Al mismo tiempo, sin embargo, estas funciones energéticas deben considerar los desafíos computacionales detrás del diseño de proteínas. Uno de los requisitos más desafiantes para un diseño exitoso es una función de energía que sea precisa y simple para los cálculos computacionales.

Las funciones de energía más precisas son aquellas basadas en simulaciones de mecánica cuántica. Sin embargo, estas simulaciones son demasiado lentas y normalmente poco prácticas para el diseño de proteínas. En cambio, muchos algoritmos de diseño de proteínas utilizan funciones energéticas basadas en la física adaptadas de programas de simulación de mecánica molecular, funciones energéticas basadas en el conocimiento o una combinación híbrida de ambas. La tendencia ha sido hacia el uso de funciones de energía potencial más basadas en la física.

Las funciones de energía basadas en la física, como AMBER y CHARMM, generalmente se derivan de simulaciones de mecánica cuántica y datos experimentales de termodinámica, cristalografía y espectroscopia. Estas funciones de energía generalmente simplifican la función de energía física y las hacen descomponibles por pares, lo que significa que la energía total de una conformación de proteína se puede calcular sumando la energía por pares entre cada par de átomos, lo que las hace atractivas para los algoritmos de optimización. Las funciones de energía basadas en la física típicamente modelan un término de Lennard-Jones atractivo-repulsivo entre átomos y un término coulómbico electrostático por pares entre átomos no enlazados.

Los enlaces de hidrógeno mediados por agua desempeñan un papel clave en la unión proteína-proteína. Una de esas interacciones se muestra entre los residuos D457, S365 en la cadena pesada del anticuerpo de neutralización del VIH VRC01 (verde) y los residuos N58 y Y59 en la proteína de sobre del VIH GP120 (purple).

Los potenciales estadísticos, a diferencia de los potenciales basados en la física, tienen la ventaja de ser rápidos de calcular, de contabilizar implícitamente efectos complejos y de ser menos sensibles a pequeños cambios en la estructura de la proteína. Estas funciones energéticas se basan en la obtención de valores energéticos a partir de la frecuencia de aparición en una base de datos estructural.

Sin embargo, el diseño de proteínas tiene requisitos que a veces pueden verse limitados en los campos de fuerza de la mecánica molecular. Campos de fuerza de la mecánica molecular, que han sido utilizados principalmente en simulaciones de dinámica molecular, están optimizados para la simulación de secuencias únicas, pero el diseño de proteínas busca en muchas conformaciones de muchas secuencias. Por lo tanto, los campos de fuerza de la mecánica molecular deben adaptarse al diseño de proteínas. En la práctica, las funciones energéticas del diseño de proteínas a menudo incorporan términos estadísticos y términos basados en la física. Por ejemplo, la función de energía de Rosetta, una de las funciones de energía más utilizadas, incorpora términos de energía basados en la física que se originan en la función de energía CHARMM y términos de energía estadísticos, como la probabilidad de rotámeros y la electrostática basada en el conocimiento. Normalmente, las funciones energéticas están altamente personalizadas entre laboratorios y diseñadas específicamente para cada diseño.

Desafíos para un diseño eficaz de funciones energéticas

El agua compone la mayoría de las moléculas que rodean las proteínas y es el principal conductor de la estructura de proteínas. Así, modelar la interacción entre el agua y la proteína es vital en el diseño de proteínas. El número de moléculas de agua que interactúan con una proteína en cualquier momento dado es enorme y cada una tiene un gran número de grados de libertad e interacción socios. En cambio, los programas de diseño de proteínas modelan la mayoría de estas moléculas de agua como un continuum, modelando tanto el efecto hidrofóbico como la polarización de la solvación.

Las moléculas de agua individuales a veces pueden tener un papel estructural crucial en el núcleo de las proteínas y en las interacciones proteína-proteína o proteína-ligando. No modelar tales aguas puede resultar en predicciones erróneas de la secuencia óptima de una interfaz proteína-proteína. Como alternativa, se pueden añadir moléculas de agua a los rotámeros.

Como un problema de optimización

Esta animación ilustra la complejidad de una búsqueda de diseño de proteínas, que normalmente compara todas las conformaciones rotativas de todas las mutaciones posibles en todos los residuos. En este ejemplo, los residuos Phe36 y Sus 106 pueden mutar, respectivamente, a los aminoácidos Tyr y Asn. Phe y Tyr tienen 4 rotadores cada uno en la biblioteca giratoria, mientras que Asn y Sus tienen 7 y 8 rotadores, respectivamente, en la biblioteca giratoria (de la penúltima biblioteca rotativa de Richardson). Los bucles de animación a través de todos (4 + 4) x (7 + 8) = 120 posibilidades. La estructura mostrada es la de mioglobina, PDB id: 1mbn.

El objetivo del diseño de proteínas es encontrar una secuencia de proteínas que se pliegue en una estructura objetivo. Por lo tanto, un algoritmo de diseño de proteínas debe buscar todas las conformaciones de cada secuencia, con respecto al pliegue objetivo, y clasificar las secuencias de acuerdo con la conformación de menor energía de cada una, según lo determinado por la función energética de diseño de proteínas. Por lo tanto, una entrada típica al algoritmo de diseño de proteínas es el pliegue objetivo, el espacio de secuencia, la flexibilidad estructural y la función energética, mientras que la salida es una o más secuencias que se predice que se plegarán de manera estable a la estructura objetivo.

Sin embargo, el número de secuencias de proteínas candidatas crece exponencialmente con el número de residuos de proteínas; por ejemplo, hay 20¹⁰⁰ secuencias de proteínas de longitud 100. Además, aunque las conformaciones de cadena lateral de aminoácidos se limiten a unos pocos rotadores (ver flexibilidad estructural), esto resulta en un número exponencial de conformaciones para cada secuencia. Así, en nuestra proteína 100 residuos, y asumiendo que cada aminoácido tiene exactamente 10 rotadores, un algoritmo de búsqueda que busca este espacio tendrá que buscar más de 200¹⁰⁰ conformaciones de proteínas.

Las funciones de energía más comunes se pueden descomponer en términos de pares entre rotámeros y tipos de aminoácidos, lo que presenta el problema como combinatorio, y se pueden utilizar potentes algoritmos de optimización para resolverlo. En esos casos, la energía total de cada conformación perteneciente a cada secuencia se puede formular como una suma de términos individuales y por pares entre posiciones de residuos. Si un diseñador está interesado sólo en la mejor secuencia, el algoritmo de diseño de proteínas sólo requiere la conformación de menor energía de la secuencia de menor energía. En estos casos, se puede ignorar la identidad de aminoácidos de cada rotámero y todos los rotámeros que pertenecen a diferentes aminoácidos pueden tratarse de la misma manera. Sea r_i un rotámero en la posición del residuo i en la cadena proteica y E(< var>r_i) la energía potencial entre los átomos internos del rotámero. Sea E(r_i, r_{j< /var>}) sea la energía potencial entre r_i y el rotámero r_{< var>j} en la posición del residuo j. Luego, definimos el problema de optimización como uno de encontrar la conformación de energía mínima (E_T):

{\displaystyle \min E_{T}=\sum _{i}{\ Big [}E_{i}(r_{i})+\sum _{i\neq ¿Qué?

()1)

El problema de minimizar E_T es un problema NP-difícil. Aunque la clase de problemas es NP-difícil, en la práctica muchos casos de diseño de proteínas pueden resolverse exactamente u optimizarse satisfactoriamente mediante métodos heurísticos.

Algoritmos

Se han desarrollado varios algoritmos específicamente para el problema del diseño de proteínas. Estos algoritmos se pueden dividir en dos grandes clases: algoritmos exactos, como los de eliminación de callejones sin salida, que carecen de garantías de tiempo de ejecución pero garantizan la calidad de la solución; y algoritmos heurísticos, como Monte Carlo, que son más rápidos que los algoritmos exactos pero no tienen garantías sobre la optimización de los resultados. Los algoritmos exactos garantizan que el proceso de optimización produjo lo óptimo según el modelo de diseño de proteínas. Por lo tanto, si las predicciones de algoritmos exactos fallan cuando se validan experimentalmente, entonces la fuente del error puede atribuirse a la función de energía, la flexibilidad permitida, el espacio de secuencia o la estructura objetivo (por ejemplo, si no se puede diseñar para ello).

A continuación se enumeran algunos algoritmos de diseño de proteínas. Aunque estos algoritmos abordan sólo la formulación más básica del problema de diseño de proteínas, la ecuación (1), cuando el objetivo de optimización cambia porque los diseñadores introducen mejoras y extensiones al modelo de diseño de proteínas, como mejoras a la estructura Si se permite la flexibilidad (por ejemplo, flexibilidad de la columna vertebral de la proteína) o se incluyen términos energéticos sofisticados, muchas de las extensiones en el diseño de proteínas que mejoran el modelado se construyen sobre estos algoritmos. Por ejemplo, Rosetta Design incorpora términos energéticos sofisticados y flexibilidad central utilizando Monte Carlo como algoritmo de optimización subyacente. Los algoritmos de OSPREY se basan en el algoritmo de eliminación de callejones sin salida y A* para incorporar movimientos continuos de la columna vertebral y la cadena lateral. Por tanto, estos algoritmos proporcionan una buena perspectiva sobre los diferentes tipos de algoritmos disponibles para el diseño de proteínas.

En 2020, los científicos informaron sobre el desarrollo de un proceso basado en IA que utiliza bases de datos genómicas para el diseño de nuevas proteínas basado en la evolución. Utilizaron el aprendizaje profundo para identificar reglas de diseño. En 2022, un estudio informó sobre un software de aprendizaje profundo que puede diseñar proteínas que contienen sitios funcionales preespecificados.

Con garantías matemáticas

Eliminación del callejón sin salida

El algoritmo de eliminación de callejón sin salida (DEE) reduce el espacio de búsqueda del problema de forma iterativa al eliminar rotámeros que se puede demostrar que no forman parte de la conformación global de energía más baja (GMEC). En cada iteración, el algoritmo de eliminación sin salida compara todos los pares posibles de rotámeros en cada posición de residuo y elimina cada rotámero r′_i que se puede demostrar que siempre es de mayor energía que otro rotámero r_i y por lo tanto no forma parte del GMEC:

{\displaystyle E(r_{i}{\prime })+\sum _{j\neq i}\min ¿Por qué? ¿Qué?

Otras poderosas extensiones del algoritmo de eliminación de callejones sin salida incluyen el criterio de eliminación de pares y el criterio de eliminación de callejones sin salida generalizado. Este algoritmo también se ha ampliado para manejar rotámeros continuos con garantías demostrables.

Aunque el algoritmo de eliminación de callejones sin salida se ejecuta en tiempo polinómico en cada iteración, no puede garantizar la convergencia. Si, después de un cierto número de iteraciones, el algoritmo de eliminación del callejón sin salida no elimina más rotámeros, entonces se deben fusionar los rotámeros o se debe utilizar otro algoritmo de búsqueda para buscar en el espacio de búsqueda restante. En tales casos, la eliminación del callejón sin salida actúa como un algoritmo de prefiltrado para reducir el espacio de búsqueda, mientras que otros algoritmos, como A*, Monte Carlo, Programación lineal o FASTER se utilizan para buscar en el espacio de búsqueda restante.

Rama y enlazado

El espacio conformacional del diseño de proteínas se puede representar como un árbol, donde los residuos de proteínas están ordenados de forma arbitraria y el árbol se ramifica en cada uno de los rotámeros en un residuo. Los algoritmos de rama y de enlace utilizan esta representación para explorar eficientemente el árbol de conformación: en cada ramificación, los algoritmos de rama y de enlace vinculan el espacio de conformación y exploran solo las ramas prometedoras.

Un algoritmo de búsqueda popular para el diseño de proteínas es el algoritmo de búsqueda A*. A* calcula una puntuación de límite inferior en cada ruta parcial del árbol que limita (con garantías) la energía de cada uno de los rotámeros expandidos. Cada conformación parcial se agrega a una cola de prioridad y en cada iteración, la ruta parcial con el límite inferior más bajo se extrae de la cola y se expande. El algoritmo se detiene una vez que se ha enumerado una conformación completa y garantiza que la conformación sea óptima.

La puntuación A* f en diseño de proteínas consta de dos partes, f=g+h. g es la energía exacta de los rotámeros que ya han sido asignados en la conformación parcial. h es un límite inferior de la energía de los rotámeros que aún no han sido asignados. Cada uno está diseñado de la siguiente manera, donde d es el índice del último residuo asignado en la conformación parcial.

{\displaystyle g=\sum ¿Qué? ¿Qué?

{\displaystyle h=\sum _{j=d+1} {n}[\min] ¿Qué? ¿Qué? - ¿Por qué? ¿Qué?

Programación lineal entera

El problema de optimizar E_T (Ecuación (1)) se puede formular fácilmente como un programa lineal entero (ILP). Una de las formulaciones más poderosas utiliza variables binarias para representar la presencia de un rotámero y bordes en la solución final, y restringe la solución para que tenga exactamente un rotámero para cada residuo y una interacción por pares para cada par de residuos:

{\displaystyle \min \sum _{i}\sum ¿Por qué? - ¿Qué? ¿Por qué?

s.t.

\sum _{i}q_{i}(r_{i}=1,\forall i

\sum ¿Por qué? i,r_{i},j

q_{i},q_{ij}\in \ {0,1\

Los solucionadores de ILP, como CPLEX, pueden calcular la solución óptima exacta para casos grandes de problemas de diseño de proteínas. Estos solucionadores utilizan una relajación de programación lineal del problema, donde q_i y q_ij pueden tomar medidas continuas. valores, en combinación con un algoritmo de rama y corte para buscar solo una pequeña porción del espacio de conformación para la solución óptima. Se ha demostrado que los solucionadores de ILP resuelven muchos casos del problema de colocación de cadenas laterales.

Aproximaciones basadas en el paso de mensajes a la programación lineal dual

Los solucionadores de ILP dependen de algoritmos de programación lineal (LP), como los métodos Simplex o basados en barreras, para realizar la relajación de LP en cada rama. Estos algoritmos LP se desarrollaron como métodos de optimización de propósito general y no están optimizados para el problema de diseño de proteínas (Ecuación (1)). En consecuencia, la relajación LP se convierte en el cuello de botella de los solucionadores de ILP cuando el tamaño del problema es grande. Recientemente, se han diseñado varias alternativas basadas en algoritmos de paso de mensajes específicamente para la optimización de la relajación LP del problema de diseño de proteínas. Estos algoritmos pueden aproximarse tanto a la instancia dual como a la primaria de la programación entera, pero para mantener las garantías de optimización, son más útiles cuando se usan para aproximar la dual del problema de diseño de proteínas, porque aproximar la dual garantiza que no hay soluciones. omitido. Las aproximaciones basadas en el paso de mensajes incluyen el algoritmo de paso de mensajes de producto máximo reponderado por árbol y el algoritmo de programación lineal de paso de mensajes.

Algoritmos de optimización sin garantías

Monte Carlo y el recocido simulado

Monte Carlo es uno de los algoritmos más utilizados para el diseño de proteínas. En su forma más simple, un algoritmo de Monte Carlo selecciona un residuo al azar y en ese residuo se evalúa un rotámero elegido al azar (de cualquier aminoácido). La nueva energía de la proteína, E_nueva, se compara con la energía antigua E_vieja y el nuevo rotámero es aceptado con una probabilidad de:

p=e^{-\beta (E_{\text{new}-E_{\text{old})}}}},

donde β es la constante de Boltzmann y la temperatura T se puede elegir de manera que en las rondas iniciales sea alta y se recoja lentamente para superar los mínimos locales.

MÁS RÁPIDO

El algoritmo FASTER utiliza una combinación de criterios deterministas y estocásticos para optimizar secuencias de aminoácidos. FASTER utiliza primero DEE para eliminar los rotámeros que no forman parte de la solución óptima. Luego, una serie de pasos iterativos optimizan la asignación del rotámero.

Propagación de creencias

En la propagación de creencias para el diseño de proteínas, el algoritmo intercambia mensajes que describen la creencia que tiene cada residuo sobre la probabilidad de que cada rotámero se encuentre en residuos vecinos. El algoritmo actualiza los mensajes en cada iteración y repite hasta la convergencia o hasta un número fijo de iteraciones. La convergencia no está garantizada en el diseño de proteínas. El mensaje m_{i→ j}(r_j que un residuo i envía a cada rotámero (r_j en el residuo vecino j se define como:

m_{i\to j}(r_{j}=\max ¿Qué? Grande. {-E_{i} {} {\fn} {\fn} {\fnh}} {\fn}}\p}\p}\p]}\prod _{k\in N(i)\backslash j}m_{k\to i(r_{i}}}}}}}}}

Tanto la propagación de la creencia max-producto como el subproducto se han utilizado para optimizar el diseño de proteínas.

Aplicaciones y ejemplos de proteínas diseñadas

Diseño de enzimas

El diseño de nuevas enzimas es un uso del diseño de proteínas con enormes aplicaciones biomédicas y de bioingeniería. En general, diseñar una estructura proteica puede ser diferente de diseñar una enzima, porque el diseño de enzimas debe considerar muchos estados involucrados en el mecanismo catalítico. Sin embargo, el diseño de proteínas es un requisito previo del diseño de enzimas de novo porque, como mínimo, el diseño de catalizadores requiere una estructura en la que se pueda insertar el mecanismo catalítico.

En la primera década del siglo XXI se lograron grandes avances en el diseño y rediseño de enzimas de novo. En tres estudios importantes, David Baker y sus compañeros de trabajo de novo diseñaron enzimas para la reacción retroaldólica, una reacción de eliminación de Kemp y para la reacción de Diels-Alder. Además, Stephen Mayo y sus compañeros desarrollaron un método iterativo para diseñar la enzima conocida más eficiente para la reacción de eliminación de Kemp. Además, en el laboratorio de Bruce Donald, se utilizó el diseño computacional de proteínas para cambiar la especificidad de uno de los dominios proteicos de la péptido sintetasa no ribosomal que produce Gramicidina S, de su sustrato natural fenilalanina a otros sustratos no afines, incluidos aminoácidos cargados; las enzimas rediseñadas tenían actividades cercanas a las del tipo salvaje.

Diseño para la afinidad

Las interacciones proteína-proteína están involucradas en la mayoría de los procesos bióticos. Muchas de las enfermedades más difíciles de tratar, como el Alzheimer, muchas formas de cáncer (p. ej., TP53) y la infección por el virus de la inmunodeficiencia humana (VIH), implican interacciones entre proteínas. Por lo tanto, para tratar tales enfermedades, es deseable diseñar proteínas o terapias similares a proteínas que se unan a uno de los participantes de la interacción y, por lo tanto, interrumpan la interacción que causa la enfermedad. Esto requiere diseñar terapias proteicas para la afinidad hacia su pareja.

Las interacciones proteína-proteína se pueden diseñar utilizando algoritmos de diseño de proteínas porque los principios que rigen la estabilidad de las proteínas también rigen la unión proteína-proteína. Sin embargo, el diseño de la interacción proteína-proteína presenta desafíos que no suelen estar presentes en el diseño de proteínas. Uno de los desafíos más importantes es que, en general, las interfaces entre las proteínas son más polares que los núcleos de las proteínas y la unión implica un equilibrio entre la desolvatación y la formación de enlaces de hidrógeno. Para superar este desafío, Bruce Tidor y sus compañeros desarrollaron un método para mejorar la afinidad de los anticuerpos centrándose en las contribuciones electrostáticas. Descubrieron que, para los anticuerpos diseñados en el estudio, la reducción de los costos de desolvatación de los residuos en la interfaz aumentaba la afinidad del par de unión.

Predicciones vinculantes de puntuación

Las funciones energéticas de diseño de proteínas deben adaptarse para puntuar las predicciones de unión porque la unión implica un equilibrio entre las conformaciones de menor energía de las proteínas libres (E_P y < var>E_L) y la conformación de menor energía del complejo ligado (E_PL):

{\displaystyle \Delta ¿Qué?

El algoritmo K* se aproxima a la constante de enlace del algoritmo al incluir entropía conformacional en el cálculo de la energía libre. El algoritmo K* considera sólo las conformaciones de menor energía de los complejos libres y ligados (indicados por los conjuntos P, L y PL). para aproximar las funciones de partición de cada complejo:

K^{*}={\frac {\sum \limits _{x\in PL}e^{-E(x)/RT}{\sum \limits _{x\in P}e^{-E(x)/RT}\sum \limits _{x\in L}e^{-E(x)/RT}}}}}}}}}}}}}}}}}}

Diseño para la especificidad

El diseño de las interacciones proteína-proteína debe ser muy específico porque las proteínas pueden interactuar con una gran cantidad de proteínas; el diseño exitoso requiere aglutinantes selectivos. Por lo tanto, los algoritmos de diseño de proteínas deben poder distinguir entre unión en el objetivo (o diseño positivo) y fuera del objetivo (o diseño negativo). Uno de los ejemplos más destacados de diseño para la especificidad es el diseño de péptidos de unión a bZIP específicos realizado por Amy Keating y colaboradores para 19 de las 20 familias de bZIP; Ocho de estos péptidos eran específicos de su pareja prevista frente a los péptidos competidores. Además, Anderson y sus compañeros de trabajo también utilizaron el diseño positivo y negativo para predecir mutaciones en el sitio activo de un objetivo farmacológico que confería resistencia a un nuevo fármaco; Se utilizó un diseño positivo para mantener la actividad de tipo salvaje, mientras que se utilizó un diseño negativo para interrumpir la unión del fármaco. El reciente rediseño computacional realizado por Costas Maranas y sus compañeros de trabajo también fue capaz de cambiar experimentalmente la especificidad del cofactor de la xilosa reductasa Candida boidinii de NADPH a NADH.

Rejuvenecimiento de proteínas

El rejuvenecimiento de proteínas consiste en diseñar la superficie de una proteína preservando intactas las regiones generales de pliegue, núcleo y límite de la proteína. La renovación de la superficie de proteínas es especialmente útil para alterar la unión de una proteína a otras proteínas. Una de las aplicaciones más importantes del rejuvenecimiento de proteínas fue el diseño de la sonda RSC3 para seleccionar anticuerpos contra el VIH ampliamente neutralizantes en el Centro de Investigación de Vacunas de los NIH. En primer lugar, se seleccionaron para diseñar residuos fuera de la interfaz de unión entre la proteína de la envoltura del VIH gp120 y el anticuerpo b12 descubierto anteriormente. Luego, se seleccionó la secuencia espaciada en función de la información evolutiva, la solubilidad, la similitud con el tipo salvaje y otras consideraciones. Luego se utilizó el software RosettaDesign para encontrar secuencias óptimas en el espacio de secuencia seleccionado. Posteriormente, RSC3 se utilizó para descubrir el anticuerpo ampliamente neutralizante VRC01 en el suero de un individuo no progresador infectado por el VIH a largo plazo.

Diseño de proteínas globulares

Las proteínas globulares son proteínas que contienen un núcleo hidrofóbico y una superficie hidrofílica. Las proteínas globulares suelen adoptar una estructura estable, a diferencia de las proteínas fibrosas, que tienen múltiples conformaciones. La estructura tridimensional de las proteínas globulares suele ser más fácil de determinar mediante cristalografía de rayos X y resonancia magnética nuclear que las proteínas fibrosas y las proteínas de membrana, lo que hace que las proteínas globulares sean más atractivas para el diseño de proteínas que los otros tipos de proteínas. Los diseños de proteínas más exitosos han involucrado proteínas globulares. Tanto RSD-1 como Top7 eran diseños de novo de proteínas globulares. En 2012, el grupo Baker diseñó, sintetizó y verificó cinco estructuras proteicas más. Estas nuevas proteínas no cumplen ninguna función biótica, pero las estructuras están destinadas a actuar como bloques de construcción que pueden expandirse para incorporar sitios activos funcionales. Las estructuras se encontraron computacionalmente mediante el uso de nuevas heurísticas basadas en el análisis de los bucles de conexión entre partes de la secuencia que especifican estructuras secundarias.

Diseño de proteínas de membrana

Varias proteínas transmembranas han sido diseñadas con éxito, junto con muchos otros péptidos y proteínas asociados a la membrana. Recientemente, Costas Maranas y sus compañeros de trabajo desarrollaron una herramienta automatizada para rediseñar el tamaño del poro de Membrane Exterior Tipo-F (OmpF) de E.coli a cualquier tamaño de subnm deseado y los ensambla en membranas para realizar una separación precisa de la escala de angstrom.

Otras aplicaciones

Uno de los usos más deseables para el diseño de proteínas es el de biosensores, proteínas que detectarán la presencia de compuestos específicos. Algunos intentos en el diseño de biosensores incluyen sensores para moléculas no naturales, incluido el TNT. Más recientemente, Kuhlman y sus compañeros diseñaron un biosensor del PAK1.

En cierto sentido, el diseño de proteínas es un subconjunto del diseño de baterías.

Más resultados...