Predicción de la estructura de proteínas

La predicción de la estructura de la proteína es la inferencia de la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos, es decir, la predicción de su estructura secundaria y terciaria a partir de la estructura primaria. La predicción de estructuras es diferente del problema inverso del diseño de proteínas. La predicción de la estructura de proteínas es uno de los objetivos más importantes que persigue la biología computacional; y es importante en medicina (por ejemplo, en el diseño de fármacos) y biotecnología (por ejemplo, en el diseño de nuevas enzimas).
A partir de 1994, el rendimiento de los métodos actuales se evalúa dos veces al año en el experimento CASP (Evaluación crítica de técnicas para la predicción de la estructura de proteínas). El proyecto comunitario CAMEO3D realiza una evaluación continua de los servidores web de predicción de estructuras de proteínas.
Estructura y terminología de las proteínas
Las proteínas son cadenas de aminoácidos unidos por enlaces peptídicos. Muchas conformaciones de esta cadena son posibles debido a la rotación de la cadena principal sobre los dos ángulos de torsión φ y ψ en el átomo de Cα (ver figura). Esta flexibilidad conformacional es responsable de las diferencias en la estructura tridimensional de las proteínas. Los enlaces peptídicos de la cadena son polares, es decir, tienen cargas positivas y negativas separadas (cargas parciales) en el grupo carbonilo, que puede actuar como aceptor de enlaces de hidrógeno y en el grupo NH, que puede actuar como donante de enlaces de hidrógeno. Por lo tanto, estos grupos pueden interactuar en la estructura de la proteína. Las proteínas consisten principalmente en 20 tipos diferentes de L-α-aminoácidos (los aminoácidos proteinogénicos). Estos se pueden clasificar según la química de la cadena lateral, que también juega un papel estructural importante. La glicina adquiere una posición especial, ya que tiene la cadena lateral más pequeña, solo un átomo de hidrógeno, y por lo tanto puede aumentar la flexibilidad local en la estructura de la proteína. La cisteína, por otro lado, puede reaccionar con otro residuo de cisteína para formar una cisteína y, por lo tanto, formar un enlace cruzado que estabilice toda la estructura.
La estructura de la proteína se puede considerar como una secuencia de elementos de estructura secundaria, como hélices α y láminas β. En estas estructuras secundarias, se forman patrones regulares de enlaces H entre los grupos NH y CO de la cadena principal de aminoácidos espacialmente vecinos, y los aminoácidos tienen Φ y ψ similares. anglos.

La formación de estas estructuras secundarias satisface eficazmente las capacidades de enlace de hidrógeno de los enlaces peptídicos. Las estructuras secundarias pueden estar estrechamente empaquetadas en el núcleo de la proteína en un ambiente hidrofóbico, pero también pueden presentarse en la superficie polar de la proteína. Cada cadena lateral de aminoácido tiene un volumen limitado para ocupar y un número limitado de posibles interacciones con otras cadenas laterales cercanas, una situación que debe tenerse en cuenta en el modelado y alineamientos moleculares.
Α-hélice

La hélice α es el tipo de estructura secundaria más abundante en las proteínas. La hélice α tiene 3,6 aminoácidos por vuelta con un enlace H formado entre cada cuarto residuo; la longitud promedio es de 10 aminoácidos (3 vueltas) o 10 Å pero varía de 5 a 40 (1,5 a 11 vueltas). La alineación de los enlaces H crea un momento dipolar para la hélice con una carga positiva parcial resultante en el extremo amino de la hélice. Debido a que esta región tiene grupos NH2 libres, interactuará con grupos cargados negativamente como los fosfatos. La ubicación más común de las hélices α es en la superficie de los núcleos de proteínas, donde proporcionan una interfaz con el entorno acuoso. El lado que mira hacia el interior de la hélice tiende a tener aminoácidos hidrófobos y el lado que mira hacia el exterior tiene aminoácidos hidrófilos. Por lo tanto, cada tercio de los cuatro aminoácidos a lo largo de la cadena tenderá a ser hidrofóbico, un patrón que se puede detectar con bastante facilidad. En el motivo de cremallera de leucina, un patrón repetitivo de leucinas en los lados enfrentados de dos hélices adyacentes es altamente predictivo del motivo. Se puede usar un diagrama de rueda helicoidal para mostrar este patrón repetido. Otras hélices α enterradas en el núcleo de la proteína o en las membranas celulares tienen una distribución mayor y más regular de aminoácidos hidrofóbicos y son altamente predictivas de tales estructuras. Las hélices expuestas en la superficie tienen una menor proporción de aminoácidos hidrofóbicos. El contenido de aminoácidos puede ser predictivo de una región α-helicoidal. Tienden a formarse regiones más ricas en alanina (A), ácido glutámico (E), leucina (L) y metionina (M) y más pobres en prolina (P), glicina (G), tirosina (Y) y serina (S). una hélice α. La prolina desestabiliza o rompe una hélice α, pero puede estar presente en hélices más largas, formando una curva.
B-hoja
Las hojas β están formadas por enlaces H entre un promedio de 5 a 10 aminoácidos consecutivos en una porción de la cadena con otros 5 a 10 más abajo en la cadena. Las regiones que interactúan pueden ser adyacentes, con un bucle corto en el medio, o muy separadas, con otras estructuras en el medio. Cada cadena puede correr en la misma dirección para formar una hoja paralela, cualquier otra cadena puede correr en la dirección química inversa para formar una hoja antiparalela, o las cadenas pueden ser paralelas y antiparalelas para formar una hoja mixta. El patrón de enlace H es diferente en las configuraciones paralelas y antiparalelas. Cada aminoácido de las cadenas interiores de la lámina forma dos enlaces H con los aminoácidos vecinos, mientras que cada aminoácido de las cadenas exteriores forma sólo un enlace con una cadena interior. Mirando a través de la hoja en ángulo recto con los hilos, los hilos más distantes se giran ligeramente en sentido contrario a las agujas del reloj para formar un giro hacia la izquierda. Los átomos de Cα se alternan por encima y por debajo de la lámina en una estructura plegada, y los grupos laterales R de los aminoácidos se alternan por encima y por debajo de los pliegues. Los ángulos Φ y Ψ de los aminoácidos en las láminas varían considerablemente en una región del diagrama de Ramachandran. Es más difícil predecir la ubicación de las hojas β que de las hélices α. La situación mejora algo cuando se tiene en cuenta la variación de aminoácidos en múltiples alineaciones de secuencias.
Bucles
Algunas partes de la proteína tienen una estructura tridimensional fija, pero no forman ninguna estructura regular. No deben confundirse con segmentos desordenados o desplegados de proteínas o espiral aleatoria, una cadena polipeptídica desplegada que carece de una estructura tridimensional fija. Estas partes se denominan con frecuencia "bucles" porque conectan hojas β y hélices α. Los bucles generalmente se encuentran en la superficie de la proteína y, por lo tanto, las mutaciones de sus residuos se toleran más fácilmente. Tener más sustituciones, inserciones y eliminaciones en una determinada región de una alineación de secuencia puede ser una indicación de un bucle. Las posiciones de los intrones en el ADN genómico pueden correlacionarse con las ubicaciones de los bucles en la proteína codificada. Los bucles también tienden a tener aminoácidos cargados y polares y con frecuencia son un componente de los sitios activos.
Clasificación de proteínas
Las proteínas pueden clasificarse según su similitud estructural y de secuencia. Para la clasificación estructural, los tamaños y disposiciones espaciales de las estructuras secundarias descritas en el párrafo anterior se comparan en estructuras tridimensionales conocidas. Históricamente, la clasificación basada en la similitud de secuencias fue la primera en utilizarse. Inicialmente, se realizó la similitud basada en alineaciones de secuencias completas. Más tarde, las proteínas se clasificaron sobre la base de la aparición de patrones de aminoácidos conservados. Hay disponibles bases de datos que clasifican las proteínas según uno o más de estos esquemas. Al considerar los esquemas de clasificación de proteínas, es importante tener en cuenta varias observaciones. Primero, dos secuencias de proteínas completamente diferentes de diferentes orígenes evolutivos pueden plegarse en una estructura similar. Por el contrario, la secuencia de un gen antiguo para una estructura dada puede haber divergido considerablemente en diferentes especies, manteniendo al mismo tiempo las mismas características estructurales básicas. Reconocer cualquier similitud de secuencia restante en tales casos puede ser una tarea muy difícil. En segundo lugar, dos proteínas que comparten un grado significativo de similitud de secuencia entre sí o con una tercera secuencia también comparten un origen evolutivo y también deberían compartir algunas características estructurales. Sin embargo, la duplicación de genes y los reordenamientos genéticos durante la evolución pueden dar lugar a nuevas copias de genes, que luego pueden convertirse en proteínas con una nueva función y estructura.
Términos utilizados para clasificar estructuras y secuencias de proteínas
Los términos más comúnmente utilizados para las relaciones evolutivas y estructurales entre proteínas se enumeran a continuación. Muchos términos adicionales se utilizan para varios tipos de características estructurales que se encuentran en las proteínas. Las descripciones de dichos términos se pueden encontrar en el sitio web de CATH, el sitio web de Clasificación Estructural de Proteínas (SCOP) y un tutorial de Glaxo Wellcome en el sitio web suizo de bioinformática Expasy.
- Sitio activo
- una combinación localizada de grupos laterales aminoácidos dentro de la estructura terciaria (tridimensional) o cuaternaria (subunidad de proteínas) que puede interactuar con un sustrato químico específico y que proporciona a la proteína actividad biológica. Las proteínas de secuencias de aminoácidos muy diferentes pueden doblarse en una estructura que produce el mismo sitio activo.
- Arquitectura
- es la orientación relativa de las estructuras secundarias en una estructura tridimensional sin tener en cuenta si comparten o no una estructura de lazo similar.
- Doble (topología)
- un tipo de arquitectura que también tiene una estructura de bucle conservada.
- Bloqueos
- es un patrón de secuencia de aminoácidos conservado en una familia de proteínas. El patrón incluye una serie de posibles partidos en cada posición en las secuencias representadas, pero no hay ninguna posición insertada o eliminada en el patrón o en las secuencias. A modo de contraste, los perfiles de secuencia son un tipo de matriz de puntuación que representa un conjunto similar de patrones que incluyen las inserciones y eliminaciones.
- Clase
- un término utilizado para clasificar los dominios de proteínas según su contenido estructural secundario y organización. Four classes were originally recognized by Levitt and Chothia (1976), and several others have been added in the SCOP database. Tres clases se imparten en la base de datos CATH: principalmente-α, principalmente-β, y α–β, con la clase α–β incluyendo ambas estructuras alternantes α/β y α+β.
- Core
- la porción de una molécula de proteína plegada que comprende el interior hidrofóbico de los cálices α y las hojas β. La estructura compacta reúne a grupos laterales de aminoácidos lo suficientemente cerca para que puedan interactuar. Al comparar las estructuras de proteínas, como en la base de datos SCOP, el núcleo es la región común a la mayoría de las estructuras que comparten un pliegue común o que están en la misma superfamilia. En la predicción de la estructura, el núcleo se define a veces como el arreglo de estructuras secundarias que probablemente se conservarán durante el cambio evolutivo.
- Dominio (contexto de secuencia)
- un segmento de una cadena de polipéptidos que puede doblarse en una estructura tridimensional independientemente de la presencia de otros segmentos de la cadena. Los dominios separados de una proteína dada pueden interactuar extensamente o pueden unirse sólo por una longitud de cadena de polipéptidos. Una proteína con varios dominios puede utilizar estos dominios para interacciones funcionales con diferentes moléculas.
- Familia (contexto de secuencia)
- un grupo de proteínas de función bioquímica similar que son más del 50% idénticas al alinearse. Este mismo corte sigue siendo utilizado por el Protein Information Resource (PIR). Una familia de proteínas comprende proteínas con la misma función en diferentes organismos (secuencias ortologosas) pero también puede incluir proteínas en el mismo organismo (secuencias paralogosas) derivadas de la duplicación de genes y reorganizaciones. Si una alineación de secuencia múltiple de una familia de proteínas revela un nivel común de similitud a lo largo de las proteínas, PIR se refiere a la familia como una familia homeomorfa. La región alineada se conoce como un dominio homeomorfico, y esta región puede abarcar varios dominios de homología más pequeños que se comparten con otras familias. Las familias pueden ser subdivididas en subfamilias o agrupadas en superfamilias basadas en niveles respectivos superiores o inferiores de semejanza secuencial. La base de datos SCOP informa a 1296 familias y la base de datos CATH (versión 1.7 beta), informa a 1846 familias.
- Cuando las secuencias de proteínas con la misma función se examinan en mayor detalle, algunas se encuentran para compartir la semejanza de alta secuencia. Obviamente son miembros de la misma familia por los criterios mencionados. Sin embargo, se encuentran otros que tienen muy poca, o incluso insignificante, semejanza de secuencia con otros miembros de la familia. En tales casos, la relación familiar entre dos familiares distantes A y C se puede demostrar a menudo encontrando un miembro adicional de la familia B que comparte una similitud significativa con A y C. Por lo tanto, B proporciona un vínculo de conexión entre A y C. Otro enfoque es examinar alineaciones distantes para los partidos altamente conservados.
- En un nivel de identidad del 50%, es probable que las proteínas tengan la misma estructura tridimensional, y los átomos idénticos en la alineación de secuencias también superponen en aproximadamente 1 Å en el modelo estructural. Así, si se conoce la estructura de un miembro de una familia, se puede hacer una predicción fiable para un segundo miembro de la familia, y cuanto más alto sea el nivel de identidad, más fiable será la predicción. El modelado estructural proteína se puede realizar examinando lo bien que las sustituciones de aminoácidos encajan en el núcleo de la estructura tridimensional.
- Familia (texto estructural)
- como se utiliza en la base de datos FSSP (Familias de proteínas estructuralmente similares) y el sitio web DALI/FSSP, dos estructuras que tienen un nivel significativo de similitud estructural pero no necesariamente significativa semejanza secuencial.
- Fold
- similar al motivo estructural, incluye una mayor combinación de unidades estructurales secundarias en la misma configuración. Así, las proteínas que comparten el mismo pliegue tienen la misma combinación de estructuras secundarias que están conectadas por bucles similares. Un ejemplo es el pliegue Rossman que comprende varios helices α alternantes y hebras β paralelas. En las bases de datos SCOP, CATH y FSSP, las estructuras de proteínas conocidas se han clasificado en niveles jerárquicos de complejidad estructural con el pliegue como nivel básico de clasificación.
- Dominio homologado (contexto secuencial)
- un patrón de secuencia extendida, generalmente encontrado por métodos de alineación de secuencias, que indica un origen evolutivo común entre las secuencias alineadas. Un dominio de homología es generalmente más largo que los motivos. El dominio puede incluir toda una secuencia de proteína dada o sólo una parte de la secuencia. Algunos dominios son complejos e integrados por varios dominios de homología más pequeños que se unieron para formar uno más grande durante la evolución. Un dominio que cubre toda una secuencia se llama dominio homeomorfico por PIR (Protein Information Resource).
- Módulo
- una región de patrones de aminoácidos conservados que comprende uno o más motivos y considerado como una unidad fundamental de estructura o función. La presencia de un módulo también se ha utilizado para clasificar proteínas en familias.
- Motivo (contexto de secuencia)
- un patrón conservado de aminoácidos que se encuentra en dos o más proteínas. En el catálogo Prosite, un motivo es un patrón de aminoácidos que se encuentra en un grupo de proteínas que tienen una actividad bioquímica similar, y que a menudo está cerca del sitio activo de la proteína. Ejemplos de bases de datos de motivos de secuencia son el catálogo Prosite y la base de datos Stanford Motifs.
- Motivo (contexto estructural)
- una combinación de varios elementos estructurales secundarios producidos por el plegado de secciones adyacentes de la cadena polipéptida en una configuración tridimensional específica. Un ejemplo es el motivo helix-loop-helix. Los motivos estructurales también se denominan estructuras y pliegues supersecundarios.
- Matriz de puntuación específica (contexto de secuencia, también conocido como matriz de peso o puntuación)
- representa una región conservada en una alineación de secuencia múltiple sin lagunas. Cada columna de matriz representa la variación encontrada en una columna de la alineación de secuencia múltiple.
- Matriz de puntuación específica de la posición—3D (contexto estructural)
- representa la variación de aminoácidos encontrada en una alineación de proteínas que caen en la misma clase estructural. Las columnas de matriz representan la variación de aminoácidos que se encuentra en una posición de aminoácidos en las estructuras alineadas.
- Estructura primaria
- la secuencia lineal de aminoácidos de una proteína, que químicamente es una cadena de polipéptidos compuesta de aminoácidos unidos por enlaces de péptidos.
- Perfil (contexto de secuencia)
- una matriz de puntuación que representa una alineación de secuencia múltiple de una familia de proteínas. El perfil se obtiene generalmente de una región bien conservada en una alineación de secuencia múltiple. El perfil está en forma de matriz con cada columna representando una posición en la alineación y cada fila uno de los aminoácidos. Los valores de matriz dan la probabilidad de cada aminoácido en la posición correspondiente en la alineación. El perfil se mueve a lo largo de la secuencia de destino para localizar las mejores regiones de puntuación por un algoritmo de programación dinámico. Los gaps se permiten durante el emparejamiento y una penalización de brecha se incluye en este caso como una puntuación negativa cuando no se empareja ningún aminoácido. Un perfil de secuencia también puede estar representado por un modelo oculto de Markov, llamado perfil HMM.
- Perfil (texto estructural)
- una matriz de puntuación que representa que los aminoácidos deben encajar bien y que debe encajar mal en posiciones secuenciales en una estructura de proteína conocida. Las columnas de perfil representan posiciones secuenciales en la estructura, y las filas de perfil representan los 20 aminoácidos. Como con un perfil de secuencia, el perfil estructural se mueve a lo largo de una secuencia de destino para encontrar la puntuación de alineación más alta posible por un algoritmo de programación dinámico. Los gaps pueden ser incluidos y recibir una pena. La puntuación resultante proporciona una indicación de si la proteína diana podría adoptar tal estructura.
- Estructura cuaternaria
- la configuración tridimensional de una molécula de proteína que comprende varias cadenas de polipéptidos independientes.
- Estructura secundaria
- las interacciones que ocurren entre los grupos C, O y NH sobre aminoácidos en una cadena de polipéptidos para formar α-helices, hojas β, giros, lazos y otras formas, y que facilitan el plegado en una estructura tridimensional.
- Superfamilia
- a group of protein families of the same or different lengths that are related by distant yet detectable sequence similarity. Los miembros de una superfamilia dada tienen así un origen evolutivo común. Originalmente, Dayhoff definió el corte para el estatus de superfamilia como la posibilidad de que las secuencias no estén relacionadas con 10 6, sobre la base de una puntuación de alineación (Dayhoff et al. 1978). Las proteínas con pocas identidades en una alineación de las secuencias pero con un número convincentemente común de características estructurales y funcionales se colocan en la misma superfamilia. En el nivel de estructura tridimensional, las proteínas superfamilias compartirán características estructurales comunes como un pliegue común, pero también pueden haber diferencias en el número y la disposición de las estructuras secundarias. El recurso PIR utiliza el término superfamilias homeomorfos para referirse a superfamilias que se componen de secuencias que pueden alinearse de extremo a extremo, representando un reparto de dominio de homología de secuencia única, una región de similitud que se extiende a lo largo de la alineación. Este dominio también puede incluir dominios de homología más pequeños que se comparten con otras familias de proteínas y superfamilias. Aunque una determinada secuencia de proteínas puede contener dominios encontrados en varias superfamilias, indicando así una compleja historia evolutiva, se asignarán secuencias a una superfamilia homeomórfica basada en la presencia de similitud a lo largo de una alineación de secuencia múltiple. La alineación superfamilia también puede incluir regiones que no se alinean dentro o en los extremos de la alineación. En cambio, secuencias en la misma familia alinean bien a lo largo de la alineación.
- Estructura supersecundaria
- un término con significado similar a un motivo estructural. La estructura terciaria es la estructura tridimensional o globular formada por el empaquetado o plegado de estructuras secundarias de una cadena de polipéptidos.
Estructura secundaria
La predicción de la estructura secundaria es un conjunto de técnicas en bioinformática que tienen como objetivo predecir las estructuras secundarias locales de las proteínas basándose únicamente en el conocimiento de su secuencia de aminoácidos. Para las proteínas, una predicción consiste en asignar regiones de la secuencia de aminoácidos como probables hélices alfa, hebras beta (a menudo denominadas conformaciones "extendidas") o giros. El éxito de una predicción se determina comparándolo con los resultados del algoritmo DSSP (o similar, por ejemplo, STRIDE) aplicado a la estructura cristalina de la proteína. Se han desarrollado algoritmos especializados para la detección de patrones específicos bien definidos, como hélices transmembrana y espirales enrolladas en proteínas.
Se afirmó que los mejores métodos modernos de predicción de estructuras secundarias en proteínas alcanzaban un 80 % de precisión después de usar el aprendizaje automático y las alineaciones de secuencias; esta alta precisión permite el uso de las predicciones como características que mejoran el reconocimiento de pliegues y la predicción de la estructura de proteínas ab initio, la clasificación de motivos estructurales y el refinamiento de las alineaciones de secuencias. La precisión de los métodos actuales de predicción de estructuras secundarias de proteínas se evalúa en puntos de referencia semanales como LiveBench y EVA.
Antecedentes
Los primeros métodos de predicción de estructura secundaria, introducidos en la década de 1960 y principios de la de 1970, se centraban en la identificación de hélices alfa probables y se basaban principalmente en modelos de transición hélice-espiral. En la década de 1970 se introdujeron predicciones significativamente más precisas que incluían hojas beta y se basaban en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una sola secuencia, suelen tener una precisión máxima del 60-65% y, a menudo, predicen por debajo de las hojas beta. Desde la década de 1980, las redes neuronales artificiales se han aplicado a la predicción de estructuras de proteínas. La conservación evolutiva de las estructuras secundarias puede explotarse evaluando simultáneamente muchas secuencias homólogas en una alineación de secuencias múltiples, calculando la propensión neta a la estructura secundaria de una columna alineada de aminoácidos. Junto con bases de datos más grandes de estructuras de proteínas conocidas y métodos modernos de aprendizaje automático, como redes neuronales y máquinas de vectores de soporte, estos métodos pueden lograr una precisión general de hasta el 80 % en proteínas globulares. El límite superior teórico de precisión es de alrededor del 90 %, en parte debido a las idiosincrasias en la asignación de DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían en condiciones nativas, pero pueden verse obligadas a asumir una conformación única en los cristales debido a las limitaciones de empaquetamiento. Además, los métodos típicos de predicción de la estructura secundaria no tienen en cuenta la influencia de la estructura terciaria en la formación de la estructura secundaria; por ejemplo, una secuencia predicha como una hélice probable aún puede adoptar una conformación de cadena beta si está ubicada dentro de una región de hoja beta de la proteína y sus cadenas laterales se empaquetan bien con sus vecinas. Los cambios conformacionales dramáticos relacionados con la función o el entorno de la proteína también pueden alterar la estructura secundaria local.
Perspectiva histórica
Hasta la fecha, se han desarrollado más de 20 métodos diferentes de predicción de estructuras secundarias. Uno de los primeros algoritmos fue el método de Chou-Fasman, que se basa predominantemente en parámetros de probabilidad determinados a partir de las frecuencias relativas de la aparición de cada aminoácido en cada tipo de estructura secundaria. Los parámetros originales de Chou-Fasman, determinados a partir de una pequeña muestra de estructuras resueltas a mediados de la década de 1970, producen resultados deficientes en comparación con los métodos modernos, aunque la parametrización se ha actualizado desde que se publicó por primera vez. El método de Chou-Fasman tiene una precisión aproximada del 50-60 % en la predicción de estructuras secundarias.
El siguiente programa destacado fue el método GOR, un método basado en la teoría de la información. Utiliza la técnica probabilística más poderosa de la inferencia bayesiana. El método GOR tiene en cuenta no solo la probabilidad de que cada aminoácido tenga una estructura secundaria particular, sino también la probabilidad condicional de que el aminoácido asuma cada estructura dadas las contribuciones de sus vecinos (no supone que los vecinos tengan la misma estructura). El enfoque es más sensible y más preciso que el de Chou y Fasman porque las propensiones estructurales de los aminoácidos solo son fuertes para una pequeña cantidad de aminoácidos como la prolina y la glicina. Las contribuciones débiles de cada uno de los muchos vecinos pueden sumar efectos fuertes en general. El método GOR original tenía una precisión de aproximadamente el 65 % y tiene mucho más éxito en la predicción de hélices alfa que de láminas beta, que con frecuencia predecía erróneamente como bucles o regiones desorganizadas.
Otro gran paso adelante fue el uso de métodos de aprendizaje automático. Se utilizaron los primeros métodos de redes neuronales artificiales. Como conjuntos de entrenamiento, utilizan estructuras resueltas para identificar motivos de secuencia comunes asociados con arreglos particulares de estructuras secundarias. Estos métodos tienen una precisión de más del 70 % en sus predicciones, aunque las hebras beta a menudo se subestiman debido a la falta de información estructural tridimensional que permitiría evaluar los patrones de enlaces de hidrógeno que pueden promover la formación de la conformación extendida requerida para la presencia de un ficha beta completa. PSIPRED y JPRED son algunos de los programas más conocidos basados en redes neuronales para la predicción de estructuras secundarias de proteínas. A continuación, las máquinas de vectores de soporte han demostrado ser particularmente útiles para predecir las ubicaciones de los giros, que son difíciles de identificar con métodos estadísticos.
Las extensiones de las técnicas de aprendizaje automático intentan predecir propiedades locales más detalladas de las proteínas, como los ángulos diedros de la columna vertebral en regiones no asignadas. Tanto las SVM como las redes neuronales se han aplicado a este problema. Más recientemente, SPINE-X puede predecir con precisión los ángulos de torsión de valor real y emplearlos con éxito para la predicción de estructuras ab initio.
Otras mejoras
Se informa que, además de la secuencia de la proteína, la formación de estructuras secundarias depende de otros factores. Por ejemplo, se informa que las tendencias de la estructura secundaria dependen también del entorno local, la accesibilidad de los residuos a los disolventes, la clase estructural de la proteína e incluso el organismo del que se obtienen las proteínas. Sobre la base de tales observaciones, algunos estudios han demostrado que la predicción de la estructura secundaria se puede mejorar mediante la adición de información sobre la clase estructural de la proteína, el área de superficie accesible al residuo y también la información del número de contacto.
Estructura terciaria
El papel práctico de la predicción de la estructura de proteínas es ahora más importante que nunca. Los esfuerzos modernos de secuenciación de ADN a gran escala, como el Proyecto Genoma Humano, producen cantidades masivas de datos de secuencias de proteínas. A pesar de los esfuerzos de toda la comunidad en genómica estructural, la producción de estructuras de proteínas determinadas experimentalmente, generalmente mediante cristalografía de rayos X o espectroscopia de RMN, que consume mucho tiempo y es relativamente costosa, está muy por detrás de la producción de secuencias de proteínas.
La predicción de la estructura de la proteína sigue siendo una tarea extremadamente difícil y sin resolver. Los dos problemas principales son el cálculo de la energía libre de proteínas y encontrar el mínimo global de esta energía. Un método de predicción de estructura de proteína debe explorar el espacio de posibles estructuras de proteína que es astronómicamente grande. Estos problemas se pueden omitir parcialmente en "comparativo" o métodos de modelado de homología y reconocimiento de pliegues, en los que el espacio de búsqueda se poda suponiendo que la proteína en cuestión adopta una estructura que está cerca de la estructura determinada experimentalmente de otra proteína homóloga. Por otro lado, los métodos de predicción de estructura de proteínas de novo deben resolver explícitamente estos problemas. Zhang revisó el progreso y los desafíos en la predicción de la estructura de proteínas.
Antes de modelar
La mayoría de los métodos de modelado de estructuras terciarias, como Rosetta, están optimizados para modelar la estructura terciaria de dominios de proteínas individuales. Un paso llamado análisis de dominio, o predicción de límites de dominio, generalmente se realiza primero para dividir una proteína en dominios estructurales potenciales. Al igual que con el resto de la predicción de estructuras terciarias, esto se puede hacer comparativamente a partir de estructuras conocidas o ab initio solo con la secuencia (generalmente mediante aprendizaje automático, asistido por covariación). Las estructuras de los dominios individuales se acoplan en un proceso llamado ensamblaje de dominios para formar la estructura terciaria final.
Modelado de proteínas ab initio
Métodos basados en energía y fragmentos
Ab initio- o de novo- los métodos de modelado de proteínas buscan construir modelos tridimensionales de proteínas "desde cero", es decir, basados en principios en lugar de (directamente) en estructuras previamente resueltas. Hay muchos procedimientos posibles que intentan imitar el plegamiento de proteínas o aplican algún método estocástico para buscar posibles soluciones (es decir, optimización global de una función de energía adecuada). Estos procedimientos tienden a requerir grandes recursos computacionales y, por lo tanto, solo se han llevado a cabo para proteínas diminutas. Para predecir la estructura de la proteína de novo para proteínas más grandes, se requerirán mejores algoritmos y mayores recursos computacionales como los que brindan las potentes supercomputadoras (como Blue Gene o MDGRAPE-3) o la computación distribuida (como Folding@home, el Proyecto de plegamiento del proteoma humano y Rosetta@Home). Aunque estas barreras computacionales son enormes, los beneficios potenciales de la genómica estructural (mediante métodos predichos o experimentales) hacen que la predicción estructural ab initio sea un campo de investigación activo.
A partir de 2009, una proteína de 50 residuos podía simularse átomo por átomo en una supercomputadora durante 1 milisegundo. A partir de 2012, se podría realizar un muestreo de estado estable comparable en una computadora de escritorio estándar con una nueva tarjeta gráfica y algoritmos más sofisticados. Se pueden lograr escalas de tiempo de simulación mucho más grandes utilizando modelos de granularidad gruesa.
Covariación evolutiva para predecir contactos 3D
A medida que la secuenciación se volvió más común en la década de 1990, varios grupos usaron alineaciones de secuencias de proteínas para predecir mutaciones correlacionadas y se esperaba que estos residuos coevolucionados pudieran usarse para predecir la estructura terciaria (usando la analogía con las restricciones de distancia de los procedimientos experimentales como la RMN). La suposición es que cuando las mutaciones de un solo residuo son ligeramente perjudiciales, pueden ocurrir mutaciones compensatorias para volver a estabilizar las interacciones residuo-residuo. Este trabajo inicial utilizó lo que se conoce como métodos locales para calcular mutaciones correlacionadas a partir de secuencias de proteínas, pero sufría de falsas correlaciones indirectas que resultan del tratamiento de cada par de residuos como independiente de todos los demás pares.
En 2011, un enfoque estadístico diferente, y esta vez global, demostró que los residuos coevolucionados pronosticados eran suficientes para predecir el plegamiento 3D de una proteína, siempre que haya suficientes secuencias disponibles (>1000 homólogas). se necesitan secuencias). El método, EVfold, no utiliza modelos de homología, enhebrado o fragmentos de estructura 3D y se puede ejecutar en una computadora personal estándar incluso para proteínas con cientos de residuos. La precisión de los contactos predichos utilizando este enfoque y otros relacionados ahora se ha demostrado en muchas estructuras conocidas y mapas de contacto, incluida la predicción de proteínas transmembrana no resueltas experimentalmente.
Modelado comparativo de proteínas
El modelado comparativo de proteínas utiliza estructuras previamente resueltas como puntos de partida o plantillas. Esto es eficaz porque parece que aunque el número de proteínas reales es enorme, existe un conjunto limitado de motivos estructurales terciarios a los que pertenecen la mayoría de las proteínas. Se ha sugerido que solo hay alrededor de 2000 pliegues de proteínas distintos en la naturaleza, aunque hay muchos millones de proteínas diferentes. El modelado comparativo de proteínas puede combinarse con la covariación evolutiva en la predicción de la estructura.
Estos métodos también se pueden dividir en dos grupos:
- El modelado de Homología se basa en la suposición razonable de que dos proteínas homologosas compartirán estructuras muy similares. Debido a que el pliegue de una proteína se conserva más evolutivamente que su secuencia de aminoácidos, una secuencia de objetivos se puede modelar con una precisión razonable en una plantilla muy relacionada, siempre que la relación entre el objetivo y la plantilla pueda ser discernida mediante la alineación de secuencias. Se ha sugerido que el obstáculo primario en el modelado comparativo surge de las dificultades de alineación en lugar de de los errores en la predicción de la estructura dada una alineación conocida y buena. Sin sorpresa, el modelado de homología es más preciso cuando el objetivo y la plantilla tienen secuencias similares.
- Protein rosca explora la secuencia de aminoácidos de una estructura desconocida contra una base de datos de estructuras resueltas. En cada caso, se utiliza una función de puntuación para evaluar la compatibilidad de la secuencia a la estructura, dando así los posibles modelos tridimensionales. Este tipo de método también se conoce como Reconocimiento de pliegues 3D-1D debido a su análisis de compatibilidad entre estructuras tridimensionales y secuencias de proteínas lineales. Este método también ha dado lugar a métodos que realizan un búsqueda plegable inversa evaluando la compatibilidad de una estructura dada con una gran base de datos de secuencias, prediciendo así qué secuencias tienen el potencial de producir un pliegue dado.
Modelado de conformaciones de cadenas laterales
El empaquetamiento preciso de las cadenas laterales de aminoácidos representa un problema aparte en la predicción de la estructura de proteínas. Los métodos que abordan específicamente el problema de predecir la geometría de la cadena lateral incluyen la eliminación de callejones sin salida y los métodos de campo medio autoconsistentes. Las conformaciones de la cadena lateral con baja energía generalmente se determinan en el esqueleto polipeptídico rígido y utilizando un conjunto de conformaciones discretas de la cadena lateral conocidas como "rotámeros". Los métodos intentan identificar el conjunto de rotámeros que minimizan la energía total del modelo.
Estos métodos utilizan bibliotecas de rotámeros, que son colecciones de conformaciones favorables para cada tipo de residuo en las proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia y las desviaciones estándar sobre los ángulos diédricos medios, que pueden usarse en el muestreo. Las bibliotecas de rotámeros se derivan de bioinformática estructural u otro análisis estadístico de conformaciones de cadena lateral en estructuras experimentales conocidas de proteínas, como agrupar las conformaciones observadas para carbonos tetraédricos cerca de los valores escalonados (60°, 180°, -60°).
Las bibliotecas rotativas pueden ser dependientes de la columna vertebral, dependientes de la estructura secundaria o dependientes de la columna vertebral. Las bibliotecas rotadoras dependientes de la columna vertebral no hacen referencia a la conformación de la columna vertebral, y se calculan a partir de todas las cadenas laterales disponibles de un tipo determinado (por ejemplo, el primer ejemplo de una biblioteca giratoria, realizada por Ponder y Richards en Yale en 1987). Las bibliotecas dependientes de la estructura secundaria presentan diferentes ángulos dihedral y/o frecuencias rotatorias para α α {displaystyle alpha }-Hola. β β {displaystyle beta }- hoja de cálculo o coilar estructuras secundarias. Las bibliotecas rotativas dependientes de la columna vertebral presentan conformaciones y/o frecuencias dependientes de la conformación de la columna vertebral local definida por los ángulos dihedral de la columna vertebral φ φ {displaystyle phi } y ↑ ↑ {displaystyle psi }, independientemente de la estructura secundaria.
Las versiones modernas de estas bibliotecas, tal como se utilizan en la mayoría del software, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de ángulo diedro consideradas como rotámeros individuales en las listas. Algunas versiones se basan en datos cuidadosamente seleccionados y se usan principalmente para la validación de estructuras, mientras que otras enfatizan las frecuencias relativas en conjuntos de datos mucho más grandes y son la forma que se usa principalmente para la predicción de estructuras, como las bibliotecas de rotámeros de Dunbrack.
Los métodos de empaquetamiento de cadena lateral son más útiles para analizar el núcleo hidrofóbico de la proteína, donde las cadenas laterales están más empaquetadas; tienen más dificultades para abordar las restricciones más flexibles y la mayor flexibilidad de los residuos de la superficie, que a menudo ocupan múltiples conformaciones de rotámeros en lugar de solo una.
Estructura cuaternaria
En el caso de complejos de dos o más proteínas, donde las estructuras de las proteínas se conocen o se pueden predecir con gran precisión, se pueden usar métodos de acoplamiento proteína-proteína para predecir la estructura del complejo. La información sobre el efecto de las mutaciones en sitios específicos sobre la afinidad del complejo ayuda a comprender la estructura compleja y a guiar los métodos de acoplamiento.
Software
Existe una gran cantidad de herramientas de software para la predicción de la estructura de proteínas. Los enfoques incluyen modelos de homología, enhebrado de proteínas, métodos ab initio, predicción de estructuras secundarias y predicción de hélices transmembrana y péptidos señal. En particular, el aprendizaje profundo basado en la memoria a corto plazo se ha utilizado para este propósito desde 2007, cuando se aplicó con éxito a la detección de homología de proteínas y a predecir la localización subcelular de las proteínas. Algunos métodos exitosos recientes basados en los experimentos CASP incluyen I-TASSER, HHpred y AlphaFold. En 2021, se informó que AlphaFold tiene actualmente el mejor rendimiento.
Conocer la estructura de una proteína a menudo también permite la predicción funcional. Por ejemplo, el colágeno se pliega en una cadena larga similar a la fibra y lo convierte en una proteína fibrosa. Recientemente, se han desarrollado varias técnicas para predecir el plegamiento de proteínas y, por lo tanto, la estructura de proteínas, por ejemplo, Itasser y AlphaFold.
Métodos de IA
AlphaFold fue una de las primeras IA en predecir estructuras de proteínas. Fue presentado por DeepMind de Google en la competencia CASP número 13, que se llevó a cabo en 2018. AlphaFold se basa en un enfoque de red neuronal, que predice directamente las coordenadas 3D de todos los átomos que no son de hidrógeno para una proteína dada usando el aminoácido secuencia y secuencias homólogas alineadas. La red AlphaFold consiste en un tronco que procesa las entradas a través de capas repetidas y un módulo de estructura que introduce una estructura 3D explícita. Las redes neuronales anteriores para la predicción de la estructura de proteínas usaban LSTM.


Dado que AlphaFold genera coordenadas de proteínas directamente, AlphaFold produce predicciones en unidades de procesamiento gráfico (GPU) minutos a GPU horas, según la longitud de la secuencia de proteínas.
Métodos de IA actuales y bases de datos de estructuras proteicas previstas
AlphaFold2, se introdujo en CASP14 y es capaz de predecir estructuras de proteínas con una precisión casi experimental. AlphaFold fue seguido rápidamente por RosettaTTAFold y más tarde por OmegaFold y el ESM Metagennomic Atlas. En un estudio reciente, Sommer et al. 2022 demostró la aplicación de la predicción de la estructura de proteínas en la anotación del genoma, específicamente en la identificación de isoformas de proteínas funcionales utilizando estructuras predichas computacionalmente, disponible en https://www.isoform.io. Este estudio destaca la promesa de la predicción de la estructura de proteínas como una herramienta de anotación del genoma y presenta un enfoque práctico guiado por la estructura que se puede utilizar para mejorar la anotación de cualquier genoma.
El Instituto Europeo de Bioinformática junto con DeepMind han construido la base de datos AlphaFold - EBI para estructuras de proteínas predichas.
Evaluación de servidores de predicción automática de estructuras
CASP, que significa Evaluación crítica de técnicas para la predicción de la estructura de proteínas, es un experimento de toda la comunidad para la predicción de la estructura de proteínas que se lleva a cabo cada dos años desde 1994. CASP brinda la oportunidad de evaluar la calidad de los humanos, no humanos disponibles. metodología automatizada (categoría humana) y servidores automáticos para la predicción de la estructura de proteínas (categoría servidor, introducido en el CASP7).
El servidor de evaluación automática continua de modelos de CAMEO3D evalúa los servidores automatizados de predicción de estructuras de proteínas semanalmente utilizando predicciones ciegas para las estructuras de proteínas recién liberadas. CAMEO publica los resultados en su sitio web.
Contenido relacionado
Fagémido
Cibernética biomédica
Dinámica inversa
Tubo de diálisis
Microscopio de fluorescencia de reflexión interna total.