Banco de datos de proteínas

Compartir Imprimir Citar
Base de datos de acceso abierto internacional de grandes moléculas biológicas

El Banco de Datos de Proteínas (PDB) es una base de datos para los datos estructurales tridimensionales de grandes moléculas biológicas, como proteínas y ácidos nucleicos. Los datos, generalmente obtenidos por cristalografía de rayos X, espectroscopia de RMN o, cada vez más, criomicroscopía electrónica, y presentados por biólogos y bioquímicos de todo el mundo, son de libre acceso en Internet a través de los sitios web de sus organizaciones miembros (PDBe, PDBj, RCSB y BMRB). El PDB es supervisado por una organización llamada Worldwide Protein Data Bank, wwPDB.

El PDB es clave en áreas de biología estructural, como la genómica estructural. La mayoría de las principales revistas científicas y algunas agencias de financiación ahora requieren que los científicos envíen sus datos de estructura al PDB. Muchas otras bases de datos utilizan estructuras de proteínas depositadas en el PDB. Por ejemplo, SCOP y CATH clasifican estructuras de proteínas, mientras que PDBsum proporciona una descripción gráfica de las entradas de PDB utilizando información de otras fuentes, como la ontología de genes.

Historia

Dos fuerzas convergieron para iniciar el PDB: una colección pequeña pero creciente de conjuntos de datos de estructura de proteínas determinados por difracción de rayos X; y la pantalla de gráficos moleculares recientemente disponible (1968), Brookhaven RAster Display (BRAD), para visualizar estas estructuras de proteínas en 3-D. En 1969, con el patrocinio de Walter Hamilton en el Laboratorio Nacional de Brookhaven, Edgar Meyer (Universidad A&M de Texas) comenzó a escribir software para almacenar archivos de coordenadas atómicas en un formato común para que estuvieran disponibles para evaluación geométrica y gráfica. En 1971, uno de los programas de Meyer, SEARCH, permitió a los investigadores acceder de forma remota a la información de la base de datos para estudiar las estructuras de las proteínas fuera de línea. SEARCH fue fundamental para habilitar la creación de redes, lo que marcó el comienzo funcional del PDB.

El Banco de datos de proteínas se anunció en octubre de 1971 en Nature New Biology como una empresa conjunta entre el Centro de datos cristalográficos de Cambridge, Reino Unido, y el Laboratorio nacional de Brookhaven, Estados Unidos.

Tras la muerte de Hamilton en 1973, Tom Koeztle asumió la dirección del PDB durante los siguientes 20 años. En enero de 1994, Joel Sussman del Instituto de Ciencias Weizmann de Israel fue nombrado director del PDB. En octubre de 1998, el PDB se transfirió al Research Collaboratory for Structural Bioinformatics (RCSB); la transferencia se completó en junio de 1999. La nueva directora fue Helen M. Berman de la Universidad de Rutgers (una de las instituciones administradoras del RCSB, la otra es el Centro de Supercomputación de San Diego en UC San Diego). En 2003, con la formación de wwPDB, el PDB se convirtió en una organización internacional. Los miembros fundadores son PDBe (Europa), RCSB (EE. UU.) y PDBj (Japón). El BMRB se unió en 2006. Cada uno de los cuatro miembros de wwPDB puede actuar como centro de depósito, procesamiento de datos y distribución de datos PDB. El procesamiento de datos se refiere al hecho de que el personal de wwPDB revisa y anota cada entrada enviada. A continuación, se comprueba automáticamente la plausibilidad de los datos (el código fuente de este software de validación se ha puesto a disposición del público de forma gratuita).

Contenido

Ejemplos de estructuras de proteínas de la PDB (creadas con UCSF Chimera)
Tasa de determinación de la estructura de proteínas por método y año. MX = cristalografía macromolecular, 3DEM = microscopía electrónica 3D.

La base de datos PDB se actualiza semanalmente (UTC+0 miércoles), junto con su lista de existencias. A 10 de enero de 2023, el AP comprendía:

Experimental
Método
Proteínas solamente Proteínas con oligosacáridos Proteína/Ácido Núcleo
complejos
Ácidos Núcleos solamente Otros Oligosacáridos sólo Total
Difracción de rayos X15227789698027256616311172013
NMR1210432281143331613887
Microscopia de electrones922616332898778013842
híbrido189761201215
Neutron721020075
Otros3200104309
Total:1739001064211212409120222200069
162.041 estructuras en el PDB tienen un archivo factor de estructura.
11.242 estructuras tienen un archivo de restricción NMR.
5.774 estructuras en el PDB tienen un archivo de cambios químicos.
13,388 estructuras en el PDB tienen un archivo de mapa 3DEM depositado en EM Data Bank

La mayoría de las estructuras se determinan mediante difracción de rayos X, pero alrededor del 7 % de las estructuras se determinan mediante RMN de proteínas. Al utilizar la difracción de rayos X se obtienen aproximaciones de las coordenadas de los átomos de la proteína, mientras que al utilizar la RMN se estima la distancia entre pares de átomos de la proteína. La conformación final de la proteína se obtiene a partir de RMN resolviendo un problema de geometría de distancia. Después de 2013, se determina un número creciente de proteínas mediante microscopía crioelectrónica.

Para las estructuras PDB determinadas por difracción de rayos X que tienen un archivo de factor de estructura, se puede ver su mapa de densidad de electrones. Los datos de tales estructuras se pueden ver en los tres sitios web de PDB.

Históricamente, la cantidad de estructuras en el PDB ha crecido a un ritmo aproximadamente exponencial, con 100 estructuras registradas en 1982, 1000 estructuras en 1993, 10 000 en 1999, 100 000 en 2014 y 200 000 en enero de 2023.

Formato de archivo

El formato de archivo utilizado inicialmente por PDB se denominaba formato de archivo PDB. El formato original estaba restringido por el ancho de las tarjetas perforadas de computadora a 80 caracteres por línea. Alrededor de 1996, el "archivo de información cristalográfica macromolecular" mmCIF, que es una extensión del formato CIF, se introdujo paulatinamente. mmCIF se convirtió en el formato estándar para el archivo PDB en 2014. En 2019, wwPDB anunció que las deposiciones para métodos cristalográficos solo se aceptarían en formato mmCIF.

En 2005 se describió una versión XML de PDB, denominada PDBML. Los archivos de estructura se pueden descargar en cualquiera de estos tres formatos, aunque un número cada vez mayor de estructuras no se ajustan al formato PDB heredado. Los archivos individuales se descargan fácilmente en paquetes de gráficos desde URL de Internet:

El "4hhb" es el identificador de PDB. Cada estructura publicada en PDB recibe un identificador alfanumérico de cuatro caracteres, su PDB ID. (Este no es un identificador único para biomoléculas, porque varias estructuras para la misma molécula, en diferentes entornos o conformaciones, pueden estar contenidas en PDB con diferentes ID de PDB).

Ver los datos

Los archivos de estructura se pueden ver utilizando uno de varios programas informáticos gratuitos y de código abierto, incluidos Jmol, Pymol, VMD, Molstar y Rasmol. Otros programas shareware no libres incluyen ICM-Browser, MDL Chime, UCSF Chimera, Swiss-PDB Viewer, StarBiochem (un visor molecular interactivo basado en Java con búsqueda integrada de un banco de datos de proteínas), Sirius y VisProt3DS (una herramienta para la visualización de proteínas). en vista estereoscópica 3D en anaglifo y otros modos) y Discovery Studio. El sitio web de RCSB PDB contiene una extensa lista de programas de visualización de moléculas y complementos de navegador web, tanto gratuitos como comerciales.