UniProt

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Base de datos de secuencias de proteínas e información funcional

UniProt es una base de datos de libre acceso sobre secuencias de proteínas e información funcional, muchas de las entradas se derivan de proyectos de secuenciación del genoma. Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de investigación. Lo mantiene el consorcio UniProt, que está formado por varias organizaciones bioinformáticas europeas y una fundación de Washington, DC, Estados Unidos.

El consorcio UniProt

El consorcio Uniprot comprende el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Recurso de Información de Proteínas (PIR). EBI, ubicado en el Campus del Genoma de Wellcome Trust en Hinxton, Reino Unido, organiza un gran recurso de bases de datos y servicios de bioinformática. SIB, ubicado en Ginebra, Suiza, mantiene los servidores Expasy (Sistema Experto de Análisis de Proteínas) que son un recurso central para herramientas y bases de datos proteómicas. PIR, organizado por la National Biomedical Research Foundation (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., Es heredero de la base de datos de secuencia de proteínas más antigua, Atlas de secuencia y estructura de proteínas de Margaret Dayhof 1965. En 2002, EBI, SIB y PIR unieron fuerzas como consorcio Uniprot.

Las raíces de las bases de datos Uniprot

Cada miembro del consorcio está muy involucrado en el mantenimiento y la anotación de la base de datos de proteínas. Hasta hace poco, EBI y SIB juntos producían las bases de datos Swiss-Prot y TremBL, mientras que PIR produjo la base de datos de secuencia de proteínas (PIR-PSD). Estas bases de datos coexistieron con una diferente cobertura de secuencia de proteínas y prioridades de anotación.

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Swiss Institute of Bioinformatics y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática. Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio, modificaciones postraduccionales, variantes, etc.), un nivel mínimo de redundancia y alto Nivel de integración con otras bases de datos. Reconociendo que los datos de secuencia se estaban generando a un ritmo que excede la capacidad de Swiss-Prot para mantener el ritmo, Trembl (Biblioteca de datos de secuencia de nucleótidos EMBL traducida) se creó para proporcionar anotaciones automatizadas para aquellas proteínas no en Swiss-Prot. Mientras tanto, PIR mantuvo el PIR-PSD y las bases de datos relacionadas, incluida Iproclass, una base de datos de secuencias de proteínas y familias seleccionadas.

Los miembros del consorcio agruparon sus recursos y experiencia superpuestos, y lanzaron Uniprot en diciembre de 2003.

Organización de las bases de datos Uniprot

Uniprot proporciona cuatro bases de datos principales: uniprotkb (con subpartes Swiss-Prot y Trembl), uniparc, uniref y proteoma.

uniprotkb

Uniprot KnowledgeBase (UNIProTKB) es una base de datos de proteínas parcialmente seleccionada por expertos, que consta de dos secciones: UniprotKB/Swiss-Prot (que contiene entradas revisadas y anotadas manualmente) y uniprotkb/trembl (que contiene entradas no revisadas y anotadas automáticamente). A partir del 22 de febrero de 2023, lanzamiento " 2023_01 " de Uniprotkb/Swiss-Prot contiene 569,213 entradas de secuencia (que comprenden 205,728,242 aminoácidos abstraídos de 291,046 referencias) y liberación " 2023_01 " de uniprotkb/trembl contiene 245,871,724 entradas de secuencia (que comprenden 85,739,380,194 aminoácidos).

uniprotkb/swiss-propot

uniprotkb/swiss-propot es una base de datos de secuencia de proteínas no redundante anotada manualmente. Combina información extraída de la literatura científica y el análisis computacional evaluado por biocurator. El objetivo de Uniprotkb/Swiss-Prot es proporcionar toda la información relevante conocida sobre una proteína particular. La anotación se revisa regularmente para mantenerse al día con los hallazgos científicos actuales. La anotación manual de una entrada implica un análisis detallado de la secuencia de proteínas y de la literatura científica.

Las secuencias

del mismo gen y la misma especie se fusionan en la misma entrada de base de datos. Se identifican las diferencias entre secuencias, y su causa se documenta (por ejemplo, empalme alternativo, variación natural, sitios de inicio incorrectos, límites de exón incorrectos, desplazamientos de marco, conflictos no identificados). Se utiliza una gama de herramientas de análisis de secuencia en la anotación de entradas uniprotkb/swiss-protot. Las predicciones informáticas se evalúan manualmente y los resultados relevantes seleccionados para la inclusión en la entrada. Estas predicciones incluyen modificaciones postraduccionales, dominios transmembrana y topología, péptidos de señal, identificación de dominio y clasificación de la familia de proteínas.

Las publicaciones relevantes se identifican buscando bases de datos como PubMed. Se lee el texto completo de cada documento, y la información se extrae y se agrega a la entrada. La anotación que surge de la literatura científica incluye, pero no se limita a:

Nombres de proteínas y genes
Función
Información específica de la enzima como actividad catalítica, cofactores y residuos catalíticos
Ubicación subcelular
Interacciones proteína-proteína
Patrón de expresión
Lugares y funciones de dominios y sitios importantes
Sitios de unión de sustratos y cofactores
Formas de variante de proteínas producidas por variación genética natural, edición de ARN, espeleología alternativa, procesamiento proteolítico y modificación post-translacional

Las entradas comentadas se someten a control de calidad antes de su inclusión en UniProtKB/Swiss-Prot. Cuando hay nuevos datos disponibles, las entradas se actualizan.

UniProtKB/TrEMBL

uniprotkb/trembl contiene registros analizados computacionalmente de alta calidad, que están enriquecidos con anotación automática. Se introdujo en respuesta al aumento del flujo de datos resultante de proyectos del genoma, ya que el proceso de anotación manual de tiempo de tiempo y trabajo de uniprotkb/swiss-protot no podría ampliarse para incluir todas las secuencias de proteínas disponibles. Las traducciones de las secuencias de codificación anotadas en la base de datos de secuencia de nucleótidos EMBL-Bank/GenBank/DDBJ se procesan automáticamente e ingresan automáticamente en uniprotkb/trembl. Uniprotkb/trembl también contiene secuencias de PDB, y de la predicción de genes, incluidos EnsemBL, RefSeq y CCDS. Desde el 22 de julio de 2021, también incluye predichos con Alfafold Terciary y Alfafold-Multimer incluso pueden hacer estructuras cuaternarias.

uniparc

Uniprot Archive (UNIPARC) es una base de datos integral y no redundante, que contiene todas las secuencias de proteínas de las bases de datos principales de secuencia de proteínas disponibles públicamente. Las proteínas pueden existir en varias bases de datos de fuentes diferentes, y en múltiples copias en la misma base de datos. Para evitar la redundancia, uniparc almacena cada secuencia única solo una vez. Se fusionan secuencias idénticas, independientemente de si son de las mismas o diferentes especies. Cada secuencia recibe un identificador estable y único (UPI), lo que permite identificar la misma proteína de diferentes bases de datos de origen. Uniparc contiene solo secuencias de proteínas, sin anotación. Las referencias cruzadas de la base de datos en las entradas de UNIPARC permiten que se recupere más información sobre la proteína de las bases de datos de origen. Cuando cambian las secuencias en las bases de datos de origen, estos cambios son rastreados por UNIPARC y se archiva el historial de todos los cambios.

Bases de datos de origen

Actualmente uniparc contiene secuencias de proteínas de las siguientes bases de datos disponibles públicamente:

Bases de datos de secuencias de nucleótido INSDC EMBL-Bank/DDBJ/GenBank
Ensembl
European Patent Office (EPO)
FlyBase: el repositorio primario de datos genéticos y moleculares para la familia de insectos Drosophilidae (FlyBase)
H-Invitational Database (H-Inv)
International Protein Index (IPI)
Japan Patent Office (JPO)
Protein Information Resource (PIR-PSD)
Protein Data Bank (PDB)
Protein Research Foundation (PRF)
RefSeq
Saccharomyces Genome Database (SGD)
The Arabidopsis Information Resource (TAIR)
TROME
Oficina de Patentes de los Estados Unidos (USPTO)
UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL
Vertebrate y Genome Annotation Database (VEGA)
WormBase

UniRef

Los grupos de referencia Uniprot (UNIREF) consisten en tres bases de datos de conjuntos agrupados de secuencias de proteínas de UniProtKB y registros UNIPARC seleccionados. La base de datos de la UNIREF100 combina secuencias idénticas y fragmentos de secuencia (de cualquier organismo) en una sola entrada de UNIREF. La secuencia de una proteína representativa, los números de acceso de todas las entradas y enlaces fusionados a los registros UniProtKB y UnipARC correspondientes se muestran. Las secuencias de UNIREF100 se agrupan utilizando el algoritmo HIT CD para construir UNIREF90 y UNIREF50. Cada grupo está compuesto por secuencias que tienen al menos 90% o 50% de identidad de secuencia, respectivamente, a la secuencia más larga. Las secuencias de agrupación reducen significativamente el tamaño de la base de datos, lo que permite búsquedas de secuencia más rápidas.

uniref está disponible en el sitio FTP Uniprot.

Financiamiento

UniProt está financiado por subvenciones del Instituto Nacional de Investigación del Genoma Humano, los Institutos Nacionales de Salud (NIH), la Comisión Europea, el Gobierno Federal Suizo a través de la Oficina Federal de Educación y Ciencia, NCI-caBIG y el Departamento de EE. UU. de Defensa.

Más resultados...