Formato de funciones generales
En bioinformática, el formato de características generales (formato de búsqueda de genes, formato de características genéricas, GFF) es un formato de archivo utilizado para describir genes y otras características de secuencias de ADN, ARN y proteínas.
GFF Versions
Existen las siguientes versiones de GFF:
- General Feature Formato Versión 2, generalmente deprecatado
- Gene Transfer Format 2.2, un derivado utilizado por Ensembl
- Formato Gráfico Genérico Versión 3
- Formato de Variación Genoma, con pragmas adicionales y atributos para funciones secuencia_alteración
GFF2/GTF tenía una serie de deficiencias, en particular que solo puede representar jerarquías de características de dos niveles y, por lo tanto, no puede manejar la jerarquía de tres niveles de gen → transcripción → exón. GFF3 soluciona esta y otras deficiencias. Por ejemplo, admite una cantidad arbitraria de niveles jerárquicos y otorga significados específicos a ciertas etiquetas en el campo de atributos.
El GTF es idéntico al GFF, versión 2.
GFF general structure
Todos los formatos GFF (GFF2, GFF3 y GTF) están delimitados por tabuladores con 9 campos por línea. Todos ellos comparten la misma estructura para los primeros 7 campos, mientras que difieren en el contenido y formato del noveno campo. Algunos nombres de campo se han cambiado en GFF3 para evitar confusiones. Por ejemplo, el campo "seqid" antes se denominaba "secuencia", que puede confundirse con una cadena de nucleótidos o aminoácidos. La estructura general es la siguiente:
Índice de posición | Nombre de posición | Descripción |
---|---|---|
1 | seqid | El nombre de la secuencia donde se encuentra la característica. |
2 | fuente | El algoritmo o procedimiento que generó la función. Este es típicamente el nombre de un software o una base de datos. |
3 | Tipo | El nombre de tipo característica, como "gene" o "exon". En un archivo GFF bien estructurado, todas las características de los niños siempre siguen a sus padres en un solo bloque (así que todos los exones de una transcripción se ponen después de su línea de características "transcript" padre y antes de cualquier otra línea de transcripción padre). En GFF3, todas las características y sus relaciones deben ser compatibles con las normas publicadas por el Proyecto de Ontología de Secuencia. |
4 | Empieza | Comienzo genómico de la función, con un offset de 1 base. Esto contrasta con otros formatos de secuencia media-abierto de 0-offset, como BED. |
5 | final | Final genómico de la característica, con un offset de 1 base. Esta es la misma coordinación final que está en los formatos de secuencia media-abierto 0-offset, como BED. |
6 | puntuación | Valor numérico que generalmente indica la confianza de la fuente en la característica anotada. Un valor de ". (un punto) se utiliza para definir un valor nulo. |
7 | hilo | Personaje único que indica el hilo de la característica. Esto puede ser "+" (positivo, o 5'- título3'), "-", (negativo, o 3'- título5'), "." (indeterminado), o "?" para características con hilos relevantes pero desconocidos. |
8 | fase | fase de funciones CDS; puede ser uno de 0, 1, 2 (para funciones CDS) o "." (para todo lo demás). Vea la sección siguiente para una explicación detallada. |
9 | atributos | Una lista de pares de valor de etiquetas separados por un ymicolon con información adicional sobre la característica. |
El octavo campo: fase de las funciones del CDS
En términos simples, CDS significa "secuencia de codificación". El significado exacto del término está definido por la ontología de secuencias (SO). Según la especificación GFF3:
Para características de tipo "CDS", la fase indica dónde comienza la función con referencia al marco de lectura. La fase es uno de los enteros 0, 1, o 2, indicando el número de bases que deben eliminarse del principio de esta característica para llegar a la primera base del próximo codón.
Meta Directives
En los archivos GFF, se puede incluir información meta adicional que aparece después de la directiva ##. Esta información meta puede detallar la versión de GFF, la región de la secuencia o la especie (la lista completa de tipos de metadatos se puede encontrar en las especificaciones de Sequence Ontology).
GFF software
Servidores
Servidores que generan este formato:
Servidor | Archivo de ejemplo |
---|---|
UniProt | [1] |
Clientes
Clientes que utilizan este formato:
Nombre | Descripción | Enlaces |
---|---|---|
GBrowse | GMOD genome viewer | GBrowse |
IGB | Navegador de genoma integrado | Navegador de genoma integrado |
Jalview | Un editor de alineación de secuencia múltiple | Jalview |
STRAP | Características de secuencia subyacente en múltiples alineaciones. Producto de ejemplo: [2] | [3] |
JBrowse | JBrowse es un navegador genoma rápido y embedible construido completamente con JavaScript y HTML5 | JBrowse.org |
ZENBU | Un sistema de integración de datos colaborativo, omics y visualización interactiva | [4] |
Validación
El proyecto modENCODE alberga una herramienta de validación GFF3 en línea con generosos límites de 286,10 MB y 15 millones de líneas.
La colección de software Genome Tools contiene una herramienta gff3validator que se puede utilizar sin conexión para validar y posiblemente ordenar archivos GFF3. También está disponible un servicio de validación en línea.
Véase también
- Sistema de anotación distribuida
- Formato de llamada variable
- Ajuste por secuencias
Referencias
- ^ "GFF/GTF File Format". Ensembl. Archivado desde el original el 2022-06-15. Retrieved 2023-11-04.
- ^ "Especificación GFF3". GitHub2018-11-24. Archivado desde el original el 2023-07-04.
- ^ "GFF3". GMOD2016-07-12. Archivado desde el original el 2023-08-25.