Formato de funciones generales

format_list_bulleted Contenido keyboard_arrow_down
ImprimirCitar

En bioinformática, el formato de características generales (formato de búsqueda de genes, formato de características genéricas, GFF) es un formato de archivo utilizado para describir genes y otras características de secuencias de ADN, ARN y proteínas.

GFF Versions

Existen las siguientes versiones de GFF:

  • General Feature Formato Versión 2, generalmente deprecatado
    • Gene Transfer Format 2.2, un derivado utilizado por Ensembl
  • Formato Gráfico Genérico Versión 3
    • Formato de Variación Genoma, con pragmas adicionales y atributos para funciones secuencia_alteración

GFF2/GTF tenía una serie de deficiencias, en particular que solo puede representar jerarquías de características de dos niveles y, por lo tanto, no puede manejar la jerarquía de tres niveles de gen → transcripción → exón. GFF3 soluciona esta y otras deficiencias. Por ejemplo, admite una cantidad arbitraria de niveles jerárquicos y otorga significados específicos a ciertas etiquetas en el campo de atributos.

El GTF es idéntico al GFF, versión 2.

GFF general structure

Todos los formatos GFF (GFF2, GFF3 y GTF) están delimitados por tabuladores con 9 campos por línea. Todos ellos comparten la misma estructura para los primeros 7 campos, mientras que difieren en el contenido y formato del noveno campo. Algunos nombres de campo se han cambiado en GFF3 para evitar confusiones. Por ejemplo, el campo "seqid" antes se denominaba "secuencia", que puede confundirse con una cadena de nucleótidos o aminoácidos. La estructura general es la siguiente:

Estructura general GFF3
Índice de posición Nombre de posición Descripción
1 seqid El nombre de la secuencia donde se encuentra la característica.
2 fuente El algoritmo o procedimiento que generó la función. Este es típicamente el nombre de un software o una base de datos.
3 Tipo El nombre de tipo característica, como "gene" o "exon". En un archivo GFF bien estructurado, todas las características de los niños siempre siguen a sus padres en un solo bloque (así que todos los exones de una transcripción se ponen después de su línea de características "transcript" padre y antes de cualquier otra línea de transcripción padre). En GFF3, todas las características y sus relaciones deben ser compatibles con las normas publicadas por el Proyecto de Ontología de Secuencia.
4 Empieza Comienzo genómico de la función, con un offset de 1 base. Esto contrasta con otros formatos de secuencia media-abierto de 0-offset, como BED.
5 final Final genómico de la característica, con un offset de 1 base. Esta es la misma coordinación final que está en los formatos de secuencia media-abierto 0-offset, como BED.
6 puntuación Valor numérico que generalmente indica la confianza de la fuente en la característica anotada. Un valor de ". (un punto) se utiliza para definir un valor nulo.
7 hilo Personaje único que indica el hilo de la característica. Esto puede ser "+" (positivo, o 5'- título3'), "-", (negativo, o 3'- título5'), "." (indeterminado), o "?" para características con hilos relevantes pero desconocidos.
8 fase fase de funciones CDS; puede ser uno de 0, 1, 2 (para funciones CDS) o "." (para todo lo demás). Vea la sección siguiente para una explicación detallada.
9 atributos Una lista de pares de valor de etiquetas separados por un ymicolon con información adicional sobre la característica.

El octavo campo: fase de las funciones del CDS

En términos simples, CDS significa "secuencia de codificación". El significado exacto del término está definido por la ontología de secuencias (SO). Según la especificación GFF3:

Para características de tipo "CDS", la fase indica dónde comienza la función con referencia al marco de lectura. La fase es uno de los enteros 0, 1, o 2, indicando el número de bases que deben eliminarse del principio de esta característica para llegar a la primera base del próximo codón.

Meta Directives

En los archivos GFF, se puede incluir información meta adicional que aparece después de la directiva ##. Esta información meta puede detallar la versión de GFF, la región de la secuencia o la especie (la lista completa de tipos de metadatos se puede encontrar en las especificaciones de Sequence Ontology).

GFF software

Servidores

Servidores que generan este formato:

ServidorArchivo de ejemplo
UniProt[1]

Clientes

Clientes que utilizan este formato:

NombreDescripciónEnlaces
GBrowseGMOD genome viewerGBrowse
IGBNavegador de genoma integradoNavegador de genoma integrado
JalviewUn editor de alineación de secuencia múltipleJalview
STRAPCaracterísticas de secuencia subyacente en múltiples alineaciones. Producto de ejemplo: [2][3]
JBrowseJBrowse es un navegador genoma rápido y embedible construido completamente con JavaScript y HTML5JBrowse.org
ZENBUUn sistema de integración de datos colaborativo, omics y visualización interactiva[4]

Validación

El proyecto modENCODE alberga una herramienta de validación GFF3 en línea con generosos límites de 286,10 MB y 15 millones de líneas.

La colección de software Genome Tools contiene una herramienta gff3validator que se puede utilizar sin conexión para validar y posiblemente ordenar archivos GFF3. También está disponible un servicio de validación en línea.

Véase también

  • Sistema de anotación distribuida
  • Formato de llamada variable
  • Ajuste por secuencias

Referencias

  1. ^ "GFF/GTF File Format". Ensembl. Archivado desde el original el 2022-06-15. Retrieved 2023-11-04.
  2. ^ "Especificación GFF3". GitHub2018-11-24. Archivado desde el original el 2023-07-04.
  3. ^ "GFF3". GMOD2016-07-12. Archivado desde el original el 2023-08-25.
Más resultados...
Tamaño del texto:
undoredo
format_boldformat_italicformat_underlinedstrikethrough_ssuperscriptsubscriptlink
save