GenBank
La base de datos de secuencias GenBank es una colección comentada y de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas. Es producido y mantenido por el Centro Nacional de Información Biotecnológica (NCBI; una parte de los Institutos Nacionales de Salud de los Estados Unidos) como parte de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC).
GenBank y sus colaboradores reciben secuencias producidas en laboratorios de todo el mundo de más de 500.000 especies descritas formalmente. La base de datos se inició en 1982 por Walter Goad y el Laboratorio Nacional de Los Alamos. GenBank se ha convertido en una importante base de datos para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial, duplicándose aproximadamente cada 18 meses.
La versión 250.0, publicada en junio de 2022, contenía más de 17 billones de bases de nucleótidos en más de 2,45 mil millones de secuencias. GenBank se construye a partir de envíos directos de laboratorios individuales, así como de envíos masivos de centros de secuenciación a gran escala.
Envíos
Solo se pueden enviar secuencias originales a GenBank. Los envíos directos se realizan a GenBank mediante BankIt, que es un formulario basado en la web, o el programa de envío independiente, Sequin. Al recibir el envío de una secuencia, el personal de GenBank examina la originalidad de los datos, asigna un número de acceso a la secuencia y realiza controles de control de calidad. Luego, los envíos se envían a la base de datos pública, donde Entrez puede recuperar las entradas o descargarlas por FTP. Los envíos masivos de datos de etiquetas de secuencia expresada (EST), sitios etiquetados con secuencia (STS), secuencias de estudio del genoma (GSS) y secuencias del genoma de alto rendimiento (HTGS) suelen ser enviados por centros de secuenciación a gran escala. El grupo de envíos directos de GenBank también procesa secuencias completas del genoma microbiano.
Historia
Walter Goad del Grupo de Biología Teórica y Biofísica del Laboratorio Nacional de Los Álamos (LANL) y otros establecieron la Base de Datos de Secuencias de Los Álamos en 1979, que culminó en 1982 con la creación del GenBank público. La financiación fue proporcionada por los Institutos Nacionales de Salud, la Fundación Nacional de Ciencias, el Departamento de Energía y el Departamento de Defensa. LANL colaboró en GenBank con la firma Bolt, Beranek y Newman, y a finales de 1983 se almacenaban en él más de 2.000 secuencias.
A mediados de la década de 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició grupos de noticias BIOSCI/Bionet para promover comunicaciones de acceso abierto entre biocientíficos. Entre 1989 y 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica (NCBI).


Crecimiento

Las notas de la versión 250.0 (junio de 2022) de GenBank establecen que "desde 1982 hasta el presente, el número de bases en GenBank se ha duplicado aproximadamente cada 18 meses". Al 15 de junio de 2022, la versión 250.0 de GenBank tiene más de 239 millones de loci, 1,39 billones de bases de nucleótidos, de 239 millones de secuencias reportadas.
La base de datos GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, están excluidos de este recuento.
Organismo | pares base |
---|---|
Triticum aestivum | 2.15443744183×10 11 |
SARS-CoV-2 | 1.65771825746×10 11 |
Hordeum vulgare Subsp. vulgare | 1.01344340096×10 11 |
Mus musculus | 3.0614386913×10 10 |
Homo sapiens | 2.7834633853×10 10 |
Avena sativa | 2.11279362×10 10 |
Escherichia coli | 1.5517830491×10 10 |
Klebsiella pneumoniae | 1.1144687122×10 10 |
Danio rerio | 1.0890148966×10 10 |
Bos taurus | 1.0650671156×10 10 |
Triticum turgidum Subsp. durum | 9.981529154×10 9 |
Zea Mays | 7.412263902×10 9 |
Avena insularis | 6.924307246×10 9 |
Cerebro de secale | 6.749247504×10 9 |
Rattus norvegicus | 6.548854408×10 9 |
Aegilops longissima | 5.920483689×10 9 |
Canis lupus familiaris | 5.776499164×10 9 |
Aegilops sharonensis | 5.272476906×10 9 |
Sus scrofa | 5.179074907×10 9 |
Rhinatrema bivittatum | 5.178626132×10 9 |
Identificación incompleta
Las bases de datos públicas en las que se pueden realizar búsquedas utilizando la herramienta de búsqueda de alineación local básica (NCBI BLAST) del Centro Nacional de Información Biotecnológica carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, si bien las bases de datos comerciales contienen potencialmente datos de secuencias filtrados de alta calidad, existe un número limitado de secuencias de referencia.
Un artículo publicado en el Journal of Clinical Microbiology evaluó los resultados de la secuenciación del gen 16S rRNA analizados con GenBank junto con otras bases de datos públicas basadas en web, de calidad controlada y de libre acceso, como EzTaxon. -e y las bases de datos BIBI. Los resultados mostraron que los análisis realizados utilizando GenBank combinado con EzTaxon-e (kappa = 0,79) fueron más discriminativos que utilizando GenBank (kappa = 0,66) u otras bases de datos solas.
GenBank, al ser una base de datos pública, puede contener secuencias asignadas erróneamente a una especie en particular, debido a que la identificación inicial del organismo fue errónea. Un artículo reciente publicado en Genome mostró que el 75% de las secuencias de la subunidad I del citocromo c oxidasa mitocondrial fueron asignadas erróneamente al pez Nemipterus mesoprion como resultado del uso continuo de secuencias de individuos inicialmente mal identificados. Los autores brindan recomendaciones sobre cómo evitar una mayor distribución de secuencias disponibles públicamente con nombres científicos incorrectos.
Numerosos manuscritos publicados han identificado secuencias erróneas en GenBank. No se trata sólo de asignaciones incorrectas de especies (que pueden tener diferentes causas), sino que también incluyen quimeras y registros de accesión con errores de secuenciación. Un manuscrito reciente sobre la calidad de todos los registros de aves del citocromo b mostró además que el 45% de los registros erróneos identificados carecen de un espécimen comprobante que impide una reevaluación de la identificación de la especie.
Contenido relacionado
Ley de Fick
Híbrido (biología)
Evolución divergente