Base de datos del genoma de la rata
La Base de datos del genoma de rata (RGD) es una base de datos de genómica, genética, fisiología y datos funcionales de ratas, así como datos de genómica comparativa entre ratas, humanos y ratón. RGD es responsable de adjuntar información biológica al genoma de la rata a través de un vocabulario estructurado u ontología, anotaciones asignadas a genes y loci de rasgos cuantitativos (QTL), y de consolidar los datos de cepas de ratas y ponerlos a disposición de la comunidad investigadora. También están desarrollando un conjunto de herramientas para extraer y analizar datos genómicos, fisiológicos y funcionales de la rata, y datos comparativos de ratas, ratones, humanos y otras cinco especies.
RGD comenzó como un esfuerzo de colaboración entre instituciones de investigación involucradas en la investigación genética y genómica de ratas. Su objetivo, como se indica en la Solicitud de solicitud de subvención de los Institutos Nacionales de Salud: HL-99-013, es el establecimiento de una base de datos del genoma de ratas para recopilar, consolidar e integrar datos generados a partir de esfuerzos de investigación genética y genómica de ratas en curso y hacer que esto datos ampliamente disponibles para la comunidad científica. Un objetivo secundario, pero fundamental, es proporcionar curación de posiciones mapeadas para loci de rasgos cuantitativos, mutaciones conocidas y otros datos fenotípicos.
Los investigadores siguen utilizando ampliamente la rata como organismo modelo para investigar la farmacología, la toxicología, la fisiología general y la biología y fisiopatología de las enfermedades. En los últimos años, ha habido un rápido aumento de los datos genéticos y genómicos de las ratas. Además de esto, la base de datos del genoma de la rata se ha convertido en un punto central de información sobre la rata para la investigación y ahora incluye información no sólo sobre genética y genómica, sino también sobre fisiología y biología molecular. Hay herramientas y páginas de datos disponibles para todos estos campos que son seleccionadas por el personal de RGD.
Datos
Los datos de RGD consisten en anotaciones manuales de investigadores de RGD, así como anotaciones importadas de una variedad de fuentes diferentes. RGD también exporta sus propias anotaciones para compartirlas con otros.
La página de datos de RGD enumera ocho tipos de datos almacenados en la base de datos: genes, QTL, marcadores, mapas, cepas, ontologías, secuencias y referencias. De ellos, seis se utilizan activamente y se actualizan periódicamente. El tipo de datos RGD Maps se refiere a mapas híbridos genéticos y de radiación heredados. Estos datos han sido reemplazados en gran medida por la secuencia completa del genoma de la rata. El tipo de datos Secuencias no es una lista completa de secuencias genómicas, de transcripción o de proteínas, sino que contiene principalmente secuencias de cebadores de PCR que definen el polimorfismo de longitud de secuencia simple (SSLP) y los marcadores de etiqueta de secuencia expresada (EST). Estas secuencias son útiles principalmente para los investigadores que todavía utilizan estos marcadores para genotipar sus animales y para distinguir entre marcadores del mismo nombre. Los seis tipos de datos principales en RGD son los siguientes:
- Genes: Los registros genéticos iniciales son importados y actualizados desde el Centro Nacional de Información Biotecnológica (NCBI) Base de datos de genes semanalmente. Los datos importados durante este proceso incluyen el ID de Gene, nucleótido Genbank/RefSeq y identificadores de secuencias de proteínas, IDs de grupo HomoloGene y Gen Ensembl, IDs de transcripción y Proteína. Los datos adicionales relacionados con las proteínas se importan de la base de datos UniProtKB. Los curadores de RGD revisan la literatura y comisarian manualmente la ontología genética (GO), enfermedades, fenotipos y vías para los genes de rata, enfermedades y vías para los genes de ratón, y enfermedades, fenotipos y caminos para los genes humanos. Además, el sitio importa las anotaciones GO para el ratón y los genes humanos del Consorcio GO, las anotaciones electrónicas de rata de UniProt y las anotaciones fenotipo del ratón de la Base de Datos del Genoma Mouse/Informática del Genoma Mouse (MGD/MGI).
- QTLs: El personal de RGD comisaria manualmente datos para ratas y QTL humanos de la literatura donde existen o de registros directamente presentados por investigadores. Mouse QTL records, including Mammalian Phenotype (MP) ontology assignments, are imported directly from MGI. Para ratas y QTLs humanos, la curación incluye la asignación de anotaciones de ontología de MP, HP y enfermedad. Las posiciones QTL se asignan automáticamente sobre la base de las posiciones genómicas de los marcadores de pico y/o flanqueo o polimorfismos de nucleótido único (SNPs). Los registros QTL se vinculan con información sobre cepas relacionadas, genes candidatos, marcadores asociados y QTLs relacionados.
- Strains: Como los registros de QTL, los registros de cepa RGD se curan manualmente de la literatura o son presentados por investigadores. Los registros de heces incluyen información sobre el símbolo oficial de la cepa, el origen y la disponibilidad de la cepa, fenotipos asociados, si la cepa es un modelo para una enfermedad humana, y cualquier información disponible sobre la cría, comportamiento, cría, etc. Los registros de heces se vinculan con la información sobre genes relacionados, alelos y QTLs, cepas asociadas (por ejemplo, cepas parentales o substratos) y, cuando estén disponibles, variantes de nucleótidos dañinos específicos para la cepa. Para las cepas congénicas y mutantes, se asignan posiciones genómicas para la región introgresada (pastas congénitas) o la ubicación de la secuencia mutada (pasas mutantes).
- Marcadores: Debido a que los marcadores genéticos como SSLPs y ESTs han sido, y siguen siendo, utilizados para QTLs y cepas, RGD almacena datos de marcadores para rata, humano y ratón. Los datos del marcador incluyen las secuencias de las imprimaciones PCR avanzadas e inversas asociadas, posiciones genómicas y enlaces a la base de datos Probe de NCBI. Los registros de marcadores conectan con QTL asociado, la tensión y los registros de genes.
- Líneas celulares: RGD almacena registros de líneas celulares basados en las importaciones de Cellosaurus. Aunque el mayor número de estos son las líneas humanas y de células del ratón, los registros también están disponibles para rata, bonobo, perro, ardilla, cerdo, mono verde y topo-rat desnudo.
- Ontologies: Para que los datos de RGD sean legibles y estén disponibles para análisis y recuperación computacionales, RGD se basa en el uso de múltiples ontologías. A partir de julio de 2021, RGD utilizó 19 ontologías diferentes para expresar los diversos tipos de datos aplicables a los diversos tipos de datos de RGD. Las anotaciones de ontología son asignadas manualmente por los curadores o se importan de fuentes externas mediante el uso de tuberías automatizadas. Se crearon o crearon seis ontologías en uso en RGD y siete están en desarrollo por parte de funcionarios o colaboradores de RGD, siendo ontologías para la vía (PW), Ratones (RS), Traits Vertebrate (VT), Enfermedad (RDO), Mediciones Clínicas (CMO), Métodos de Medición (MMO) y Condiciones Experimentales (XCO). Las ontologías importadas de fuentes externas se actualizan semanalmente.
- Referencias: Las referencias RGD son publicaciones científicas y recursos que se han utilizado para la curación de la información en la base de datos, y son fuentes para objetos de datos como QTLs y cepas. Para referencias accedidas a través del PubMed de NCBI, los datos importados incluyen el título, los autores, citación y identificación PubMed, y se genera un ID RGD. En algunos casos, las referencias se generan como registros internos, como cargas a granel de tuberías automatizadas o comunicaciones personales con fuentes de datos. Estas referencias adicionales dan a los usuarios de RGD una identificación de la fuente de piezas y tipos particulares de datos para los cuales los registros PubMed no están disponibles. Ambos tipos de registros de referencia proporcionan enlaces a todos los datos curados de ese artículo o fuente, incluyendo genes, QTLs, cepas, enfermedades y otras anotaciones de ontología. Los recursos curados para información pueden recuperarse de la base de datos utilizando la página de búsqueda de referencia o enlaces en una página de objeto. También se dispone de referencias no comprobadas, que se sabe que contienen datos pertinentes pero aún no se han revisado manualmente. Estos son encontrados como enlaces PubMed enumerados en la sección “Referencias – no comprobadas” de un informe de objeto (por ejemplo, un informe gen).
Herramientas del genoma
Las herramientas Genome de RGD incluyen herramientas de software desarrolladas en RGD y herramientas de fuentes de terceros.
Herramientas genómicas desarrolladas en RGD
RGD desarrolla herramientas basadas en web diseñadas para utilizar los datos almacenados en la base de datos de RGD para análisis en ratas y entre especies. Éstas incluyen:
- OntoMate: OntoMate es un motor de búsqueda de literatura basado en ontología que ha sido desarrollado por RGD como alternativa para el motor básico de búsqueda PubMed en el flujo de trabajo de curación de genes. Convertir datos de texto gratuito en literatura científica a un formato de búsqueda estructurado es una de las principales tareas de todas las bases de datos de organismos modelo. OntoMate tags abstracts with gene names, gene mutations, organism names, disease, and other terms from the ontologies/vocabularies used at RGD. Todos los términos/ entidades etiquetadas a un resumen se enumeran con el resumen en los resultados de búsqueda. OntoMate también proporciona filtros activados por el usuario para especies, fecha y otros parámetros relevantes para la búsqueda de literatura, que ha simplificado el proceso en comparación con el uso de PubMed. Además de su utilidad para los procesos de curación interna RGD, la herramienta está disponible para todos los usuarios de RGD.
- Gene Anotator: La herramienta Gene Annotator o GA toma como entrada una lista de símbolos gen, IDs RGD, números de adhesión GenBank, identificadores ensembl, o una región cromosómica y recupera ortodologías de genes, identificadores de bases de datos externos y anotaciones ontología para los genes correspondientes en RGD. Los datos se pueden descargar en una hoja de cálculo Excel o analizar en la herramienta. La función Distribución de Anotación muestra una lista de términos en cada una de siete categorías con el porcentaje de genes de la lista de entrada con anotaciones a cada término. La función Comparison Heat Map permite comparaciones de anotaciones para genes en la lista de entrada en dos ontologías o en dos ramas de la misma ontología.
- Variante Visualizador: Variant Visualizer (VV) es una herramienta de visualización y análisis para polimorfismos de secuencia específica de ratas. VV toma como entrada una lista de símbolos de genes o una región genómica definida por cromosoma, posiciones de inicio y parada o por dos símbolos de gen o marcador. El usuario también debe seleccionar sus cepas de interés de una lista de cepas para las cuales existen secuencias enteras de genoma y puede establecer parámetros para las variantes en el conjunto de resultados. La salida es una pantalla tipo mapa de calor de las variantes. La información adicional para las variantes individuales se puede ver en una pantalla de panel detallado.
- Herramienta de enriquecimiento multiontología (MOET): MOET es una herramienta de análisis de ontología basada en la web utilizada para identificar términos de cualquiera o todas las ontologías utilizadas por RGD para la curación de genes (Disease, Pathway, Phenotype, GO, ChEBI) que están excesivamente representados en las anotaciones para esos genes, o para ortologs en otras especies. Produce un gráfico descargable y una lista de términos estadísticamente sobrerepresentados en la lista de genes del usuario usando distribución hipergeométrica. MOET también muestra la correlación correspondiente de Bonferroni y las probabilidades en la página de resultados.
- Gene Ortholog Location Finder (GOLF): GOLF se utiliza para comparar genes o posiciones dentro de regiones de interés a través de especies o asambleas RGD. Los resultados se muestran con los genes/posposiciones correspondientes en ambas especies o en ambas asambleas en una vista tabular lateral. Las entradas y salidas a GOLF se pueden exportar a otras herramientas de RGD para su análisis o descarga utilizando los enlaces en la página de resultados GOLF.
- InterViewer: InterViewer es un visor interactivo de proteína-proteína que muestra la información apropiada sobre tipos de interacciones y enlaces a genes asociados que pertenecen a la entrada del usuario.
- PhenoMiner: PhenoMiner combina datos fenotípicos de diferentes variedades de ratas, por lo que los investigadores pueden usar filtros para encontrar los datos fenotípicos cuantitativos que están buscando.
- OLGA - Generador de Lista de Objetos " Analyzer: OLGA es un motor de búsqueda diseñado para permitir a los usuarios ejecutar múltiples consultas, generar una lista de objetos de cada consulta y combinar flexiblemente los resultados utilizando las especificaciones booleanas. OLGA toma como entrada una lista de símbolos de objetos o parámetros de búsqueda basados en anotaciones ontología o posición. La lista final de genes, QTLs o cepas se puede descargar o enviar a la herramienta GA, el Visualizador Variant, el Visor Genome u otras herramientas RGD.
- Genome Viewer: La herramienta Genome Viewer (GViewer) proporciona a los usuarios vistas genomas completas de genes, QTLs y cepas mapeadas anotadas a una función, proceso biológico, componente celular, fenotipo, enfermedad, camino o interacción química. GViewer permite búsquedas booleanas en múltiples ontologías. La salida se muestra contra un karyotipo del genoma de rata.
- Overgo Probe Designer: Las sondas de superación son pares de oligonucleótidos de 22mer que se derivan de secuencia genómica repetida y se utilizan como sondas de actividad específicas altas para la cartografía del genoma. La herramienta Overgo Probe Designer toma como entrada una secuencia de nucleótido y produce una lista de secuencias de sonda optimizadas que contienen la superposición de 8 nucleótidos requeridos en sus 3' extremos.
- ACP Haplotyper: El ACP Haplotyper crea un haplotipo visual que se puede utilizar para identificar regiones cromosómicas conservadas y no conservadas entre cualquiera de las 48 variedades de ratas caracterizadas como parte del proyecto ACP. Para el cromosoma seleccionado y entre las cepas seleccionadas, la herramienta compara los datos de tamaño alelo para marcadores de microsatélite en el mapa genético seleccionado o RH.
Herramientas genómicas de terceros adaptadas para su uso con datos RGD
RGD ofrece varias herramientas de software de terceros que se han adaptado para su uso en el sitio web utilizando datos almacenados en la base de datos de RGD. Éstas incluyen:
- JBrowse: JBrowse es una herramienta gratuita, interactiva y de análisis de datos específicas. El software fue creado y se mantiene actualmente por el proyecto Generic Model Organism Database, tipos de datos genéticos y fenotípicos, incluyendo conjuntos de datos fundamentales y datos de interacción gene-química, y su relación con la secuencia genómica se puede acceder a través de JBrowse.
- RatMine: RatMine es una versión centrada en ratas del software InterMine. Permite a los usuarios extraer y analizar datos de ratas de diversas bases de datos, incluyendo RGD, NCBI, UniProtKB y Ensembl en una sola ubicación utilizando un formato consistente. La plataforma InterMine se ha adaptado para múltiples especies en otras bases de datos y está diseñada para ser interoperable entre instancias para que los usuarios puedan consultar a través de especies desde la interfaz de RatMine.
Datos y herramientas adicionales
Portal de Fenotipos y Modelos
El portal Fenotipos y modelos de RGD se centra en cepas, fenotipos y la rata como organismo modelo para la fisiología y la enfermedad.
- Modelos genéticos: Es el lugar donde todas las ratas modificadas genómicamente (pastas mutantes y cepas transgénicas) se enumeran en un formato de tabla para el acceso rápido de genes afectados, cepas de fondo y otra información disponible. Esta sección también contiene cepas GERRC donde se crearon ratas modificadas de genoma a través del Gene Editing Rat Resource Center.
- Modelos de autismo: Las ratas de laboratorio son el animal de elección en neurobiología. El Colegio Médico de Wisconsin ha estado trabajando con la Iniciativa de Investigación de Autismo de la Fundación Simons (SFARI) para generar y distribuir modelos de ratas diseñados de autismo.
- FenoMiner (Modelos Cuantitativos): PhenoMiner es una base de datos y aplicación web para encontrar y analizar datos cuantitativos de fenotipo de ratas. Los datos se anotan a ontologías para la cepa de ratas, medición clínica, método de medición y condición experimental. Los experimentos se clasifican por el rasgo o enfermedad evaluada por la medición. El uso de vocabularios estandarizados y formatos de datos permite comparar valores a través de experimentos para la misma medición. La página de resultados de PhenoMiner incluye un gráfico de los valores de medición y una tabla descargable de los valores con sus metadatos acompañantes. Se proporciona un enlace para dar a los usuarios la oportunidad de presentar sus propios datos a la base de datos.
- Gamas esperadas (Modelos cuantitativos): Los rangos esperados es una base de datos estadísticos de metaanálisis donde los valores cuantitativos de fenotipo de PhenoMiner se utilizan para calcular el rango “expectado” de un fenotipo medido para un grupo de cepa en diferentes estudios. Estos rangos esperados pueden ser estratificados por sexo, edad y condiciones experimentales si hay suficientes puntos de datos.
- Fenotipos: La sección Fenotipos contiene un gran cuerpo de datos del proyecto PhysGen Program for Genomic Applications, un proyecto financiado por NHLBI para "desarrollar cepas de ratas consómicas y nocivas, caracterizar fenotípicamente estas cepas y proporcionar estos recursos a la comunidad científica". Las categorías de datos incluyen mediciones de función cardiovascular, renal y respiratoria, química sanguínea, morfología corporal y comportamiento. También se proporcionan enlaces a protocolos para ratas fenotipadas y a datos similares de fenotipado de alto rendimiento en el Proyecto Nacional de BioResource para la Rata en Japón (NBRP-Rat).
- Modelos fenotípicos y recursos genómicos para especies adicionales: Además de rata, ratón y datos humanos, el RGD proporciona acceso integrado a la genómica de especies mamíferas adicionales, y en algunos casos fenotípico, información. Estas otras especies, enumeradas a continuación, son importantes modelos de investigación para enfermedades, fisiología y fenotipos.
| Nombre común | Nombre científico | Modelo para |
|---|---|---|
| Chinchilla | Chinchilla lanigera |
|
| Ardilla terrestre de 13 líneas | Ictidomys tridecemlineatus |
|
| Perro doméstico | Canis lupus familiaris |
|
| Bonobo | Paniscus |
|
| Pig | Sus scrofa |
|
| Mono verde | Chlorocebus sabaeus |
|
| Rata de mula desnuda | Heterocefalia glaber |
|
Portales de enfermedades
Los portales de enfermedades consolidan los datos en RGD para una categoría de enfermedad específica y los presentan en un solo grupo de páginas. Se enumeran los genes, QTL y cepas anotadas para cualquier enfermedad en la categoría, con vistas de todo el genoma de sus ubicaciones en ratas, humanos y ratones (consulte Genome Viewer en Herramientas del genoma desarrolladas en RGD). Secciones adicionales del portal muestran datos de fenotipos, procesos biológicos y vías relacionadas con la categoría de enfermedad. También se proporcionan páginas para brindar a los usuarios acceso a información sobre cepas de ratas utilizadas como modelos para una o más enfermedades en la categoría, herramientas que podrían usarse para analizar los datos y recursos adicionales relacionados con la categoría de enfermedad. Además, el acceso a la herramienta de enriquecimiento de múltiples ontologías (MOET) de RGD está disponible en la parte inferior de los portales de enfermedades individuales.
A mayo de 2021, RGD cuenta con quince portales de enfermedades:
- El envejecimiento de la enfermedad relacionada con la edad
- Cáncer
- Cardiovascular Enfermedad
- COVID-19
- Enfermedades del desarrollo
- Diabetes
- Enfermedad hematológica
- Enfermedad Inflamatoria y Inmunitaria
- Enfermedades infecciosas
- Enfermedad del hígado
- Enfermedad neurológica
- Obesidad y Síndrome Metabólico
- Enfermedad renal
- Enfermedad respiratoria
- Enfermedad del órgano sensorial
Los portales de enfermedades consolidan los datos en RGD para una categoría de enfermedad específica y los presentan en un solo grupo de páginas. Se enumeran los genes, QTL y cepas anotadas para cualquier enfermedad en la categoría, con vistas de todo el genoma de sus ubicaciones en ratas, humanos y ratones (consulte "Genome Viewer" en Herramientas del genoma desarrolladas en RGD). Secciones adicionales del portal muestran datos de fenotipos, procesos biológicos y vías relacionadas con la categoría de enfermedad. También se proporcionan páginas para brindar a los usuarios acceso a información sobre cepas de ratas utilizadas como modelos para una o más enfermedades en la categoría, herramientas que podrían usarse para analizar los datos y recursos adicionales relacionados con la categoría de enfermedad.
Caminos
Los recursos de Pathway de RGD incluyen una Ontología de Pathway de términos de ruta (desarrollada y mantenida en RGD, que abarca no solo rutas metabólicas sino también enfermedades, fármacos, vías reguladoras y de señalización), así como diagramas interactivos de los componentes y interacciones de vías seleccionadas. En las páginas del diagrama se incluyen una descripción, listas de miembros de genes de la vía y elementos adicionales, tablas de enfermedades, anotaciones de vías y fenotipos realizadas a los genes de los miembros de la vía, referencias asociadas y un diagrama de ruta de ontología. Se presentan Pathway Suites y Suite Networks, es decir, agrupaciones de vías relacionadas que contribuyen a un proceso más amplio, como la homeostasis de la glucosa o la regulación de la expresión genética, así como diagramas de vías fisiológicas que muestran redes de órganos, tejidos, células y vías moleculares en su conjunto. nivel animal o de sistemas.
Nocauts
Hasta hace poco, no eran posibles manipulaciones genómicas directas y específicas en ratas. Sin embargo, con el auge de tecnologías como las técnicas de mutagénesis basadas en nucleasa de dedo de zinc y CRISPR, ese ya no es el caso. Los grupos que producen genes de rata inactivados y otros tipos de ratas genéticamente modificadas incluyen el Centro de Genética Humana y Molecular del MCW. Enlaces de RGD a información sobre las cepas de ratas producidas en estos estudios a través de páginas sobre el proyecto PhysGen Knockout y el MCW Gene Editing Rat Resource Center (GERRC), al que se accede desde los encabezados de las páginas de RGD. . La financiación tanto para el proyecto PhysGenKO como para el GERRC provino del Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI). El objetivo declarado de ambos proyectos es producir ratas con alteraciones en uno o más genes específicos relacionados con la misión del NHLBI. Los genes fueron nominados por investigadores de ratas. Las nominaciones fueron adjudicadas por un consejo asesor externo. En el caso del proyecto PhysGenKO, muchas de las ratas producidas por el grupo fueron fenotipadas utilizando un protocolo de fenotipado estandarizado de alto rendimiento y los datos están disponibles en la herramienta PhenoMiner de RGD.
Educación y extensión comunitaria
RGD llega a la comunidad de investigación de ratas de diversas maneras, incluido un foro de correo electrónico, una página de noticias, una página de Facebook, una cuenta de Twitter y asistencia y presentaciones periódicas a reuniones y conferencias científicas. Las actividades educativas adicionales incluyen la producción de videos tutoriales, que describen cómo usar herramientas y datos RGD, y sobre temas más generales como ontologías biomédicas y nomenclatura biológica (es decir, genes, QTL y cepas). Estos videos se pueden ver en varios sitios de alojamiento de videos en línea, incluido YouTube.
Financiamiento
RGD está financiado por la subvención R01HL64541 del Instituto Nacional del Corazón, los Pulmones y la Sangre (NHLBI) en nombre de los Institutos Nacionales de Salud (NIH). La investigadora principal de la subvención es Anne E. Kwitek, PhD, quien fue designada para este puesto de liderazgo por Mary E. Shimoyama, PhD en marzo de 2020. Melinda R Dwinell, PhD es coinvestigadora.
Nuevo ensamblaje del genoma
El nuevo genoma de rata, mRatBN7.2, fue generado por el Proyecto Árbol de la Vida Darwin en el Instituto Wellcome Sanger y ha sido aceptado en el Consorcio de Referencia del Genoma. mRatBN7.2 se derivó de una rata BN/NHsdMcwi macho que es un descendiente directo de la rata BN hembra previamente secuenciada. El nuevo genoma de referencia de la rata BN se creó utilizando una variedad de tecnologías que incluyen lecturas largas de PacBio, lecturas vinculadas 10X, mapas de Bionano y Arima Hi-C. Su contigüidad es similar a los ensamblajes de referencia humanos o de ratón. Está disponible en GenBank del NCBI y en RefSeq, y se convertirá en el ensamblaje principal en RGD en un futuro próximo.