CiteSeerX

Compartir Imprimir Citar
Search Engine and digital library for scientific and academic papers

CiteSeerX (anteriormente llamado CiteSeer) es un motor de búsqueda público y una biblioteca digital de artículos científicos y académicos, principalmente en los campos de informática y ciencias de la información.

El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como un servicio sin fines de lucro que puede ser utilizado libremente por cualquier persona, ha sido considerado como parte del movimiento de acceso abierto que intenta cambiar la publicación académica y científica para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó metadatos de la Iniciativa de Archivos Abiertos de forma gratuita de todos los documentos indexados y enlaces de documentos indexados cuando fue posible a otras fuentes de metadatos como DBLP y el Portal ACM. Para promover los datos abiertos, CiteSeerX comparte sus datos con fines no comerciales bajo una licencia Creative Commons.

CiteSeer se considera un predecesor de las herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search. Los motores y archivos similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean sitios web de editores. Por esta razón, los autores cuyos documentos están disponibles gratuitamente tienen más probabilidades de estar representados en el índice.

CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo volvió a cambiar.

Historia

CiteSeer y CiteSeer.IST

CiteSeer fue creado por los investigadores Lee Giles, Kurt Bollacker y Steve Lawrence en 1997 mientras trabajaban en el NEC Research Institute (ahora NEC Labs), Princeton, Nueva Jersey, EE. UU. El objetivo de CiteSeer era rastrear y recolectar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir la consulta por cita o por documento, clasificándolos por impacto de cita. En un momento, se llamó ResearchIndex.

CiteSeer se hizo público en 1998 y tenía muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Estos incluyeron:

CiteSeer recibió una patente de Estados Unidos n.° 6289342, titulada "Indización de citas autónoma y navegación bibliográfica mediante el contexto de citas", el 11 de septiembre de 2001. La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. El 16 de mayo de 2001 se presentó una patente de continuación (patente de EE. UU. n.° 6738780) y se concedió el 18 de mayo de 2004.

Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web en la Facultad de Ciencias y Tecnología de la Información de la Universidad Estatal de Pensilvania y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se apoyaron versiones similares de CiteSeer en universidades como el Instituto de Tecnología de Massachusetts, la Universidad de Zúrich y la Universidad Nacional de Singapur. Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa documentos disponibles gratuitamente en la web y no tiene acceso a los metadatos del editor, devuelve menos recuentos de citas que los sitios, como Google Scholar, que tienen metadatos del editor.

CiteSeer no se ha actualizado de forma exhaustiva desde 2005 debido a limitaciones en el diseño de su arquitectura. Tenía una muestra representativa de documentos de investigación en informática y ciencias de la información, pero tenía una cobertura limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o aquellos enviados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeerX.

CiteSeerX

CiteSeerX reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeerX es un motor de búsqueda público y una biblioteca digital y un repositorio de artículos científicos y académicos principalmente con un enfoque en informática y ciencias de la información. Sin embargo, recientemente CiteSeerX se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital CiteSeer anteriores y está construido con una nueva infraestructura de código abierto, SeerSuite, y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Dr. Isaac Councill y Dr. C. Lee Giles en la Facultad de Ciencias y Tecnología de la Información de la Universidad Estatal de Pensilvania. Continúa respaldando los objetivos descritos por CiteSeer para rastrear y recopilar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y clasificación de documentos por el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng están o han estado activamente involucrados en su desarrollo. Recientemente, se introdujo una función de búsqueda de tablas. Ha sido financiado por la Fundación Nacional de Ciencias, la NASA y Microsoft Research.

CiteSeerX continúa siendo calificado como uno de los repositorios más importantes del mundo y fue calificado como el número 1 en julio de 2010. Actualmente tiene más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas.

CiteSeerX también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente por Amazon S3 y por rsync. Su nueva arquitectura y software de código abierto modular (disponible anteriormente en SourceForge pero ahora en GitHub) se basa en Apache Solr y otras herramientas de Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en la recopilación, clasificación, indexación e información de documentos. extracción.

CiteSeerX almacena en caché algunos archivos PDF que ha escaneado. Como tal, cada página incluye un enlace DMCA que se puede usar para informar violaciones de derechos de autor.

Características actuales

Extracción de información automatizada

CiteSeerX utiliza herramientas de extracción de información automatizadas, generalmente basadas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos como título, autores, resumen, citas, etc. errores en autores y títulos. Otros motores de búsqueda académicos tienen errores similares.

Rastreo enfocado

CiteSeerX rastrea documentos académicos disponibles públicamente principalmente de páginas web de autores y otros recursos abiertos, y no tiene acceso a los metadatos del editor. Como tal, los recuentos de citas en CiteSeerX suelen ser menores que los de Google Scholar y Microsoft Academic Search que tienen acceso a los metadatos de los editores.

Uso

CiteSeerX tiene casi 1 millón de usuarios en todo el mundo según direcciones IP únicas y tiene millones de visitas diarias. Las descargas anuales de documentos PDF fueron de casi 200 millones en 2015.

Datos

Los datos de

CiteSeerX se comparten regularmente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y concursos.

Gracias a su terminal OAI-PMH, CiteSeerX es un archivo abierto y su contenido se indexa como un repositorio institucional en motores de búsqueda académicos, por ejemplo, BASE y Unpaywall.

Otros motores de búsqueda basados en SeerSuite

El modelo CiteSeer se amplió para cubrir documentos académicos en negocios con SmealSearch y en negocios electrónicos con eBizSearch. Sin embargo, estos no fueron mantenidos por sus patrocinadores. Se pudo encontrar una versión anterior de ambos en BizSeer.IST, pero ya no está en servicio.

Se han creado otros sistemas de depósito y búsqueda similares a Seer para química, ChemXSeer y para arqueología, ArchSeer. Se había creado otro para la búsqueda de archivos robots.txt, BotSeer. Todos estos se basan en la herramienta de código abierto SeerSuite, que utiliza el indexador de código abierto Lucene.