Deep web

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

La internet profunda, web invisible o deep web son partes de la World Wide Web cuyos contenidos no están indexados por los motores de búsqueda web estándar. Esto contrasta con la "web de superficie", a la que puede acceder cualquiera que utilice Internet. Al científico informático Michael K. Bergman se le atribuye haber acuñado el término en 2001 como un término de indexación de búsqueda.

El contenido de la web profunda está oculto detrás de formularios de inicio de sesión e incluye usos como correo web, banca en línea, páginas y perfiles de redes sociales de acceso restringido, algunos foros web y lenguaje de código que requieren registro para ver contenido y servicios de pago como video on demand y algunas revistas y periódicos en línea.

El contenido de la web profunda se puede ubicar y acceder a través de una URL directa o una dirección IP, pero puede requerir una contraseña u otro acceso de seguridad para pasar las páginas públicas.

Terminología

La primera fusión de los términos "web profunda" con "web oscura" se produjo en 2009, cuando se discutió la terminología de búsqueda en la web profunda junto con las actividades ilegales que tenían lugar en Freenet y darknet. Esas actividades delictivas incluyen el comercio de contraseñas personales, documentos de identidad falsos, drogas, armas de fuego y pornografía infantil.

Desde entonces, después de su uso en los informes de los medios sobre la Ruta de la Seda, los medios de comunicación han comenzado a usar 'web profunda' como sinónimo de dark web o darknet, una comparación que algunos rechazan como inexacta y, en consecuencia, se ha convertido en una fuente continua de confusión. Los reporteros de Wired Kim Zetter y Andy Greenberg recomiendan que los términos se usen de formas distintas. Si bien la web profunda es una referencia a cualquier sitio al que no se puede acceder a través de un motor de búsqueda tradicional, la web oscura es una parte de la web profunda que se ha ocultado intencionalmente y es inaccesible a través de navegadores y métodos estándar.

Contenido no indexado

Bergman, en un artículo sobre la deep web publicado en The Journal of Electronic Publishing, mencionó que Jill Ellsworth utilizó el término Invisible Web en 1994 para referirse a sitios web que no estaban registrados en ningún motor de búsqueda. Bergman citó un artículo de enero de 1996 de Frank García:

Sería un sitio que posiblemente esté razonablemente diseñado, pero no se molestaron en registrarlo en ninguno de los motores de búsqueda. ¡Entonces, nadie puede encontrarlos! Estás escondido. A eso lo llamo la Web invisible.

Otro uso temprano del término Web Invisible fue por Bruce Mount y Matthew B. Koll de Personal Library Software, en una descripción de la herramienta Deep Web No. 1 que se encuentra en un comunicado de prensa de diciembre de 1996.

El primer uso del término específico deep web, ahora generalmente aceptado, se produjo en el mencionado estudio de Bergman de 2001.

Métodos de indexación

Los métodos que evitan que los motores de búsqueda tradicionales indexen las páginas web pueden clasificarse como uno o más de los siguientes:

Web contextual: páginas con contenido que varía para diferentes contextos de acceso (por ejemplo, rangos de direcciones IP de clientes o secuencia de navegación anterior).
Contenido dinámico: páginas dinámicas, que se devuelven en respuesta a una consulta enviada o a las que se accede solo a través de un formulario, especialmente si se utilizan elementos de entrada de dominio abierto (como campos de texto); tales campos son difíciles de navegar sin conocimiento del dominio.
Contenido de acceso limitado: sitios que limitan el acceso a sus páginas de forma técnica (p. ej., utilizando el Estándar de exclusión de robots o CAPTCHA, o la directiva de no almacenar, que prohíbe que los motores de búsqueda los exploren y creen copias en caché). Los sitios pueden presentar un motor de búsqueda interno para explorar dichas páginas.
Contenido de texto/no HTML: contenido de texto codificado en archivos multimedia (imagen o video) o formatos de archivo específicos que no manejan los motores de búsqueda.
Web privada: sitios que requieren registro e inicio de sesión (recursos protegidos con contraseña).
Contenido con secuencias de comandos: páginas a las que solo se puede acceder a través de enlaces producidos por JavaScript, así como contenido descargado dinámicamente de servidores web a través de soluciones Flash o Ajax.
Software: cierto contenido se oculta intencionalmente de Internet normal, y solo se puede acceder a él con un software especial, como Tor, I2P u otro software de darknet. Por ejemplo, Tor permite a los usuarios acceder a sitios web utilizando la dirección del servidor.onion de forma anónima, ocultando su dirección IP.
Contenido no vinculado: páginas que no están vinculadas a otras páginas, lo que puede impedir que los programas de rastreo web accedan al contenido. Este contenido se denomina páginas sin vínculos de retroceso (también conocidas como vínculos internos). Además, los motores de búsqueda no siempre detectan todos los vínculos de retroceso de las páginas web buscadas.
Archivos web: los servicios de archivo web, como Wayback Machine, permiten a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo, incluidos sitios web que se han vuelto inaccesibles y no están indexados por motores de búsqueda como Google. Wayback Machine puede llamarse un programa para ver la web profunda, ya que los archivos web que no son del presente no se pueden indexar, ya que las versiones anteriores de los sitios web son imposibles de ver a través de una búsqueda. Todos los sitios web se actualizan en algún momento, por lo que los archivos web se consideran contenido de la Deep Web.

Tipos de contenido

Si bien no siempre es posible descubrir directamente el contenido de un servidor web específico para que pueda ser indexado, se puede acceder potencialmente a un sitio indirectamente (debido a las vulnerabilidades de la computadora).

Para descubrir contenido en la web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puerto virtual de protocolo conocido. Esta técnica es ideal para descubrir contenido en la web superficial, pero a menudo es ineficaz para encontrar contenido en la web profunda. Por ejemplo, estos rastreadores no intentan encontrar páginas dinámicas que sean el resultado de consultas en la base de datos debido al número indeterminado de consultas posibles. Se ha observado que esto se puede solucionar (parcialmente) proporcionando enlaces a los resultados de la consulta, pero esto podría inflar involuntariamente la popularidad de un miembro de la web profunda.

DeepPeep, Intute, Deep Web Technologies, Scirus y Ahmia.fi son algunos motores de búsqueda que han accedido a la deep web. Intute se quedó sin fondos y ahora es un archivo estático temporal a partir de julio de 2011. Scirus se retiró a fines de enero de 2013.

Los investigadores han estado explorando cómo se puede rastrear la web profunda de manera automática, incluido el contenido al que solo se puede acceder mediante un software especial como Tor. En 2001, Sriram Raghavan y Héctor García-Molina (Departamento de Ciencias de la Computación de Stanford, Universidad de Stanford) presentaron un modelo arquitectónico para un rastreador web oculto que usaba términos clave proporcionados por los usuarios o recopilados de las interfaces de consulta para consultar un formulario web y rastrear el Contenido de la Web profunda. Alexandros Ntoulas, Petros Zerfos y Junghoo Cho de UCLA crearon un rastreador web oculto que generaba automáticamente consultas significativas para emitir en formularios de búsqueda. Varios lenguajes de consulta de formularios (p. ej., DEQUEL) han propuesto que, además de emitir una consulta, también permitan la extracción de datos estructurados de las páginas de resultados. Otro esfuerzo es DeepPeep, un proyecto de la Universidad de Utah patrocinado por la Fundación Nacional de Ciencias, que reunió fuentes web ocultas (formularios web) en diferentes dominios basados en nuevas técnicas de rastreador enfocadas.

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El Protocolo Sitemap (desarrollado e introducido por primera vez por Google en 2005) y OAI-PMH son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la web profunda en servidores web particulares. Ambos mecanismos permiten que los servidores web anuncien las URL a las que se puede acceder en ellos, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la superficie web. El sistema de creación de superficies de la web profunda de Google calcula los envíos para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados mostrados representan mil consultas por segundo al contenido de la web profunda. En este sistema, el cálculo previo de las presentaciones se realiza mediante tres algoritmos:

seleccionar valores de entrada para entradas de búsqueda de texto que acepten palabras clave,
identificar entradas que aceptan solo valores de un tipo específico (por ejemplo, fecha) y
seleccionando una pequeña cantidad de combinaciones de entrada que generan direcciones URL adecuadas para su inclusión en el índice de búsqueda web.

En 2008, para facilitar a los usuarios de los servicios ocultos de Tor su acceso y búsqueda de un sufijo.onion oculto, Aaron Swartz diseñó Tor2web, una aplicación proxy capaz de brindar acceso a través de navegadores web comunes. Con esta aplicación, los enlaces web profundos aparecen como una cadena aleatoria de letras seguidas del dominio de nivel superior.onion.

Contenido relacionado

Más resultados...