Spamdexing

format_list_bulleted Contenido keyboard_arrow_down

ImprimirCitar

Manipulación deliberada de los índices del motor de búsqueda

Spamdexing (también conocido como spam de motor de búsqueda, envenenamiento de motor de búsqueda, optimización de motor de búsqueda black-hat, spam de búsqueda o spam web) es la manipulación deliberada de los índices de los motores de búsqueda. Se trata de una serie de métodos, como la creación de enlaces y la repetición de frases no relacionadas, para manipular la relevancia o la prominencia de los recursos indexados, de una manera incompatible con el propósito del sistema de indexación.

La indexación de spam podría considerarse parte de la optimización de motores de búsqueda, aunque existen muchos métodos de optimización de motores de búsqueda que mejoran la calidad y la apariencia del contenido de los sitios web y brindan contenido útil para muchos usuarios.

Resumen

Los motores de búsqueda utilizan una variedad de algoritmos para determinar la clasificación de relevancia. Algunos de estos incluyen determinar si el término de búsqueda aparece en el cuerpo del texto o en la URL de una página web. Muchos motores de búsqueda buscan instancias de spamdexing y eliminarán las páginas sospechosas de sus índices. Además, los operadores de motores de búsqueda pueden bloquear rápidamente la lista de resultados de sitios web completos que usan spamdexing, tal vez en respuesta a las quejas de los usuarios sobre coincidencias falsas. El aumento de spamdexing a mediados de la década de 1990 hizo que los principales motores de búsqueda de la época fueran menos útiles. El uso de métodos poco éticos para hacer que los sitios web se ubiquen más alto en los resultados de los motores de búsqueda de lo que lo harían de otra manera se conoce comúnmente en la industria de SEO (optimización de motores de búsqueda) como "SEO de sombrero negro". Estos métodos están más enfocados en romper las reglas y pautas de promoción de motores de búsqueda. Además de esto, los perpetradores corren el riesgo de que sus sitios web sean severamente penalizados por los algoritmos de clasificación de resultados de búsqueda de Google Panda y Google Penguin.

Las técnicas comunes de spamdexing se pueden clasificar en dos grandes clases: spam de contenido (o spam de término) y spam de enlace.

Historia

La primera referencia conocida al término spamdexing es de Eric Convey en su artículo "Porn sneaks way back on Web", The Boston Herald, 22 de mayo de 1996, donde dicho:

El problema surge cuando los operadores del sitio cargan sus páginas web con cientos de términos extraneous por lo que los motores de búsqueda los enumerarán entre direcciones legítimas. El proceso se llama "spamdexing", una combinación de spamming —el término de Internet para enviar a los usuarios información no solicitada— y "indexing".

Contenido no deseado

Estas técnicas implican alterar la vista lógica que tiene un motor de búsqueda sobre el contenido de la página. Todos apuntan a variantes del modelo de espacio vectorial para la recuperación de información sobre colecciones de texto.

Relleno de palabras clave

El relleno de palabras clave implica la ubicación calculada de palabras clave dentro de una página para aumentar el recuento, la variedad y la densidad de palabras clave de la página. Esto es útil para hacer que una página parezca relevante para un rastreador web de manera que sea más probable que la encuentre. Ejemplo: un promotor de un esquema Ponzi quiere atraer a los internautas a un sitio donde anuncia su estafa. Coloca texto oculto apropiado para una página de fans de un grupo de música popular en su página, con la esperanza de que la página aparezca como un sitio de fans y reciba muchas visitas de amantes de la música. Las versiones anteriores de los programas de indexación simplemente contaban con qué frecuencia aparecía una palabra clave y la usaban para determinar los niveles de relevancia. La mayoría de los motores de búsqueda modernos tienen la capacidad de analizar una página en busca de palabras clave y determinar si la frecuencia es consistente con otros sitios creados específicamente para atraer tráfico de motores de búsqueda. Además, las páginas web grandes se truncan, por lo que las listas de diccionarios masivos no se pueden indexar en una sola página web. (Sin embargo, los spammers pueden eludir esta limitación del tamaño de la página web simplemente configurando varias páginas web, ya sea de forma independiente o vinculadas entre sí).

Texto oculto o invisible

El texto oculto no relacionado se disfraza haciéndolo del mismo color que el fondo, usando un tamaño de fuente pequeño u ocultándolo dentro del código HTML como "sin marco" secciones, atributos alternativos, DIV de tamaño cero y "sin guión" secciones. Las personas que seleccionan manualmente sitios web con banderas rojas para una empresa de motores de búsqueda pueden bloquear temporal o permanentemente un sitio web completo por tener texto invisible en algunas de sus páginas. Sin embargo, el texto oculto no siempre es spamdexing: también se puede utilizar para mejorar la accesibilidad.

Relleno de metaetiquetas

Esto implica repetir palabras clave en las etiquetas meta y usar palabras clave meta que no están relacionadas con el contenido del sitio. Esta táctica ha sido ineficaz desde 2005.

Páginas de entrada

"Puerta de enlace" o las páginas de entrada son páginas web de baja calidad creadas con muy poco contenido, que en su lugar están repletas de palabras clave y frases muy similares. Están diseñados para ocupar un lugar destacado en los resultados de búsqueda, pero no tienen ningún propósito para los visitantes que buscan información. Una página de entrada generalmente tendrá "haga clic aquí para ingresar" en la pagina; el reenvío automático también se puede utilizar para este propósito. En 2006, Google expulsó al fabricante de vehículos BMW por usar "páginas de entrada" al sitio alemán de la compañía, BMW.de.

Sitios de extracción

Los sitios scraper se crean usando varios programas diseñados para "raspar" páginas de resultados de motores de búsqueda u otras fuentes de contenido y crear "contenido" para un sitio web. La presentación específica del contenido de estos sitios es única, pero es simplemente una combinación de contenido tomado de otras fuentes, a menudo sin permiso. Dichos sitios web generalmente están llenos de publicidad (como anuncios de pago por clic) o redirigen al usuario a otros sitios. Incluso es factible que los sitios scraper superen a los sitios web originales por su propia información y nombres de organizaciones.

Hilado de artículos

La rotación de artículos implica reescribir artículos existentes, en lugar de simplemente extraer contenido de otros sitios, para evitar sanciones impuestas por los motores de búsqueda por contenido duplicado. Este proceso es realizado por escritores contratados o automatizado utilizando una base de datos de tesauro o una red neuronal.

Traducción automática

De manera similar a la rotación de artículos, algunos sitios utilizan la traducción automática para presentar su contenido en varios idiomas, sin edición humana, lo que da como resultado textos ininteligibles que, no obstante, continúan siendo indexados por los motores de búsqueda, lo que atrae tráfico.

Enlace no deseado

El spam de enlaces se define como enlaces entre páginas que están presentes por razones aparte del mérito. El spam de enlaces se aprovecha de los algoritmos de clasificación basados en enlaces, lo que otorga a los sitios web una clasificación más alta cuanto más se vinculan otros sitios web mejor clasificados. Estas técnicas también pretenden influir en otras técnicas de clasificación basadas en enlaces, como el algoritmo HITS.

Vincular granjas

Las granjas de enlaces son redes muy unidas de sitios web que se vinculan entre sí con el único propósito de explotar los algoritmos de clasificación de los motores de búsqueda. Estas también se conocen en broma como sociedades de admiración mutua. El uso de granjas de enlaces se ha reducido considerablemente con el lanzamiento de la primera Actualización Panda de Google en febrero de 2011, que introdujo mejoras significativas en su algoritmo de detección de spam.

Redes de blogs privados

Las redes de blogs (PBN) son un grupo de sitios web autorizados que se utilizan como fuente de enlaces contextuales que apuntan al sitio web principal del propietario para lograr una clasificación más alta en los motores de búsqueda. Los propietarios de sitios web de PBN utilizan dominios vencidos o dominios de subasta que tienen vínculos de retroceso de sitios web de alta autoridad. Google apuntó y penalizó a los usuarios de PBN en varias ocasiones con varias campañas masivas de desindexación desde 2014.

Enlaces ocultos

La colocación de hipervínculos donde los visitantes no los verán se usa para aumentar la popularidad de los enlaces. El texto del enlace resaltado puede ayudar a clasificar una página web más alto por coincidir con esa frase.

Ataque de sibila

Un ataque de Sybil es la forja de múltiples identidades con intenciones maliciosas, llamado así por la famosa paciente con trastorno de identidad disociativo y el libro sobre ella que comparte su nombre, 'Sybil'. Un spammer puede crear múltiples sitios web en diferentes nombres de dominio que se vinculan entre sí, como blogs falsos (conocidos como blogs de spam).

Blogs de spam

Los blogs de spam son blogs creados únicamente para la promoción comercial y el paso de autoridad de enlace a sitios de destino. A menudo, estos "splogs" están diseñados de una manera engañosa que dará el efecto de un sitio web legítimo, pero después de una inspección minuciosa, a menudo se escribirán con un software giratorio o estarán muy mal escritos con un contenido apenas legible. Son de naturaleza similar a las fincas de enlace.

Blog de invitados no deseado

El spam de blogs de invitados es el proceso de colocar blogs de invitados en sitios web con el único propósito de obtener un enlace a otro sitio web o sitios web. Desafortunadamente, estos a menudo se confunden con formas legítimas de blogs de invitados con otros motivos además de colocar enlaces. Esta técnica se hizo famosa por Matt Cutts, quien declaró públicamente la "guerra" contra esta forma de spam de enlaces.

Comprar dominios vencidos

Algunos spammers de enlaces utilizan software rastreador de dominio caducado o controlan los registros DNS de los dominios que caducan pronto, luego los compran cuando caducan y reemplazan las páginas con enlaces a sus páginas. Sin embargo, es posible, pero no confirmado, que Google restablezca los datos del enlace en dominios vencidos. Para mantener todos los datos de clasificación de Google anteriores para el dominio, se recomienda que un comprador adquiera el dominio antes de que se "caiga".

Algunas de estas técnicas se pueden aplicar para crear una bomba de Google, es decir, para cooperar con otros usuarios para mejorar la clasificación de una página en particular para una consulta en particular.

Uso de páginas editables por todo el mundo

Los spamdexers pueden utilizar los sitios web que pueden editar los usuarios para insertar enlaces a sitios de spam si no se toman las medidas antispam adecuadas.

Los robots de spam automatizados pueden inutilizar rápidamente la parte editable por el usuario de un sitio. Los programadores han desarrollado una variedad de técnicas automatizadas de prevención de spam para bloquear o al menos ralentizar los robots de spam.

Spam en blogs

El spam en los blogs es la colocación o solicitud de enlaces al azar en otros sitios, colocando una palabra clave deseada en el texto hipervinculado del enlace entrante. Libros de visitas, foros, blogs y cualquier sitio que acepte visitantes. los comentarios son objetivos particulares y, a menudo, son víctimas de correo no deseado en el que el software automatizado crea publicaciones sin sentido con enlaces que generalmente son irrelevantes y no deseados.

Comentarios no deseados

El spam de comentarios es una forma de spam de enlaces que ha surgido en páginas web que permiten la edición dinámica del usuario, como wikis, blogs y libros de visitas. Puede ser problemático porque se pueden escribir agentes que automáticamente seleccionan aleatoriamente una página web editada por el usuario, como un artículo de Wikipedia, y agregan enlaces de spam.

Spam de wikis

El spam wiki es cuando un creador de spam utiliza la capacidad de edición abierta de los sistemas wiki para colocar enlaces desde el sitio wiki al sitio spam.

Spamming de registro de referencia

El spam de referencia se produce cuando un perpetrador o facilitador de spam accede a una página web (el referido), siguiendo un enlace desde otra página web (el remitente), por lo que que el buscador de Internet de la persona le da al árbitro la dirección del remitente. Algunos sitios web tienen un registro de referencia que muestra qué páginas enlazan con ese sitio. Al hacer que un robot acceda aleatoriamente a muchos sitios suficientes veces, con un mensaje o una dirección específica dada como referencia, ese mensaje o dirección de Internet aparece en el registro de referencia de aquellos sitios que tienen registros de referencia. Dado que algunos motores de búsqueda web basan la importancia de los sitios en la cantidad de sitios diferentes que se vinculan a ellos, el spam de registro de referencia puede aumentar la clasificación de los sitios del creador de spam en los motores de búsqueda. Además, los administradores del sitio que noten las entradas de registro de referencia en sus registros pueden seguir el enlace de regreso a la página de referencia del spammer.

Contramedidas

Debido a la gran cantidad de spam que se publica en páginas web editables por los usuarios, Google propuso un "nofollow" etiqueta que podría estar incrustada con enlaces. Un motor de búsqueda basado en enlaces, como el sistema PageRank de Google, no utilizará el enlace para aumentar la puntuación del sitio web vinculado si el enlace lleva una etiqueta de no seguimiento. Esto garantiza que el envío de enlaces no deseados a sitios web editables por el usuario no aumentará la clasificación de los sitios en los motores de búsqueda. Nofollow es utilizado por varios sitios web importantes, incluidos Wordpress, Blogger y Wikipedia.

Otros tipos

Sitios web espejo

Un sitio espejo es el alojamiento de varios sitios web con contenido conceptualmente similar pero que utilizan diferentes URL. Algunos motores de búsqueda otorgan una clasificación más alta a los resultados en los que la palabra clave buscada aparece en la URL.

Redireccionamiento de URL

La redirección de URL es llevar al usuario a otra página sin su intervención, p. ej., usando etiquetas de actualización META, Flash, JavaScript, Java o redirecciones del lado del servidor. Sin embargo, la redirección 301, o redirección permanente, no se considera un comportamiento malicioso.

Ocultamiento

El encubrimiento se refiere a cualquiera de varios medios para mostrar una página a la araña del motor de búsqueda que es diferente de la que ven los usuarios humanos. Puede ser un intento de engañar a los motores de búsqueda con respecto al contenido de un sitio web en particular. Sin embargo, el encubrimiento también se puede usar para aumentar éticamente la accesibilidad de un sitio para usuarios con discapacidades o proporcionar a los usuarios humanos contenido que los motores de búsqueda no pueden procesar o analizar. También se usa para entregar contenido basado en la ubicación de un usuario; Google mismo utiliza la entrega de IP, una forma de encubrimiento, para entregar resultados. Otra forma de encubrimiento es el intercambio de código, es decir,, optimizar una página para la clasificación superior y luego intercambiar otra página en su lugar una vez que se logra la clasificación superior. Google se refiere a este tipo de redireccionamientos como Redireccionamientos furtivos.

Contramedidas

Omisión de página por motor de búsqueda

En ocasiones, el motor de búsqueda elimina las páginas indexadas como spam de los resultados de búsqueda.

Omisión de página por parte del usuario

Los usuarios pueden emplear operadores de búsqueda para filtrar. Para Google, una palabra clave precedida por "-" (menos) omitirá los sitios que contengan la palabra clave en sus páginas o en la URL de las páginas del resultado de búsqueda. Por ejemplo, la búsqueda "-<sitio no deseado>" eliminará los sitios que contengan la palabra "<sitio no deseado>" en sus páginas y las páginas cuya URL contiene "<sitio no deseado>".

Los usuarios también pueden usar la extensión de Google Chrome "Lista de bloqueo personal (de Google)", lanzada por Google en 2011 como parte de las contramedidas contra el cultivo de contenido. A través de la extensión, los usuarios pueden bloquear una página específica o un conjunto de páginas para que no aparezcan en sus resultados de búsqueda. A partir de 2021, parece que se eliminó la extensión original, aunque se pueden usar extensiones de funcionamiento similar.

Las posibles soluciones para superar el envenenamiento por redirección de búsquedas que redirigen a farmacias ilegales en Internet incluyen la notificación a los operadores de dominios legítimos vulnerables. Además, la evaluación manual de las SERP, los algoritmos basados en enlaces y basados en contenido publicados anteriormente, así como los motores de clasificación y detección automática hechos a medida, se pueden utilizar como puntos de referencia en la identificación efectiva de campañas de estafas farmacéuticas.

Contenido relacionado

Más resultados...