Desde hace ya algunos años manipular los resultados de las búsquedas de Google viene siendo cada vez mas dificil. La mayoría de los dolores de cabeza de los SEO son provocados por el conocidísimo pero misterioso Efecto Sandbox. En este artículo se expone una teoría que podría explicar muchas de las incógnitas que rodean el fenómeno, además de que se procura aclarar y desmentir algunas de las ideas erróneas sobre el Sandbox que circulan por los foros y los blogs.
Los SEOs empezaron a notar que posicionar webs nuevas era mas dificil de lo normal, y se dieron cuenta que a dichas webs parecía que se les aplicase un filtro hasta que habían superado cierto tiempo online. Se apreciaba con facilidad que las webs más nuevas no ocupaban la posición que deberian, en teoría, ocupar para ciertas búsquedas competitivas en Google. Al pasar un tiempo, que nunca nadie ha sabido concretar ya que ha ido aumentando, las webs salían de ese filtro y pasaban a ocupar las posiciones que les correspondian. Los primeros en vivirlo decían que se salía en dos o tres meses. Luego se barajaba la hipótesis de que eran seis meses los que se necesitaban. Hoy en día una web nueva puede estarse incluso un año sin aparecer en los primeros puestos de las búsquedas por las que compite.
A este efecto o filtro se le llamó el SandBox Effect haciendo una similitud con una caja de arena en la que se retiene a las webs nuevas hasta que ganan una cierta confianza de cara al buscador.
Los SEOs han estado buscando durante todo este tiempo las razones, las causas y las soluciones o técnicas para salir o, a ser posible, evitar el temido efecto SandBox.
En realidad, lo que se detectó al principio fue el síntoma principal, es decir, aparecer en posiciones mucho peores a las esperadas para las búsquedas que se compite; y se asoció con una de las principales causas, la edad de la web. Incluso el nombre se le puso pensando sólo en estos dos factores. Sin embargo, el desconocimiento y la información errónea sobre todo lo que rodea el SandBox es muy grande, tanto que ni siquiera en wikipedia se ponen de acuerdo sobre cómo explicarlo.
Con el tiempo se ha ido sabiendo mas sobre el tema y hoy en dia podemos afirmar varios aspectos sobre el sandbox que pueden cambiar nuestro punto de vista sobre el tema.
En realidad podemos decir que el sandbox no es una caja de arena que retrasa la aparición en Google de las webs nuevas como se creyó al principio. El Sandbox es un filtro aplicado a las búsquedas que penaliza las webs cuyo posicionamiento encaja con los patrones de anti-naturalidad establecidos por Google.
Por todo lo explicado, se puede hacer una analogía con los filtros de spam en los servidores de correo, que, como se explicará a continuación, utilizan filtros bayesianos para aprender a detectar y separar los emails de publicidad no solicitada (spam) de los demás.
Los filtros de Bayes (o bayesianos) son filtros que utilizan la teoría de la probabilidad y el Teorema de Bayes para clasificar los datos. Basándose en la estadística conocida y los hechos observados, pueden calcular la probabilidad de que se cumpla cierta condición. Dada esa probabilidad y la configuración del filtro, se emprendará una acción u otra.
Puede parecer muy complicado pero la idea es simple. Haciendo estadísticas se obtienen unas probabilidades a priori de cada factor a tener en cuenta. Luego se observan esos factores para cada caso. Finalmente se puede calcular la probabilidad del hecho que interesa teniendo en cuenta los factores observados y sus probabilidades.
En el campo de la medicina se usa este método (intuitivamente) muy a menudo. Cuando un paciente explica sus síntomas al médico, éste, dadas las probabilidades de cada enfermedad de provocar esos síntomas, diagnostica la enfermedad más probable.
Uno de los usos más conocidos de los filtros de Bayes en Internet es el de filtrar los emails de SPAM en los servidores de correo. El filtro observa varios factores de los emails entrantes (síntomas) y calcula, según sus datos estadísticos, la probabilidad de que sea SPAM (tiene la enfermedad). Algunos de los factores que se observan son ciertas palabras clave del contenido, si el remitente es válido, la IP de origen, etc.
Igual que no siempre se tienen todos los síntomas de una enfermedad, los emails publicitarios no solicitados no siempre cumplen todos los factores. Es por eso que el cálculo de probabilidades funciona mejor que la simple comparación de factores.
Por último, pero no menos importante, hay que destacar que los filtros bayesianos tienen la capacidad de aprender. Si tienen un entrenador (un humano, normalmente), es decir, alguien que les confirma que lo han hecho bien o les indica que han cometido un error, pueden actualizar sus estadísticas y así afinar mas las probabilidades para los cálculos posteriores. Gracias a esto, aunque nuestro conocimiento a priori a nivel estadístico del sector no sea muy bueno, se puede empezar a filtrar con unos valores aproximados y luego ir educando al filtro indicándole lo que ha hecho bien y lo que no para que así actualice los valores estadísticos.
Ahora que conocemos el Efecto SandBox y los Filtros de Bayes podemos plantearnos la pregunta, ¿Es el Efecto SandBox un Filtro de Bayes? Todo apunta a que sí. Aunque quizas no sea exactamente un filtro de Bayes, la filosofia y el procedimiento serían parecidos.
En las búsquedas importantes o competidas, una vez se han ordenado los resultados utilizando el algoritmo genérico, se aplica el filtro sandbox para reordenar los resultados. El filtro busca entre las webs de ese listado cuales cumplen un patrón de antinaturalidad para posicionarse en esa búsqueda. Las webs que cumplen esos requisitos, son penalizadas y aparecen en peores posiciones.
Para determinar que webs cumplen patrones antinaturales, el filtro sandbox estaría actuando como un filtro de Bayes. Fijándose en ciertos factores, daría como resultado una probabilidad de que la web esté intentando manipular los resultados. ¿En que factores se fija? Seguramente en algunos de estos:
Se da por hecho, por ejemplo, que una web nueva que recibe de golpe muchos enlaces con un anchor text igual al de la búsqueda por la que compite, cae en sandbox. En ese caso, se estaría "dando positivo", por lo menos, para los factores 1, 3 y 4. Sin embargo, la mayoría de estos factores por separado, no tendrían porqué ser malos ni anti-naturales. Es mas, la combinación de algunos de ellos puede verse compensada por el peso de otros. Veamos algunos ejemplos.
Probablemente existan más factores que el filtro tiene en cuenta. Es mas, es muy difícil, por no decir imposible, saber qué peso se le está dando a cada factor para cada uno de sus posibles valores.
Desués de todo lo explicado podemos volver a hacernos la pregunta de si es posible evitar el sandbox y contestarla. Es posible. "Tan sólo" hay que conseguir que el posicionamiento de nuestra web no sea considerado por Google como un posicionamiento antinatural para las búsquedas por las que competimos.
Cómo evitar dar positivo para cada uno de los factores, es una tarea que debe preocupar al SEO, sin olvidarse del objeto principal, que es posicionar bien la web para las búsquedas que nos interesan. En muchos casos, habrá que encontrar el punto de equilibrio de cada factor que nos permitirá aparecer en buenas posiciones cuando se aplique el algoritmo genérico, y nos evite, a la vez, entrar en SandBox.
Emili Sapena, Setiembre 2006. iConsulting.com.es