Nueva herramienta: Google Index Retriever

viernes, 24 de abril de 2015

¿Has encontrado en Google alguna vez una página que parece hablar exactamente de lo que necesitas, pero que ha sido eliminada? Sí, la caché de Google es la respuesta, pero... ¿Y si la caché ha sido eliminada también? ¿Y si el texto solo se encuentra en el índice de Google? No se puede recuperar la página, pero se sabe que estuvo ahí. 

Google Index Retriever intentará recuperar el índice de Google, para poder obtener parte del texto de la web y así el contenido eliminado que se necesita. La caché de Google no está ahí para siempre. De vez en cuando, se elimina para siempre. Archive.org y su WayBackMachine no toma tantas instantáneas de las páginas menos populares, así que se dan situaciones donde lo único que queda de una página está en el índice de Google.

El índice de Google es esa pequeña porción de texto en la página de resultados del motor de búsqueda de Google que se muestra cuando se busca cualquier texto. Es el índice, las palabras buscadas aparecen resaltadas. Google Index es la última parte de una web en desaparecer. Habrá situaciones donde será la única y última parte que queda. Google mantiene índices diferentes para la misma página así que, si se pudieran poner todos juntos, el texto podría reconstruirse y tener la mayor parte de la página eliminada.

Pero no es la única situación en la que la herramienta podría ser útil. ¿Y si el índice contiene contraseñas, números de tarjeta de crédito o cualquier otra información sensible? De hecho esto fue una de las razones para crear la herramienta: demostrar que eliminar páginas con contenido sensible u ofensivo, incluso de la caché, no es suficiente. El contenido podría seguir siendo accesible. Todo esto se explica en esta presentación.

¿Cómo funciona la herramienta?

Es muy sencilla. La herramienta se alimenta de una búsqueda de Google que produce un índice como resultado. Intentará realizar una especie de fuerza bruta en la búsqueda (estimulándola) para obtener de vuelta tanto texto como sea posible.

Example with an evernote profile

  • El botón "One Shot": Busca solo una vez con la información proporcionada. Se utiliza para ser lo más específico posible con la cadena de búsqueda antes de empezar con el botón de "Start".
  • * El botón "Start": Comienza buscando en modo automático. La caja de resultados mostrará el tiempo pasado desde que comenzó la búsqueda, la búsqueda que hizo aparecer la información y finalmente la frase más larga encontrada si difiere de la anterior, para que el usuario pueda reconstruir así la página.
La lógica para intentar "estimular" el índice y recuperar la información es:

  • Primero, intenta estimular el índice con las palabras que ya ha encontrado en el resultado del primer índice y se encuentran "alrededor" de la primera palabra buscada, para poder recuperar frases enteras una y otra vez.
  • Si no hay más resultados o no quedan "palabras alrededor", la búsqueda se repite con palabras clave proporcionadas por el usuario como un "ataque por diccionario". Cuando ocurre esto, la barra de progreso cambia de color.
Google, por supuesto, lanzará un CAPTCHA de vez en cuando a causa de la búsqueda continua. Esto es perfectamente normal. Google Index Retriever capturará ese CAPTCHA para que sea fácil de resolver por el usuario y pueda continuar

Google will show a CAPTCH from time to time

Spam

La herramienta también puede ser usada para comprobar si una página ha sido probablemente comprometida y se le han inyectado spam como estrategia de Black SEO. Es habitual que los atacantes comprometan páginas e inyecten palabras relacionadas con el spam en ellas para "robar" su pagerank.

Using the tool to find possible "hidden" Spam in a webpage

Este contenido no se visible por los visitantes sino por los crawlers y robots de Google, así que normalmente se verá en ese índice. Esta pestaña del programa funciona exactamente igual que la otra pero con otra lógica:

  • Intenta buscar directamente desde un conjunto diferente de keywords (relacionados con el Spam) en el índice de Google.

De esta forma, es más sencillo saber si una página ha sido comprometida y se le ha inyectado spam relacionado con el Black SEO.

Otras funcionalidades

El programa está escrito en Java para que pueda funcionar bajo cualquier sistema y versión, aunque ha sido más comprobada en Windows. Los resultados pueden ser exportados a un documento html en local. Las keywords son completamente personalizables. Pueden ser añadidas individualmente o editadas directamente desde un fichero TXT.

Keywords configurables
La herramienta puede ser descargada desde aquí

No hay comentarios:

Publicar un comentario