Google Index Retriever es ahora de código abierto

miércoles, 14 de septiembre de 2016

En marzo de 2015, se presentó Google Index Retriever. Ahora ha sido mejorado y corregido y se ofrece a la comunidad para que cualquiera lo mejore o simplemente pueda curiosear en su código. Si cualquier programador necesita una funcionalidad concreta, o se le ocurre cómo pulir algún algoritmo interno, ahora es posible desde GitHub. Esperamos que esto haga de Google Index Retriever una herramienta más eficiente, eficaz y con muchas más y mejores funcionalidades.

Google Index Retriever intentará recuperar el índice de Google, para poder obtener parte del texto de la web y así el contenido eliminado que se necesita. La caché de Google no está ahí para siempre. Archive.org y su WayBackMachine no toma tantas instantáneas de las páginas menos populares, así que se dan situaciones donde lo único que queda de una página está en el índice de Google, y de ahí todavía se puede extraer información.

¿Qué es Index Retriever?

El índice de Google es esa pequeña porción de texto en la página de resultados del motor de búsqueda de Google que se muestra cuando se busca cualquier texto. Es el índice, las palabras buscadas aparecen resaltadas. Google Index es la última parte de una web en desaparecer. Habrá situaciones donde será la única y última parte que queda. Google mantiene índices diferentes para la misma página así que, si se pudieran poner todos juntos, el texto podría reconstruirse y tener la mayor parte de la página eliminada.

Pero no es la única situación en la que la herramienta podría ser útil. ¿Y si el índice contiene contraseñas, números de tarjeta de crédito o cualquier otra información sensible? De hecho esto fue una de las razones para crear la herramienta: demostrar que eliminar páginas con contenido sensible u ofensivo, incluso de la caché, no es suficiente. El contenido podría seguir siendo accesible. Todo esto se explica en esta presentación.

¿Cómo funciona la herramienta?

Es muy sencilla. La herramienta se alimenta de una búsqueda de Google que produce un índice como resultado. Intentará realizar una especie de fuerza bruta en la búsqueda (estimulándola) para obtener de vuelta tanto texto como sea posible.

Ejemplo de uso y recopilación del índice

  • El botón "One Shot": Busca solo una vez con la información proporcionada. Se utiliza para ser lo más específico posible con la cadena de búsqueda antes de empezar con el botón de "Start". 
  • El botón "Start": Comienza buscando en modo automático. La caja de resultados mostrará el tiempo pasado desde que comenzó la búsqueda, la búsqueda que hizo aparecer la información y finalmente la frase más larga encontrada si difiere de la anterior, para que el usuario pueda reconstruir así la página.
La lógica para intentar "estimular" el índice y recuperar la información es:
  • Primero, intenta estimular el índice con las palabras que ya ha encontrado en el resultado del primer índice y se encuentran "alrededor" de la primera palabra buscada, para poder recuperar frases enteras una y otra vez.
  • Si no hay más resultados o no quedan "palabras alrededor", la búsqueda se repite con palabras clave proporcionadas por el usuario como un "ataque por diccionario". Cuando ocurre esto, la barra de progreso cambia de color.
Pestaña de spam

La herramienta también puede ser usada para comprobar si una página ha sido probablemente comprometida y se le han inyectado spam como estrategia de Black SEO. Es habitual que los atacantes comprometan páginas e inyecten palabras relacionadas con el spam en ellas para "robar" su pagerank.

Pestaña de Spam inyectado en una web con Google Index Retriever

Este contenido no es visible por los visitantes sino por los crawlers y robots de Google, así que normalmente se verá en ese índice. Esta pestaña del programa funciona exactamente igual que la otra pero con otra lógica:

  • Intenta buscar directamente desde un conjunto diferente de keywords (relacionados con el Spam) en el índice de Google. De esta forma, es más sencillo saber si una página ha sido comprometida y se le ha inyectado spam relacionado con el Black SEO.

Otras funcionalidades

Ell programa está escrito en Java para que pueda funcionar bajo cualquier sistema y versión, aunque ha sido más comprobada en Windows. Los resultados pueden ser exportados a un documento html en local. Las keywords son completamente personalizables. Pueden ser añadidas individualmente o editadas directamente desde un fichero TXT.

Añadiendo keywords al diccionario para estimular el índice

Esperamos que la herramienta sea útil y ahora su código, también.

No hay comentarios:

Publicar un comentario en la entrada