Para comprender este concepto basta con imaginarse un gran iceberg, que sería Internet, del que sólo vemos una pequeña parte (la superficial), mientras que en el fondo está sumergido el resto. Esta parte oculta debajo del agua es lo que se conoce como Internet Invisible y que contiene aquella información que normalmente no podemos o no sabemos recuperar.
En 1994 la doctora Jill Ellsworth utilizó el término de "Invisible Web" (Internet Invisible), para referirse a la información que los motores de búsqueda tradicionales no pueden encontrar.

Otra forma de denominar a esta información es "depp web” (Internet profunda), ya que en realidad no es invisible, sólo hay que saber llegar a ella a través de navegadores convencionales o con plugin. Por ello, el término más correcto para denominar a la web invisible sería "no indizable".

El tipo de información que encontramos en la Internet Invisible puede ser:
  • Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas.
  • Documentos en formato pdf, word...: los motores de búsquedas fueron creados sólo para localizar e indizar páginas html, aunque actualmente Google indiza documentos en formato pdf, doc, xml...
  • Páginas web que no son indizadas por los motores de búsqueda: porque se excluyen ellas mismas a través de un protocolo de exclusión.
  • Sitios web que necesitan contraseña: los motores de búsqueda no pueden acceder al contenido de estas páginas.

En el año 2000 se estimaba que el tamaño del Internet Profundo era de 7.500 terabytes de datos en unos 550.000 millones de documentos. Para comparar se estima que en aquella época la Internet Superficial ocupaba 167 Terabytes y el contenido de la Biblioteca del congreso de Estados Unidos tenia unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.


ARAA_1~1.GIF

¿Que son las arañas?


Cuando una persona realiza una consulta, el buscador no recorre la totalidad de Internet en busca de las posibles respuestas, lo cual supondría una capacidad de reacción bastante lenta. Lo que hace es buscar en su propia base de datos, que ha sido generada e indizada previamente. En sus labores de búsqueda, indización y catalogación, utilizan las llamadas "arañas" o robots inteligentes que van saltando de una página web a otra siguiendo los enlaces de hipertexto y registran la información allí disponible.

El problema aparece cuando la información requerida se encuentra en una página que carece de enlaces. En este caso, la única forma que tiene de ser registrada en un buscador es que su autor la incluya manualmente rellenando un formulario. En caso contrario, esta web resultará invisible para todos aquellos usuarios de Internet que no conozcan la URL o dirección concreta.

Sin embargo, el que una página carezca de enlaces no es la única causa que puede llevar a una web a permanecer en las profundidades, invisible a los buscadores generalistas. Éstos suelen indexar páginas estáticas que incluyen textos simples y que están programadas en HTML, el lenguaje de programación más común. Ésta es la información que, sin ninguna duda, un usuario encontraría en la llamada Red superficial utilizando los buscadores más comunes, y buena parte del resto pasa a formar parte de la Red profunda.

Actualmente, la posibilidad de buscar e indexar cierto tipo de archivos no textuales, como imágenes, audio, vídeo, archivos PDF o Postscript, programas ejecutables o archivos comprimidos, se ha convertido en un reto para los motores de búsqueda más generales. Técnicamente la mayoría de estos formatos pueden ser indexados, pero muchos buscadores eligen no hacerlo por razones de negocio. En primer lugar, hay mucha menos demanda de este tipo de formatos que de textos HTML y, además, estos formatos son más difíciles de archivar y organizar, por lo que requieren más recursos del servidor y sobre todo un mayor coste económico. Sin embargo, la demanda se está imponiendo y los grandes buscadores ya recogen entre sus opciones la posibilidad de localizar imágenes, PDF e incluso vídeos. Y su lucha por robar terreno a la Red profunda continúa.

La información que se genera dinámicamente también forma parte de esta área más profunda de Internet. La mayoría de estas páginas están generadas en HTML, por lo que en teoría son fácilmente indexables. El motivo más frecuente alegado por los buscadores para no hacerlo es que se han dado bastantes casos de rastreadores que se han visto atrapados en las llamadas trampas de araña, un sitio con miles o millones de páginas diseñadas sólo para bloquear los motores de búsqueda.
También los datos que se generan en tiempo real, como pueden ser valores de Bolsa, información del tiempo, horarios de trenes, etcétera, suelen formar parte de la Red profunda. Aunque éstos, con un motivo bien fundamentado: su inmenso volumen y, principalmente, la gran rapidez con la que varía dicha información hacen bastante inservible para el usuario que un buscador generalista indexe un contenido tan fugaz. Por lo tanto, la mayoría eligen no hacerlo, aunque técnicamente sea posible.

FUENTE: www.elpais.com