Empezaremos
este artículo conceptualizando la WEB Superficial y la WEB Profunda
¿Qué es la WEB Superficial o Visible?
Es aquella que comprende
todos aquellos sitios cuya información puede ser indexada por los robots de los
buscadores convencionales y recuperada casi en su totalidad mediante una
consulta a sus formularios de búsqueda.
Las características
principales de los sitios de la Web visible son:
- su información no está contenida en bases de datos
- es de libre acceso
- no requiere la realización de un proceso de registro para acceder
- Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace
¿Qué es la WEB Profunda o Invisible?
La Web invisible es
el término utilizado para describir toda la información disponible en Internet
que no es recuperada interrogando a los buscadores convencionales. Generalmente
es información almacenada y accesible mediante bases de datos.
Si bien el 90% de las
bases de datos están públicamente disponibles en Internet, los robots de los
buscadores solamente pueden indicar su página de entrada (homepage) y son
incapaces de entrar dentro de las tablas e indizar cada registro, les falta la
habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta
para extraer sus datos. La información almacenada es por consiguiente
"invisible" a estos, ya que los resultados se generan en la
contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP...) es
decir páginas que no tienen una URL fija y que se construyen en el mismo
instante (temporales) desapareciendo una vez cerrada la consulta.
Por cada millón de
páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de
unos 100.000 sitios y el 90% suele ofertar su información pública y
gratuitamente. La información
pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor
que el Web visible.
Para poder entender un poquito más la diferenciación entre la web
superficial y la web profunda, citaremos una caracterización de la Web
invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro
tipos de contenidos invisibles en la Web:
- la WEB opaca
Se
compone de archivos que podrían estar incluidos en los índices de los motores
de búsqueda, pero no lo están por alguna de estas razones:
o Extensión
de la indización: por economía, no todas las páginas de un sitio son indizadas
en los buscadores.
o Frecuencia
de la indización: los motores de búsqueda no tienen la capacidad de indizar
todas las páginas existentes; diariamente se añaden, modifican o desaparecen
muchas y la indización no se realiza al mismo ritmo.
o Número
máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces
un gran número de resultados de búsqueda, generalmente limitan el número de
documentos que se muestran (entre 200 y 1000 documentos).
o URL’s
desconectadas: las generaciones más recientes de buscadores, como Google,
presentan los documentos por relevancia basada en el número de veces que
aparecen referenciados o ligados en otros. Si un documento no tiene un link
desde otro documento será imposible que la página sea descubierta, pues no
habrá sido indizada.
- la WEB privada
Consiste en las páginas web que podrían estar indizadas en los
motores de búsqueda pero son excluidas deliberadamente por alguna de estas
causas:
o Las páginas están protegidas por contraseñas (passwords).
o Contienen un archivo “robots.txt” para evitar ser indizadas.
o Contienen un campo “noindex” para evitar que el buscador indice la
parte correspondiente al cuerpo de la página.
- la WEB propietaria
Incluye aquellas
páginas en las que es necesario registrarse para tener acceso al contenido, ya
sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda
contiene información de acceso público y gratuito.
- y la WEB realmente invisible
Se compone de páginas que no pueden ser indizadas
por limitaciones técnicas de los buscadores, como las siguientes:
o
Páginas web
que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables
y archivos comprimidos.
o
Páginas
generadas dinámicamente, es decir, que se generan a partir de datos que introduce
el usuario.
o
Información
almacenada en bases de datos relacionales, que no puede ser extraída a menos
que se realice una petición específica. Otra dificultad consiste en la variable
estructura y diseño de las bases de datos, así como en los diferentes
procedimientos de búsqueda.
Para tener en cuenta:
- algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
- es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
- existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
- el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
- el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
- es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.
Felicidades, tu blog es muy bonito y el árticulo de la web es excelente.
ResponderEliminarMuchisimas gracias, Adelina. Un placer estar por aqui aprendiendo.
Eliminar