Con la tecnología de Blogger.

sábado, 27 de junio de 2015

La WEB Superficial y la WEB Profunda





Empezaremos este artículo conceptualizando la WEB Superficial y la WEB Profunda

¿Qué es la WEB Superficial o Visible?
Es aquella que comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible son:
  • su información no está contenida en bases de datos
  • es de libre acceso
  • no requiere la realización de un proceso de registro para acceder
  • Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace
¿Qué es la WEB Profunda o Invisible?
La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos. 

Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro, les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La información almacenada es por consiguiente "invisible" a estos, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente. La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Para poder entender un poquito más la diferenciación entre la web superficial y la web profunda, citaremos una caracterización de la Web invisible o profunda de Sherman y Price (2001), en la cual identifican cuatro tipos de contenidos invisibles en la Web:
  • la WEB opaca
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:
o    Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
o    Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
o    Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
o    URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

  • la WEB privada
Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:
o    Las páginas están protegidas por contraseñas (passwords).
o    Contienen un archivo “robots.txt” para evitar ser indizadas.
o    Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
  • la WEB propietaria
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o paga. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.
  • y la WEB realmente invisible
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
o    Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
o    Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
o    Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Para tener en cuenta:
  • algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
  • es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
  • existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
  • el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
  • el contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;
  • es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

2 comentarios:

  1. Felicidades, tu blog es muy bonito y el árticulo de la web es excelente.

    ResponderEliminar
    Respuestas
    1. Muchisimas gracias, Adelina. Un placer estar por aqui aprendiendo.

      Eliminar