¿Qué es la web profunda?
Cuando hablamos de la web profunda nos referimos a todo el contenido de internet que no está indexado por las redes de los motores de búsqueda de la red. Los problemas para acceder a estos contenidos radican en las limitaciones establecidas por algunos sitios que han sido generados de forma dinámica por lo que es difícil acceder a ella siendo sólo determinados usuarios con contraseña o códigos especiales los que pueden hacerlo.
La web opaca
Se compone de archivos que podrían estar incluidos en los índices de motores de búsqueda pero que no lo están debidos a razones de extensión de la indezación. Los nuevos motores de búsqueda están más preparados para acceder a esta información
La web propietaria.
Incluye nodos en los que es necesario registrarse para tener acceso al contenido, ya sea gratuita o ya sea pagando.
La web privada.
Se compone de los sitios que podrían estar indexados por los motores de búsqueda pero que son excluidos de manera deliberada, ya sea porque las páginas están protegidas por contraseñas o porque contienen el camo “noindex” para no permitir que el motor de búsqueda vaya más allá.
Algunos motivos por los que los buscadores son incapaces de indexar la Internet profunda:
• Páginas y sitios web protegidos con contraseñas o códigos esta
blecidos.
• Páginas que el buscador decidió no indexar: esto se da generalmente porque la demanda para el archivo que se decidió no indexar es poca en comparación con los archivos de texto Html; estos archivos generalmente también son más “difíciles” de indexar y requieren más recursos.
• Sitios, dentro de su código, tiene archivos que le impiden al buscador indexarlo.
• Documentos en formatos no indexables.
• De acuerdo a la tecnología usada por el sitio, por ejemplo los sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno.
• Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos.
• Sitios que tienen una mezcla de media o archivos que no son fáciles de clasificar como visible ó invisible (Web opaca).
• La información es efímera o no suficientemente valiosa para indexar. Es posible indexar está información pero como cambia con mucha frecuencia y su valor es de tiempo limitado no hay motivo para indexarla.
• Páginas que contienen mayormente imágenes, audio o video con poco o nada de texto.
• Los archivos en formatos Postscript, Flash,Shockwave (.exe), archivos comprimidos zip.rar, etc)
• Información creada en páginas dinámicas después de llenar un formulario, la información detrás de los formularios es invisible.
• Documentos dinámicos, son creados por un script que selecciona datos de diversas opciones para generar una página personalizada. Este tipo de documentos, aunque sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web quedan atrapadas en ellos.
• Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y viceversa.
• Son subdirectorios o bases de datos restringidas.
RECURSOS:
- Tres recursos para navegar por la web profunda.
http://www.clasesdeperiodismo.com/2015/03/21/3-recursos-para-navegar-en-la-internet-profunda/
Biblioteca Virtual WWW. Este es un catálogo viejo con numerosas categorías de interés.
Intute. El portal se enfoca en el Reino Unido, pero tiene a numerosas universidades de la región europea proporcionando recursos para el estudio y la investigación.
Infoplease. Es un centro útil con enciclopedias, almanaques, atlas, biografías y más.
- 15 buscadores para la web profunda:
http://inteligenciacomunicaciononline.blogspot.com.es/2014/04/15-buscadores-para-web-profunda-osint.html
- Estrategias y mecanismos de búsqueda en la web invisible.
Recursos ordenados alfabéticamente:
http://biblio.colmex.mx/bib_dig/web_invisible.htm