Le web invisible


- Sommaire 

- Le dossier documentaire : introduction


1. Définitions

1. 1. Qu'est ce que le web invisible ?

1. 2. Le vocabulaire anglais

1. 3. Les éléments du web invisible

2. Outils, méthodes et stratégies de recherche

2. 1. Les moteurs de recherche 

2. 2. Les annuaires de recherche 

2. 2. 1. Les annuaires généralistes

2. 2. 2. Les annuaires de bibliothèques

2. 3. Les catalogues collectifs en ligne 

2. 4. Les Portails verticaux et horizontaux 

           2. 4. 1. Les portails verticaux, les vortails

           2. 4. 2. Les portails horizontaux

2. 5. Les Bases de données 

2. 5. 1. Les serveurs de banque de données

2. 5. 2. Les archives ouvertes

2. 6. Les forums de discussions 

            2. 7. Les listes de diffusion 
   

 

3. Experts et sites d’expert

3. 1. Chris Sherman, Gary Price

3. 2. Béatrice Foenix-Rioux 

3. 3. Christophe Asselin 

3. 4. Olivier Andrieu 

3. 5. Jean-Pierre Lardy

3. 6. Marcus Zillman

3. 7. Bibliographie

- Les auteurs du dossier documentaire
 

 

Le dossier documentaire

Ce dossier documentaire fait suite à notre blog de veille sur le Web invisible. Il a été réalisé par une équipe de six étudiants de 1ère année de l'EBD, composée de Myriam Baumendel, Marie-Hélène Bouboutou, Christelle Druez, Mélanie Formery, Laurent Lavail et Benjamin Pascal (Ces étudiants sont présentés à la fin du dossier documentaire).
Le blog de veille avait pour but de recueillir des informations et actualités sur le web invisible en général, ici, le dossier documentaire devra présenter de manière hiérarchisée ce qu'est le web invisible. Les buts pédagogiques de l'exercice sont quasiment les mêmes que pour le blog de veille :

  • Acquérir une culture dans un domaine particulier du Web ou des domaines approchés par le métier de la documentation. A la fin de l’exercice les étudiants devront grâce à leurs recherches, avoir acquis un certain bagage concernant le web invisible. Ils n’auront pas manqué de se documenter sur les autres thèmes traités par leurs camarades dans d’autres blogs (Knowledge management, Record management, Veille, Intelligence économique, etc.).
  • L'élaboration d'un dossier documentaire. L'exercice nous apprendra à créer un dossier documentaire électronique en se forcant à l'adapter aux contraintes imposées par un outil comme Typepad (difficulté de hiérarchiser et classer l'information etc.).
  • Apprendre à créer un blog. C’est une approche de la création de sites Internet. La création d’un blog est relativement aisée et permet de se familiariser en partie avec le web dynamique. A la différence du blog de veille où la hiérachisation de l'information n'est pas primordiale, cette dernière "s'empilant" chronologiquement, ici, les étudiants devront contourner les problèmes et limites de Typepad, ce dernier n'étant pas adapaté à l'élaboration et à la présentation d'un produit documentaire tel qu'un dossier documentaire.
  • Le travail en équipe. Le travail devant s’effectuer en groupe, les étudiants se familiariseront avec le travail en équipe.

Au sujet des éléments présents à la fois au sein de notre blog de veille et au sein de notre dossier documentaire :
On remarquera que certaines notes du blog de veille se retrouvent au sein du dossier documentaire. Le thème étudié, le web invisible, ne se prête pas vraiment à une gestion d'information récente, fluctuante comme pour la veille ou l'intelligence économique. Ainsi, dès le départ, notre blog de veille a été alimenté comme s'il s'agissait d'un dossier documentaire, en listant des outils de référence en laissant de côté les brèves d'actualités qui de toutes manières ne pouvaient exister. En effet, le web invisible ne génère pas régulièrement, conférences, formations, salons d'exposition ou autres évènements de ce genre.

1. Définitions

    Nous expliquerons ici brièvement ce qu'est le web invisible. En effet, il convient de commencer par en donner  une définition et pourquoi on parle de web invisible par opposition à web visible. Nous verrons quels sont les éléments que l'on peut trouver à l'intérieur de ce que l'on appelle aussi le "web profond". Ces différentes catégories seront plus développées dans la partie "Outils, méthodes et stratégies de recherche".
Afin d'approfondir la question nous donnons des liens vers d'autres sites.

1. 1. Qu'est ce que le web invisible ?

    Le web invisible est l'ensemble des pages auxquelles les moteurs de recherche classiques n'ont pas accès. Pourquoi? Parce qu'ils ne peuvent pas indexer les pages produites à la volée : pages de web dynamique, le résultat de requêtes effectuées par l'internaute sur des bases de données ; or les moteurs de recherche ne peuvent pas effectuer de requêtes, à l'exception de quelques-unes prédéfinies par le webmaster. Les bases de données représentent l'essentiel du web. D'après les études Bright Planet et Cyveillance ce web invible serait 260 fois plus vaste que le web visible. Outre les bases de données, il contient des pages orphelines, des pages remises à jour trop fréquemment pour pouvoir être indexées ou protégées par mot de passe, des documents au format non reconnu par les moteurs ou trop volumineux.

voir sur le site de Christophe Asselin

Voir aussi le site d'Emmanuel Desmontils.

        Pour ceux qui s'intéressent à la documentation, les ressources anglo-saxones sont devenues incontournables, cet impératif professionnel nécessite de maîtriser un vocabulaire technique.

1. 2. le vocabulaire anglais 

        Voici donc les termes usités en anglais pour désigner le web invisible.

    L'anglais, comme souvent, est beaucoup plus riche que le français. Parmi le vocabulaire utilisé se trouvent des synonymes de web invisible, à commencer par "the invisible web" mais aussi "hidden web" et "deep web", ainsi que des termes désignant des notions plus spécifiques. L'ouvrage "The invisible web" de Chris Sherman et de Gary Price, deux experts américains des moteurs de recherche, nous présente une palette de vocabulaire beaucoup plus étendue qui reflète bien la complexité des différents aspects du web invisible :

  • The opaque web: les pages qui pourraient être indexées par les moteurs de recherche mais qui ne le sont pas pour diverses raisons (limitation du nombre de pages indexées par site, pages remises à jour trop fréquemment, pages sans liens...). La facilité d'accès à ces pages est très variable, autant une page non indexée d'un site connu est facile d'accès, autant une page orpheline est impossible à trouver sans son adresse.

  • The private web: les pages qui sont volontairement exclues des moteurs de recherche par leur auteur (mots de passe, métatag etc... ).

  • The propietary web: les pages accessible seulement après identification. Elles ne sont donc pas indexées par le robot du moteur de recherche.

  • The truly invisible web: les pages non indexées pour des raisons techniques (format ou pages générées dynamiquement ).

  • Not pure invisible web: le web mal indexé.

Voir le site de Christophe Asselin.

Voir le site The Invisible Web Gateway.

 

1. 3. Les éléments du web invisible

Voici maintenant les différents éléments qui composent le web invisible :

  • Les bases de données qui sont des systèmes d'organisation de l'information, conçues pour retrouver et mettre à jour rapidement et facilement des données.

  • Les listes de diffusion : groupe d'internautes réunis (par abonnement) autour d'un thème commun sur lequel ils échangent des emails comme par exemple la liste de diffusion de l'ADBS destinée aux professionnels de la documentation.

  • Les forums de discussions : sites internet où les internautes peuvent discuter sur un sujet donné, le plus souvent à condition de s'enregistrer. Chaque inscrit peut ouvrir un sujet auxquels les autres inscrits pourront répondre.

 

2. Outils, méthodes et stratégies de recherche

Cette partie vise à donner des clés pour rechercher dans le web invisible.  Nous verrons qu'il est possible d'adopter différentes stratégies mais qu'en général il vaut mieux les croiser afin d'obtenir les meilleurs résultats.  Tout d'abord nous verrons quand utiliser les moteurs de recherche du web invisible et quels sont les plus intéressants. Ensuite nous traiterons de la stratégie annuaire. Nous aborderons les catalogues collectifs de bibliothèques qui peuvent détenir une très grande quantité d'information. Nous verrons toute l'utilité des portails et les possibilités de chercher dans des portails horizontaux et verticaux. Les bases de données représentant la plus grande partie du web invisible, nous traiterons de quelques sites permettant de rechercher à l'intérieur de quelques-unes. Enfin nous terminerons par les forums de discussion et les listes de diffusion qui permettent d'obtenir de l'information qui ne figure pas toujours dans le web visible et qui peut se révéler intéressante. En effet, en communiquant par le biais des messageries électroniques avec des personnes il est possible d'obtenir des renseignements que l'on n'obtiendrait pas forcément en cherchant classiquement sur le web.

2. 1. Moteurs de recherche

Une des méthodes de recherche sur le web invisible consiste en l'utilisation de moteurs de recherche tout comme sur le web classique. Cette stratégie moteur consiste à interroger des moteurs de recherche qui auront indexés des pages du web visible mais aussi et c'est ce qui nous intéresse du web invisible. Ces instruments de recherche permettent de trouver des informations souvent pertinentes car difficiles d'accès. Ils vont plus loin que les moteurs classiques en accédant notamment à des bases de données.

Très simple à mettre en oeuvre cette stratégie est particulièrement recommandée pour les débutants.

Les moteurs permettent d’obtenir beaucoup de résultats. Ainsi, l'utilisation de cet outil est très intéressante si l'on sait exactement ce que l'on recherche. Mais il convient de savoir l'utiliser en tapant notamment les bonnes équations de recherche afin de ne pas être submergé de réponses non pertinentes ou au contraire de ne pas avoir de réponse. Il faut aussi, pour de meilleurs résultats, utiliser plusieurs moteurs ou  mélanger la stratégie moteur avec la stratégie annuaire.

En voici quelques-uns parmi les plus pertinents:

  • Turbo10, moteur anglophone qui permet de se connecter à plus de 1000 moteurs spécialisés ou généralistes (altavista, yahoo…) ce qui permet de rechercher dans des bases de données ou des documents du web profond dans des domaines particuliers. Le module "My collection" permet de constituer sa propre liste de moteurs parmi une liste assez impressionnante (1170 à ce jour). Cette liste propose notamment  des moteurs internes de portails, de vastes bases de données universitaires ou sites de e-commerce (zdnet.com, amazon.com...).
  • Profusion développé par la société Intellseek propose notamment de rechercher des résultats dans le "web invisible" c'est à dire des bases de données de texte, sons, images, articles, magazines, livres…). Il permet de sélectionner les sources d'information et moteurs parmi des thématiques verticales (gouvernement, emploi, science, santé, juridique, enseignement, technologies, voyages, finance, art, business…). Ainsi on peut choisir d'effectuer une recherche au sein d'encyclopédies (Encarta, Encyclopedia.com...) ou de bases de données et publications.
  • Wondir est un moteur anglophone particulier. Il associe les possibilités d'un métamoteur et d'un service de recherche humain. Wondir est différent des autres outils de recherche car il est géré par une organisation à but non lucratif. Le but de cette fondation est de fournir de l'information de haute qualité à tous. Il  associe les possibilités d’un métamoteur et d’un service de recherche humain. Wondir dispose en effet d'une communauté de volontaires qui répondent aux questions trop complexe pour le moteur de recherche.
  • IncyWincy de la société LOOP improvements utilise l'Open Directory Project. En crawlant à l'intérieur des sites de cet annuaire, le moteur Incy Wincy construit un index de milliers de moteurs de recherche internes rencontrés. Ainsi cela permet d'afficher d'autres moteurs pour une requête. Par exemple, une requête sur "Chimie" affichera les moteurs internes du Bottin de la Chimie et de l'Ecole Nationale Supérieure de Chimie de Rennes. Par la suite il est possible de réutiliser ces moteurs par un simple click pour préciser la recherche.

2. 2. Annuaires de recherche

Afin d’effectuer une recherche sur le web invisible, il est souvent conseillé de commencer par consulter un annuaire de recherche, en particulier lorsque l'on a une idée trop peu précise de ce que l’on recherche. Un annuaire de recherche est tout simplement une liste de sites classés et parfois hiérarchisés selon différentes thématiques. Ce référencement est effectué par des experts en général sélectionnés pour leurs compétences dans le secteur ou par des professionnels de l'information-documentation qui jugent et classent ces sites. Le choix d'utiliser des annuaires de types généralistes peut se révéler pertinent dans une recherche dans des domaines assez larges, par exemple en commençant sa recherche dans des grands domaines (santé, informatique). Pour rechercher des livres on peut chercher dans le catalogue de certaines bibliothèques, dans ce cas l'utilisation des annuaires de bibliothèques sera recommandée.


                     2. 2. 1. Les annuaires généralistes

  • Beaucoup : il s'agit d'un annuaire de plus de 2500 moteurs de recherche et annuaires organisés en 15 grandes catégories: Geographical, Health, Media, Society...
  • CompletePlanet, il s'agit d'un portail de recherche par mots-clés mais aussi d'un annuaire thématique qui accède à plus de 70 000 bases de données ou moteurs de recherche spécialisés (de Agriculture à Weather). Il permet de sauvegarder ses recherches et possède un moteur de recherche puissant. C'est un outil réalisé par la société BrightPlanet, auteur d'études de référence sur le web invisible.
  • invisible-web.net, un annuaire de bases de données et de ressources du web invisible réalisé par Gary Price et Chris Sherman, deux experts américains des moteurs de recherche. Il propose plus de 1000 sources d'accès au web invisible. Il s'agit en fait de la version on-line et la mise à jour du répertoire "papier" de la seconde partie de leur ouvrage "The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See".
  • Librarian index to the internet : Site fondé par la Library of California. Il s'agit d'un répertoire de près de 9000 ressources internet sélectionnées par les documentalistes. Le LII a été fondé en 1990 et a migré en 1993 vers le serveur de la bibliothèque publique de Berkeley (CA). Le moteur de recherche interne a été développé  à partir de 1996. Ce moteur permet de rechercher par sujet, titre, contenu ou URL.  La rubrique Browse All Subjects permet d'afficher tous les thèmes classés par ordre alphabétique. On peut également effectuer la recherche via les thématiques (de Arts à Women). C'est un annuaire qui présente beaucoup d’intérêt de par sa simplicité d’utilisation et la richesse de son contenu.


 
                           2. 2. 1. Les annuaires de bibliothèques

Les bibliothèques possèdent avec leurs catalogues une partie du web invisible. Ainsi, lorsque que l'on veut connaître le contenu du catalogue d'une bibliothèque, il est possible de chercher son site web (si elle en a un) grâce à un annuaire de bibliothèques. Les annuaires des bibliothèques vont permettre de rechercher les bibliothèques qui existent, soit dans le pays où l'on se trouve soit dans le monde. Ces annuaires permettent de retrouver rapidement les sites web de bibliothèques dans le monde et d'accéder ainsi à leur catalogue si elles en ont un en ligne.

On peut relever comme annuaires particulièrement intéressants par la quantité de bibliothèques listées :

  • Libweb, Library servers via WWW annuaire très riche qui liste des bibliothèques dans plus de 125 pays en collaboration avec l'université de Californie et la société Sun microsystems Inc.
  • Libdex indexe 18000 bibliothèques dans le monde. Créé par Peter Scott à l'University of Saskatchewan (Canada). Son site est très simple d'utilisation et il possède également des liens vers des sites de e-commerce proposant des ouvrages en ligne et une liste de magazines, journaux et newsletters consacrés aux bibliothèques.
  • The European library est un portail qui donne un accès unique à toutes les ressources (livres, revues, journaux.... sous forme électronique ou non) de 44 bibliothèques nationales d'Europe (14 000 000 de documents). Ce site a été mis en place par les bibliothèques nationales de plusieurs pays d'Europe ainsi que par l' ICCU (l'institut de catalogage central italien) et la CENL (la Conférence des directeurs de bibliothèques nationales d'Europe). Cela résulte d'un projet visant à donner accès aux ressources disséminées dans toutes les bibliothèques nationales l'Europe. Sur le site la recherche est gratuite. L'accès aux documents électroniques peut être payant dans certains cas. Pour l'instant il n'est pas possible d'y accéder avec Mozilla Firefox mais en utilisant Internet explorer. Ce site va récupérer les informations du site Gabriel qui disparait à partir du 1er juin 2005.

2. 3. Les catalogues collectifs en ligne

Les notices de documents conservées par les bibliothèques et accessible depuis un catalogue en ligne font elles aussi partie du web invisible. La plupart des grandes bibliothèques et bibliothèques nationales du monde ont un catalogue en ligne permettant une recherche dans leur base de données répertoriant leur collection sous la forme de notices. Les catalogues permettent donc la localisation, le renseignement sur les documents de tous types conservés par les bibliothèques.

Dans un but fédérateur et face à la multiplication des catalogues, les bibliothécaires ont peu à peu favorisé la création de catalogues collectifs, rassemblant les catalogues d'autres bibliothèques. Nous ne décrirons pas les différents catalogues de bibliothèques, ces derniers étant trop nombreux et chaque grande bibliothèque en possédant un, mais voici une liste des catalogues collectifs les plus connus.

  • OCLC, Online Computer Library : Catalogue américain fondé en 1967 par l’Ohio College Center. L’OCLC Online Computer Library Center est un réseau informatisé de bibliothèques. Il regroupe plus de 45000 bibliothèques de 84 pays différents. Le site s’adresse à des professionnels de l’information.
  • CCFr, catalogue collectif de France de la BnF : Le CCFr réunit trois grands  catalogues de bibliothèques : BN-Opale Plus (catalogue de la BnF), le Système universitaire de documentation, et le catalogue des fonds des bibliothèques municipales rétroconverties (2,2 millions de notices bibliographiques, correspondant à des collections réparties dans 60 bibliothèques). Le CCFr donne ainsi accès à quasiment 15 millions de notices de documents.
  • Copac, du Consortium of university research libraries : Ce catalogue britannique, donne accès aux catalogues informatisés de 26 bibliothèques - universitaires pour la plupart - du Royaume-Uni, dont le catalogue de la British library et le catalogue de la National Library of Scotland, soit plus de 23 millions de références.
  • KVK, Karlsruher Virtueller Katalog de l’Universitätsbibliothek de Karlsruhe : Ce catalogue allemand créé et alimenté par la Bibliothèque universitaire de Karlsruhe permet l'interrogation simultanée de 38 catalogues et catalogues collectifs de bibliothèques allemandes, suisses, autrichiennes, de bibliothèques nationales (British Library, Library of Congress, Bibliothèque nationale de France, Bibliothèque nationale espagnole...) et de catalogues collectifs d'autres pays (Grande-Bretagne, France, Italie, Espagne, Suède, Norvège...), ainsi que de 5 catalogues commerciaux de libraires en ligne. Ce catalogue donne ainsi accès à plus de 75 millions de notices.
  • ICCU, Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane e per le Informazioni Bibliografiche : Ce catalogue collectif italien est organisé en 3 bases interrogeables simultanément ou séparément : la Libro moderno (livres publiés depuis 1830, soit plus de 3 millions d'ouvrages, et près de 210 000 périodiques), la Libro antico (livres publiés avant 1830, plus de 150 000 documents), et la Musica (350 000 documents musicaux imprimés ou manuscrits, conservés dans 500 bibliothèques ou organismes publics et privés).


Ils seront donc utilisés lorsqu’on cherchera à localiser un document précis ou des documents traitant d’un thème particulier.

2. 4. Les portails verticaux et horizontaux

Les portails sont des sites présentant de nombreuses sources dans un domaine particulier. Ces sources peuvent être de natures diverses (forums, articles, actualité, etc.) mais sont principalement axées autour d’un annuaire de sites.
Il existe deux sortes de portails, les portails horizontaux et les portails verticaux appelés aussi vortails.


2. 4. 1. Les portails verticaux, les vortails

Un vortail cible une communauté professionnelle en particulier, donc un secteur d’activité.
La meilleure solution pour trouver et identifier un vortail reste l’utilisation d’un répertoire de vortails. Nous n’énumérerons pas les différents vortails ces derniers étant trop nombreux mais présenterons deux outils vous permettant de les trouver :

  • TradeWorlds est un répertoire de 126 portails dans différents domaine, principalement techniques et commerciaux.
  • Les 1000 meilleurs portails d'affaires sectoriels : est un site d’Objectif Grandes Ecoles, il répertorie plusieurs portails sectoriels : Agriculture et Agro-alimentaire, Bâtiment et Construction, Commerce et distribution, Energie et ressources naturelles, Biens de consommation, Informatique et Télécommunications, Industries lourdes, Médias et journalisme, Professions artistiques, loisirs et tourisme, Santé et Environnement, Secteur public, enseignement et recherche, Services financiers et consulting, Transport et logistique.


                        2. 4. 2. Les portails horizontaux

Les portails horizontaux sont dédiés à des activités transversales donc des domaines plus larges. Ici aussi nous ne donnerons qu’une liste de portails donnant accès à d’autres portails, il serait inutile de ne traiter qu’un domaine en particulier.

  • Enfin.com : est un site répertoriant des outils de recherche en les classant par pays.
  • Beaucoup! : est un site répertoraint plusieurs moteurs de recherches et répertories spécialisés. Il rassemble plusieurs portails en 15 catégories différentes : informatique, géographie, science, médias santés…

2. 5. Les bases de données

Les bases de données représentent la plus grande partie du web invisible. Il s'agit d'un système d'organisation de l'information conçu pour retrouver et mettre à jour rapidement et facilement des données. Les informations sont organisées autour d'un même sujet, facilement exploitables.
Les données stockées peuvent être de nature très variées. On les retrouve dans la base au moyen de requêtes avec des mots clefs. Sur Internet on accède à la base par une page de formulaire avec des items à renseigner. C'est ce formulaire que le robot d'un moteur de recherche ne peut pas remplir, c'est pourquoi les bases de données appartiennent au web invisible. Ensuite une page est produite à la volée avec les résultats de la requête. Ces pages sont temporaires.

Parmi les bases intéressantes que l'on peut consulter on trouve :

  • URFIST de Lyon: il s'agit de l'Unité Régionale de Formation et de Promotion pour l'Information Scientifique de l'Université Lyon 1. ce site propose une sélection de plus de 800 bases de données gratuites. On y retrouve parmi les catégories accessibles ausussi l'agriculture que les brevets, la génétique, l'informatique...
  • The Internet archives : Cette bibliothèque digitale conserve les anciennes pages du web pour constituer une bibliothèque numérique de l'Internet. Ce site fournit les documents créés à partir de 1996 (10 000 miliards de pages web mais aussi usenet et Arpanet). Cela  permet d'avoir accès aux pages dont les liens ne fonctionnent plus et aux anciennes versions de sites existants (très intéressant pour les sites de presse). Cela peut se révéler très utile compte tenu de la disparition fréquente de sites Internet.


                 2. 5. 1. Serveurs de banques de données

  • Questel-Orbit Il s'agit d'un service payant de bases de données dédiées à la propriété industrielle (Europe et Internationale ): brevets, marques et modèles,  informations scientifques et techniques, marques et noms de domaine Internet ; également affaires (fichiers et profils d'entreprises, défaillances, presse internationale, congrès...), actualités, sciences humaines et sciences sociales.
  • Lexis Nexis : service payant qui permet d'obtenir des informations personnalisées à travers la définition d'un profil de recherche concernant des acteurs, des marchés, des technologies ou des concurrents à partir de 35 000 sources (journaux, bdd,   rapports, brevets, etc...) indexés dans tous les domaines et pour de nombreux pays (plus de 90).


                 2. 5. 2. Les archives ouvertes

Les archives ouvertes permettent aux chercheurs de mettre en ligne leurs propres publications et donc de fournir des informations sans passer par des éditeurs. Ce mouvement a démarré grâce aux scientifiques mais il s'est développé et s'est ouvert à d'autres secteurs. Il s'agit donc de bases de données mises directement en ligne par les chercheurs.
Afin d'en savoir plus et d'obtenir des liens pour accéder à des archives ouvertes on peut consulter :

  • Fourmi élaboré par l'URFIST : ce site ne donne que des liens mais ceux-ci sont  très intéressants afin d'avoir des définitions et pour accéder à des archives ouvertes.

2. 6. Les Forums de discussion

Afin d'obtenir des informations on peut utiliser des forums de discussion. Il s'agit de sites internet où les internautes peuvent discuter sur un sujet donné, le plus souvent à condition de s'enregistrer. Chaque inscrit peur ouvrir un sujet auxquels les autres inscrits pourront répondre. Tous les posts sont archivés sur le site.
Les messages enregistrés sur les forums font partie du web invisible. Certains forums peuvent brasser des informations intéressantes, mais il convient de prendre certaines informations avec précaution. En effet les sources ne sont pas toujours qualifiées. Il faut se méfier des rumeurs, hoax et autres fausses nouvelles.
Il existe une multitude de forums de discussion sur n'importe quel sujet.
On peut notamment citer :

  • cybersciences : le forum du site de cybersciences, la science et la technologie pour tous, propriété de la Revue Québec Science qui publie le magazine Québec Science et d'autres publications. Québec Science est la propriété du Cégep de Jonquière.
  • Le forum des droits sur l'internet : site dirigé par un personnel de haut niveau (Conseiller d'Etat, secrétaire générale, chargé de mission, directrice de communication,...) qui est un espace d'information et de débat sur les questions de droit et de société liées à l'internet.
  • Google groupes : ce site de Google permet d'accéder à une liste de forum classés tout d'abord par thèmes (actualités, Commerce et finance...). Il permet de faire des recherches sur les archives de Usenet remontant jusqu'à 1981.
  • Foorum : présente près de 13 000 forums. On peut effectuer une recherche par thème (Arts et culture, Santé,...) ou en tapant un mot clef dans le moteur de recherche de la page d'accueil.

       2. 7. Les listes de diffusion

Une liste de diffusion permet aux internautes réunis (par abonnement) d'échanger autour d'un thème commun par l'intermédiaire des emails. C'est une ressource très importante pour se tenir informé de l'actualité de sa communauté, dialoguer avec des experts,...

Les messages échangés par les inscrits et enregistrés sur le site de la liste de diffusion font partie du web invisible. Il existe un grand nombre de listes de diffusion pour n'importe quel sujet. Voici quelques pistes pour rechercher une liste.

  • francopholistes : annuaire de listes de diffusion créé par la société PresenceWeb, spécialisée depuis 1996 dans la création et le développement de sites pour les webmasters. Ce site permet de rechercher parmi 6 105 listes de diffusion ou newsletters. On peut effectuer sa recherche par mots clés ou par catégorie.
  • CRU : WWSympa donne accès à l'environnement de listes de diffusion de sympa@cru.fr, le robot de listes du Coité Réseau des Universités. On y trouve notamment des listes de diffusion concernant la documentation et l'informatique.
  • CHU Hôpitaux Rouen : ce site donne une centaines de listes de diffusion traitant de domaines scientifiques et médicaux.
  • Mailbase donne accès à près de 2900 listes de diffusion de la communauté universitaire anglophone. Ce site dépend de l'University Computing Service de l'Université de Newcastle.

3. Experts et sites d’experts

Nous vous présentons ici quelques experts reconnus dans le domaine de la recherche d'information et de la veille pour aller plus loin dans la découverte du web invisible. Ce sont des professionnels qui pratiquent la recherche au quotidien, qui alimentent des sites web spécialisés et sont les auteurs de plusieurs ouvrages. Nous évoquons leurs parcours professionnels, puis nous indiquons leurs sites et leurs livres. La partie bibliographie contient les résumés des ouvrages afin de vous permettre de découvrir le contenu des documents.

3. 1. Chris Sherman et Gary Price

 

Gary Price, consultant en recherche d’informations et bibliothécaire diplômé en science de l’information, est le rédacteur de la newsletter ResourceShelf et le créateur de la Price’s List of Lists, une base de données thématiques de classements. Il est invité à de nombreux séminaires. Il vit à Washington D.C. 

Chris Sherman est le directeur de Searchwise, société de conseil dans les NTIC. Il collabore, entre autres, aux journaux Information Today, Econtent et Online. Il a plus de vingt ans d’expérience dans le développement multimédia et l’Internet.

Il a co-écrit avec Gary Price The McGraw-Hill CD ROM Handbook et The Invisible Web : Uncovering Information Sources Search Engines can’t see. Ils contribuent ensemble au site Searchenginewatch qui fournit des informations sur la recherche sur le web, sur les moteurs de recherche et sur la façon pour des détenteurs de sites d'être plus visibles sur le web. Ce site offre aussi la possibilité de s'abonner gratuitement à la newsletter qui s'intitule Searchday.

3. 2. Béatrice Foenix-Riou

Béatrice Foenix-Riou est rédactrice en chef de BASES et de NETSOURCES et formatrice.

Après un DEA de géographie, Béatrice Foenix-Riou s'est spécialisée dans la télématique et les nouvelles technologies de l'information. Entrée dans l'équipe de FLA consultants et de Bases Publications en 1986, elle est rédactrice en chef de BASES, la lettre mensuelle sur l’actualité des grands serveurs, du web invisible de CD-roms et de NETSOURCES, bimestriel consacré à la recherche sur Internet ; elle a rédigé de nombreux hors-séries de Netsources dédiés aux outils de recherche et de veille sur Internet.

Elle anime par ailleurs, tout au long de l'année, des formations intra et inter-entreprises sur le thème «Optimiser vos recherches sur le Web visible et invisible».

Elle est l'auteur de deux ouvrages :

  • Recherche et veille sur le Web visible et invisible, co-édité par Bases Publications et Les Editions Tec & Doc (2001). Cet ouvrage a reçu le prix du Livre Infocom de l'année 2001, lors du salon IDT/Net (salon des professionnels de l'information).
  • Guide de recherche sur Internet – outils et méthodes, co-édité par Nathan Université et l'ADBS (2002).

NB : ces ouvrages sont disponibles à la Bibliothèque de Fels dans le fond EBD.

3. 3. Christophe Asselin

Christophe Asselin est expert en recherche et veille Internet. Il est responsable en veille stratégique chez Digimind, société de conception de logiciels de veille. Ce travail l'amène à définir des plans de veille, concevoir l'architecture du système d'information de veille, former des équipes de veille, et assurer une veille sur les outils de recherche pour des clients dans différents secteurs. Il est le créateur et le rédacteur du site Intelligence-Center.com.


Il s’agit d’un site de référence pour la recherche d'informations, l’intelligence économique et la veille sur le net.
Il comprend une sélection d’outils de recherche (moteurs généralistes et spécialisés, de métamoteurs, d'agents intelligents, annuaires, cartographie du web), de mailings lists spécialisées dans la veille, d'outils pour mieux connaître Google, de moteurs pour explorer le web invisible, d’informations sur les sociétés (bilans, comptes de résultats), création et recherche de blogs, actualité des moteurs.

 

3. 4. Olivier Andrieu

Olivier Andrieu est consultant indépendant dans le domaine de l’Internet basé dans le Bas-Rhin (67). Ingénieur Supélec, spécialisé en télématique et système d'information, il travaille depuis 1996 sur l’Internet. Son activité aujourd'hui consiste essentiellement à former les utilisateurs aux outils de l'Internet, à la recherche d'information sur ce réseau et à la promotion d'un site Web pour obtenir une meilleure visibilité au travers de ces outils. 
Son activité éditoriale actuelle consiste à maintenir à jour les 20 sites du Réseau Abondance (dont Abondance ou Dico du Net), ainsi qu'à écrire des articles et des livres sur la recherche d'information et le référencement de sites web, notamment sur les sites de Voila, du Journal du Net et de l'Internaute.Il est également directeur de collection chez plusieurs éditeurs de livres informatiques et collabore aux revues papier .net et Technologies Internationales, le mensuel de veille technologique généraliste et multisectoriel.
 

Les sites essentiels :

  • Abondance - Recherche d'information et référencement. Outre l'actualité des moteurs de recherche, ce site contient des fiches sur les annuaires et les moteurs, un annuaire d'annuaires thématiques et de moteurs spécialisés. Les chercheurs du net doivent s'abonner à la lettre gatuite Actumoteurs pour se tenir au courant des nouveautés  concernant des moteurs qui vont de plus en plus loin dans l'indexation du web.
     
  • l'Internaute : la rubrique bien chercher sur le net avec Olivier Andrieu comporte un cinquantaine d'articles sur des sujets tels que la troncature, les annuaires, les forums de discussion ou la fonction cache de Google.

Ses derniers ouvrages parus sont :
Trouver l'info sur le Web
, chez Eyrolles, 2001.
Imaginer son site Web
, chez Microsoft Press / Dunod, 2001.
Google, le guide web
, chez Micro Application, 2003.
Google, Trucs de Pros
, chez Micro Application, 2004.


3. 5. Jean-Pierre Lardy

Jean-Pierre Lardy est Maître de conférences en Science de l’information et de la communication à l’Université Claude-Bernard-Lyon 1 ; ses enseignements portent sur la recherche d'information, la veille, les méta-données... Il est également codirecteur de l’URFIST de Lyon.

Il collabore aux sites :

  • URFIST de Lyon: Il s'agit du site d'une des sept unités régionales de formation et de promotion de l'information scientifique et technique. Il offre d'une part des ressources sur la recherche Internet, et d'autre part des base de données pour accéder au web invisible (archives ouvertes, thèses en lignes, bases de données bibliographiques...).
  • le blog  URFIST info, consacré à l'actualité en sciences de l'information, c'est-à-dire aux formations, aux colloques, aux logiciels, aux outils de recherche et aux différents sites webs (blogs, wikis, CMS). 
  • RISI - Recherche d’information sur Internet, une page listant les meilleurs outils de recherche.
  • DADI - les bases de données gratuites sur Internet.

 
Il est l’auteur de Recherche d'information sur Internet : méthodes et outils, 7ème édition complétée et mise à jour en mai 2001, Sciences de l’information, série Recherches et documents (ISSN 1159-7666), 2001 - 131 pages - ISBN 2-84365-0.

 

3. 6. Marcus Zillman

Spécialiste de bases de données en ligne depuis 25 ans , animateur et producteur de Internet-101.com, une émission hebdomadaire qui retrace l'actualité de l'Internet, Marcus Zillman est le fondateur de Blogspot. Il est actuellement le PDG de BotTechnology.com, un groupe "qui travaille dans la conception de bots et d'agents intelligents spécialisés dans la recherche d'informations sur le Web invisible, avec un intérêt particulier pour les langages de communication entre agents".

Il participe à plusieurs sites et weblogs :

Il a écrit huit livres sur le thème de l'Internet, dont le dernier  en collaboration avec S. Kadayam :
Mining the invisible Web - Leveraging the Vast Resources of Hidden Content on the Internet Research and Intelligence

Les autres titres sont disponible sur ses sites

3. 7. Bibliographie


Titre : Uncovering the Hidden Web, Part 1: Finding what the search engines don't
Auteur(s) : Marcia Mardis
Éditeurs : ERIC Clearinghouse on Information & Technology, Syracuse University
Date de publication : 2001
ASIN : B000116Y94
Résumé : Cet article de Marcia Mardis,  coordinatrice de programme et spécialiste du media Internet au Center to Support Technology in Education at Merit Network, Inc., fait le point sur l'importance croissante du web invisible et sur les méthodes utilisées pour la recherche d'information. Selon elle les méthodes ont peu évoluées. Ce document apporte ainsi des explications et des aides afin de s'adapter à la recherche d'information dans le web invisible, démarche d'autant plus nécessaire que l'information s'y trouvant se révèle bien souvent de qualité.
__________________________________________________________________________

Titre :  Uncovering the Hidden Web, Part 2: Ressources for your classroom
Auteur(s) : Marcia Mardis
Éditeurs : ERIC Clearinghouse on Information & Technology, Syracuse University
Date de publication : 2001 
Résumé: Ce deuxième article de Marcia Mardis propose des sites de type bases de données, annuaires afin de trouver des informations qui font partie du web invisibe. Il doit ainsi permettre à des professeurs de trouver plus facilement de l'information à laquelle ils auraient eu des difficultés à accéder voir n'auraient pas pu y accéder en utilisant des outils de recherche classiques.
__________________________________________________________________________

The_hidden_web_finding_qlity_info_on_the_1

Titre : The Hidden Web: Finding Quality Information on the Net
Auteur(s) : Maureen Henninger
Éditeurs : University of New South Wales Press
Date de publication : 2004
Pages : 284
ISBN : 0-8684-0566-3
Prix : environ $13.57
Résumé : Dans de cet ouvrage, Maureen Henninger, auteur de Don’t Just Surf: Effective Research Strategies for the Net, spécialiste du Knowedge Management à l'University of Technology, Sydney, traite de la difficulté de trouver des informations pertinentes au sein du web. Ainsi, selon elle, la recherche d'information de qualité est devenu l'objectif majeur. Mais cette information reste souvent cachée pour la plupart des utilisateurs. Ce livre montre que le web invisible va engendrer de nouvelles stratégies pour rechercher les informations cachées.   

__________________________________________________________________________

Recherche_wi_bfoenixriou_1

Titre : Recherche et veille sur le Web visible et invisible : agents intelligents, annuaires sélectifs, interfaces des grands serveurs, portails thématiques
Auteur(s) : Béatrice Foenix-Riou
Éditeurs : Tec et Doc, Bases publications
Date de publication : 2001
Pages : 233
ISBN : 2-7430-0450-9
Prix : environ 56,00 €
Résumé :
Pour surfer sur le web invisible cet ouvrage de Béatrice Foenix-Riou, rédactrice de Bases Publication propose des méthodologies de recherche, des modes d'emploi détaillés des outils les plus performants, recense des guides et annuaires sélectifs, des sites fédérateurs, des annuaires thématiques, des agents pour la recherche et la veille...

 

__________________________________________________________________________

The_invisible_web_csherman_gprice_1
Titre : The Invisible Web: Uncovering Information Sources Search Engines Can't See
Auteur(s) : Chris Sherman, Gary Price
Éditeur : Cyberage Books
Date de publication : janvier 2001
Pages : 402
ISBN : 091096551X
Prix : 24,42 € sur amazon.fr
Résumé : Cet ouvrage de deux spécialistes de web invisible, Chris Sherman et Gary Price propose des clefs de découverte du web invisible. Ils y présentent les principaux outils de recherche du web visible puis abordent les outils spécialisés. Des mises à jours régulières des nouveaux outils sont disponibles sur leur site Invisible-web.net. Un livre de référence.

 

Les auteurs du dossier documentaire sur le web invisible

  • Myriam Baumendel : 41 ans, titulaire d'un BA (Hons) (2:1) en Applied Language Studies (Espagnol, Allemand) Spécialité Politiques espagnole, allemande et britannique (Thames Valley University). Formation à l'ESIT (1 an) en interprétation de conférence (consécutive) Anglais, Espagnol. Titulaire du CaPES d'Anglais (Littérature, Civilisation) session 1998 (Paris III Sorbonne Nouvelle) . Maitrise en Traduction spécialiséé Anglais, Espagnol (Lille III). Expérience en secrétariat juridique, traduction et interprétation free-lance et en entreprise, Enseignement (collège, lycée 2 ans). Etudiante à l'EBD en première année.
  • Marie-Hélène Bouboutou : 23 ans, titulaire d'un licence en sociologie et étudiante en documentation à l'EBD. Stagiaire chez UGGC avocats et associés (mars 2005) et à la bibliothèque de l'Ordre des experts-comptables (juin-août 2005).

  • Christelle Druez : 23 ans, préparant une maîtrise d'Histoire, Etudiante en documentation à l'EBD,Stagiaire chez Kerops (janvier-juin 2005), Lamy et Lexel avocats associés ( juin-juillet 2005 ) et à la médiathèque de Lodève ( septembre 2005).
    Voir mon CV.

  • Mélanie Formery : 26 ans, titulaire d'une licence en économie et politique, spécialisée sur l'Afrique. Etudiante en documentation à l'EBD. Stagiaire à l'IDF , Institut pour le développement forestier (mars et juillet-septembre 2005).

  • Laurent Lavail : 26 ans, titulaire d'une maîtrise d'Histoire. Etudiant en documentation à l'EBD, 1ère année. Stagiaire à l'IHEDN (mars 2005), Thales Optronique (juin-septembre 2005). Webmestre et modérateur de forums Internet.
    Voir mon CV.

  • Benjamin Pascal :28 ans, titulaire d'une maîtrise de biologie. Etudiant en documentation à l'EBD, 1ère année. Professeur des écoles en 2003-2004, stagiaire au Centre de Ressources Multimedia de l'Alliance française (mars 2005), Campus Veolia environnement (juin-août 2005).

        Voir mon CV

      






Google
Le Web Dossier documentaire