Recherche sur Internet (6)… La pertinence



Ce qu’on attend d’un moteur de recherche, c’est la pertinence. C’est une évidence. Les méthodes pour arriver à une qualité de résultats ont varié au fil du temps. Tout d’abord les moteurs de recherche (search engines) n’étaient pas les seuls à vous renseigner entre 1990 et 1998 ; il y avait aussi les annuaires. Yahoo était un annuaire (directory). C’est à dire une taxonomie ; une classification du vivant et non-vivant par embranchements et sous embranchements.

Exemple très schématique de taxonomie

Les annuaires étaient plus pertinents, alors que les moteurs de recherche étaient plus exhaustifs. Le talon d’Achille des annuaires : ils étaient alimentés par des êtres humains (des cyberdocumentalistes) avec tout ce que cela implique de coût en masse salariale et de cadence de travail. Impossible de lutter contre des moteurs de recherche, des machines (robots logiciels) qui indexaient des sites à une cadence infernale et ce 24h/24 et 365j/365. Ce que mettaient en avant ces outils, c’était l’exhaustivité des résultats.

Le classement des résultats se faisait selon un critère simple. Plus il y avait d’occurrences du mot recherché (densité) dans une page plus celle-là s’approchait de la première place dans la page de résultats. Un autre critère était la présence de mots clés dans le <head>, partie non visible du site par un Internaute mais que lisait les moteurs de recherche. Le classement final n’était fait que par un algorithme (pondération) de ces critères et quelques autres. La faille, le webmestre pouvait aisément tricher en truffant sa page de mots clés. Un autre problème venait du fait qu’un moteur de recherche n’était pas capable de faire de la synonymie, en d’autres termes de dégager une thématique. Prenons l’exemple d’un site de 4 pages : la première traite de guitare, la deuxième de clavecin, la troisième de clarinette et enfin la dernière de violon. Chaque page pouvait prétendre à un bon classement en fonction de l’instrument qu’elle décrivait. Toutefois, le site ne serait pas ressorti sur la requête « instruments de musique » parce que cette suite de mots ne se trouvait nulle part dans le site en question.

Nous ne parlons ici que des résultats naturels du moteur de recherche, ceux qui ont été classiquement indexés par l’outil. Nous l’avons vu, Google réserve les 3 premières places à des annonceurs, ces sites qui ont payé pour être en tête de la page de résultat (voir achat de mots clés aux enchères).

Google est arrivé en 1998 dans le monde de la recherche sur Internet avec une idée nouvelle. Le classement ne se ferait plus en fonction de la densité du mot clé dans une page mais serait le reflet de la popularité du site. C’est ce qu’on appelle le Page Rank. Pour mesurer la popularité d’un site A, Google indexait tous les autres liens de sites tiers qui pointaient vers le site A. L’idée est de dire, si B, T, O et X pointent vers (c’est à dire recommandent) le site A, c’est que le site A est populaire, donc sa pertinence est meilleure que le site F vers lequel aucun site extérieur ne pointe et ce indépendamment du nombre d’occurrences du mot clé recherché dans le site A. Vous me direz, il suffit de créer des sites S, P, K, M et B avec un lien vers le site A pour augmenter sa note de popularité. Google a trouvé la parade. Pour que les points de popularité que S, P, K, M et B donnent à A pèsent vraiment dans la balance, il faut que ces sites soient eux-mêmes populaires. Et ainsi de suite sur plusieurs niveaux de profondeur.

Si monsieur Martin, un particulier, mais un expert au Bridge, fait un petit blog où il explique de façon très vulgarisée et exhaustive les règles du Bridge, se voit recommandé par la Fédération Français de Bridge, elle-même, il gagnera plus de popularité que si madame Janvier met un lien vers le site de monsieur Martin depuis son propre blog.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

© Boulanger Jean Informatique
Versailles & Le Chesnay