Parmi plusieurs centaines de millions de sites web, les moteurs de recherche nous aident à trouver des informations. Comment fonctionne réellement un moteur de recherche ?
Qu’il s’agisse de Google, Bing, Yahoo!, ou n’importe quel autre moteur de recherche : leur fonctionnement repose sur 4 étapes : l’exploration, l’indexation, le traitement des données et la recherche.
Les robots d’exploration

Chaque moteur de recherche est doté d’un code appelé : robot d’indexation. On appelle aussi ces robots : “bot”, “spiders” ou “crawler”. Il s’agit d’un logiciel permettant d’analyser et de capter des ressources (pages, documents, musiques, vidéos etc.) à partir de tous les hyperliens présents sur les pages Web.
En pratique, le crawler est comme “un internaute fou” : dès qu’il détecte un nouvel hyperlien, il visite cette nouvelle page web et détecte de nouveaux hyperliens. Son exploration se poursuit en visitant tous les nouveaux liens sans jamais s’arrêter…
L’indexation

À chaque fois que le robot visite une page web, il en copie le contenu et le stocke dans les serveurs du moteur de recherche. Ensuite, le robot extrait les mots-clés de chaque page et les répertorie dans une gigantesque base de données appelée index.
C’est un peu l’annuaire du web. Plus une page est visitée ou modifiée et plus régulièrement elle sera indexée à nouveau.
Le traitement des données

À cette étape, les serveurs effectuent un classement dans l’index. Tous les documents webs sont référencés par ordre de pertinence selon des critères précis :
- le contenu
- les balises META (titres, description etc.)
- les liens externes (vers d’autres sites web)
- les liens internes (vers le même site)
- la fréquence de publication du site
- la “propreté” du code html
- la rapidité de chargement de la page
Ce sont ces règles de référencement que les webmasters respectent afin de permettre à leur site d’apparaître en tête de classement en fonction de certains mots-clés. Les annonceurs achètent des mots-clés auprès des moteurs de recherche pour y associer des pages publicitaires.
La recherche

Cette dernière étape restitue les résultats à l’utilisateur. Un algorithme est utilisé pour proposer les documents qui correspondent le mieux aux mots-clés saisis dans la requête. Il y a aussi :
- un correcteur orthographique qui corrige les erreurs des mots-clés saisis par l’utilisateur.
- un anti-dictionnaire qui supprime tous les mots non significatifs qui ne doivent pas influencer la recherche. Par exemple : “le”, “la”, “du” etc.
- un lemmatiseur qui résume les phrases recherchées aux mots les plus pertinents.
En résumé :
- Tous les moteurs de recherche fonctionnent en 4 étapes : l’exploration, l’indexation, le traitement des données et la recherche.
- Chaque moteur de recherche est doté d’un code appelé : robot d’indexation. Il analyse et capte les ressources (pages, documents, musiques, vidéos etc.) à partir de tous les hyperliens présents sur les pages Web.
- Le robot extrait les mots-clés de chaque page et les répertorie dans une gigantesque base de données appelée index.
- Tous les documents webs sont référencés par ordre de pertinence selon des critères précis.
- Lorsqu’un utilisateur effectue une recherche : un algorithme propose les documents qui correspondent le mieux aux mots-clés saisis dans la requête.
Top cet article ! Les informations sont claires et très accessibles !