Les moteurs de recherche explorent constamment le web pour découvrir les pages. On parle de « collecte » ou « crawling ». comment s’appelle le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requètes des internautes ?
Dans cet article
- Qu’est-ce qu’un robot d’exploration ou le crawl ?
- Qu’est-ce que l’indexation ?
- Quelle est la différence entre l’exploration et l’indexation ?
- Importance de l’exploration et de l’indexation pour votre site Web
Le moteur de recherche doit cataloguer rapidement et efficacement l’ensemble de l’Internet. La taille et la portée d’Internet sont énormes : il contient des millions de sites Web et de pages. Google a exploré plus de 1 000 milliards de pages sur Internet, une étape franchie en 2008. En 2013, Google explorait plus de 30 000 milliards de pages. Google a découvert plus de 130 milliards de pages en moins de 4 ans. Ce taux de croissance étonnant est stupéfiant, et c’est un énorme accomplissement de trouver toutes ces pages.
Pour s’assurer que le contenu d’un site est indexé par Google, le moteur de recherche doit explorer et indexer correctement chaque site Web sur Internet. Avoir une bonne compréhension du processus d’indexation de Google est crucial pour quiconque souhaite améliorer son référencement.
Qu’est ce que le Crawling ?
L’exploration consiste à suivre des liens d’une page vers de nouvelles pages et à continuer à rechercher et à suivre des liens sur de nouvelles pages vers d’autres nouvelles pages.

Un robot d’exploration Web est un logiciel qui suit tous les liens d’une page, pointe vers de nouvelles pages et poursuit le processus jusqu’à ce qu’il n’y ait plus de nouveaux liens ou pages à explorer.
Les robots d’exploration du Web portent différents noms : crawlers, spiders, crawlers des moteurs de recherche ou simplement « bots ».

Ils sont appelés bots car ils ont un travail assigné à faire, allant de lien en lien et capturant des informations de chaque page.
Malheureusement, si vous pensez à un vrai robot, ce n’est pas à cela que ressemblent ces robots. Le robot d’exploration de Google s’appelle Googlebot.
Le moteur de recherche effectue un classement selon les critères :
Qu’est ce que l’indexation ?
Un index est le stockage et l’organisation des informations trouvées sur une page. Le bot restitue le code sur la page de la même manière que le navigateur. Il catalogue tout le contenu de la page, les liens et les métadonnées.
Les moteurs de recherche explorent constamment le web pour découvrir
L’indexation nécessite beaucoup de ressources informatiques, pas seulement le stockage des données. L’affichage de millions de pages web nécessite des ressources informatiques importantes. Si vous avez trop d’onglets de navigateur ouverts, vous l’avez peut-être remarqué !

Conclusion – Les moteurs de recherche explorent constamment le web pour découvrir
En conclusion nous avons vu des exemple de fonctionnement de l’indexation et du crawling. Nous avons également évoqué les critères utilisés par les moteurs de recherche pour effectuer un classement.