Comment s’appelle le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes ?

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Comment s’appelle le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes ? Cet article de blog cherche à répondre à cette question.

Dans cet article :

  1. Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes
  2. Qu’est-ce qu’un robot d’exploration ? C’est quoi le crawling ?
  3. Qu’est-ce que le rendu ?
  4. Quelle est la différence entre le crawling et l’indexation ?
  5. Comment vérifier les problèmes d’exploration et d’indexation

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Les moteurs de recherche comme Google doivent cataloguer rapidement et efficacement l’ensemble de l’Internet. Sa taille et sa portée sont immenses. Combien y a-t-il de sites Web et de pages ?

Google explore des milliards de pages. Google a exploré plus de 130 000 milliards de pages en moins de 4 ans. Découvrir toutes ces pages est un exploit incroyable. En crawlant de nouvelles pages, trouver de nouvelles pages qui suivent les liens devient un processus appelé crawling.

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Un robot d’exploration Web est un programme informatique qui suit tous les liens d’une page vers de nouvelles pages ; il continue à le faire jusqu’à ce qu’il n’ait plus de nouveaux liens à suivre ou de pages à explorer. Différents noms sont donnés aux robots d’indexation Web : robots, araignées, robots des moteurs de recherche ou simplement « bots » en abrégé.

Qu’est-ce qu’un robot d’exploration ? C’est quoi le crawling ?

Lors du démarrage du processus d’exploration, Google utilise généralement une liste de sites Web de confiance pour commencer. Ces sites Web ont tendance à créer des liens vers de nombreux autres sites Web encore inconnus. Google utilise également des sitemaps et des sites Web qu’ils ont vus lors d’explorations précédentes. une exploration constante est nécessaire pour les recherches Internet d’un moteur de recherche.

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Cela ne finit jamais. Les moteurs de recherche réfléchissent soigneusement aux pages à inclure dans leurs résultats. Ils ne veulent pas perdre leur temps ou leurs ressources sur des pages qui ne sont pas des candidats valables pour un résultat de recherche.

Au lieu de cela, ils souhaitent concentrer leurs efforts sur la recherche de pages nouvelles ou mises à jour susceptibles de répondre aux critères d’inclusion. Google considère le nombre de pages explorées comme une priorité.

Qu’est-ce que le rendu ?

Les navigateurs Web montrent directement aux utilisateurs le processus de rendu, qui consiste à interpréter leurs codes HTML, CSS et JavaScript pour créer une représentation visuelle de la page.

Google peut comprendre le code HTML et traiter ses graphiques à l’aide de ressources informatiques. Tout ce qui s’appuie sur JavaScript pour afficher les pages doit utiliser une grande puissance de traitement.

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Pour cette raison, Google ne peut pas traiter et afficher les pages qui reposent sur JavaScript. Au lieu de cela, ces pages entrent dans une file d’attente de priorisation.

Les grands sites Web avec beaucoup de contenu de page nécessitent beaucoup de temps pour indexer les pages nouvelles ou mises à jour. Il est recommandé de produire des pages en HTML au lieu de JavaScript pour indexer plus rapidement. Si votre site nécessite Javascript pour afficher la sortie, l’indexation de nouvelles pages peut prendre beaucoup de temps.

Quelle est la différence entre le crawling et l’indexation ?

Le Crawling est la découverte de pages et de liens qui mènent à plus de pages. L’indexation consiste à stocker, analyser et organiser le contenu et les connexions entre les pages. Certaines parties de l’indexation aident à informer sur la façon dont un moteur de recherche explore.

Si votre site Web est surchargé d’erreurs ou de pages de mauvaise qualité, Google pourrait avoir l’impression que le site est principalement constitué de pages indésirables inutiles. Les erreurs de codage, les paramètres CMS ou les pages piratées peuvent envoyer Googlebot vers des pages de mauvaise qualité. Lorsque la mauvaise qualité l’emporte sur les pages de haute qualité sur un site Web, les classements de recherche en souffrent.

Comment vérifier les problèmes d’exploration et d’indexation

Vous pouvez voir comment Google indexe votre site Web avec la commande « site : » – un opérateur de recherche spécial. Entrez ceci dans le champ de recherche de Google pour voir toutes les pages qu’ils ont indexées sur votre site Web :

site:votredomaine.com
Vérifiez que les titres et les descriptions sont indexés de manière à offrir la meilleure expérience. Assurez-vous qu’il n’y a pas de pages inattendues, étranges ou quelque chose d’indexé qui ne devrait pas l’être.

Le crawling est le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes

Google search console est un outil qui vous permet d’obtenir les performances de recherche des pages de votre site. Cela vous donnera une idée de comment Google effectue sont processus de crawling et d’indexation.

Exemple de données fournies par Google search console
Exemple de rapport d’indexation dans Google search console

Liens internes et externes – Comment s’appelle le processus qu’utilisent les moteurs de recherche pour extraire et évaluer les mots des pages web afin de pouvoir répondre aux requêtes des internautes ?

Le Web expliqué en moins de 128 mots

Internet est un réseau informatique, le Web est un réseau d’information qui sont reliées entre elles par l’hypertexte.

Le serveur Web fournit les informations quand on lui demande : des requêtes qui sont faites par des clients Web.

Le navigateur permet de consulter les informations, il envoie une requête HTTP sur le réseau internet.

Le moteur de recherche répond par une liste d’url. Les pages Web contiennent du code HTML décrit la structure et le contenu du document. La feuille de style CSS contient la mise en forme du code.

Le navigateur interprète HTML et CSS et l’affiche lisible par l’internaute. Les Robots du moteur de recherche sont appelés des « araignées » il parcourt les pages Web et leurs liens : ils font du crawl de site web.

PageRank Python – Implémentation de l’algorithme en python

PageRank python est un algorithme utilisé par Google Search pour classer les sites Web dans les résultats de leurs moteurs de recherche. PageRank est un moyen de mesurer l’importance des pages de site Web.

pagerank python

Introduction :

Ce n’est pas le seul algorithme utilisé par Google pour ordonner les résultats des moteurs de recherche, mais c’est le premier algorithme utilisé par la société, il est le plus connu.

Le PageRank d’une page est calculé à partir de la somme du PageRank des pages avec un lien entrant à la page calculée que l’on divise par le nombre de pages sortantes de cette dernière, on applique un facteur d’atténuation pour symboliser la probabilité que l’utilisateur surfe sur une autre page.

Implémentation pagerank python :

J’installe networkx, c’est un package Python pour la création, la manipulation et l’étude de la structure, de la dynamique et des fonctions de réseaux complexes.

Networkx fournit des structures de données et des méthodes pour stocker des graphes que j’utilise pour l’algorithme pagerank.

import networkx as nx
import numpy as np

graphe=nx.DiGraph()

tableauPages = ["A","B","C"] #Exemple de page rank avec 3 pages
graphe.add_nodes_from(tableauPages) #Ajout des sommets du graphe

#on ajoute des arcs, on a :
#la page A a un lien vers B 
#la page B a un lien vers C
#la page C a un lien vers B
#la page C a un lien vers A
# la page B a 2 lien entrant
# la page C a un lien entrant 2 liens sortant
# la page A a un lien entrant un lien sortant
graphe.add_edges_from([('A','B'), ('C','A'),('B','C'), ('C','B')])
print("Sommets du graphe : ")
print(graphe.nodes())
print("Arrêtes du graphe : ")
print(graphe.edges())
#Si on considere un facteur d'attenuation de 0.85 = d
# la formule du page rank est :
#PR(p) = (1-d)/n + d * Somme de toutes les pages(PR(i) des lien entrants à p/nombre de lien sortant de la page qui reference p)
# PR(A) = (1-0,85)/3 + 0,85 * (PR(C)/2)
# PR(B) = (1-0,85)/3 + 0,85 * (PR(A)/1 + PR(C)/2)
# PR(C) = (1-0,85)/3 + 0,85 * (PR(B)/1)

pagerank = nx.pagerank(graphe)
print(pagerank)

Pagerank python liens externes :

https://fr.wikipedia.org/wiki/M%C3%A9thode_des_k_plus_proches_voisins

https://www.python.org/

https://www.educative.io/blog/python-algorithms-coding-interview

Liens internes :

https://128mots.com/?s=dijkstra