John Mueller de Google a écrit une explication très détaillée et honnête sur les raisons pour lesquelles Google (et les outils de référencement tiers) n’explorent pas et n’indexent pas chaque URL ou lien sur le Web. Il a expliqué que le crawling n’est pas objectif, qu’il est coûteux, qu’il peut être inefficace, que le Web change beaucoup, qu’il y a du spam et du courrier indésirable et que tout cela doit être pris en compte.
John a écrit cette réponse détaillée sur Reddit en expliquant pourquoi « Pourquoi les outils de référencement n’affichent-ils pas tous les backlinks ? » Mais il y a répondu du point de vue de la recherche Google.
Il n’existe aucun moyen objectif d’explorer correctement le Web.
Il est théoriquement impossible de tout explorer, car le nombre d’URL réelles est effectivement infini. Étant donné que personne ne peut se permettre de conserver un nombre infini d’URL dans une base de données, tous les robots d’exploration Web font des hypothèses, des simplifications et des suppositions sur ce qui vaut réellement la peine d’être exploré.
Et même dans ce cas, pour des raisons pratiques, vous ne pouvez pas explorer tout cela tout le temps, Internet n’a pas assez de connectivité et de bande passante pour cela, et cela coûte très cher si vous souhaitez accéder régulièrement à de nombreuses pages. (pour le crawler et pour le propriétaire du site).
Après cela, certaines pages changent rapidement, d’autres n’ont pas changé depuis 10 ans. Les crawlers essaient donc d’économiser leurs efforts en se concentrant davantage sur les pages qu’ils s’attendent à modifier, plutôt que sur celles qu’ils s’attendent à ne pas modifier.
Et puis, nous abordons la partie où les crawlers essaient de déterminer quelles pages sont réellement utiles. Le Web est rempli de déchets dont personne ne se soucie, de pages qui ont été spammées jusqu’à devenir inutiles. Ces pages peuvent encore changer régulièrement, elles peuvent avoir des URL raisonnables, mais elles sont juste destinées à la décharge, et tout moteur de recherche qui se soucie de leurs utilisateurs les ignorera. Parfois, il ne s’agit pas seulement de bric-à-brac non plus. De plus en plus, les sites sont techniquement corrects, mais n’atteignent tout simplement pas « la barre » d’un point de vue de la qualité pour mériter d’être explorés davantage.
Par conséquent, tous les robots d’exploration (y compris les outils de référencement) fonctionnent sur un ensemble d’URL très simplifié, ils doivent déterminer la fréquence d’exploration, les URL à explorer plus souvent et les parties du Web à ignorer. Il n’y a pas de règles fixes pour tout cela, donc chaque outil devra prendre ses propres décisions en cours de route. C’est pourquoi les moteurs de recherche ont des contenus indexés différents, pourquoi les outils de référencement répertorient différents liens, pourquoi toutes les mesures construites sur ceux-ci sont si différentes.