Lorsque vous demandez l’indexation des pages de votre site,
les moteurs de recherches utilisent des robots qui accèderont à votre site par
le lien que vous aurez transmis.
En suivant ce lien, les robots des moteurs de recherche
parcourront votre page pour visualiser le code HTML et le transmettre au moteur
de recherche qui se chargera de l’analyser et le référencer.
Mais il ne s’arrête pas là, il suivra l’ensemble des liens
internes et externes que contient votre page pour également les transmettre au
moteur de recherche et les indexer sur celui-ci.
Cette visite rendue sur les pages de votre site s’appelle le
«crawl».
Comment se passe le crawl
Les robots ont une limite de temps lorsqu’ils visitent votre
site, c’est le Crawl Budget, c’est-à-dire que lorsqu’ils viennent, ils n’auront
pas le temps de parcourir l’ensemble des pages de votre site et ne transmettront
qu’une partie de votre site au moteur de recherche, seules ces pages-là seront
donc indexées.
Le nombre de pages crawlées sur l’ensemble de votre site
représente le taux de crawl, plus votre taux sera élevé plus vous aurez de
pages de votre site indexées et plus votre site sera mieux positionné.
Il est donc considéré qu’un taux de crawl supérieur à 80%
est une bonne note et qu’un taux inférieur à 20% est insuffisant, mais le taux
dépend avant tout du nombre de pages présentes sur votre site.
Si votre site possède plus de 1000 pages, cela prendra plus
de temps aux moteurs de recherche pour toutes les parcourir qu’un petit site d’e-commerce
de 40 pages, et donc plus de temps pour voir le taux de crawl s’élever.
Mais précisons que plus un site a de contenu de qualité,
plus il sera pertinent aux yeux des moteurs de recherche, le taux de crawl à
lui tout seul ne vous assurera donc pas forcément une position optimale si
votre site ne possède que trois pages, d’où l’utilisation de blogs dans la majorité des stratégies SEO.
Les moteurs de recherche explorent plus régulièrement les
sites ayant un plus grand nombre de visiteurs, c’est pour cela que les sites
les plus populaires seront donc crawlés plus souvent et donc indexés plus
rapidement que les petits sites.
Il s’agit donc d’un travail de longue haleine puisque pour
que obtenir des visiteurs, il vous sera nécessaire d’avoir un site bien
référencé tout en sachant qu’il faudra obtenir des visiteurs pour être
référencé plus rapidement et donc toujours mieux.
Optimiser le Crawl
Les performances du site
Tout d’abord, puisque les robots ont un temps limité pour
parcourir votre site, plus les pages de votre site se chargeront rapidement
plus les robots pourront les parcourir rapidement et passer aux suivantes, ce
qui assure un taux de crawl plus élevé.
Il faut donc s’assurer que votre site soit optimisé pour que
ses pages chargent rapidement, c’est l’occasion de faire d’une pierre deux
coups puisque l’expérience utilisateur s’en verra boostée.
A noter qu’il est conseillé que le temps de chargement d’une
page soit inférieur à 3 secondes, au-delà de ce temps votre site est considéré
comme moins performant.
Vous avez plusieurs outils pour estimer le temps de
chargement de vos pages et obtenir des conseils pour l’améliorer, vous pouvez
retrouver l’outil de Google prévu à cet effet.
L'arborescence du site
Pour la suite, il est nécessaire à votre site de posséder
une bonne arborescence afin que tous les éléments importants soient accessibles
en moins de trois clics, cela permettra aux robots d’obtenir plus de chances de
les visiter.
Imaginons pour un site d’e-commerce, en arrivant sur la page
d’accueil, l’ensemble des catégories de produits doit être accessible
directement, et en arrivant sur les pages catégories l’ensemble des produits
doit être accessible.
Le maillage interne
Ensuite, il faut que le maillage interne du site soit fait
de telle sorte que le robot ait plus de chances de tomber sur les pages
importantes, c’est-à-dire que les pages les plus importantes doivent être
celles qui sont ciblées par le plus de liens internes en quantité.
Bien entendu cela va dans les deux sens, les pages les moins
intéressantes doivent être les moins ciblées en nombre de liens.
Le robot.txt
Puisque les robots des moteurs de recherche ne passent qu’un
temps limité sur votre site, il est alors primordial de s’assurer qu’ils ne
perdent pas de temps sur des pages inutiles comme la page de contact ou les
pages trop lentes à charger.
Pour cela, il existe un fichier «robots.txt», celui-ci
permet d’indiquer aux robots les pages qu’il ne doit pas crawler, afin qu’il se
concentre sur les pages les plus intéressantes en termes de SEO et mots clés.
Le sitemap
Enfin, les sitemaps jouent un rôle non négligeable dans le
crawl puisqu’il s’agit des URLs que vous considérez comme importantes.
Si vous soumettez un sitemap aux moteurs de recherche, ils
exploreront les URLs plus rapidement et plus souvent que le reste des URLs.
Le sitemap se montre donc utile pour les sites avec un
maillage interne plutôt faible (lorsque le site est récent et possède peu de
pages, ou pour les très gros sites et mieux organiser le crawl et mieux suivre
les modifications récentes à indexer.
Toutefois s’il s’agit d’un sitemap automatisé qui contient
tous les liens du site, les moteurs de recherche n’accorderont pas d’importance
à celui-ci et procéderons au crawling à la manière habituelle en parcourant
leur site avec les paramètres «par défaut».
Faire son propre Crawl
Il vous est également possible d’utiliser des outils comme
Screaming Frog permettant de faire un crawl de son site et vérifier que tout se
passe comme cela devrait, cela permet de repérer les URLs qui pourraient
ralentir le crawl des moteurs de recherche et donc votre référencement, ce qui
sera l’occasion de les filtrer par le biais du fichier robot.txt.
Cela fait un bon nombre d’éléments à prendre en compte, d’autres
peuvent entrer en compte dans une moindre mesure, en prenant en compte ces
points essentiels vous aurez déjà amélioré la qualité du crawl pour rendre
votre indexation plus compétitive.