fbpx

L’analyse de logs pour améliorer son SEO

Semji > SEO > L’analyse de logs pour améliorer son SEO

Élément incontournable du volet SEO technique, l’analyse de logs sert à révéler des informations extrêmement importantes pour améliorer votre référencement naturel, notamment en vous offrant une vision fidèle de ce que le géant Google perçoit de votre site. Appliquée au SEO, cette analyse se focalise uniquement sur les logs générés par Google et les moteurs de recherche au sens large. Les logs correspondent à un fichier généré par un serveur web contenant des requêtes reçues par le serveur. L’analyse des logs serveur sert à apprécier avec une précision chirurgicale et une fiabilité sans égal le crawl effectué par l’ensemble des robots des différents moteurs de recherche (Googlebot, Bingbot, Yahoo, Yandex) sur votre site. Google possédant 94% des parts de marché en France et 92,2% dans le monde, nous allons nous intéresser au passage du Googlebot lors de cet article.

 

Part de marché des moteurs en France (Source : StatCounter, infographie WebRankInfo)

 

Au-delà de cet aspect, l’analyse du fichier log permet aussi de mettre le doigt sur toutes les erreurs SEO qui relèvent du socle technique. Elle se révèle particulièrement utile en amont d’une refonte SEO par exemple.

L’agence SEO Semji vous invite dans cet article à faire le focus sur les avantages d’une analyse de logs pour votre SEO, ainsi que sur la méthodologie à adopter pour réussir et les conclusions à en tirer.

Logs serveur, qu’est-ce que c’est ?

Au sens large, le fichier de logs permet de stocker l’ensemble des événements qui se produisent sur le serveur. Tel un journal de bord, les logs serveur sont d’une aide précieuse pour comprendre ce qu’il se passe réellement sur un site web.

Dès qu’un navigateur ou qu’un user-agent tentent d’accéder à certaines ressources de votre site web (page, image, fichier…) et qui transitent par le serveur, une nouvelle ligne s’inscrit dans ce fameux fichier de logs. Au fur et à mesure du temps, une quantité astronomique de données s’accumule. Les étudier ouvre des perspectives d’amélioration intéressantes pour votre SEO.

Le fichier de logs serveur se présente le plus souvent sous la forme access.log et laisse entrevoir des données telles que :

  • L’adresse IP à l’origine de la demande
  • Le moteur de recherche utilisé
  • Le nom de l’hébergeur
  • Le code de statut HTTP (200, 404, 301…)
  • La date et l’heure à laquelle la requête a été faite
  • L’heure et la date où le robot est venu explorer votre site
  • le système d’exploitation utilisé

Comment faire une analyse de logs ?

Il existe plusieurs outils pour réaliser cette opération que nous citerons plus loin dans l’article. La première chose à réaliser pour effectuer l’analyse de vos logs est d’importer un fichier de log puis d’indiquer la racine de votre site à l’import. Vous pouvez ainsi voir l’état de santé de votre site par rapport au crawl de Google. Ensuite, selon l’outil utilisé, il y a différentes vues des crawls du bot de Google.

 Source : OnCrawl

 

Par la suite, il faut croiser différentes données entre les logs obtenus par les bots de Google et ceux obtenus par votre outil de crawler. Vous pouvez ensuite trier les informations qui ne vous intéressent pas. Par exemple, il est judicieux de récupérer la liste des pages les plus crawlées pour voir s’il y a une corrélation entre ce que voient Google et le parcours des utilisateurs.

Un bon point à observer est d’isoler les URL qui ne sont pas présentes dans le crawl tel que le ferait un utilisateur. L’idée est de repérer les pages orphelines sur lesquelles l’internaute ne pourrait pas avoir accès en naviguant sur votre site ou d’identifier des pages sur lesquelles vous ne souhaitez pas que Google perde son temps à parcourir. Une bonne manière d’optimiser le budget de crawl serait de fusionner les différentes ressources (Java Script, CSS) qui ne sont pas intéressantes pour votre SEO. Une fois ce point réalisé, vous pouvez repérer les pages en 200 (pages accessibles qui ne comportent pas d’erreurs) sur lesquelles Google ne va pas s’il y en a.

Ce processus d’analyse de logs vous permettra d’optimiser votre maillage interne, de déceler vos pages orphelines et d’identifier des ressources bloquantes. Vous pouvez pousser l’analyse plus en profondeur en appliquant des filtres et en segmentant votre site afin d’identifier des chantiers de croissance. Nous détaillerons l’analyse de logs à la suite de cet article.

Vous venez d’avoir un aperçu d’une façon de réaliser une analyse de logs. Selon l’outil utilisé, en fonction de la volumétrie de votre site et son état de santé, la méthodologie à adopter ne sera pas la même. Intéressons-nous désormais à l’utilité de réaliser une analyse de logs afin de déterminer pourquoi cela peut être bénéfique pour votre référencement naturel.

À quoi sert l’analyse de logs en SEO ?

Le principal objectif d’une analyse de logs serveur est d’y voir plus clair sur la façon dont votre site est crawlé par les robots. Le fichier log relève les éventuels points bloquants qui entravent le bon référencement de votre site. Souvent, ils peuvent être plus nombreux qu’on ne l’imagine à premier abord.

En analysant le comportement des robots sur votre site, vous pouvez repérer :

  • La façon dont votre budget de crawl est consommé.
  • La volumétrie des pages crawlées par Google et (surtout) celles qui ne le sont pas.
  • La fréquence de passage du Googlebot sur votre site.
  • Les erreurs rencontrées au niveau de l’accessibilité de votre site lorsqu’il est crawlé.
  • Les zones du site intéressantes pour le SEO qui sont mal ou non explorées par le crawl à améliorer.

  Principaux critère analyse de logs

Source : OnCrawl

Analyser un fichier log sert surtout à identifier les éléments techniques d’un site à forte volumétrie qui entravent son référencement sur les moteurs de recherches. Cette analyse est indispensable pour un site web conséquent, car le Googlebot ne pourra pas consulter toutes les pages de votre site en une passe. À chacune de ces visites, les robots de Google explorent les pages du site selon plusieurs critères :

  • La capacité du serveur : si celui-ci répond rapidement, le robot explorera le site plus vite.
  • La profondeur des pages : plus vos pages demandent de clics à l’internaute depuis la page d’accueil avant d’y parvenir, plus le crawl sera aléatoire.
  • La fréquence de mise à jour : un site régulièrement mis à jour sera plus souvent crawlé qu’un site statique.
  • La qualité du contenu estimée par Google : un site avec des contenus pertinents et utiles pour l’utilisateur sera mieux crawlé qu’un site lambda.

Vous l’aurez compris, plus votre site contient de pages et moins les robots de Google pourront explorer l’ensemble de vos pages.

Voici un exemple où l’analyse de logs est fort utile : Le budget de crawl

Brève piqûre de rappel, le budget de crawl représente le nombre de pages maximum que se fixe le Googlebot pour explorer un site. Évidemment, plus le robot crawl votre site régulièrement et meilleur sera votre référencement.

  Url Crawl Google

 Source : Botify

Un client nous a récemment posé la question : “comment mettre en avant les pages stratégiques de mon site pour que Google puisse les voir en priorité ?”

C’est en effet un sujet primordial à traiter et c’est là où la fonction robots.txt entre en jeu.

Ce fichier texte est à insérer à la racine du site. Il indique à Google les URL à ne pas indexer pour lui faire gagner du temps et lui permettre de se concentrer sur les pages les plus importantes.

Il vous faut préalablement identifier les pages et catégories sans potentiel SEO et insérer par la suite la fonction “Disallow:” à ces dernières dans le fichier texte. Cette fonction indique aux moteurs de recherche de ne pas parcourir les URL indiquées. Ainsi, votre ratio volume pages actives / volume de pages parcourues par le Googlebot sera optimisé.

Nous venons de voir un exemple où l’analyse de logs est fort utile, mais sachez que cette analyse vous permet d’extraire et d’analyser de nombreuses données.

Quelles données peut-on extraire grâce aux logs serveur ?

Perte de budget de crawl

Comme vue dans l’exemple précédent, l’analyse du fichier log vous permet d’analyser le ratio entre les pages visitées par Google et l’ensemble des pages présentes sur votre site. C’est ce qu’on appelle plus communément le taux de crawl. Certains facteurs viennent réduire le budget de crawl alloué par Google au détriment de vos pages qui génèrent du trafic essentiel pour votre activité. D’où l’importance d’optimiser au maximum votre budget de crawl comme expliqué dans l’exemple ci-dessous.

Aussi on peut facilement déterminer les pages qui drainent du trafic et analyser depuis combien de temps le Googlebot à crawlé ces pages.

Redirections 302

Les redirections 302 sont temporaires et ne permettent pas un référencement optimal puisqu’elles ne transmettent pas le « jus » des liens externes de l’ancienne URL vers la nouvelle. Il est préférable d’avoir des redirections permanentes avec les 301. Là encore, l’analyse de logs détecte ce type de redirections.

Erreurs de codes réponse

L’analyse des données de logs vous aide à repérer lorsque les crawls de Google atterrissent sur une erreur 404 ou tout autre code d’erreur qui peut nuire à votre SEO. Cela peut paraître futile au premier abord, mais de nombreuses erreurs serveur ou de pages trop lentes à charger induisent une perte inéluctable de chiffre d’affaires. Pour éviter les erreurs de codes réponses, il est nécessaire de cibler les pages possédant un statut d’erreur 4XX ou 5XX et de les isoler.

En ce qui concerne les pages lentes, il est judicieux d’ajouter au préalable le temps de réponse du serveur dans les logs.

Prenons l’exemple des soldes pour illustrer ces propos.

Durant cette période d’affluence, les sites e-commerce augmentent considérablement leurs campagnes Adwords afin de générer le plus de trafic possible vers leurs produits phares. L’analyse de logs peut relever que le serveur ne peut supporter autant d’affluence sur le site et dans ce cas renvoie l’internaute vers une page d’erreur. L’analyse vous révèle ainsi le nombre de visites qui ont abouti à une erreur. Vous pouvez ainsi en déduire le potentiel de chiffre d’affaires perdu sur une page spécifique.

Priorité de crawl

Comme son nom l’indique, la priorité de crawl permet de prioriser les URL au sein de votre sitemap XML. L’analyse de logs vous permet aussi de vérifier la structure de votre maillage interne pour voir les pages que Google crawl en priorités. Analyser la structure de votre site va permettre d’identifier les répertoires ou URL qui ne sont pas souvent parcourus par les robots.

URL dupliquées

duplication urls

La duplication d’URL constitue un des problèmes majeurs pour de nombreux e-commerçant. En effet, en raison de contenus dupliqués sur différentes URL, si Google ne détecte pas de balise canonicale référente à une URL principale, il pénalise automatiquement les pages possédant le même contenu. La plupart du temps, ce souci est dû à la navigation à facette intégrée au niveau des pages de catégories qui permet aux internautes d’affiner leur recherche sur le site via différents filtres.

Le Googlebot peut-être moins efficace en explorant la même page via plusieurs URL, ce qui a pour conséquence qu’il n’a plus de temps à accorder aux pages uniques de votre site.

Ressources bloquées

L’analyse de logs peut identifier certains blocages techniques qui entrave le bon fonctionnement de votre site SEO parlant. Faire cette analyse peut vous permettre de résoudre ces blocages et de rendre votre site plus réactif pour votre audience.

Date et fréquence de crawl

 fréquence de crawl

 Fréquence de crawl, source : OnCrawl

L’analyse de logs vous permet aussi d’extraire fréquence de crawl ainsi que la date à laquelle les robots explorent votre site. La fréquence de crawl vous indique selon une plage de période donnée, le nombre de fois que le Googlebot est venu visiter une page. Google peut crawler une même page plusieurs fois par jour s’il lui accorde de l’intérêt comme la page d’accueil de votre site web par exemple. Si vous constatez qu’une de vos pages que vous considérez comme importante pour votre activité à une faible fréquence de crawl, vérifiez le maillage interne de la page ainsi que son contenu qui se doit d’être unique et pertinent pour l’internaute.

Le maillage d’un site est primordial, car lors de son exploration, Googlebot parcourt tous les liens du site possible. Vous pourrez ainsi facilement constater si les robots parviennent à accéder à toutes les pages et notamment sur vos pages stratégiques.

Fenêtre de crawl

  fenêtre de crawl

Source : Blog SEO de Marseo

 

La fenêtre de crawl est également un ensemble de données fortement utile dont se servent nos experts pour analyser vos logs serveur. La fenêtre de crawl correspond au nombre de jours nécessaires pour que les bots de Google aient entièrement crawlé l’ensemble de vos URL. En bref, cela signifie que si vous avez une fenêtre de crawl de 15 jours, Google mettra donc au moins deux semaines pour prendre en compte les modifications apportées sur le site. D’un point de vue SEO, il est utile de connaitre le temps de latence pour déterminer à quel moment une modification apportée pourra être bénéfique avoir un impact sur le positionnement du site. Bien analyser sa fenêtre de crawl permet d’anticiper les marronniers et d’injecter du contenu au bon moment, lors des soldes par exemple.

L’analyse de logs révèle de nombreuses données que lui seul peut vous communiquer. Intéressons-nous maintenant à la méthodologie de l’analyse de logs pour le SEO.

Méthodologie d’analyse de logs pour le SEO

L’analyse de logs regroupe un ensemble de données que vous ne pouvez pas récupérer depuis Analytics ou la Search Console. Ce qui est intéressant en analysant la data, c’est de croiser les données Analytics de votre site donné par Google et d’associer ces données avec un crawl “classique” comme Screaming Frog, Botify ou OnCrawl pour ne citer qu’eux.

Ainsi, si vous souhaitez repérer les pages faiblement crawlées, (en associant les données Analytics avec Screaming Frog par exemple) vous pourrez déceler les URL qui ne sont jamais fréquentées par le Googlebot, et elles peuvent être nombreuses.

En ce qui concerne la méthodologie, de nombreux outils comme cités précédemment permettent de gagner du temps dans l’analyse de logs. Nous allons aborder les différents outils utilisés quotidiennement par nos experts pour analyse les logs à la fin de l’article. Posséder les outils adéquates ne suffit pas vous analyser le fichier de logs. L’utilisation de tableaux croisés dynamiques sous Excel et la compétence de Linux et des commandes (grep, awk) est requise pour manipuler et interpréter les fichiers de logs.

De nombreux leviers reste à activer pour recueillir, analyser et interpréter efficacement la data de vos logs serveur.

Filtrer les URL qui n’ont pas d’intérêt SEO

  Filtrer URLS

Source : Screaming Frog

 

Une URL peut-être une ressource JavaScript, CSS, HTML ou une image. Cela n’apporte pas beaucoup d’intérêt pour le SEO de les analyser. On peut donc les exclure et garder les pages en HTML.

Ne pas suivre les liens en nofollow et les pages en noindex

Pour ne pas surcharger le crawl, nos consultants SEO vous conseillent d’ignorer les pages en noindex (pages dont vous ne souhaitez pas que les moteurs de recherche explorent) ainsi que les liens dotés de l’attribut nofollow (qui indique aux moteurs de recherche de ne pas suivre suivre le lien sur cette page”) pour se rapprocher d’une vision moteur.

Optimiser judicieusement les fichiers robots.txt et le plan sitemap XML

Pour une analyse de logs réussi, optimiser les fichiers robots.txt et le sitemap XML est essentiel pour renseigner et satisfaire aux mieux Google. Cela va lui faire gagner du temps sur le crawl de votre site et le budget de crawl alloué sera plus conséquent.

Le fichier robots.txt est un fichier texte général destiné à orienter ou à guider les robots des moteurs de recherche pour la navigation sur le site Web.

Un sitemap quant à lui est un fichier XML qui représente l’architecture du site. Il indique au Googlebot le nombre d’URL utiles et classables présentes sur le site Web et détermine indirectement le délai d’analyse alloué en fonction de la priorité.

structure vs sitemaps

Segmenter le site web

La segmentation du site est l’étape la plus importante à réaliser pour interpréter et analyser au mieux les logs serveur. Cela vous permet de grouper vos pages dans des ensembles pertinents. Il est requis de savoir dissocier les URL connues par Google et les URL connues par votre outil de crawler.

Vous pouvez jouer sur un déséquilibre entre les pages pour changer la façon dont Google perçoit votre site. En poussant l’optimisation de liens internes sur vos pages stratégiques, ce processus changera la densité du profil de liens internes et sera bénéfique sur le volume et la fréquence de crawl du Googlebot.

Pourquoi utiliser l’analyse de logs pour votre SEO ?

Véritable référence, l’analyse des logs vous montrent un reflet parfait de ce qu’il se passe sur votre site. Cheminement des visiteurs, passages des bots, pages crawlés et ressources bloquées… les logs répertorient toute l’activité de votre site.

Suivre les visites des robots de Google

Le Googlebot semble explorer fréquemment les pages qu’il considère comme importantes et s’assure qu’elles le restent. Cela signifie que si vos pages stratégiques n’ont pas été explorées récemment, elles n’obtiendront pas un bon positionnement sur les SERP.

Voir son site comme Google

Effectuer une analyse de logs est l’unique moyen de parcourir votre site comme il est perçu par l’algorithme de Google. Nul n’est sans savoir que ce dernier est un internaute bien spécial qui requiert une attention toute particulière. Fréquences de crawl, erreurs de codes réponses, efficacité crawl / visites, l’analyse du fichier log vous livre de précieux indicateurs pour vous aider à améliorer votre référencement naturel.

Débloquer des situations bloquantes pour le SEO

Grâce à l’analyse des logs, il vous est possible de déterminer la cause qui aurait entraîné une chute de positionnement. Le facteur bloquant déterminé par l’analyse de logs vous permet ensuite de résoudre le problème rencontré pour optimiser le référencement de votre site et avoir un meilleur classement sur les SERP.

Réaliser un audit technique SEO complet

Un audit technique SEO réalisé par un expert SEO doit comprendre une analyse de logs. Cette analyse est essentielle lors d’une refonte pour déterminer des indicateurs à optimiser pour acquérir du trafic. Inclure l’analyse de logs dans un audit technique SEO n’est pas à la portée de tous. Il relève des compétences d’un data scientist expérimenté, doté d’un solide bagage technique SEO pouvant comprendre et interpréter le comportement des moteurs de recherche.

Quelle typologie de sites Internet est concernée par l’analyse de logs ?

Vous possédez un site à forte volumétrie de pages (> à 10 000 pages par exemple) ? L’analyse de logs est alors indispensable pour assurer le bon référencement de votre site. C’est une action essentielle à opérer lors d’une refonte, pour un audit technique ou une analyse mensuelle.

Si au contraire vous possédez un site de taille moyenne, effectuer une analyse de logs sera fortement utile pour les opérations suivantes :

  • Migration du site
  • Changements d’URL
  • Surveiller le comportement de Google pour détecter les pages crawlés et les erreurs rencontrées

Selon votre cas, voici différentes typologies de sites concernés par l’analyse de logs avec des exemples associés.

Site marchand (pure players, e-commerce)

Selon une récente étude réalisée par Google mettant en évidence le temps de chargement d’une page web sur mobile, plus de la moitié des internautes (53%) quittent la page si celle-ci met plus de 3 secondes à charger. Ceci démontre que plus le temps de chargement de vos pages est élevé, plus votre taux de rebond sera lui aussi élevé comme le démontre le graphique ci-dessous.

étude temps de chargement

Le taux de chargement de vos pages aura un réel impact sur votre taux de conversion. L’analyse de logs peut vous aider à optimiser le temps de chargement de vos pages.

Site non marchand

Exemple avec site d’actualité :

Votre contenu fait référence à une actualité récente et doit rapidement se faire indexer par les moteurs de recherche. La fréquence de crawl de votre site par le Googlebot est donc essentielle. Dans ce cas, l’analyse du fichiers log est intéressante pour parcourir les différentes pages du site et s’assurer qu’aucun point bloquant ne puisse nuire à votre nouveau contenu.

Quels outils utiliser pour analyser les logs ?

Nous allons vous présenter les outils utilisés par notre agence de référencement naturel dans le cas d’une analyse de logs et d’autres qui sont très en vue sur le marché.

SCREAMING FROG LOG ANALYSIS

Logiciel d’analyse de logs sur desktop, Screaming Frog Analysis comporte une version gratuite (qui peut crawler jusqu’à 500 URL) et une version payante pour les sites plus importants. L’outil est simple d’installation et ne nécessite aucun paramétrage particulier pour l’utiliser une fois installé.

Ces outils facilitent la lecture des logs mais ne sont pas suffisants pour faire une analyse complète et exploitable. Cela demande un travail minutieux pour trier et recueillir les données souhaitées afin de les analyser. Il faut ensuite savoir interpréter la data et les résultats obtenus pour savoir quelles sont les actions à mener à la suite de cette analyse afin d’améliorer le référencement naturel du site travaillé.

SEOLYSER

Sortie en 2017, Seolyser est un outil freemium qui analyse vos logs en temps réel. Il vous permet de suivre vos KPI instantanément (volume de crawl, codes HTTP, performance par page, pages les plus crawlées). Notre équipe SEO n’a pas eu l’occasion de tester cet outil pour l’un de nos clients mais les retours que nous avons eu le concernant étaient favorable.

ONCRAWL

Oncrawl est une solution SaaS payante sans engagement qui propose différentes solutions en fonction du nombre de lignes à analyser. Son point fort demeure dans l’analyse visuelle des logs qui est très intuitive et facilement compréhensible grâce à ses graphiques qui vous permettent d’interpréter et d’analyser au mieux les données. OnCrawl fournit également une analyse de logs open source. Il faut cependant avoir quelques compétences techniques de développement pour s’en sortir.

BOTIFY

L’outil Botify, lui aussi payant et très complet, propose de nombreuses possibilités. Une fois pris en main, cette solution très qualitative est facile d’utilisation. L’analyse est elle aussi très visuelle et petit plus pour les pages orphelines qui ressortent très bien à l’écran.

Conclusion

Lors d’une refonte, pour un audit seo ou dans le cadre d’une maintenance mensuelle, l’analyse de logs vous permet de détecter divers chantiers de croissance et constitue une véritable opportunité d’accroître votre visibilité sur le web. Cette analyse requiert des compétences d’analyse et de maîtrise du pilier technique présent en référencement naturel. N’hésitez pas à solliciter notre agence SEO pour un accompagnement sur l’analyse de vos logs SEO.