Moteurs de recherche : comment fonctionnent-ils ?

Image graphique pour illustrer un moteur de recherche

Grâce aux moteurs de recherche (search engine), les internautes peuvent se documenter, localiser un restaurant ou trouver une chaussure tendance en un seul clic. Ces applications permettent donc d’accéder à une masse conséquente d’informations par le biais de diverses recherches. Cependant, savez-vous comment fonctionne un moteur de recherche ? Cet article fait le point sur le fonctionnement de Google, de Qwant (outil de recherche français), Bing, DuckduckGo avant de terminer sur un état des lieux du marché des moteurs de recherche.

Qu’est-ce qu’un moteur de recherche ?

Définition d’un moteur de recherche

Les moteurs de recherche (search engine) sont des applications web créées pour effectuer des recherches sur la toile. Les résultats apparaissent selon les expressions demandées par les internautes. Aujourd’hui, Google reste le plus connu de tous. Mais il existe de nombreux moteurs de recherche efficaces comme DuckDuckGo, Bing, Qwant, Yahoo… Vous trouverez également des moteurs de recherche spécialisés comme : Google Scholar pour l’éducation, Yahoo kids pour les enfants, Ecosia pour l’environnement…

Que peut-on trouver à l’aide des moteurs de recherche ?

On peut utiliser les moteurs de recherche pour effectuer des recherches dans un domaine précis. Par exemple, Google permet de trouver des données web informatives, des images, des e-commerces, des documents ou des vidéos.

La fonction MAP joue le rôle de carte du monde et utilise des images satellites pour localiser avec précision un lieu. Les autres alternatives à Google comme Bing, DuckduckGo,Yahoo ou Qwant sont aussi des moteurs de recherche puissants. Chaque outil avance un argument pour se démarquer. Par exemple, Qwant est un moteur de recherche qui respecte la vie privée. Il ne cherche pas à savoir qui vous êtes et où vous êtes pour vous proposer ses résultats.

Comment accéder à un moteur de recherche ?

Les moteurs de recherche sont accessibles via un navigateur. La plupart du temps, ces derniers utilisent un omnibox afin de permettre à l’utilisateur d’effectuer une recherche. L’omnibox est le nouveau nom attribué à l’ancienne barre d’adresse des navigateurs.

Comment réussir avec les moteurs de recherche ?

C’est la question que tout agence de référencement naturelle se pose. Être positionné sur les premiers résultats des SERP a un véritable enjeu financier. Le référencement naturel est une discipline stratégique et technique. Il existe cependant quelques optimisations simples à appliquer pour être apprécié des moteurs de recherche.

Vous pouvez par exemple :

  • Éviter l’«occultation ». Aussi connu sous l’expression anglaise « cloaking », ce terme désigne le fait de présenter deux pages différentes au Google Bot et aux visiteurs humains pour obtenir un meilleur classement. Le serveur web est programmé de manière à présenter une page web différente suivant l’initiateur de la requête (robot Google ou humain).
  • Faire un site avec une hiérarchie claire et donner un plan de votre site (SiteMap).
  • Créer un maillage interne pertinent.
  • Créer un site utile et riche en informations. Ainsi, votre contenu doit être structuré à l’aide de H1, H2, H3. Vos balises et votre texte doivent contenir le mot clé sur lequel vous souhaitez apparaître dans les SERP.
  • Ne pas négliger les attributs ALT et méta descriptions. Ces éléments doivent être précis et contenir votre mot clé.
  • Créer des backlinks qualitatifs pour donner de la puissance à votre site.

Ce que Bing suggère :

  • D’insérer vos mots clés dans l’url. Il semble que les noms de domaine contenant les mots clés soient appréciés de Bing. Veillez à créer des URLs courtes. En effet, Bing se base sur l’expérience utilisateur. Une URL courte est plus facile à retenir pour les internautes. Bing aura donc tendance à favoriser votre référencement si vous appliquez cette logique.
  • De réaliser un maillage interne pertinent.
  • De mettre en place une stratégie de backlinks qualitative. A l’image de Google, plus vos liens proviennent de sites de notoriété, meilleure sera la puissance SEO de votre site.
  • De créer du contenu thématisé. Le principe de Bing est simple : une page = un sujet !
  • De créer une arborescence claire, sans complexité. Bing recommande 3 niveaux. Vos pages ne doivent pas se situer à plus de 3 clics de l’accueil. Tout comme Google, il est recommandé d’avoir un SiteMap.
  • De s’assurer que le contenu n’est pas enfoui dans les systèmes rich media (Adobe Flash Player, JavaScript, Ajax, etc.)
  • D’éviter d’inclure les mots-clés à l’intérieur des images. Par exemple, si vous voulez que le nom de votre entreprise soit indexé, assurez-vous qu’il ne soit pas affiché uniquement à l’intérieur de votre logo.

 

Image graphique pour moteur de recherche

 

Fonctionnement des moteurs de recherche

Crawling et indexing

Les moteurs de recherche (search engine) servent à une seule chose : fournir des réponses aux questions des utilisateurs. Pour fournir des résultats de recherches pertinents, ces outils passent par deux étapes :

  • le crawling : la recherche de pages sur internet
  • l’indexation : le classement des résultats par ordre de pertinence

Crawling

Le crawling est la première fonction des moteurs de recherche. C’est une sorte d’inspection systématique des sites web sur Internet. Effectuée avant la requête de l’utilisateur, cette étape consiste à rassembler le maximum d’informations auprès des plateformes web. Il est accompli par des robots appelés « spiders ou crawlers ». À l’issu de cette étape, ces derniers envoient les informations collectées à l’index pour accomplir ce qu’on appelle indexation.

Indexing (indexation)

Lorsque l’index (le cerveau des moteurs) reçoit les informations en provenance des robots, il les évalue. Ainsi, à chaque fois qu’un utilisateur fait une recherche, il peut leur fournir des résultats pertinents.

Comment les moteurs de recherche déterminent-ils la pertinence d’un résultat ?

L’évaluation de la pertinence ne se résume pas à mesurer la correspondance entre la requête et la plateforme web. Il y a d’autres facteurs à prendre en considération. Les moteurs de recherche supposent que plus un site est populaire, plus l’information qu’il contient est pertinente. Ce postulat permet aux moteurs de garantir la satisfaction des utilisateurs à l’égard des résultats de recherche.

Mythes et réalité autour des moteurs de recherche

Les mythes

Soumission aux moteurs de recherche
Dans les années 90, les moteurs de recherche utilisaient des formulaires de soumission. Les webmasters soumettaient leurs sites et leurs mots-clés. Il s’agissait alors de signaler le site pour que les moteurs de recherche le parcourent et l’indexe. Ce système a vite été revu et abandonné. Aujourd’hui, les robots viennent par eux mêmes parcourir les sites et les indexer sur des expressions clés.

Classement par meta tag
Les balises meta (notamment la balise meta keywords) étaient cruciales pour le référencement. Ce critère de référencement a été abandonnée par tous les principaux moteurs. Aujourd’hui les meta tags n’ont plus d’incidence sur le référencement.

Le référencement payant (SEA) propulse les pages en haut des SERP
Certaines théories affirment que les sites qui paient pour les publicités sur les moteurs de recherche (SEA) sont naturellement mieux classés. C’est une supposition sans fondement. Google, Qwant (outil français) et Yahoo ont même instauré des garde-fous afin de prévenir ce genre de propos. Chez Google, les annonceurs qui dépensent des millions de dollars par mois en publicité ont remarqué qu’ils ne reçoivent aucun traitement de faveur de la part du moteur de recherche.

Si tels sont les mythes sur les moteurs de recherche, quelles sont les réalités ?

La réalité

Le crawl budget
Le web contient des billions de données. Pour faciliter le travail des robots, les moteurs de recherche ont instauré un système de limitation dans leur crawl. Le budget crawl est le temps accordé par les robots à votre site. Les moteurs de recherche (search engine) doivent trouver vos pages le plus rapidement possible. Vous comprenez donc qu’il y a ici un enjeu important. Il faut faciliter le travail des robots pour qu’ils puissent crawler et indexer au maximum tout votre site. S’ils ne peuvent pas le faire, une partie de votre site ne sera pas visible aux yeux des moteurs de recherche et des internautes.

Afin de faciliter le travail des robots, vous pouvez déjà appliquer quelques bonnes pratiques :

  • Eviter les liens cassés. Les liens brisés ne sont pas appréciés des robots. Ils peuvent être amenés à arrêter leur crawl.
  • Eviter les contenus de qualité moindre. Par exemples, des pages d’erreurs, du contenu dupliqué, des navigations à facette…
  • Limiter les redirections 301/302
  • Optimiser le temps de chargement de votre page. Un temps de chargement long n’est pas bon pour votre référencement, mais également pour l’internaute. Ce dernier aura tendance à aller sur un autre site pour trouver la réponse à sa requête si votre site met trop de temps à se charger. Vous perdez ainsi des prospects.
  • Mettre à jour votre SiteMap. Il guidera plus facilement les robots pour indexer vos pages

Un crawl régulier de votre site
Vous venez de créer votre site et vous constatez son indexation sur les moteurs de recherche. Vous vous dites que le travail est terminé ? Sachez que les robots passent de manière régulière sur votre site. Un site qui est souvent mis à jour verra les robots passer plus souvent qu’un site statique. Chaque jour, les moteurs de recherche effectuent une analyse de mots-clés des pages pour les indexer.

La détection de Cloaking
On appelle cloaking le fait de montrer des contenus différents aux moteurs de recherche et aux visiteurs. Le serveur reconnait si c’est un internaute ou un robot qui a lancé la requête. Selon ce critère, il va présenter des contenus différents. Par exemple, pour un robot, il peut présenter une page plus optimisée mais qui ne sera pas agréable à lire pour un internaute. Cette technique est sanctionnée par Google.

La filtration des contenus de faible valeur
Les moteurs emploient tous des robots pour déterminer la valeur ajoutée d’un contenu pour les lecteurs. Les contenus les plus souvent filtrées sont

  • les contenus d’affiliation,
  • les contenus dupliqués
  • les pages générées ayant très peu de texte.

Les moteurs évaluent la valeur d’un domaine sur son originalité et sur l’expérience visiteur qu’ils offrent. Ainsi, les sites qui publient des contenus de mauvaise qualité auront du mal à se positionner en haut du classement, même très bien référencés. Par exemple, si vous avez un taux de rebond élevé à partir de la SERP, vous serez déclassé par les moteurs de recherche. Il signifie que les internautes ne trouvent pas de réponse à leur requête et que le contenu n’est pas pertinent.

Par ailleurs, le lancement de Google Panda en 2011 montre la volonté du moteur de recherche de valoriser les contenus qualitatifs. Cet algorithme a été mis en place après une vague importante de spams et de sites de basse qualité. Comment s’applique la sanction ? Panda pénalise les contenus de mauvaise qualité et parfois tout le site. Les pages concernées sont alors désindexées.

Le référencement selon la confiance que génère votre site
Divers éléments servent à évaluer votre site afin de le positionner dans les SERP. Un des critères importants pour le search engine est les backlinks. Pour mesurer la fiabilité de votre site, Google va prendre en considération le nombre de liens qui pointent vers lui. Pour faire simple, le search engine va considérer votre site comme pertinent car de nombreux sites renvoient à lui.
Cependant, le moteur de recherche ne mesure pas uniquement la quantité de backlinks. La qualité de ces liens est un critère primordial. En effet, plus vos liens viendront de sites d’autorité, plus vous serez apprécié des moteurs de recherche. En revanche, si vous avez des liens « spammant » et de mauvaise qualité, l’outil de recherche verra cela comme une fraude et appliquera une pénalité. L’algorithme Penguin a été créé pour nettoyer les indexes Google des sites de mauvaise qualité qui détournent le SEO par des techniques de linking frauduleuses.

 

La lutte contre les spams sur les moteurs de recherche
Le pollupostage est une pratique bien présente sur le web. En hausse depuis le milieu des années 1990, cette pratique permet à des spammeurs de prendre possession de sites bien placés dans les moteurs de recherche pour y introduire la promotion de site à faible qualité. Sachez qu’une seule journée au top du classement sur Google peut rapporter jusqu’à 20 000 € de revenus nets. Avec de tels enjeux, il ne faut pas s’étonner que cette pratique ait été autant populaire. Aujourd’hui, grâce à l’innovation technologique de Google, elle est de plus en plus difficile à mettre en oeuvre.

L’actualité sur les moteurs de recherche

Qui détient la plus grande part du marché mondial des moteurs de recherche ?

Le classement mondial de 2017 a placé Google en première position avec une part nette de 74,54 %. Il est suivi par les moteurs de recherche Yahoo, Baidu, Bing ou Qwant (outil de recherche français) dont la part de marché avoisinent les 7 à 10 %. Il est intéressant de noter que même si Google détient la plus grande part, elle a lentement diminué à partir du 2e trimestre de 2017, tandis que la part de Baidu a atteint 14,69 %.

Combien de recherches sont effectuées chaque jour sur les moteurs de recherche ?

En 2017, 46,8 % de la population mondiale a eu accès à Internet. D’ici 2021, ce chiffre devrait atteindre 53,7 %. Selon les statistiques, Google reçoit 3,5 milliards de requêtes par jour soit 1,2 billion par an. Google évolue rapidement. Si en 1999, il a fallu un mois à Google pour crawler et indexer 50 millions de pages, en 2012, cette tâche a été accomplie en moins d’une minute !

Les moteurs de recherche sont donc des applications puissantes et complexes. Chaque jour, des millions de requêtes sont demandées par les internautes. Bien plus qu’un enjeu informationnel, les moteurs de recherche ont aussi un enjeu marketing et financier. Pour faire face à la concurrence et générer du chiffre via le web, être bien positionné sur les SERP est primordial. Mais connaître les utilisations de sa cible l’est encore plus. En 2009, seulement 0,7 % du trafic web dans le monde entier a été généré par les téléphones portables. En 2017, le mobile représente 50,3 % du trafic web mondial. Dans 10 pays, dont les États-Unis et le Japon, les recherches sur mobiles ont largement dépassées celles effectuées sur ordinateur.