Sommaire

  • L’analyse sémantique pour le SEO
    • Affinité sémantique : les outils d'analyse visiblis
      • TitrAlyser : Optimisation du titre d'une page pour le SEO
    • Cocon sémantique, plus qu'un silo pour le référencement de votre site
      • TreeAlyser : l'optimisation du cocon sémantique
        • Utiliser Visiblis TreeAlyser
        • Interpreter une analyse du cocon sémantique
      • ClusterAlyser : la clusterisation du cocon semantique
        • Utilisation de Visiblis Clusteralyser
        • Comment interpréter les graphes de clusterisation sémantique
      • SlideAlyser : La mesure du glissement sémantique
    • Principes de fonctionnement d'un moteur de recherche
      • Le modèle vectoriel pour la recherche d'information
      • Cosinus de Salton et tf-idf : calcul de la proximité sémantique
    • Questions fréquentes

Un moteur de recherche, comment ça marche ?

Optimiser un site Internet afin d’améliorer sa visibilité dans les moteurs de recherche ne peut se faire efficacement sans comprendre leur fonctionnement et les algorithmes qu’ils utilisent pour indexer les pages présentes sur le WEB et répondre aux requêtes des internautes.

Un moteur de recherche est principalement constitué de 3 éléments :

  • Une base de données ou index contenant un ensemble d’informations telles que les urls des pages, leur contenu, les liens entre ces pages etc ….
  • Un robot d’exploration (également appelé BOT) charger d’explorer le WEB à la recherches de nouvelles pages ou de mises à jours afin d’alimenter l’index
  • Une interface homme/machine permettant à un internaute de saisir une requête de recherche et d’obtenir en retour une liste de résultats pertinents par rapport à la requête.

Le crawl et l’indexation

Lors du crawl, le robot d’un moteur de recherche procède à une analyse sémantique de la page crawlée afin de mesurer sa pertinence par rapport à des mots clés et de la classifier par rapport aux autres pages contenus dans son index. Il est également chargé d’extraire les liens contenus dans cette page afin de procéder à une autre calcul influant sur les résultats de recherche : la popularité. Cette popularité, exprimée par le célèbre Page Rank, s’intéresse aux liens provenant de sources externes au site contenant la page analysée, mais aussi au liens internes à ce site, d’où l’importante de bien penser le maillage interne du site.

La mesure de pertinence par l’analyse sémantique

Pour classifier une page WEB, un moteur de recherche doit essayer de « comprendre » le contenu de cette page. Bien entendu, le robot du moteur de recherche est incapable de comprendre au sens « humain du terme » le contenu de la page, il se limite à faire une analyse sémantique du document afin de l’associer à des mots clés en lui affectant un score de pertinence pour chacun de ces mots clés. Bien qu’il ne soit pas en mesure de comprendre un texte, l’objectif de cette analyse sémantique est d’extraire le sens du contenu d’un document (le signifié) par opposition a l’analyse syntaxique qui permet d’en extraire la forme (le signifiant).

Un moteur de recherche étant une machine ou plutôt un logiciel informatique, il ne sait travailler qu’avec des entités mathématiques, mais il est capable de très bien les traiter et de les traiter rapidement. Il transforme donc le texte composé de mots en une entité mathématique (généralement une matrice ou vecteur) qu’il pourra manipuler à l’aide d’algorithmes selon le modèle vectoriel et la similarité cosinus en utilisant une pondération de type tf.idf. Mais pour classifier la masse de documents à sa disposition, il doit avant tout constituer une corpus de référence, ce qu’il fait tout naturellement en utilisant justement les documents présents dans son index. On voit donc que ces différentes opérations se répétant perpétuellement, le classement des documents selon leur pertinence est amené à évoluer à chaque introduction d’un nouveau document dans l’index.

Réponse à une requête de l’internaute

Lors de la saisie d’une requête par un internaute, le moteur de recherche doit également procéder à une analyse sémantique de la requête afin de « comprendre » ce qu’il doit rechercher dans son index. Il peut être amené à reformuler la requête pour ses propres besoins afin de lever les ambiguïtés avant de rechercher les documents pertinents de son index et de retourner une liste de résultats qu’il aura trié en fonctions des autres critères de classement à sa disposition (popularité, autorité etc …)