Les nouveaux outils d’analyse sémantique Visiblis

Comme je l’annonçais il y trois semaines, voici avec un peu de retard de nombreuses nouveautés sur Visiblis. J’ai fait la synthèse des remarques et souhaits des utilisateurs afin de proposer de nouveaux modules d’analyse sémantique et aussi modifier ou rajouter des fonctionnalités aux outils existants.

En ce qui concerne le nouveau corpus, il est toujours en phase de constitution avec à ce jours 7 millions de documents déjà intégrés; c’est un travail très long qui mobilise les ressources d’un serveur à lui tout seul. Il faudra encore plusieurs jours de calculs afin de finaliser cette tâche. J’en profite pour annoncer qu’un corpus en langue anglaise est également en cours de préparation.

Mais revenons au nouveautés que j’ai mise en ligne aujourd’hui.

Le module d’analyse sémantique de texte brut

De nombreuses remarques portaient sur la façon dont les outils interprétaient le contenu des pages analysées, en particulier pour tout ce qui peut être considéré comme étant l’habillage de la page et de son contenu (navigation, menus, sidebar, header, footer…). Comme je l’ai déjà expliqué, il est excessivement difficile d’isoler (avec un taux de réussite proche de 100% il s’entend) le contenu réel d’une page. Mais afin de permettre l’analyse d’un texte pris isolément, j’ai développé un nouveau module de calcul de l’empreinte sémantique : j’ai nommé, TextAlyser (oui, maintenant, tous les modules ont un nom)

Ce module vous demande simplement de saisir une requête, un titre et un texte (sans balisage HTML) pour effectuer une analyse d’affinité sémantique. Il est dès à présent accessible à partir du Pack WEBMASTER Comme pour le module d’analyse de page WEB, désormais nommé WebAlyser, il calcule les différentes affinités sémantiques et fournit les cooccurrences significatives des mots de la requête. A partir du Pack AGENCE, il est possible de mémoriser les analyses, d’extraire des rapports en PDF et de faire des exports en CSV des résultats.

Le module de mesure du glissement sémantique

Il manquait un outil d’analyse à la panoplie existante : la mesure du glissement sémantique. Ce module de mesure, qui est encore en version bêta, permet d’aller au delà du simple Sémantic Rank et devrait vous permettre d’affiner la structure  et la hiérarchisation des pages dans vos cocons. Les concepts de cet outil sont expliqués sur la page http://www.visiblis.fr/presentation/glissement-semantique/, mais je vous conseille également de lire l’excellent article de  Christian Méline sur le sujet. Cet outil en ligne, nommé SlideAlyser est disponible à partir du Pack AGENCE. Il est bien entendu possible de mémoriser les analyses et d’en extraire des rapports en PDF, des exports en CSV. Une API est en préparation.

Le module de recherche des cooccurrences

Analyser une page ou un texte pour vérifier ses affinités sémantiques c’est bien, mais rédiger un texte en connaissant les bonnes cooccurrences à utiliser c’est mieux. C’est pourquoi j’ai également ajouter un module de recherche de cooccurrences, nommé CoocAlyser. Il suffit de saisir un mot clé pour obtenir la liste des 150 cooccurrences les plus significatives avec l’indice de fréquence et de pertinence pour chacune d’elles. Ce module d’aide à la rédaction sémantique est dés à présent disponible à partir du pack AGENCE.

Amélioration des modules existants

Certains d’entre-vous ont déjà remarqué la nouvelle interface de navigation, mais les modifications ne consistent pas qu’en un simple lifting.  En ce qui concerne le module de cartographie sémantique, nommé TreeAlyser, l’affichage des résultats a été entièrement revu afin de proposer une meilleur lisibilité. D’autres parts, pour les titulaires d’un PACK AGENCE, l’export de rapport en PDF est désormais personnalisable avec votre logo, une page de garde, un header, un footer et une pagination. De plus les rapports sont cumulables dans un seul et même document par module.  Le module d’analyse de l’empreinte sémantique d’une page WEB se nomme désormais WebAlyser et n’a subit aucune évolution si ce n’est en ce qui concerne les exports en PDF mentionnés ci-dessus.

La ToDo List Visiblis

Le forum « privé » annoncé il y a trois semaines sera la prochaine amélioration, il a pris du retard mais j’ai préféré me concentrer sur les outils et sur vos demandes les plus pressentes. J’ai également commencé à réaliser des tutoriels sur l’utilisation des outils et l’interprétation des résultats mais, dieu que c’est long! Je vous promet le premier sous 10 jours (il est écrit, manque plus qu’a en faire une vidéo).

Mais la prochaine grosse mise à jour concernera le Corpus comme je l’annonce en début d’article ainsi que la mise en place d’un algorithme d’enrichissement de celui-ci. Je l’ai testé de façon partielle (avec 6 millions de documents) et il corrige les défaut du corpus actuel en terme de mots composés et de mots avec accents. Un serveur est entièrement dédié à sa constitution a raison de 300.000 documents traités en 24h00, il reste théoriquement … 3 semaines de calcul :)