Calliope et le text mining
- A quoi servent le text mining et Calliope ?
On connaît mieux le data mining, qui utilise les données numériques contenues dans des bases de données, et produit donc des résultats uniquement quantitatifs devant être interprétés.
Le text mining, ou « fouille de textes », exploite des données textuelles, permettant une lecture rapide de grands volumes de texte. Le but ultime est d’en extraire une synthèse pertinente sans trop perdre de données importantes et significatives, ou susceptibles de le devenir.
Calliope implémente deux méthodes fondamentales : l’une, appelée méthode des mots associés, largement répandue, produit des cartographies du contenu textuel, l’autre, originale, mesure l’évolution de l’importance des termes d’un corpus à l’autre, ce qui permet d’apprécier par exemple l’évolution au cours du temps.
- Que puis-je attendre du text mining et de Calliope ?
En traitant les données textuelles dont vous disposez – bases de données, brevets, actes de colloque, articles de presse, posts Instagram, inventaires, suivis de forum ou de hotline, etc. – et qui se rapportent à votre sphère de compétence, il vous sera possible de dégager rapidement les thématiques sous-jacentes, les mots-clefs, peut-être des thèmes que vous ignoriez; l’analyse des tendances vous signalera les concepts qui prennent de l’importance et ceux qui en perdent, et votre propre questionnement sur les causes de ces évolutions vous amènera éventuellement à détecter les « signaux faibles », les prémices de changement, ce qui devrait vous faciliter la gestion de l’évolution technique et économique au sein de votre environnement professionnel.
En croisant les champs de travail, vous saurez qui travaille sur quoi, avec qui, qui est impliqué dans tel concept émergent, etc.
- Ce que n’est pas Calliope
Calliope n’est pas une boule de cristal qui permet de connaître en quelques secondes le contenu de documents de centaines de pages.
Calliope n’est pas un aspirateur de site, il est en aval de la collecte d’information
- Ce qu’est Calliope
Un outil d’aide à l’intelligence, il fournit à l’utilisateur des pistes de réflexions, il lui permet d’ouvrir son espace d’information tout en compactant son temps de lecture et d’analyse.
Un outil de recherche de l’information pertinente dans son contexte avec Calliope Viewer.
Un outil de mise à jour automatique de profil de recherche (push dynamique) grâce aux courbes de tendance des termes.
Un médiateur, une fois les traitements de Calliope Extract et Calliope Viewer achevés, plusieurs personnes peuvent utiliser Calliope Viewer en réseaux pour visualiser les résultats de ces traitements, animer ainsi leurs réflexions et les étayer à l’aide de cartographies, de courbes de tendance et le cas échéant, de documents pertinents.
- En quoi Calliope est-il différent des autres produits commerciaux ?
C’est l’analyse des tendances qui différencie Calliope des autres logiciels de text mining.
- Calliope existe depuis longtemps; comment peut-il être toujours d’actualité ?
Il est indéniable que les concepts qui sous-tendent Calliope sont âgés si l’on considère le rythme et les modes qui agitent le monde du logiciel (années 1980 pour la méthode des mots associés, 1995 pour l’analyse des tendances). Mais ces concepts relèvent essentiellement des statistiques mathématiques, et demeurent valables au-delà des modes purement informatiques.
Nous avons vu plusieurs logiciels bénéficiant de moyens de marketing et de développement sans commune mesure avec les nôtres; la plupart ont disparu, certains car leur valeur ajoutée était faible, mais aussi parce que la demande était relativement faible et n’intéressait pas le monde industriel autant que le monde académique.
Depuis les années 2015, le volume et la multiplicité des données disponibles sur Internet remettent les techniques d’analyse textuelles sur le devant de la scène. Et cela augmente la longévité de Calliope…
- Comment se présentent les résultats ?
Calliope fournit des résultats essentiellement graphiques à partir desquels on peut remonter aux documents pertinents.
Les documents peuvent être réexportés en XML et les graphiques de statistiques descriptives sont exportables vers un tableur.
Vous pouvez également utiliser un grapheur externe pour visualiser les sorties de Calliope (mais vous perdez alors l’interactivité avec les documents).
Les fondements de Calliope
- Quel est l’historique de la méthode ?
La méthode des mots associés a été développée sous de nombreuses formes et a servi de base à nombre de réalisations logicielles commerciales. En France, c’est l’Ecole des Mines de Paris qui a développé les concepts au début des années 1980, avec le logiciel Leximappe (Michel Callon et al.).
La méthode d’analyse des tendances par le « bruit constructeur » est la partie entièrement originale de Calliope. Elle a fait l’objet d’une thèse de doctorat soutenue par Mathilde de Saint Leger en 1997 au sein du CNRS.
- En quoi consiste le fondement de la méthode Calliope ?
Calliope regroupe deux méthodes essentielles : méthode des mots associés et analyse des tendances.
- La méthode des mots associés consiste à découper le corpus en plusieurs sous-ensembles de documents thématiquement homogènes, qui sont représentés par des clusters de termes fortement cooccurrents dans les textes. Ainsi, si la probabilité de présence dans le texte d’un terme A avec les termes B et C est forte, ces trois termes sous-tendent une thématique particulière du corpus analysé, et ils forment un réseau de mots. Les résultats graphiques issus de cette phase sont des cartes, des réseaux de mots.
- La méthode d’analyse des tendances sert à mesurer l’évolution de l’importance des termes d’un corpus à un autre. Elle permet de comparer les contenus de plusieurs corpus, l’utilisation la plus évidente étant de comparer l’évolution temporelle de corpus.
- La méthode est-elle linguistique, statistique ?
La méthode est fondée sur des algorithme statistiques. Seule la phase d’extraction de terminologie utilise des lexiques linguistiques. Il n’y a pas d’analyse sémantique. C’est ainsi que Calliope peut facilement travailler sur différentes langues et avec différents lexiques linguistiques.
- Quelle est la séquence de travail typique ?
Formater les corpus source : une fois acquis les corpus de travail, la première tache est de leur donner une structure minimale avec au moins un champ d’information et de les rendre conformes au standard XML avec Calliope Preformat. C’est une tâche qui peut s’avérer plus longue que prévue, car la qualité technique des textes sources peut réserver des surprises : mauvaise structuration, présence de caractères indésirables, etc.
Vient ensuite la phase la plus longue, qui consiste à extraire la terminologie et indexer les corpus avec Calliope Annotate. L’extraction et l’indexation sont automatiques, mais la validation du vocabulaire est faite par l’utilisateur. Calliope vous permet de voir les termes dans leur contexte, retrouver leurs synonymes, etc. Cette phase essentielle doit être menée par un utilisateur connaissant le domaine, qui construit ainsi des lexiques dédiés qu’il est possible de réutiliser et d’enrichir avec d’autres corpus du même domaine.
Faire tourner le moteur statistique de Calliope est l’affaire de quelques minutes si on choisit le mode entièrement automatique. Cependant, l’utilisateur formé pourra optimiser les résultats avec les modes semi-automatique ou entièrement manuel en jouant avec quelques paramètres.
Enfin on visualise les résultats : cartes thématiques, cartes des clusters ou classes, courbes de tendance, tri des termes significatifs selon les catégories « émergent, stable, déclinant ». On peut également retrouver les documents ou examiner les autres champs pour voir les corrélations: qui fait quoi, etc.
- Y a-t-il un paramétrage et les résultats y sont-ils sensibles ?
Oui: comme tout logiciel traitant des données variables et multiformes, deux des trois modules Calliope sont paramétrables par l’utilisateur pour optimiser leurs sorties, généralement par un processus itératif.
- En quoi consiste la détection des signaux faibles ?
Calliope isole certains termes qu’il nomme « émergents » : ce sont des termes dont le poids croît d’un corpus ou d’une période à l’autre ; en inspectant les contextes lexicaux dans lequel évolue ces termes, il est possible de détecter des concepts naissants.
- Qui est derrière Calliope ?
La même équipe maintient et développe Calliope depuis 1997, sous la responsabilité de Mathilde de Saint Leger, à l’origine du projet, et qui est le propriétaire légal de la marque et du produit.
Travailler avec Calliope
- Puis-je me procurer Calliope ?
Nous fournissons Calliope en téléchargement, pour une utilisation gratuite, sans support. Vous pouvez également acheter du support et/ou de la formation.
Calliope tourne sous les versions 32 et 64 bits de Windows (de Vista à Windows 11), mais il n’y a pas de versions pour Linux et MacOS, et nous n’en prévoyons pas. Cependant, il est possible de le faire tourner dans une machine virtuelle; il est également possible de le faire tourner sous Linux via Wine.
Bien que nous y ayions songé, nous n’avons pas créé Calliope sous forme d’application Web, car vous ne souhaitez certainement pas risquer la confidentialité de vos documents en les plaçant sur un site Web.
- Combien coûte Calliope ?
Le logiciel lui-même est disponible gratuitement, sans limitation de durée.
Calliope était payant avant 2014. Nous avons depuis fait le choix de le rendre gratuit (ce qui nous impose moins de contraintes de qualité technique et d’évolution) mais de maintenir payante la formation.
- Comment puis-je travailler avec Calliope ?
Vous pouvez bien évidemment travailler seul de votre côté, en toute confidentialité (le logiciel « respecte » votre vie et votre travail et ne nous transmet aucune de vos données).
Alternativement, nous pouvons collaborer avec vous de deux façons :
- soit en réalisant pour vous une étude fondée sur l’utilisation du logiciel Calliope ; cela revient généralement à traiter des corpus de données que vous possédez, à vous présenter les résultats, à vous aider dans leur interprétation. Nous vous fournissons également l’interface logiciel (Calliope Viewer) pour visualiser et exploiter ces résultats.
- soit en participant à un projet commun dont un work package est fondé sur l’utilisation de Calliope ; nous sommes alors directement partie prenante du WP, ou bien nous vous fournissons le support nécessaire à l’utilisation de Calliope et au traitement complet de vos données.
- Faut-il une formation spéciale pour (bien) utiliser Calliope ?
Pour que vous puissiez utiliser avec profit la chaîne complète de Calliope – formatage des documents, extraction de terminologie, paramétrage optimal – il est indispensable que vous y soyez formé.
Calliope n’est hélas pas un outil presse-bouton, car c’est vous qui validez la terminologie qu’il extrait de vos données et qui jouez sur 2 ou 3 paramètres pour optimiser la présentation des résultats.
Son utilisation demande de posséder certaines connaissances en matière d’analyse de données.
- Faut-il être un expert du domaine de travail pour interpréter les résultats ?
C’est indispensable ! aucun outil logiciel ne saurait prétendre remplacer l’expert que vous êtes pour interpréter correctement les résultats, et Calliope n’échappe pas à cette loi.
Calliope n’a pas d’autre ambition que de vous suggérer des pistes de réflexion, de croiser des combinaisons de termes pour stimuler votre expertise, et vous révéler l’information qui préexiste dans les documents mais demeure invisible parce que diffuse ou implicite ou non directement formulée.
- Quelles langues sont supportées ?
Calliope utilise une méthode entièrement statistique qui permet de traiter en principe n’importe quelle langue. Cependant, les prétraitements (suppression des mots vides, réduction des verbes en infinitifs, etc.) nécessitent des lexiques adaptés.
A ce jour, Calliope a servi pour traiter des données en français, anglais, allemand et espagnol.
Les caractères asiatiques sont acceptés par Calliope.
- Y a-t-il des dictionnaires métiers ?
Calliope sait utiliser des lexiques dédiés contenant un vocabulaire spécifique du domaine d’étude. Cela rend la phase d’extraction de terminologie très pertinente. Si de tels lexiques n’existent pas, il est possible de les constituer puis de les enrichir avec Calliope.
Ces dictionnaires métiers peuvent être réutilisés dans vos projets Calliope.
- Quel volume de texte est-il possible de traiter ?
La limite est la taille de fichier imposée par les applications Windows 32 bit (fichiers de 4Go et mémoire de 2Go par application).
Vous pouvez analyser des corpus contenant chacun des dizaines de milliers de documents. Calliope a par exemple été utilisé pour un corpus unique contenant plus de deux millions de titres de publications scientifiques…
- Quels genres de corpus textuels peuvent-ils être traités ?
Tout document disponible sous forme de fichier textuel peut en principe être utilisé : sorties de base de données, brevets, dépêches de presse, posts Instagram et documents extraits depuis Internet, etc.
Cependant, pour que les résultats soient de bonne qualité, il est nécessaire que les documents satisfassent quelques exigences :
- La quantité de texte doit être significative : au moins plusieurs dizaines de documents, de tailles comparables.
- Les documents peuvent être non structurés (texte pur) ou bien structurés en champs d’information (auteur, sujet, etc), ce qui est généralement le cas quand ils sont issus de bases de données. L’avantage des documents structurés est de faciliter avec Calliope la mise en évidence des corrélations statistiques.
- Quel est le niveau de confidentialité lors du travail avec Calliope ?
Le logiciel ne recueuille ni ne nous fait parvenir quoi que ce soit de vos données et de la façon dont vous les utilisez. Le logiciel n’effectue aucune télémétrie de vos usages.
Les seules données que vous nous fournissez le sont lors de votre demande de licence, afin que nous sachions qui utilise le logiciel et dans quel milieu professionnel.
Enfin, Calliope vérifie votre licence et recherche une éventuelle mise à jour une fois par mois en se connectant à calliope-textmining.com.