Volume 11, numéro 1, 2015

JEAN-MARC LEBLANC

« Proposition de protocole pour l’analyse des données textuelles : pour une démarche expérimentale en lexicométrie » (p. 25-63)

Résumé : Cette contribution présente une réflexion méthodologique consistant en la comparaison des approches et des méthodes en matière de traitement automatisé des données textuelles, le croisement des outils logiciels, voire l’utilisation des résultats des uns pour les soumettre aux autres, et défend une démarche expérimentale en lexicométrie ou textométrie.

Mots-clefs : Lexicométrie, statistique textuelle, méthode, visualisation.

MARTINE PAINDORGE, JACQUES KERNEIS ET VALÉRIE FONTANIEU

« Analyse de données textuelles informatisée: l’articulation de trois méthodologies, avantages et limites » (p. 65-92)

Résumé : Nous nous interrogeons sur les méthodologies à utiliser pour analyser le contenu des programmes et documents d’accompagnement publiés par le ministère de l’Éducation Nationale en France. Ce corpus textuel présente une forme particulière dans la mesure où les paragraphes de texte sont complétés de tableaux et graphismes variés. L’article présente une étude exploratoire et précise d’abord pourquoi et comment nous articulons deux méthodologies d’analyse logicielle (Alceste et Tropes) et une analyse dite «manuelle». Les résultats obtenus indiquent des fonctions similaires et une complémentarité. Nous précisons enfin les conditions à respecter pour mener à bien ce travail, les avantages et les limites inhérentes.

Mots-clefs : Analyse textuelle, analyse logicielle, analyse de contenu, analyse lexicométrique, Alceste, Tropes.

BERNARD PATEYRON, MAURICE WEBER ET PIERRE GERMAIN

« Essai d’analyse lexicale et stemma codicum de quatre-vingt-trois rituels de Chevaliers Kadosh de la collation du fonds de l’atelier de recherches Sources (p. 93-144) ».

Résumé : Quatre-vingt-trois rituels de Chevaliers Kadosh, approximativement datés de 1750 à ce jour, sont traités numériquement par des méthodes de fouille de textes ou d’analyse lexicale (Data mining). Pour faciliter la compréhension du travail, ces méthodes sont brièvement décrites et les logiciels de mises en œuvre sont comparés. Il s’agit, pour ces textes de dates de première occurrence incertaines, de tenter d’établir des critères chronologiques et des caractères de parenté. Une ressource nécessaire à l’établissement de la filiation vraisemblable de ces rituels paraît être l’établissement d’un dendrogramme phylogénétique. Un tel arbre est construit à partir du concept de distance afin de comparer numériquement la proximité (similarité) ou l’éloignement (dissimilarité) de ces textes. Par commodité de traitement numérique, c’est une métrique fondée sur le khi2, ou méthode de Muller, qui est exploitée a priori sur les formes graphiques. Il apparaît a posteriori que la même métrique utilisée sur les fonctions syntaxiques conduit à un arbre phylogénétique quasi identique.

Mots-clefs : Fouille de texte, distance lexicale, datation, fonctions syntaxiques, arbre phylogénétique, rituels maçonniques.

ELISA OMODEI, YUFAN GUO, JEAN-PHILIPPE COINTET ET THIERRY POIBEAU

« Diversité sociale et sémantique : représentation socio-sémantique d’un corpus scientifique, le cas du corpus ACL Anthology » (p. 145-179).

Résumé : Nous proposons une nouvelle méthode pour l’extraction de termes multi-mots à partir de publications scientifiques. Notre stratégie est fondée sur la combinaison de deux approches : une première liste de termes « candidats » est d’abord extraite à partir de critères de fréquence et de spécificité. Cette liste est ensuite classée suivant la position du terme dans le Résumé : (en ayant recours à un étiquetage de la valeur « argumentative » des phrases, selon une analyse de type text zoning). Cette approche permet de classer les termes en différentes catégories, et notamment de distinguer le vocabulaire conceptuel des éléments d’ordre méthodologique. Nous avons appliqué cette méthode à l’extraction des termes utilisés en traitement automatique des langues à partir de l’analyse d’un corpus (ACL Anthology) s’étendant de 1980 à 2008. Nous montrons ainsi qu’il est possible de suivre les méthodes utilisées, comment elles sont introduites dans le domaine, par quel type d’auteur et pour quel usage, etc. Nous observons ainsi plusieurs faits marquants de l’évolution du domaine sur une période de plus de 30 ans.

Mots-clefs : Corpus, extraction de termes, analyse discursive, text zoning, ACL Anthology.

ROGER GERVAIS

« Analyse de données textuelles informatisée. Comment la pensée complexe et l’approche relationnelle peuvent nourrir quelques considérations méthodologiques » (p. 181-215).

Résumé : Cet article explore deux préoccupations méthodologiques liées à la méta-analyse de données textuelles : 1) le danger de la « décontextualisation » des idées comme conséquence d’une quantification des données textuelles; et 2) le principe selon lequel il importe de déterminer le cadre historique et l’origine du document avant de procéder à l’analyse. Pour ce faire, nous nous appuyons sur le traitement de 11 020 articles de périodiques parus au Canada et en France en 2005 effectué par le logiciel SPAD. Nous concluons que ce logiciel répond bien à la première préoccupation. SPAD produit des analyses de facteurs des données lexicales tout en offrant au chercheur la possibilité de retourner au texte et de vérifier le « sens » des mots. Toutefois, notre étude de cas montre aussi comment un échantillon de cette taille rend difficile la prise en considération a priori du cadre historique et de l’origine du document. Pour montrer comment il est possible de réaliser des méta-analyses en dépit de cette difficulté, nous nous référons à des principes proposés par les études relationnelles et par la systémique complexe.

Mots-clefs : Systémique complexe, études relationnelles, mondialisation, traitement de données textuelles, SPAD, lexicométrie, media.

FABIENNE BAIDER

« La parole inversée? Marine Le Pen et son identité-ressource langagière » (p. 217-252)

Résumé : Cette étude fait le point sur des recherches informatisées d’analyse de discours politique, et en particulier du discours populiste. La perspective adoptée est celle de l’étude de la construction de l’identité empathique de Marine Le Pen, conformément à des stéréotypes féminins, et ayant pour objectif des positionnements politiques précis et conformes aux fondamentaux du Front national. Des outils informatiques permettent de détecter des tendances discursives par le repérage de mots-clefs tels que solidarité, souffrances, tendances qui peuvent ensuite être affinées par des études qualitatives. D’une part, ce travail confirme la performativité politique des émotions lorsqu’elles sont conformes à des stéréotypes sexués. D’autre part, il atteste la présence de particularités rhétoriques d’un parti antisystème (avec des notions-clefs restant présentes au fil des années) qui sont adaptées aux nouvelles donnes politiques (le point de vue et la focalisation sont retravaillés). Ainsi le style d’intervention de Marine le Pen ferait-il basculer rhétoriquement un discours focalisé sur le ressentiment, le mépris et la nostalgie (celui de Jean-Marie Le Pen) en un discours que nous analysons comme jouant sur des émotions positives, notamment, ici, l’empathie plus conforme à un ethos féminin.

Mots-clefs : Front national, empathie, féminité, Marine Le Pen, Termostat, SketchEngine.

MAUD HIDALGO, ISABELLE RAGOT-COURT ET CHLOÉ EYSSARTIER

« La circulation inter-files : pratique pour les deux-roues, mais qu’en pensent les automobilistes? Analyse comparée de discours d’automobilistes sur ce comportement typique des usagers en deux-roues motorisé » (p. 253-284)

Résumé : Cette étude propose d’analyser le point de vue des automobilistes sur la circulation inter-files (CIF) des deux-roues motorisés (2RM). Jamais questionnés jusqu’alors sur ce comportement typique 2RM, c’est pourtant une pratique qui les implique du point de vue opératoire, bien qu’ils n’en soient pas à l’initiative. Pour cela, soixante entretiens semi-directifs auprès d’automobilistes choisis en fonction de 3 critères (ville de mobilité, ancienneté du permis de conduire B et pratique ou non du 2RM) ont été conduits et ont permis de recueillir un corpus lexical riche d’informations. Ce corpus a fait l’objet d’une analyse informatisée grâce au logiciel ALCESTE. Les résultats de cette analyse fine soulignent, entre autres, l’importance de l’expertise des individus dans le domaine du 2RM et l’importance du contexte de circulation et des normes sociales s’y référant sur la pratique et les attitudes vis-à-vis de la CIF.

Mots-clefs : Circulation inter-files, automobilistes, analyse informatisée du discours, ALCESTE, contexte de circulation, « expertise » du 2RM.

AUDREY ARNOULT

« Réflexion méthodologique sur l’usage des logiciels Modalisa et Iramuteq pour l’étude d’un corpus de presse sur l’anorexie mentale » (p. 285-323)

Résumé : L’anorexie mentale est une maladie polyfactorielle complexe aujourd’hui considérée comme un problème de santé publique par le corps médical. Toutefois, les discours médiatiques sur ce sujet sont relativement récents. Notre contribution vise à comprendre comment se caractérise la couverture médiatique de cette pathologie et quelles représentations construisent les médias de ce trouble lié à l’adolescence tout en montrant en quoi le recours à des logiciels d’analyse automatisée de discours peut nous être utile. Pour cela, nous menons une analyse quantitative et de contenu d’un corpus de 131 articles, publiés entre 1995 et 2009, dans divers quotidiens nationaux, avec le logiciel Modalisa. Puis, nous utilisons le logiciel Iramuteq pour identifier les mondes lexicaux organisant les discours en nous appuyant sur un second corpus, plus restreint.

Mots-clefs : Anorexie, médiatisation, presse quotidienne, analyse automatisée de discours, Modalisa, Iramuteq.

MARIA ZIMINA ET SERGE FLEURY

« Perspectives de l’architecture Trame/Cadre pour les alignements multilingues » (p. 325-353)

.
Résumé : L’informatisation des alignements textuels est confrontée à la complexité de l’organisation textuelle et discursive. L’architecture modulaire Trame/Cadre issue des recherches menées en textométrie facilite la navigation dans l’espace textuel multilingue. Le flux textuel est représenté par un système de coordonnées sur le texte (la Trame). Le calcul d’une Trame permet une identification précise des objets (contenants et contenus) nécessaires aux repérages contextuels (le Cadre). La construction d’un Cadre permet de stocker non seulement les découpages du texte mais aussi les annotations produites par différentes procédures informatiques (y compris les alignements) et, éventuellement, de les faire passer d’une procédure de traitement à l’autre. Ces états successifs de traitement induisent la notion de ressource textuelle incrémentale qui conserve la trace de séquences de traitement apportées à la ressource textuelle initiale, avec apport de méthodes quantitatives. Cette approche est implémentée au sein du logiciel Le Trameur qui permet d’explorer les corpus multilingues richement annotés (treebanks).

Mots-clefs :

Alignements, annotation, bi-texte, Cadre, corpus multilingues, relations de dépendance, textométrie, Trame, treebanks.

Hors thème

SIMON LAFLAMME

« Le postulat d’un acteur rationnel en sciences humaines : une demi-vérité persistante » (p. 355-375)

Résumé : Le postulat d’un acteur rationnel, autonome, conscient, intentionnel et intéressé a maintes fois été dénoncé, notamment par les approches relationnelles. Les critiques ont rappelé l’importance de l’inconscient et de l’émotion dans la psyché humaine, l’impossibilité de comprendre l’action humaine en dehors d’un rapport aux structures sociales, le caractère illégitime d’une subjectivité qui délibère de façon monadique. À elles seules, ces critiques auraient dû évacuer depuis longtemps l’axiomatique rationalisante. Pourtant, cette axiomatique ne perd rien de sa vigueur; elle continue à dominer les modélisations en sciences humaines. La question se pose de savoir comment elle fait pour s’éterniser. Il faut bien qu’elle justifie son existence. Nous avons repéré sept manières par lesquelles les spécialistes des sciences humaines parviennent à légitimer cette axiomatique, qui est au mieux une demi-vérité. Nous relevons et dépeignons chacune de ces justifications et montrons qu’aucune d’elles ne représente réellement une réponse à la critique relationnelle.

Mots-clefs : Acteur rationnel, approche relationnelle, émotion, inconscient, liberté, structures sociales.

DENIS MARTOUZET

« La complexité aux limites de la rationalité. Proposition de définition de la structure de base de la complexité du couple actions-attitudes par la critique du principe du tiers-exclu » (p. 377- 424)

Résumé : Cet article vise la définition d’une structure de base de la complexité dans le couple attitude cognitive/action par la remise en cause du principe de tiers exclu. Prenant pour point de départ la volonté humaine, il est montré que, celle-ci faisant preuve de faiblesse (akrasie aristotélicienne et objectifs que l’on se fixe relevant des effets essentiellement secondaires de Jon Elster), la personne met en œuvre des stratégies d’autocontrainte (comme l’engagement) irrationnelles mais efficaces. Leur efficacité découle de la capacité humaine à être de mauvaise foi, au sens sartrien du terme : une mauvaise foi en toute bonne foi. La structure de cette mauvaise foi est fondée sur le résultat de la coprésence contradictoire entre croyances incompatibles et, même, leur renforcement réciproque, malgré le fait que se forcer à croire est un exemple d’effet essentiellement secondaire, soit un objectif que l’on ne peut vouloir. C’est le mécanisme de cette contradiction qui est décrit, remettant en cause ce principe du tiers exclu. Le résultat de ce mécanisme peut être pensé comme la « brique élémentaire » de la complexité humaine.

Mots-clefs : Volonté, irrationalité, mauvaise foi, effet essentiellement secondaire, principe du tiers exclu.