Plan de l'article |
Auteur |
BERTIN Marc Maître de conférences en Sciences de l'Information et de la Communication
Laboratoire ELICO - UR 4147
LAFOUGE Thierry Professeur émérite en Science de l’Information et de la Communication Université Claude Bernard - Lyon 1
Composante Informatique
43 Boulevard du 11 Novembre 1918
69 100 Villeurbanne
France
|
Citer l'article |
Bertin, M., & Lafouge, T. (2022). Entre loi et modèles : variations autour des concepts Zipfiens. Revue Intelligibilité du numérique, 3|2022. [En ligne] https://doi.org/10.34745/numerev_1805 |
Résumé :
La loi de Zipf s’intéresse aux phénomènes de régularité dans les différents domaines de la connaissance. La régularité mise en exergue ici est celle de la fréquence des mots dans un texte qui s’ancre historiquement autour de l’ingénierie linguistique. Nous présentons les modèles historiques à travers une formalisation mathématique commune afin de mieux appréhender l'intelligibilité des modèles historiques proposés dans la littérature et de discuter de la controverse entre Mandelbrot et Simon. Nous nous interrogeons sur sa nature et sa résilience à travers une discussion bibliométrique et lexicographique. En s’appuyant sur la position de Kendall, la conclusion positionnera la loi de Zipf par rapport au SHS.
Mots-clés : bibliométrie, Loi, Zipf, modèle, paramètre.
Abstract : Zipf's law is concerned with the phenomena of regularity in the different domains of knowledge. The regularity pointed out here is that of the frequency of words in a text that is historically anchored around linguistic engineering. We present historical models through a common mathematical formalization in order to better understand the intelligibility of historical models proposed in the literature and to discuss the controversy between Mandelbrot and Simon. We question its nature and resilience through a bibliometric and lexicographic discussion. Building on Kendall's position, the conclusion will position Zipf's law in relation to the Humanities and Social Sciences.
Keywords : Bibliometrics, Law, Zipf, Model, Parameter.
Introduction
L'oeuvre de Zipf est avant tout une quête d'universalité dans une tentative de définir un cadre théorique autour du principe du moindre effort même si ce dernier ne proposera aucune mathématisation de son principe. Le travail d’ingénierie autour de la linguistique rappelle que de nombreux mathématiciens et ingénieurs s’intéressent à la linguistique en quête de solutions technologiques comme le rappelle Mandelbrot[1]dans les Constantes chiffrées du discours. Le travail d’Estoup et Condon vont en ce sens. En effet, à la notion de discours est associée deux problèmes technologiques à savoir la cryptographie et la sténographie. La loi de Zipf interroge avec singularité cette notion entre rang et fréquence. Elle repose avant tout sur l'expérimentation qui conduit à un triptyque autour de la modélisation: l'expérimentation, la prise en compte du contexte et la formalisation, c'est-à-dire sa mathématisation. De l’observation du monde réel se pose la problématique de son périmètre et de sa formalisation. Sur ce dernier point, nous verrons que la discussion autour des paramètres est une caractéristique invitant aux débats autour des modèles Zipfiens. S'il est commun de définir le modèle comme une représentation partielle du monde, nous avons choisi une approche plus réflexive en prônant le modèle comme une représentation cognitive de ce monde. Les modèles seraient alors une invitation au dialogue pour mieux les comprendre à travers le langage commun des mathématiques. Pour cela, nous proposons une représentation des modèles Zipfiens à travers une mathématique commune afin de mieux appréhender l'intelligibilité des modèles. Rendre ces modèles intelligibles permet de mieux en saisir les notions et les concepts sous-jacents et de produire des représentations partagées des modèles Zipfiens. D'un point de vue épistémologique, si la fonction d'intelligibilité des modèles ne pose pas ici débat, le principe de rationalité mérite une plus grande attention. En effet, ce principe suppose une formalisation de l'observable. Pourtant à un même phénomène Zipfien, plusieurs modèles se sont construits, co-construit voir confrontés. La controverse entre Mandelbrot et Simon à travers une série d'articles a produit une discussion argumentée avec des éléments divergents montrant l'importance du contexte.
Edward Uhler Condon (1902-1974), physicien nucléaire, travaillant au laboratoire Bell Téléphone publie en 1928 un article dans la revue Science (Condon, 1928) où il fait part d’études sur le vocabulaire sur différents corpus anglo-saxons. Après avoir ordonné les mots par fréquence décroissante (voir la figure 1 ci-dessous extraite de son article) sur un graphique avec une échelle bi-logarithmique (log n , log f (n)) il met en exergue une droite appelée courbe ou droite de Zipf.
Figure 1 : Première représentation de la courbe Zipfienne
Pour appréhender ces régularités statistiques textuelles, explicitons deux méthodes de calcul mobilisant cette loi dans des disciplines relevant des SHS : l’étude des manuscrits anciens, l’archéologie. Il s’agit d’exemples concrets de mise en œuvre d’une démarche que l’on qualifie de Zipfienne dans des contextes différents. La première application nécessite une maîtrise dans l’ingénierie de la numérisation des documents. En effet il s’agit de présenter une méthode pour indexer et identifier les textes anciens, c’est-à-dire analyser les caractéristiques ou plus généralement l’aspect de l’écriture. De nombreuses études utilisant différentes méthodes traitent de l’identification des scripteurs sur des textes anciens. Dans cette étude (Pareti & Vincent 2006) après numérisation des manuscrits, il nous faut définir des motifs et les étiqueter avec un nombre de symboles raisonnables. Des études précédentes ont démontré que la loi de Zipf était vérifiée dans le cas des images avec différents niveaux de gris. La construction de la courbe de Zipf n’est pas vérifiée sur tout le manuscrit mais peut être approximée par quelques segments de droite. Ces zones sont alors interprétées et il possible de définir des similarités entre les textes en mesurant des distances entre les segments identifiés par cette courbe.
La deuxième méthode s’intéresse à une langue ancienne éteinte le Meriotic[2] qui n’est toujours pas déchiffrée. Après avoir défini et indexé (Reginald& Bouchet, 2007) des motifs scripturales[3] (pouvant s’apparenter à certains lettres grecques ou hiéroglyphes égyptiens) il a été nécessaire de définir un séparateur de mot et enfin construire une entité définissant un texte[4] Le texte est alors un ensemble quelconque de symboles organisés de façon topologique. L’objectif est de voir si l’on observe des régularités statistiques dans la fréquence des mots que l’on a au préalable étiquetées. L’étude conclut que le méroïtique, bien qu'il ne soit pas déchiffré se comporte statistiquement comme toutes les autres langues humaines avec une distribution Zipfienne (rang fréquence) des mots.
Les deux approches considèrent le texte comme un ensemble de mots disposés de façon non aléatoire et étant le moyen le plus utilisé pour communiquer entre les hommes. Plus précisément dans le premier exemple la démarche fait l’hypothèse qu’au-delà du sens, des informations non sémantiques sont contenues dans l’écriture. Dans le deuxième il suppose que ce qui apparaît être un texte est en fait la transcription d’une langue supposée écrite. Il existe en effet de nombreuses langues qui n’ont pas d’écriture (Tchicaya U Tamm’Si 1964).
La première partie de cet article présentera la loi de Zipf et les trois modèles historiques explicatifs Zipfiens présentés avec un formalisme mathématique commun. Cela amène une discussion autour du coefficient généralement désigné par la lettre grecque « beta » de la loi qui s’apparente à une constante (voisine de 1) lors des expérimentations. Cette constante se calcule différemment suivant les modèles. La présentation d’une polémique entre Simon et Mandelbrot permet de mieux comprendre par la suite les débats toujours actuels autour de la loi. En effet très souvent, du fait de la multidisciplinarité, la nature de l’objet étudié est imprécise. Cette diversité d’approches amène à faire dialoguer les modèles. La deuxième partie portera d’une part sur la multidisciplinarité de cette loi à travers une étude bibliométrique, et d’autre part, sur l’étude des variations lexicales des énoncés de la loi de Zipf à travers les titres des articles scientifiques provenant des métadonnées du WoS et de Scopus. Enfin en conclusion nous ferons le postulat que la loi de Zipf interpelle aussi bien dans le domaine des lois de la nature que dans les sciences humaines et sociales et nous conclurons sur une réflexion autour des notions de loi et de modèles en science humaine et sociale.
Loi de Zipf et les principaux modèles Zipfiens
L'origine de la loi de Zipf
La loi de Zipf énoncée en 1949 (Zipf, 1949) sur les régularités statistiques de la langue, est une loi surprenante à plus d’un titre. Elle véhicule de nombreuses origines tout en alimentant plusieurs controverses. Résiliente dans le temps, elle s’applique à divers champs disciplinaires en présentant par essence un aspect pluridisciplinaire (Bertin & Lafouge, 2020). Modélisation mathématique partant d’une énonciation du principe du moindre effort pour certains, observations d’ingénieur pour d’autres (Condon, 1928), elle est interrogée sur son sens, sa nature en tant que loi, ainsi que sur la portée de son universalité.
À l'origine l'énoncé mathématique de cette loi met en exergue les régularités statistiques des mots dans un texte. Si les mots du texte sont classés par rang (noté \(r\)) de fréquence décroissante, la relation suivante est vérifiée :
\(p_{r}\) est la probabilité d'occurence du mot de rang \(r\), l'exposant \(β\) est voisin de 1, \(V\) est égal à la taille du lexique, et \(K\) est une constante de normalisation.
La validation de la loi s’inscrit alors dans une démarche classique des statistiques en Sciences Humaines et Sociales (Bressoux, 2010) qui consiste chaque fois que les données s’y prêtent à construire, puis ajuster une distribution empirique par une distribution théorique encore appelée loi de probabilité qui permet d’ajuster un phénomène observable et intemporel. De très nombreuses expérimentations ont été menées sur des textes de types variés, de différents genres (roman, essai, théâtre…) de différents auteurs (textes écrits), ou locuteurs (textes énoncés), dans de nombreuses langues.
Les modèles explicatifs historiques
Les trois modèles explicatifs historiques de la loi de Zipf sont présentés chronologiquement:
-
le modèle communicationnel (1952);
-
le modèle stochastique (1955);
-
le modèle graphométrique (1957).
Les modèles graphométriques et communicationnels ont pour seul objectif d'expliquer cette loi. Le modèle stochastique est plus général. Les trois sont des modèles mathématiques. Nous mettons dans ce paragraphe l'accent sur les concepts sous-jacents en formulant à minima le développant mathématique nécessaire pour mieux les appréhender.
Modèle communicationnel
Dans sa thèse de doctorat (Mandelbrot, 1952), Mandelbrot précise sa position épistémologique sur la langue en s’inscrivant dans la continuité des travaux du linguiste suisse Ferdinand de Saussure. Il souhaite alors élargir sa théorie. Il considère la langue comme une séquence aléatoire d’entités concrètes, et propose une estimation des probabilités de celles-ci.
Selon lui les nombreuses études faites par Zipf sur les distributions confirment quantitativement l’hypothèse de F. de Saussure sur la langue : elle peut être perçue comme une construction d’une suite de mots. Néanmoins il pense que F. de Saussure va trop loin dans sa construction et néglige l’adaptation du message à son support lors de sa transmission. Les travaux de Zipf sur l'origine de la loi stipulent qu’il existe un compromis entre les efforts du locuteur et celui de l'auditeur lors d'un processus de communication. Cette hypothèse est souvent formulée avec le principe du moindre effort qui historiquement est lié à cette loi (Chang, 2016).
En 1953 Mandelbrot traduit mathématiquement cette hypothèse (Mandelbrot, 1953) en s'appuyant sur la théorie de l'information de Shannon. L’idée qui préside à ce modèle est que les mots de faible longueur sont plus fréquents, idée émise déjà par Zipf, car ils nécessitent moins d’effort pour le locuteur. Il traduit cette hypothèse en minimisant \(C\) le coût moyen, soit la quantité moyenne d’effort par unité d’information :
où \(Ef\) est la quantité d’effort nécessaire pour coder/décoder, c’est-à-dire communiquer, et \(Ht\) l’entropie de la distribution des fréquences des mots du texte c’est-à-dire la quantité d’information du message. Si \(Pr\) désigne la probabilité d’un mot de rang \(r\), il définit ces deux quantités par les équations :
où \(log\)\(M\) est le logarithme de base \(M\). \(M\) est le nombre de caractères hormis les séparateurs. Son hypothèse le conduit à calculer l'exposant β de la loi :
Modèle Stochastique
Simon (Simon, 1955) publie un article sur une classe singulière de distributions statistiques dans des domaines variés : linguistique, scientométrie, géographie, économie, biologie. Ces distributions ont une forme caractéristique de J renversé avec une longue traîne. Elles sont à l’opposé des distributions en cloche dites « normales ». Il cite cinq exemples célèbres :
-
distributions des mots dans les textes;
-
distributions des articles des chercheurs, appelée loi de Lotka en scientométrie (Lotka, 1926);
-
distributions des habitants dans les villes en géographie, observées par (Auerbach, 1913) dès 1913;
-
distributions du montant des salaires en économie, appelée loi Pareto en économie (De Pareto, 1895);
-
distributions des gènes dans les espèces en biologie (Good,1953).
Hormis leurs caractéristiques statistiques ces distributions n’ont aucun point commun. Il fait l’hypothèse que ces distributions empiriques ont pour densité une fonction puissance inverse :
où pour la distribution des mots, \(pf\) est la probabilité d'occurrence d'un mot de fréquence \(f\), α l’exposant de la fonction puissance et \(H\) une constante.
La formule (1) de la loi de Zipf inscrit celle-ci dans cette classe de distributions. Néanmoins si cette formule, et la formulation de Simon, concernent les puissances inverses, leurs écritures sont différentes, elles sont équivalentes uniquement pour les fréquences élevées. Dans ce cas on montre la relation :
Simon construit un modèle générique pour expliquer ce type de distribution : il choisit la distribution des mots, un exemple comme un autre selon lui. La langue n'a pas de caractère spécifique C'est une construction sociale comme une autre. Il s'inspire des travaux du statisticien Yule (Yule, G. U. (1925)) précurseur de la théorie des processus stochastiques. Il utilise une variante de la théorie de l'évolution "so called birth or birth and death". Il considère le texte comme une succession de mots produits au cours du temps, les uns après les autres. Il fait deux hypothèses :
-
La première concerne la réutilisation d’un mot. Après avoir produit k mots, il suppose que la probabilité que le (\(k\)+1)ème mot produit ait une fréquence \(f\), soit proportionnelle au nombre total d’occurrences des \(k\) mots précédents de fréquence \(f\).
-
La deuxième hypothèse stipule qu’il existe une probabilité constante que le (\(k\) +1)ème mot soit nouveau, c’est-à-dire non apparu dans les \(k\) premiers.
Ces deux hypothèses décrivent un processus où la probabilité qu’un mot apparaisse dans le texte dépend des mots qui sont antérieurement présents. Simon va alors calculer[5] le paramètre α et donc le paramètre β:
où \(V\) est la taille du lexique et \(T\) le nombre total de mots du texte.
Modèle graphométrique
L’hypothèse d’optimisation de Mandelbrot a été très vite contestée. Ne s’agit-il pas tout simplement d’un simple artefact statistique, en rien spécifique au langage naturel ?
En 1957 Miller soulève la question. Il imagine (Miller, 1957) un singe tapant au hasard sur une machine à écrire comportant \(M\) touches. Il suppose que toutes les touches du clavier, hormis la touche chariot, ont la même chance d’être tapées.
Il note ν cette probabilité où l’on a : \(v.M\) < 1.
La probabilité d’écrire un mot de longueur \(L\) est alors une loi géométrique :
Un texte est la juxtaposition de caractères occupant chacun le même espace. C’est une suite de mots de longueur \(L\) variable, séparés par un caractère spécifique. Supposons que les mots soient classés par rang de fréquences décroissantes comme le fait Zipf.
Si \(L\)= 2 le rang \(r\) d’un tel mot vérifie alors l’inégalité : \(M < r < M + M\)2
Plus généralement si \(r(L)\) désigne le rang d’un mot de longueur \(L\) on a l’inégalité :
Soit un mot quelconque \(w\) de rang \(r(w)\), Miller déduit6 des équations (9) et (10) le résultat (voir Miller, G. A. (1957)) :
où \(k\) et \(b\) sont des constantes, et l’exposant est :
Cette démonstration connait des variantes et est souvent mise en avant pour démontrer la loi de Zipf.
On remarquera que l’équation (11) est différente de l'équation (1) puisque l'on a fait une translation de b sur le rang. Mandelbrot dès 1952 précise la loi (voir Figure 3 ci-dessous extrait de Mandelbrot B. (1968)) avec cette translation. On parle de la loi de Zipf-Mandelbrot. On aura compris que dans ce modèle c’est la combinaison de la graphie qui est en jeu et non directement la langue.
Figure 3 : Loi de Zipf et Zipf-Mandelbrot
Le paramètre β
Cette loi singulière est caractérisée par un seul paramètre, l’exposant β de la distribution (rang fréquence). Il a attiré l'attention des chercheurs. Il ne faut pas oublier que les précurseurs et Zipf dans son ouvrage, ont proposé la simple relation vue en introduction avec le graphe de Condon où β est égal à 1 et \(K\) est une constante.
On sait que sa valeur varie peu dans les expérimentations, elle est rarement inférieure à 0,9 ou supérieure à 1,3. Statistiquement, elle caractérise la variété du vocabulaire dans l’utilisation des mots. β grand signifie une utilisation de mots fortement concentrée sur les mots fréquents, β petit signifie une répartition plus large.
Il est souvent considéré comme une constante. Nous ne rencontrons pas en sciences humaines et sociales des constantes universelles qui sont par essence des caractéristiques d’autres sciences comme la physique.
Les formules proposées pour calculer β sont démontrées et concluent en quelque sorte ces modèles mathématiques par 3 formules (voir (5) (8) (12)):
-
Dans la formule (5) du modèle communicationnel \(Ht\) est l'entropie, \(Ef\) la quantité d'effort. β est alors perçu comme un paramètre communicationnel quantifiant le coût de production d'un texte.
-
Dans la formule (8) du modèle stochastique \(V\) est la taille du lexique, \(T\) le nombre total de mots. β est alors perçu comme un paramètre lexicométrique caractérisant un texte. Il est nécessairement inférieur à 1.
-
Dans la formule (12) du modèle graphométrique \(M\) est le nombre de lettres, ν la probabilité d'occurrence d'une lettre. β est alors perçu comme un paramètre graphométrique de l'écriture d'un texte. Il est nécessairement supérieur à 1.
Les modes de calcul sont étrangers l'un à l'autre et sont totalement indépendants de l'expérimentation. Il est tentant de dire que les variations de β autour de 1 sont des phénomènes qui ne relèvent pas de la loi mais des conditions de l'expérimentation. Ce paramètre va induire chez les chercheurs différentes questions. Peut-on caractériser le genre d'un texte par ce paramètre ? La valeur de β est-elle une caractéristique de la langue, du style du texte ? Toutes ces questions vont susciter de nombreuses études et polémiques. En effet dans le cas du modèle stochastique (ou du moins dans sa forme originelle) β est nécessairement inférieur à 1, ce qui n'est pas le cas du modèle communicationnel. Cela va être le déclencheur comme on va le voir d'une controverse passionnée.
Entre objet mathématique et construction sociale
Nous rapportons la célèbre controverse entre Mandelbrot et Simon. Ce débat se déroule entre 1959 et 1961. Il a pour point de départ une critique de Herbert A. Simon, fondateur du modèle stochastique, dans son article publié en 1955. Il critique entre autres l’utilisation de la théorie de l’information de Shannon par Mandelbrot. Il juge le modèle de Mandelbrot inapproprié. Puis les deux chercheurs publient 6 articles dans la revue Information and Control dans lesquels ils justifient la pertinence de leur modèle et critiquent les faiblesses de l’autre. Cette controverse repose avant tout sur un dialogue avec des hypothèses et des représentations différentes d’un même objet mathématique, mais qui repose sur des motivations, des hypothèses et des approximations différentes. À la rigueur mathématique dont font preuve les protagonistes dans leurs argumentations, s’oppose une incompréhension croissante au cours de leurs échanges respectifs. Cette controverse permet de mieux comprendre pourquoi cette loi va susciter de nombreux débats et être à l'origine de recherches singulières dans des domaines inattendus.
Dans sa première note critique, publiée en 1959, Mandelbrot soulève deux points :
-
Tout d’abord, il réfute les arguments de Simon qui lui reproche d’utiliser la théorie de l’information dans un sens dévoyé : selon lui, il distingue clairement entropie et information sémantique.
-
Puis il critique la démarche de Simon, qui pense obtenir à l’aide d’une simple variante de la théorie de l’évolution de Yule « so called birth or birth and death » un modèle générique des distributions de type Zipfienne (dénommées aussi Z). Il précise que cette recherche est un défi important. Néanmoins, si un tel modèle existe, il devrait s’appuyer sur une hypothèse faible mais aussi générale que celle qui explique le rôle des distributions gaussiennes. Or les lois de type Z s’avèrent résistantes à une telle analyse.
Simon répond en précisant son positionnement épistémologique. Il lui semble plus crédible d’expliquer les régularités empiriques de la langue comme le résultat d’un processus stochastique, résultant d’association et d’imitation, mis en œuvre dans le modèle de Yule, plutôt que de proposer un mécanisme maximisant la quantité d’information transmis par symbole. Cela lui paraît plus juste qu’une explication basée sur les propriétés statistiques du codage. Il critique l’argument de Mandelbrot liant la longueur des mots et leur fréquence. Il rappelle que les distributions (fréquence, longueur des mots) sont très irrégulières. Pour Simon, s’il existe une liaison, ce n’est pas dans le sens que propose Mandelbrot. C’est l’usage intensif des mots qui fait que ceux-ci deviennent abrégés et non l’inverse. Cela va selon lui à l’encontre de la minimisation des coûts pour expliquer la loi. Enfin il justifie l’utilisation de son modèle car les phénomènes d’association et d’imitation sont cohérents avec ce que nous savons sur les processus sociaux et psychologiques.
À partir du quatrième article, la discussion porte essentiellement sur les aspects mathématiques du modèle et les échanges entre les deux chercheurs vont être vifs. Néanmoins, il faut savoir que lorsque l’on modélise à l’aide des mathématiques, une démonstration peut s’exprimer de plusieurs façons, mathématiquement juste, faisant appel à des intuitions et approximations différentes. Il est même possible de retrouver un résultat en critiquant la méthode qui l’a produit. Cette querelle, à la lecture des textes, est souvent une conséquence d’une approximation, d’une hypothèse mathématique forte, contestée car trop peu réaliste. Les positions de Simon et de Mandelbrot sont opposées. Mandelbrot considère la langue comme un objet mathématique. Un texte est un message composé d’une suite de caractères discrets modélisés par la loi de Zipf, qui trouve son explication dans la théorie statistique de la communication de l’information de Shannon. Simon considère la langue avant tout comme une construction sociale en empruntant à la biologie le concept d’avantage cumulatif des processus de la théorie de l’évolution. La loi de Zipf est un cas particulier parmi de nombreux autres processus sociaux et psychosociaux.
L'objectif premier des modèles était d'expliquer le pourquoi de ces régularités dans les textes. Ils sont convoqués dans des problématiques tout autres et feront fonction de dialogue.
Le premier modèle contribue à poser le problème de l'universalité de cette loi. Puisqu'un texte quelconque vérifie ces régularités et qu'il n'existe pas de langue qui soit un outil de communication, c'est qu'il existe une raison structurelle supérieure qui explique ce phénomène de régularité (Ferrer-i Cancho, R. (2007)).
Le deuxième modèle replace la loi de Zipf dans un contexte sociologique bien plus large et va être à l'origine d'autres travaux.
Ils vont utiliser le même principe connu sous le nom d'accumulation ou de réutilisation dans des domaines différents :
-
Le principe des avantages cumulatifs de Solla Price en scientométrie (De Solla Price, 1976), s'appuyant sur les travaux du sociologue Merton (Merton, 1968) sur le concept de "Mathew Effect in Science".
-
L'attachement préférentiel pour expliquer les spécificités du graphe du Web en informatique (voir p 231 (Mitzenmacher, 2012)).
-
Enfin le troisième modèle va questionner la notion de texte aléatoire (Ferrer-i Cancho & Elvevåg, 2010). Cela amène à reposer la question de l'écriture comme une technique s'apparentant aux (voir p180-182 Lafouge & Pouchot, 2012)) technologies de l'intellect définies par l'anthropologue Jack Goody[6].
Comme nous venons de le voir, la notion de modèle amène à penser la nature des objets et à poser la problématique en termes de discipline. Dans (Bertin & Lafouge, 2020) une synthèse bibliométrique produite par l’interrogation de la banque de données[7] internationale Scopus a rapatrié 350 documents publiés dans 159 titres de revue durant la période 1966-2018. Elle témoigne de la vitalité de cette loi surprenante qui perdure aujourd’hui encore dans de nombreux travaux académiques de diverses disciplines.
Entre observation et modélisation : une loi polysémique et multidisciplinaire.
La multidisciplinarité de la loi de Zipf : étude bibliométrique des publications
Nous présentons dans la Figure 1 l’évolution dans le temps (1966-2018), découpée en 3 plages, du nombre des articles publiés dans différents domaines. Ces derniers sont identifiés par le classement des revues de Scopus dans les différentes disciples.
Figure 2 : Évolution au cours du temps des domaines disciplinaires
Une augmentation à la même période est visible pour toutes les disciplines. Si la loi de Zipf présente ici une part d’études plus importante dans le domaine des sciences et techniques (Physique, mathématiques) les sciences socialesn[8] (Social Sciences, Arts and humanités) lui portent également un intérêt avec de nombreuses publications. Cette étude permet de conclure que dans le domaine des SHS, ce sont les sciences sociales, à l’image des mathématiques et la physique qui ont une tradition dans l’étude de cette loi.
Polysémie Zipfienne : étude autour de la variation lexicale des titres d’articles scientifiques
La loi de Zipf est une loi pluridisciplinaire qui a su perdurer dans le temps et présente une forme de résilience. Dans de nombreuses disciplines, des comportements Zipfiens interpellent les chercheurs. Ces dernières années, la loi de Zipf présente des variations dans l’expression de ses énoncés. Une incertitude s’exprime à travers Zipf-like où les expérimentations identifient des phénomènes se comportant comme des distributions Zipfiennes. Un autre aspect qui interpelle sont les concepts mobilisés. Il peut s’agir d’entropie, de loi puissance ou d’échelles scalables. Certains articles cités ont des approches plus larges où stratégie et mondialisation sont de mises.
Afin de souligner la résilience de la loi de Zipf, nous avons mené une étude autour des contextes Zipfiens à partir du WoS et de Scopus pour la période 1970-2020. Cette étude souligne la complexité de citer la loi de Zipf dans le cadre d'une étude bibliométrique, puisque de nombreux travaux la comparent à d'autres lois, telle que celles de Gibrat, Heap, Taylor, Pareto, Boltzmann, Menzerath, Benford, … Parfois, le terme "law" est remplacé par d'autres mots tels que "entropy", "power law", "rule", "rank approach", "distribution, analysis", "exponent", "world", "ensemble", "strategy" , "scaling behavior, approach". Nous avons également trouvé des formes d'analogie, comme dans “A Zipf’s Curve Approach”.
Nous avons également constater l’émergence de la notion de modèle dans les titres, avec une première occurrence en 1982 et une présence plus régulière dans la littérature à partir de ce moment-là. La carte montre également que la nature même de la loi est relativisée par l'utilisation du suffixe "like", qui apparaît également dans les titres.
Figure 3 : Cartes des variations terminologiques des titres
Discussion conclusive
Nous avons vu que la loi de Zipf a été produite suite à des observations dans un contexte technologique. À partir de l’observable, elle convoque aussi bien les sciences humaines et sociales que les sciences de la nature et s’exprime sous forme d’expérimentation et de modélisation. Les modèles Zipfiens semblent posséder cette caractéristique de s’appliquer en dehors de tout cadre théorique. Nous rappelons que la loi de Zipf n’est pas issue d’un cadre théorique établi autour du principe de moindre effort alors que l’article est régulièrement cité dans la littérature (Zipf, 1949). Les modèles exprimés recherchent des régularités à partir de données numériques, et cela indépendamment du domaine et de l’objet d’étude. À l’aide de modèles, cette loi est le lieu de représentations locales du réel à partir des régularités captées, invitant à une forme de réflexivité.
Contrairement aux sciences de la nature, la notion de loi en sciences humaines et sociales n'est pas triviale et la nature des lois en science humaine et sociale mérite discussion. L'existence de lois en sociologie par exemple a été posée au début des années 1930 par Maurice Halbwach[9] dans son essai (Maurice, 1934). Pour lui, les relations régulièrement observées entre les faits sociaux constituent des lois sociales générales et portent sur l'évolution d'ensembles complexes. Celles-ci fixent des corrélations des rapports entre phénomènes sociaux. Jean-Claude Passeron a quant à lui posé au début des années 1990 les limites de la généralisation sociologique dans son ouvrage (Passeron, 1991). Pour l'auteur, il n'est pas envisageable d'assimiler le statut des sciences humaines et sociales à celui des sciences de la nature. Par la même, les propositions des SHS s'inscrivent dans un espace différent, où elles ne peuvent être universellement et intemporellement exactes. Or, du fait de leur objet même, évolutif à travers les âges, et des méthodes d'observation, sont exclus les généralisations et l'établissement de lois générales puisque le contexte de chaque objet sociologique varie, notamment dans le temps. De plus, la description du monde vue par la lunette sociologique est faite à l'aide de mots issus de la langue naturelle alors que l'établissement de lois nécessiterait un langage de référence indépendant du contexte.
Afin de mieux appréhender la place du travail de Zipf, il est nécessaire de considérer la proposition de Kendalls[10] (Kendall,1960) qui redéfinit cette notion dans son contexte des humanités : « Par loi, j’entends un modèle d’agrégat humain observable, reproductible et, en règle générale, quantifiable ; peut-être seulement de nature descriptive, peut-être explicable en termes de modèle, mais en tout cas lié à l’observation ». La loi de Zipf peut donc être qualifiée de loi en Sciences Humaines et Sociales au sens de Kendall puisqu’elle vérifie tous les critères requis énoncés de la définition proposée, à savoir: observable, reproductible, quantifiable.
Si les modèles Zipfiens corroborent la loi de Zipf, ils ne sont pas des prolongations d’un modèle théorique, mais tendent plutôt vers une caractéristique commune d’un phénomène de régularité qui s’exprime aussi bien à travers les sciences humaines et sociales que dans les sciences de la nature à partir du moment que l’on cherche à exprimer sous forme quantifiable le réel.
Bibliographie
Auerbach, F. (1913). «Das Gesetz der Bevölkerungskonzentration. Petermanns Mitteilungen» 59 (1), 74–76.
Bertin, M., & Lafouge, T. (2020). « La loi de Zipf 70 après : pluridisciplinarité, modèles et controverses », Communication et Langages, (206), 111-134.
Bressoux, P. (2010). « Modélisation Statistique Appliquée aux Sciences Sociales », De Boeck. Doi : 10.3917/dbu.bress.2010.01
Chang, Y.-W. (2016). « Influence of the Principle of Least Effort across Disciplines», Scientometrics (106), 1117–1133. doi: 10.1007/s11192-016-1838-0
Condon, E. U. (1928). « Statistics of Vocabulary », Science (67), 300. doi: 10.1007/978-1- 4612-3066-3₉
De Pareto, V. (1895). «La leggae della demanda. Giornale degli Economisti » , 12 , 59–68. https://www.jstor.org/stable/23219874
De Solla Price, D. J. (1976). « A general theory of bibliometric and other cumulative and other advantage processes », Journal of the American Society for Information Science , 27 (5-6), 292–306. doi: 10.1002/asi.4630270505
Estoup Jean-Baptiste, « Gammes sténographiques », 4e édition, Institut Sténographique de France, Paris, 1916.
Ferrer-I Cancho, R. (2007). «On the universality of zipf’s law for word frequencies », In W. de Gruyter (Ed.), Exact methods in the study of language and text (p. 131-140). doi: 10.1515/9783110894219.131
Ferrer-I Cancho, R., & Elvevåg, B. (2010). «Random texts do not exhibit the real zipf’s law-like rank distribution» PLOS ONE, 5.
Good, I. J. (1953). « The population frequencies of species growing according to simple birth and death process », Biometrika, Vol. 40, No. ¾. (Dec., 1953), pp. 237-264.
Kendall M. G. (1960). « Natural law in the social sciences: Presidential address, delivered to the royal statistical society on wednesday, november 16th, 1960 », Journal of the Royal Statistical Society, A 124(1), 1961, p. 16–19.
Lafouge T. & Pouchot S. (2012). « Statistiques de l’intellect : Lois puissances inverses en sciences humaines et sociales », Publibook, 2012.
Lotka, A. J. (1926). « The frequency distribution of scientific productivity », Washington Academy of Science, 16, 1926, p. 317–323.
Mandelbrot, B. (1952). « Contribution à la théorie mathématique des jeux de communication », Institut de statistique de l’université de Paris, PhD thèse, 1952.
Mandelbrot, B. (1953). « An informational theory of the statistical structure of languages », W. Jackson Butterworth, 1953, p. 486–502.
Mandelbrot B. (1968). « Les constantes chiffrées du discours », Le langage, André Martinet (sous la dir. De), Paris, Gallimard, Encyclopédie de la Pléïade, p. 46–56.
Maurice, H. «La loi en sociologie». Paris : Science et loi. Félix Alcan, 5e semaine internationale de synthèse, 1934, p. 173–196.
Merton R.K. (1968). « The Matthew effect in science ». In Science, 159 (3810), p. 56-63. Disponible sur : http://www.garfield.library.upenn.edu/merton/matthew1.pdf (page consultée le 8 mai 2022)
Miller, G. A. (1957). « Some effects of intermittent silence », The American Journal of Psychology, 70(2), 1957, p. 311–314.
Mitzenmacher, M. D. (2012). « A brief history of generative models for power law and lognormal distributions », Internet Mathematics, 1(2), 2012, p. 226–251.
Newman, M. E. J. (2005). « Power laws, pareto distributions and zipf’s law », Contemporary physics, 46(5), 2005, p. 323–351. doi: 10.1080/00107510500052444
Passeron, J.C. (1991). « Le raisonnement sociologique : L’espace non-poppérien du raisonnement naturel », Paris : Nathan.
Reginald, S., & Bouchet, F. (2007). «Investigation of the zipf-plot of the extinct meriotic language» , Glottometrics , 15 , 53-61.
Simon, H. A. (1955). « On a class of skew distribution functions », Biometrika, vol. 42, No. ¾. 1955, p. 425–440.
Simon, H. A. (1960). « Some further notes on a class of skew distribution functions », Information and control 3, 1960, p. 80–88. doi: 10.1016/s0019-9958(60)90302-8
Yule, G. U. (1925). « A Mathematical Theory of Evolution, Based on the Conclusions of Dr. J. C. Willis », F.R.S. In : Philosophical Transactions of the Royal Society of London, Series B, Containing Papers of a Biological Character 213, 1925, p. 21–87.
Zipf, G. K. (1949). « Human behavior and the principle of least effort », Cambridge, MA, USA Addison-Wesley, 1949, Reprinted: Hafner, New York, USA, 1965.
Notes
[1] Benoît Mandelbrot(1924-2010) est un mathématicien connu pour avoir défini une nouvelle classe d'objets que sont les fractales.
[2] Le méroïtique est un langage écrit d’une ancienne civilisation localisée dans ce qu’on appelle maintenant le nord Soudandont les caractères s’apparentent aux hiéroglyphes égyptiens. Méroïtique sur Wikipédia (page consultée le 8 mai 2022).
[3] https://www.egypt.edu/etaussi/informatique/meroitique/meroitique01.htm (page consultée le 8 mai 2022).
[4] La longueur du texte est un élément clé pour vérifier la loi.
[5] L’interrogation est faite le 29 mars 2019 en cherchant tous les documents publiés avec « Zipf » and « Law » dans le libellé du titre.
[6] Nous nous référons au classement dans le monde anglo-saxon des sciences humaines et sociales.
[7] Herbert Alexander Simon (1916-2001) est économiste et a reçu le prix Nobel d'économie en 1978.
[8] Jack Goody (1919-2015) est un anthropologue britannique qui s’est intéressé aux technologies de l’intellect « réflexives » et a constaté qu’il y en a que deux : le langage et l’écriture.
[9] Sociologue français de l'école durkheimienne (1867-1945).
[10] Maurice George Kendall (1907-1983) est un statisticien britannique.