Hostname: page-component-586b7cd67f-g8jcs Total loading time: 0 Render date: 2024-11-27T07:32:49.308Z Has data issue: false hasContentIssue false

La segmentation, un outil méconnu au service du démographe

Published online by Cambridge University Press:  17 August 2016

Get access

Extract

Dans de très nombreux cas, le démographe aborde les problèmes auxquels il est confronté avec une méthodologie et des instruments qui lui sont propres et qui atteignent souvent un degré de raffinement ou de sophistication très élevé, lui conférant ainsi un statut particulier par rapport à ses confrères des autres sciences sociales.

Pourtant, son originalité disparaît lorsque, abandonnant le terrain descriptif, où il a remporté ses plus beaux succès, il se tourne vers l'explication et la recherche des causes des grands phénomènes de population qu'il a d'abord appris à mesurer avec précision.

Type
Études
Copyright
Copyright © Université catholique de Louvain, Institut de recherches économiques et sociales 1971 

Access options

Get access to the full version of this content by using one of the access options below. (Log in options will check for institutional or personal access. Content may require purchase if you do not have access.)

Footnotes

(*)

Département de démographie do l’U.CI.

References

(1) Moyennant une hypothèse implicite suc la constance de la correlation outre les caractères liés, quel que soit l'état de la variable de liaison, c.a.d- la sous-population examinée.

(2) Henry, Louis, “[Réflexions sur l'observation en démographie]”. Papulation. Paris, no 2, avril- juin 1963, p. 242 Google Scholar.

(3) Kish, L., “[Le choix de l'échantillon]”, in Iestinger, L. et Katz, D., Les méthodes de recherche dans les sciences sociales, Paris, P.U.F., 1959. 2 volumes (trad do l'anglais). Chapitre V, p. 247 Google Scholar.

(4) Ou encore d'effets structurels ou compositionnels.

(5) Bilson, W.A., “[Matching and prediction on the principle of biological classification]”, Applied Statistics, juin 1959, vol. VIII, no 2, pp. 6776 Google Scholar.

(6) L'avantage de cette mesure par rapport aux indices d'association habituels était, aux yeux de l'auteur, l'expression immédiate des résultats en termes d'”unités déplacées” (c.à-d. d'individus présentant le caractère dépendant en plus ou en moins par rapport au nombre théorique espéré dans l'hypothèse de l'indépendance des deux caractères) et non d'un indice synthétique abstrait souvent sensible aux conditions particulières des distributions marginales.

(7) Et aussi lorsque les variables sont des classifications polychotomiques et non simplement dichotomiques.

(8) Morgan, J.N. et Sonquist, J.A., “[Problems in the analysis of survey data, and a proposal]”, Journal of the American Statistical Association, juin 1963, vol. VIII, pp. 415434 CrossRefGoogle Scholar.

(9) La première version opérationnelle rendue disponible (en fait version 2) était décrite dans: Morgan, J.N. et Sonquist, J.A., The detection of interaction effects: A report on a computer program for the detection of optimal combination of explanatory variables, Ann Arbor, Survey Research Center Google Scholar. Institute for Social Research, University of Michigan, 1964, monographie no 35, 7e réédition en 1970. Par ailleurs, il faut signaler qu'une version adaptée au matériel du Centre de Calcul est disponible au Département de Démographie de l'U.C.L. par l'intermédiaire des Belgian Archives for the Social Sciences, et aussi qu'une version 3, notablement modifiée en ce qui concerne les critères de partition (recours à une analyse du type covarianec) a été récemment mise au point.

(10) J.N. Morgan et J.A. Sonquist, The detection of interaction effects, op cit., préface, p. iv.

(11) Pour rappel, avec un total de N observations xij, reparties en k groupes de Nj observations (j =1,2,…k) et en désignant par x la moyenne générale et xj la moyenne au groupe j. la relation générale d'analyse de la variance s'écrit (la sommation est étendue d'abord au groupe et ensuite aux unités à l'intérieur des groupes):

STC = somme des carrés totale SCI = somme des carrés Intra SCE = somme des carrés inter

où, dans une notation modifiée après développement de façon à faire apparaître dans le membre de gauche la somme des carrés des observations seules:

(11) suite

La somme des carrés intra exprime la variation à l'intérieur des groupes: plus sa valeur est faible et plus les groupes sont homogènes, autrement dit plus la dispersion des unités constitutives autour de leur moyenne est elle-même faible. Comme, par ailleurs, la somme totale des carrés est constante quel que soit le mode de répartition utilisé (on suppose que les observations peuvent être réparties en groupes dichotomiques selon divers modes mutuellement exclusifs), les objectifs de la technique de segmentation seront bien atteint en donnant la priorité au découpage de la population assurant la valeur minimale de la somme des carrés intra et, par voie de conséquence, la valeur maximale de la somme des carrés inter: de cette façon, les deux sous- ensembles ainsi constitués seront bien à la fois les plus contrastés entre eux et les plus homogènes intérieurement, et la terminologie utilisée plus haut parallèlement à celle de segmentation, se trouve pleinement justifiée et explicitée.

(12) Les autres quantités qui apparaîtraient dans une analyse traditionnelle de la variance seraient les suivantes:

1) la somme totale des carrés des écarts des observations à la moyenne générale (total sum of squares)

2) la somme des carrés des écarts des moyennes de groupes à la moyenne générale, pondérées par le nombre d'observations de chaque groupe (between sum of squares)

(La somme des carrés intra figure dans le tableau II).

(13) Eventuellement, l'écriture de S peut encore être modifiée afin de ne plus comporter aucune référence directe aux moyennes:

puisrjue

on obtient:

qui correspond, aux indices près, à la formalisation adoptée par J.N. MORGAN et J.A. SONQUIST, dans Problems in the analysis of survey data, and a proposal, op.cit., p. 428.

(14) La démonstration suivante peut en être donnée: en désignant par n, nį et n- les unités ayant la caractéristique a dans l'ensemble de la population échantillonnée et dans chacun des groupes dichotomiques construits sur l'attribut I, de sorte que l'on puisse établir les relations:

et n =ni + ni

on obtient par transposition dans [2] et [3] une écriture de l'inégalité [3] ≥ [2], où sont exclus les termes pa n et N:

soit après regroupement et simplification:

et encore, par multiplication des deux membres par le nombre positif:

c'est à dire, finalement, en effectuant et en simplifiant:

nouvelle inégalité toujours vérifiée et confirmant ainsi la propriété énoncée.

(15) En effet, supposons qu'une dichotomie maximale ait été déterminée par le recours au critère simplifié. Elle implique:

c'est-à-dire que la division dichotomique fondée sur la variable I (catégories i et i) assure un pronostic supérieur à celui réalisé à partir de n'importe quelle autre division. La relation devient, après remplacement des termes en pa par les termes en pā correspondants (probabilités contraires telles que

et, par développement et simplification:

En additionnant membre à membre la première et la dernière inégalité, on retrouve bien l'inégalité qui aurait été écrite sur base du critère complet; la simplification est donc justifiée.

(16) Dans le programme A.I.D., ces contraintes sont largement laissées à l'appréciation de l'utilisateur; les valeurs approximatives recommandées sont néanmoins 25 pour le nombre minimum d'observations et respectivement dix pour mille et cinq pour mille pour les deux proportions.

(17) Ces deux dernières conditions ne sont pas redondantes, car il n'est pas rare pratiquement qu'un sous- groupe contienne encore une fraction importante de la variabilité initiale alors même qu'aucun des prédicteurs utilisés ne soit apte à accroître sensiblement la somme des carrés expliqués, où si l'on veut, à améliorer le pronostic sur la variable dépendante. Une façon quelque peu différente de procéder serait, plutôt que d'imposer une proportion fixe à atteindre, d'utiliser le coefficient de corrélation entre classes qui a la propriété d'accuser une valeur proche de zero lorsque les diverses classes d'un ensemble, échantillon ou population,ne se différencient pas assez et donc lorsque l'incidence du facteur de partition est nulle.

(18) Guitton, A., Statistique et econometrie. Paris, Dalloz, 1963, 2e ed., p. 313 Google Scholar.

(19) Voir, par exemple, l'ouvrage de Yaglom, A.M. et Yaglom, I.M., Probabilité et information. Paris, Dunod, 1959 Google Scholar.

La base des logarithmes est quelconque, mais le choix d'une base égale au nombre d'issues de l'épreuve a l'avantage de rendre l'entropie elle-même égale à l'unité lorsque toutes les issues sont équiprobables, c'est-à-dire lorsque l'indétermination est la plus grande. A cet égard, la base 2 est importante, car elle correspond au code binaire utilisé dans de nombreuses applications techniques de transmission d'informations: l'unité d'information retenue est alors l'indétermination d'une expérience ayant deux issues également probables et s'appelle unité binaire, bit ou Hartley (en hommage à l'ingénieur américain qui proposa, dès 1928, une mesure simplifiée du degré d'indétermination d'une expérience, modifiée plus tard par Shannon qui lui donna le nom d'entropie).

(20) Soient par exemple, deux expériences à deux issues a et ā et i et ī: l'expérience complexe correspondante en a naturellement quatre ai,aī, āi,āī.

(21) Voir A.M. YAGLOM et I.M. YAGLOM, op.cit., pp. 46 et suivantes.

(22) A.M. YAGLOM et I.M. YAGLOM, op. cit., p. 60.

(23) La généralisation à une variable dépendante polychotomique ne pose en effet aucun problème, puisque la mesure de l'entropie est réalisable quel que soit le nombre d'issues.

(24) C'est d'ailleurs bien entendu la même indétermination que celle de l'expérience consistant à prévoir la classe d'un individu prélevé au hasard dans la population en connaissant les probabilités associées à chacune des éventualités.

Le fait que l'expérience soit reproduite N fois sur les N individus ne modifie pas la valeur de l'entropie.

(25) Voir Faverge, J.M., Méthodes statistiques en psychologie appliquée. Paris, P.U.F., 3 vol., 1954 (1er éd., vol. 1 et 2), 1965 (vol. 3), Tome 3, Chapitre XVI, “[La théorie de l'information]”, notamment pp. 378380 Google Scholar.

(26) Avec cette différence toutefois que, lorsque des partitions selon des critères divers sont envisagées, aucun des deux termes H(AIj) et H(Ij) ne demeure constant pour j = 1, 2 … k.

(27) L'intérêt de cette présentation est notamment de faire apparaître I comme statistique de contingence comparable dans sa conception au test X2 de Pearson, avec référence implicite à une table des fréquences théoriques construite à partir de l'hypothèse nulle d'indépendance des facteurs de classification.

(28) Entendre la valeur de l'entropie multipliée par la taille proportionnelle du groupe.

(29) Ne pas confondre cette information globale qui porte sur l'entièreté de l'arbre dichotomique à une phase donnée de son élaboration, et celle mesurée lors de la séparation en deux classes de chaque sous-groupe selon le critère le plus favorable à la réduction de l'indétermination dans le sous-groupe en question, considéré à ce moment comme une entité quelles que soient les dichotomisations antérieures dont il résulte.

(30) Sur des perspectives d'application à la psychologie, voir l'ouvrage déjà cité de Faverge, J.M., (Méthodes statistiques en psychologie appliquée, Tome 3), avec en bibliographie (pp. 395396) quelques références spécialiséesGoogle Scholar. MacGill, W.J.[Multivariate information transmission]”, Psychometrika, XIX, 1954, pp. 97116)CrossRefGoogle Scholar, développe aussi à partir des concepts de la théorie de l'information, une méthode originale, décrite et critiquée par Boudon, R. (L'analyse mathématique des faits sociaux), Paris. Pion, 1967, pp. 151157 Google Scholar: un exemple de méthode d'analyse des structures simples: l'analyse de l'incertitude de McGill) et bien adaptée à l'étude de certaines structures causales multivariées avec d'éventuels effets d'interaction.

(31) J.A. SONQUIST et J.N. MORGAN, The detection of interactbn effects, op.cit.

(32) Cette condition est commandée par le souci de diminuer le nombre de dichotomies à prendre en considération, aucune dichotomie constituée en dehors de l'ordre progressif des probabilités ne pouvant procurer une valeur supérieure des critères. Dans certains cas, on peut cependant renoncer à l'appliquer lorsque la variable explicative présente elle-même un ordre naturel de ses classes ou de ses catégories (par exemple, l'âge, le nombre d'enfants, le revenu), et que l'on redoute de provoquer des regroupements de classes ou de catégories non contigues toujours plus ou moins délicats à interpréter. Le seul inconvénient est alors de n'avoir aucune garantie quant à l'obtention d'une dichotomie optimale.

(33) Dalenius, T.' “[The problem of optimum stratification]”, Skandinavisk Aktuarietidsskrift, 1950, vol. 33, pp. 203213 Google Scholar.

(34) Nelder, J.A. et Mead, R., “[A simplex method for function minimization]”, The Computer Journal, 1965, vol 2, pp. 308313 CrossRefGoogle Scholar.

(35) Gilje, E. et Thomsen, I., “[Two methods for splitting data into homogeneous groups]”, Arbeidsnotater, Working papers from the central bureau of statistics of Norway, avril 1970 Google Scholar. L'application est aussi intéressante parce qu'elle se rapporte au domaine démographique: 451 municipalités norvégiennes sont comparées quant à leur taux brut de reproduction pour établir des regroupements assurant une étude régionale assez fine de la fécondité sans pour autant courir le risque de masquer les phénomènes réels sous des fluctuations aléatoires dues aux effectifs trop faibles. Dans ce cas, la meilleure partition détectée comprend 7 à 8 groupes (sans nécessaire unité géographique) de fécondité “similaire”.

(36) Howard, R.N., “[Classifying a population into homogeneous groups]”, in Lawrence, J.R. (ed.), Operational Research and the Social Sciences, Londres, 1966, pp. 585594 Google Scholar.

(37) C.àd. le nombre de groupes p à constituer qui est assez largement laissé à l'appréciation de l'utilisateur, mais qui ne peut être trop faible sous peine d'une variation perdue excessive et qui ne peut non plus trop approcher le cas trivial où chaque unité isolée est considérée comme un groupe (p =n).

(38) Signalons aussi un problème technique lié au nombre d'opérations à effectuer qui peut parfois devenir prohibitif même avec des ordinateurs à très grande vitesse.

Pour la segmentation, le nombre de dichotomies “candidates” à tester lors de la première partition est seulement égale à où 1 concerne les facteurs et q les catégories associées aux facteurs. Avec dix facteurs de dix catégories chacun, le nombre de comparaisons à effectuer n'est donc jamais que de 90.

Par contre, avec la méthode de Ward qui consiste à envisager les p(p-1)/2 façons d'unir deux groupes parmi un ensemble de p groupes pour en obtenir (p-1), le nombre de comparaisons requises au début de la procédure s'élèverait à n(n-1)/2 (à la première étape, chaque unité forme un groupe). Et, en recourant à l'algorithme de Cavalli-Sforza et Edwards basé sur l'examen de toutes les façons possibles de spliter en deux un des p groupes pour en obtenir (p-1), ce nombre atteindrait 2(n-1)-1 (à la première étape, toutes les unités forment un seul groupe). Avec un échantillon de 10.000 unités, il y aurait donc dans le premier cas 499.950.000 comparaisons et dans l'autre 29999.1

(39) On n'envisagera pas ici l'analyse factorielle qui occupe un rang un peu particulier au sein des méthodes multivariées.

(40) Cfr. par exemple, Suits, D.H., “[Use of dummy variables in regression equations]”, Journal of the American Statistical Association, vol. 52, dec. 1957, no 280, pp. 548551 CrossRefGoogle Scholar.

(41) Dans sa version classique, l'analyse de la variance s'applique d'ailleurs à des variables de classification orthogonales ou non corrélées, cette condition étant respectée dans les plans d'expérience où les effectifs ont été égalisés dans toutes les cellules.

Quant au modèle de régression multiple, on peut soutenir en souscrivant à une stricte méthodologie de la causalité, qu'il ne devrait s'appliquer qu'à des structures simples où les variables indépendantes ne sont pas corrélées entre-elles (par opposition aux structures complexes où elles sont en relation). Cette position est notamment défendue par Boudon, R. (L'analyse mathématique des faits sociaux. Paris, Pion, p. 37)Google Scholar.

(42) Pour une discussion très large des interactions et des méthodes susceptibles de les intégrer dans la recherche sociologique, voir Sonquist, J.A., Multivariate Model Building, The Validation of a Search Strategy. Ann Arbor, Michigan, I.S.R., 1970 Google Scholar.

(43) L'ouvrage de Orcutt, G.H., Greenberger, M., Korbel, J. et Rivlin, A.M.: Microanalysis of socio-economic systems: a simulation study (New York, Harper, 1961)Google Scholar apporte une illustration des problèmes rencontrés par ce type d'analyse: avec seulement trois variables indépendantes fragmentées en 9 (dummy variables, le nombre de termes d'interaction à prendre en considération est déjà de 23 et avec 16 attributs binaires, l'accroissement est tel qu'une autre procédure propre à pallier les insuffisances du schéma purement additif a dû être mise en oeuvre.

(44) On en trouvera une üste partielle dans J.A. SONQUIST et S.N. MORGAN, The detection of interaction effects, op.cit. (7e édition, 1970) et dans J.A. SONQUIST, Multivariate Model building, op.cit.

(45) op.cit.

(46) Il serait cependant naif de croire que la méthode soit de ce fait automatiquement délivrée de toute altération si l'une ou l'autre de ces hypothèses est violée.

(47) J.A. SONQUIST et J.N. MORGAN l'indiquent clairement: “si une variable est utilisée dans une des branches, et si elle ne montre pas d'utilité actuelle ou potentielle à réduire l'erreur de prédiction dans une autre branche, il est alors évident qu'il existe un effet d'interaction entre cette variable et celles utilisées dans les partitions précédentes (The Detection of interaction effects, op.cit., p. 112).

(48) Parmi celles-ci, citons l'élimination des variables redondantes ou quasi redondantes, la construction de variables composites à partir de variables simples trop fortement liées, de façon à obtenir un plan de segmentation ne comptant plus que des variables réellement indépendantes, enfin le recours à une analyse résiduelle en plusieurs étapes avec des groupes distincts de variables (two-stage analysis).

(49) op.cit.

(50) Andrews, F., Morgan, J. et Sonquist, J., Multiple Classification Analysis. A Report on a computer program for multiple regression using categorical predictors. Ann Arbor, Survey Research Center, Institute for Social Research, University of Michigan, 1969 Google Scholar.

(51) Soit sont des coefficients correspondant à chacune des catégories i, j ou k des variables a, b ou c, et représentant des déviations par rapport à la moyenne générale Ȳ. Les coefficients sont additifs et estimés par une méthode de moindres carrés de façon à minimiser l'erreur ejjk; ils sont en quelque sorte des mesures de l'effet de l'appartenance des observations à chacune des catégories des prédicteurs.

(52) L'analogie est totale, mais tous les coefficients sont exprimés, comme il l'est dit à la note précédente, en termes de déviations par rapport à la moyenne générale et non, comme c'est le cas pour la régression multiple avec dummy variables en termes de déviation par rapport aux coefficients omis (une classe de chaque véritable variable pour éviter une multi-colinéarité parfaite et une matrice singulière); de plus aucune recodification des variables n'est nécessaire à l'entrée.

(53) Un niveau de faible “bruit” (moyenne des erreurs zéro et écart type un) et un niveau de “bruit” élevé (moyenne zéro et écart type 2).

(54) En fait, dans les travaux expérimentaux décrits, les situations sont extrêmes et fortement simplifiées. Dans le modèle cumulatif, la présence simultanée de trois avantages est requise pour conférer une valeur unique supérieure à la moyenne et la perte d'un seul d'entre eux entraîne la disparition de l'effet (les avantages sont cumulatifs et les désavantages sont substitutifs). Graphiquement, ce modèle idéal correspond à la configuration suivante de l'arbre issu d'une segmentation (on acceptera la convention que le groupe dont la moyenne est la plus élevée soit représenté sur la branche supérieure):

Figure 2: Modèle cumulatif (i, j, к = avantages)

Par contre dans le modèle substitutif, la présence d'un seul avantage provoque l'effet, c.à.d. une valeur élevée de la variable dépendante, et les trois désavantages sont nécessaires pour la maintenir à un bas niveau (les avantages sont substitutifs et les désavantages cumulatifs). La structure graphique est alors la suivante:

Figure 3: Modèle substitutif (i, j, k = avantages)

Les configurations réelles sont cependant rarement aussi nettes, et il est plus fréquent de trouver des structures partiellement additives, cumulatives et substitutives.

(55) Déduite par nous.

(56) J. MORGAN utilise aussi le terme de moderator pour distinguer une variable qui modifie l'effet d'une autre variable (un effector) sur une variable dépendante. Les rôles sont toutefois réversibles et, en présence d'interactions, il n'est statistiquement pas possible de distinguer laquelle des deux variables est “l'effecteur” et laquelle est le “modérateur”.

(57) Le fait peut être cependant pris en considération a posteriori par une analyse de résidus.

(58) A titre indicatif, la fraction de la variance expliquée par M.C.A. (le R2) qui était de 99,6 % dans le modèle additif n'atteint plus, dans le modèle cumulatif, que 69,9 % (sans bruit) et 35,5 %(bruit élevé). Avec A.I.D. ces deux dernières valeurs s'élèvent à 100 %et 58%.

(59) Moyennant ces informations, la construction des termes d'interaction à introduire dans M.C.A. est possible; en fait, ce sont de nouvelles variables basées sur des combinaisons de plusieurs autres, qui ne sont plus maintenues dans le modèle à l'état isolé. Voir à ce propos le manuel de Multiple Classification Analysis (Strategy in using the program: instruction problems, p. 52 et sv.) ou l'ouvrage de Sonquist (Chapter 6: a strategy for the joint use of the A.I.D. and M.C.A. techniques).

(60) Ou d'une régression multiple sur dummy variables et de n'importe quelle autre méthode de ce genre jugée préférable.

(61) Par exemple, les échantUlons au 1/1000 de la population américaine recensée en 1961 et au 1/10 de la population belge recensée la même année.

(62) Qu'il suffise de penser à un des ouvrages pionniers dans cette voie, Microanalysis of socioeconomic systems: a simulation, (op.cit.) ou aux travaux de Sheps, Ridley, Lingner et ceux d'Hyrenius.