Comment peut-on exploiter les résultats des statistiques pour en déduire la causalité?
-----
Comment peut-on exploiter les résultats des statistiques pour en déduire la causalité?
J'ai fait un peu de stats mais qu'est-ce que vous entendez par causalité ?
En général il y a une flopée d'outils statistiques comme l'analyse des correspondances pour essayer de mettre en évidence une relation entre des données brutes avec des causes éventuelles: on préfère parler de facteur(s) d'ailleurs.
La causalité directe (au sens brut) est très difficile à mettre en évidence en général car justement on parle de multi-facteurs et on essaie d'évaluer la part de chacun, sa responsabilité dans les données qu'on analyse.
Il doit y avoir ici des gens certainement + calés que moi en stats mais il faudrait que vous essayiez de préciser un peu votre question je crois.
En général une causalité s'évalue avec des outils, c-a-d que des résultats peuvent avoir une cause déterminée mais à tel pourcentage avec telle marge d'erreur.
Probabilités et statistiques sont évidemment très liées et marchent ensemble.
Et encore il faut que les données aient été récolté dans des conditions correctes, sinon on a ce qu'on appelle des biais et on voit ce que ça peut donner dans les statistiques des sondages avant des élections p.ex.
D'après ce que j'en ai vu, les statistiques sont une machine très complexe avec des tas de vérifications cependant mais des marges d'erreurs + ou - importantes suivant ce qu'on étudie et comment la récolte des données a été effectuée.
Et évidemment on essaie de faire en sorte que ces marges d'erreur soient les + faibles possibles, pour pouvoir justement présenter un résultat.
Ce qui fait qu'on peut dire que les stats sont une science exacte.
“L'eau ferrugineuse, NON !”
En présentant les choses très simplement.
On établie d'abord des corrélations entre différents paramètres ou facteurs:
https://fr.wikipedia.org/wiki/Corrél...(statistiques)
mais qui dit corrélation ne dit pas forcement causalité de l'un vers l'autre.
car il peut y avoir par exemple une causalité commune aux deux facteurs.
pour en venir à une causalité il faut notamment faire intervenir l'aspect temporel.
parmi les exemples types: la corrélation entre certaines substances ( tabac, amiante , ... ) et le déclanchement "plus tard" de certains cancers.
sachant que le "plus tard" fait aussi l'objet d'analyses statistiques qui conforte la causalité.
Bonsoir aussi, cher nouvel inscrit.
Je vais prendre la question au pied de la lettre et dire qu'on ne peut pas mais qu'il est simplement possible de prouver une corrélation. Par contre, il est possible de prouver une absence de causalité.
Ceci dit, si tous les cas de figures, les causes possibles, sont testées, y compris les situations ou l'absence de(s) cause(s) suspectées sont testées, on peut finir par en déduire une ou plusieurs.
A peu près, suivant le nombre de variables...
Les choses sont différentes selon qu'on considère une étude d'observation ou une expérience contrôlée. Et dans le premier cas il faut distinguer les études transversales et les études de cohorte (en épidémiologie).
Un effet bien connu des statisticiens est ce qu'on appelle "l'effet cigogne"
Par exemple, dans les communes qui abritent des cigognes, le taux de natalité est plus élevé que dans l’ensemble du pays. Conclusion : les cigognes apportent les bébés ! Voici une explication plus probable : les cigognes nichent de préférence dans les villages plutôt que dans les grandes agglomérations, et il se trouve que la natalité est plus forte en milieu rural que dans les villes.
Voilà pourquoi l’on nomme « effet cigogne » cette tendance à confondre corrélation et causalité.
Autre exemple connu: Plus il y a de pompiers combattant un incendie, plus les dégâts seront importants. On pourrait alors espérer que la caserne la plus proche soit presque vide de réservistes. L’explication vraisemblable est certainement que plus l’incendie est grave, plus le nombre de pompiers pour le combattre est important.
Tiré de cette page avec plein d'autres exemples si tu veux
La longévité moyenne est supérieure dans les pays où l’on mange le plus de viande. Peut-on en conclure que si vous mangez uniquement de la viande, vous vivrez vieux ?
Question amusante: Plus une entreprise compte de femmes cadres dans ses effectifs, moins son cours de Bourse a baissé depuis le début de l’année. (Le Monde, 16/10/2008, dans “Les femmes, antidote à la crise boursière”) (le choix du titre vous paraît-il pertinent ?)
j'ai essayé de réfléchir perso à cette dernière question et sans lire l'article du Monde, une des explications qui me vient à l'esprit serait que les entreprises qui embauchent le plus de femmes-cadres c'est qu'elles sont plus stables au départ et depuis plus longtemps que d'autres : plausible, mais pas forcément la bonne explication. Ça pourrait en être une toutefois !
Il faudrait que je lise l'article du Monde pour voir ce que eux en disent.
Dernière modification par shub22 ; 22/03/2018 à 09h21.
“L'eau ferrugineuse, NON !”
j'aurai bien une explication, mais elle est peu réjouissante au final.Question amusante: Plus une entreprise compte de femmes cadres dans ses effectifs, moins son cours de Bourse a baissé depuis le début de l’année. (Le Monde, 16/10/2008, dans “Les femmes, antidote à la crise boursière”) (le choix du titre vous paraît-il pertinent ?)
j'ai essayé de réfléchir perso à cette dernière question et sans lire l'article du Monde, une des explications qui me vient à l'esprit serait que les entreprises qui embauchent le plus de femmes-cadres c'est qu'elles sont plus stables au départ et depuis plus longtemps que d'autres : plausible, mais pas forcément la bonne explication. Ça pourrait en être une toutefois !
Il faudrait que je lise l'article du Monde pour voir ce que eux en disent.
le rapport performances/coûts est meilleur avec les femmes ( écarts de salaires à emploi similaire ).
induisant une meilleure productivité.
autre piste : les secteurs qui ont le moins baissés sont ceux qui structurellement emploient plus de femmes.
Dans le cas de ta première explication, ce serait toutes les entreprises qui auraient intérêt à embaucher des femmes non ? Or c'est pas le cas.j'aurai bien une explication, mais elle est peu réjouissante au final.
le rapport performances/coûts est meilleur avec les femmes ( écarts de salaires à emploi similaire ).
induisant une meilleure productivité.
autre piste : les secteurs qui ont le moins baissés sont ceux qui structurellement emploient plus de femmes.
L'optique de gain de productivité et diminution de masse salariale prime évidemment sur les considérations paritaires d'égalité hommes/femmes au point que des lois sont probablement en cours d'être mises en place.
Si c'était cette explication que tu cites qui était la bonne et déterminante, il devrait y avoir + de femmes que d'hommes dans les entreprises puisque l'écart des salaires joue en faveur des femmes.
Là je pense qu'il y a ou il devrait y avoir effectivement corrélation dans ce que tu dis, mais d'autres causes doivent être + déterminantes que celle-là ( écarts de salaires à emploi similaire ).
Je pense plutôt que ta deuxième explication doit se rapprocher de la vérité. Il faudrait lire cet article du Monde.
“L'eau ferrugineuse, NON !”
Je n'ai plus l'étude (observationnelle) mais il était corrélé le fait que dès qu'un conseil d'administration dépassait les 30 % de femmes, les bénéfices étaient en hausse et les problèmes de relations humaines en baisse...
“L'eau ferrugineuse, NON !”
pour en venir à une causalité il faut notamment faire intervenir l'aspect temporel.
... sauf que le temps ou la temporalité se traduisent mathématiquement sans recours du tout à quoi que ce soit de temporel, par artifice(s) mathématique(s) histoire de singer le temporel genre loi de grands nombres genre pour augmenter mécaniquement, automatiquement (pas besoin de réfléchir savamment sur ce coup-ci car c'est automatique, mécanique) le nombre de gagnants au loto il suffit d'augmenter le nombre de joueurs, réputés jouer simultanément plus la peine de s'esquinter l'esprit indéfiniment avec des histoires de "temps" ou de "temporalité".
Donc sur 100 tirages s'il y a admettons 4 millions de joueurs à chaque tirage (en moyenne, sur ces 100 tirages) il suffit de doubler (par l'idée) le nombre de joueurs genre 8 millions (là encore en moyenne) à chaque tirage pour avoir in fine, toujours en moyenne sur 100 tirages, deux fois plus de gagnants
nul temps ni temporalité là-dedans, simplement singerie temporelle il faut le dire, le temps ou la temporalité n'intervenant directement qu'en Physique lors d'expériences concrètes
un texte assez pédagogique sur le biais d'interprétation corrélation/causalité et qcq considérations sur les démarches à suivre pour les éviter au mieux:
http://www.cndp.fr/entrepot/themadoc...rrelation.html
@muzoter:
ton exemple avec le loto ne contredit pas que le temps ( entre deux phénomènes ) est un facteur qui peut amener à supposer une causalité.
même s'il n'est pas le seul ( il faut aussi une explication crédible du process éventuel ) , et que même celui ci doit être regardé avec prudence.
la moyenne ne suffit pas forcement, l'écart-type peut renforcer une hypothèse.
Comment peut-on exploiter les résultats des statistiques pour en déduire la causalité?
... dans tous les cas les grands nombres sont toujours très utiles aux statistiques, d'autant plus fiables qu'elles travaillent sur un nombre important d'échantillons ou d'individualités.
Les statistiques mettent en lumière du déterminisme, physique largement mais comportemental plus spécifiquement, exemple les sondages sont d'autant plus fiables qu'ils opèrent sur une population importante :
- d'abord trier selon des critères sociaux sachant qu'en général les gens pensent en gros la même chose selon leur catégorie sociale
- ensuite caux qui pensent tordu ou à la marge (les marginaux en somme) interviennent d'autant moins dans les résultats du sondage qu'ils sont peu nombreux (loi des grands nombres).
En somme, tout ça n'est que parodie https://www.youtube.com/watch?v=3nkVtC8h6xQ
Exception faite quand c'est Christine Lagarde, alors ministre qui décide de verser je crois 400 millions à Bernard Tapie en dédommagement de son histoire avec le Crédit Lyonnais ou de la vente d'Adidas je me souviens plus !Envoyé par Le Monde"Le style de management des femmes diffère de celui des hommes, notamment en matière de prise de risque", analyse M. Ferrary. "Les femmes tendraient à prendre des décisions moins risquées. Lors d'un krach, les marchés financiers récompenseraient implicitement les stratégies plus prudentes-conservatrices des femmes et sanctionneraient les stratégies plus audacieuses-dangereuses des hommes", ajoute-t-il.
L'Islande a compris la leçon. Elle a nommé deux femmes pour diriger les deux banques que le gouvernement vient de créer pour sauver le pays de la faillite. "C'est typique. Les hommes mettent le "bazar" et les femmes arrivent pour tout remettre en ordre", a expliqué un banquier au très sérieux Financial Times, qui publie ces propos dans son édition du 14 octobre.
Bon vous rectifierez ou préciserez si je me suis trompé.
En savoir plus sur Les femmes, antidote à la crise boursière
Bon revenons à nos moutons. Pourquoi il est question brutalement du rapport entre les statistiques et le temps ou le temporel ? J'ai pas compris le saut là.
Dernière modification par shub22 ; 22/03/2018 à 12h19.
“L'eau ferrugineuse, NON !”
... en général les boulangers pensent que le pain est bon pour la santé, les vendeurs de pizzas que les pizzas sont le remède à bien des maux mais hélas y'a toujours là-dedans des "tordus", des " hérétiques" pour penser différemment : des boulangers pour penser que le pain est un poison, des pizzaïolos que les pizzas sont à proscrire dans les sondages ces infinitésimaux de la pensée disparaissent de la circulation, n'ont pas d'impact significatif sur les résultats des mesures
Les statistiques n'ont pas toujours bonne presse.
Il est assez drôle que dans le cas des manifestations, les rapports peuvent varier de 1 à 10, suivant que ce sont des organisateurs ou la police qui fait la mesure. 100.000 manifestants selon la police, 1.500.000 selon les manifestants. Et ça a toujours été comme ça: aussi loin que je me souvienne il y a un profond hiatus entre les mesures selon qu'elles sont faites par les uns ou par les autres.
Là aussi il y a lieu de s'interroger sur les causes, car c'est bien le même outil et la même procédure utilisée pour compter les manifestants. Et une méthode tout ce qu'il y a de scientifique en plus...
Ceux qui comptent le nombre de voitures passant un péage ne se trompent jamais ou de très peu, que ce soit l'association des automobilistes ou celle associée au péage.
Et pourtant il s'agit bien du même outil utilisé pour estimer le nombre de "piétons-manifestants" qui franchissent une ligne fixe pendant un temps fixe donné. Idem pour les élections mais là une chose est claire: la mesure influence fatalement le résultat surtout s'il s'agit d'une prévision. Encore plus s'il s'agit d'élections: un biais connu et qui fait que chez nous les sondages sont interdits une semaine avant les élections. Aux USA et en Angleterre je crois (à vérifier) on publie des sondages jusqu'à la dernière minute. Moi je trouve qu'il ne devrait pas y en avoir du tout ou juste un ou deux: c'est clair que ça influence les votes et donc totalement les résultats. 3 grosses erreurs dans les sondages:
1° Elections présidentielles en France de 2002. Personne n'avait prévu ce qui s'est passé.
2° Le Brexit était donné assez largement perdant.
3° Dernières élections présidentielles américaines. Là aussi erreur totale dans les prévisions.
En fait mis à part cela, c'est un outil puissant et indispensable dans un tas de sciences. Toutes quasiment y ont recours sauf la philo peut-être, et encore j'en sais rien...
Dernière modification par shub22 ; 22/03/2018 à 17h04.
“L'eau ferrugineuse, NON !”
A priori, ce ne sont pas la des statistiques mais des moyens de comptage, pas forcément fiables, qui peuvent être différent suivant l'utilisateur.
Bonsoir,
il me semble qu'il est très difficile, voir presque impossible, de prouver une causalité statistiquement.
Pour donner un exemple non polémique : on sait que fumer « cause » les cancers du poumon.
Je me souviens d'un statisticien qui disait l'avoir prouvé statistiquement, je crois que c'était vers la fin des années 80.
Or il y avait longtemps, à l'époque, que l'on savait que fumer augmente considérablement le risque de cancer du poumon.
Mais si la corrélation était bien connue, la causalité ( bien connue elle aussi ) ne venait pas d'un raisonnement statistique.
Et le raisonnement statistique pour prouver que l'on peut remplacer « est corrélé » par « cause » consiste à éliminer tous les autres facteurs, ce qui est difficile et incertain : a t-on considéré tous les facteurs ?
Il me semble que les statistiques sont surtout utiles, quand on parle de causalité, pour éliminer des causes potentielles.
Non.
Tu peux regarder les résultats des sondages ici :
https://fr.wikipedia.org/wiki/Liste_...urop%C3%A9enne
Les deux choix étaient au coude à coude et le remain était bien loin d'être largement en tête.
On peut d'ailleurs se demander si acheter des briquets cause le cancer du poumon. En effet, la corrélation doit être bien visible entre les achats de briquets et les cancers du poumon.
Ca peut paraitre un peu capillotracté, mais ce genre de mécanisme existe : si A est corrélé à B, ça peut être parce qu'il existe C qui cause A et B
pour répondre à LA question......
NON, aucune comparaison statistique simple ne définit une causalité, elle définit une corrélation; si on compare seulement deux facteurs (ex consommation de viande et fréquentation des supermarchés), on ne peut pas dire le sens de la corrélation.
On ne peut en déduire ce qui est la cause, ce qui est l'effet, ou même si la corrélation observée est dûe à un tiers facteur, corrélé indépendamment avec chacun des facteurs étudiés.
Exemple:
corrélation entre espérance de vie et consommation de viande: il est possible que les riches mangent plus de viande et aient une meilleure hygiène de vie et de meilleurs médecins.... donc vivent plus longtemps......
la succession des processus n'est pas toujours un indice de causalité -et de toutes façons ce critère n'a rien à voir avec la comparaison des 2 séries de valeurs qui constitue l'analyse statistique....
Pour affirmer une causalité il faut recourir à une vraie expérimentation, où on contrôle (impose par un moyen externe, efficace et contraignant) la valeur du facteur supposé causal, et on mesure la corrélation avec le facteur supposé être la conséquence.
Si il y a corrélation (ou exactement si les valeurs ne sont pas simplement expliquées par le 'hasard' au risque de 5%) .. la causalité est admissible.
Sinon, on ne peut pas conclure (pas de relation dans ce sens? relation possible mais test insuffisant? erreur dans le sens de la causalité????)
Pour moi, en enquête d'observation, c'est impossible. Voir la controverse actuelle sur le rôle du cholestérol dans l'artériosclérose.....
Dernière modification par Bounoume ; 22/03/2018 à 22h32.
rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)
C'est un peu brutal comme présentation.
voir quand même toutes les causalités potentielles suffisamment avérées en médecine.
Mais la statistique ne suffit pas, il faut aussi souvent une explication du processus.
ah super, l'exemple de la corrélation entre l'achat de briquets et le cancer du poumon!
'cette preuve' était sans intérêt, la relation cause/conséquence était déjà admise à partir des connaissances expérimentales: les effets expérimentaux des goudrons sur les tissus bronchiques.... et aussi quand on forçait des malheureux lapins d'expérience à respirer la fumée de cigarette..... comparés à des lapins 'non fumeurs'......
En plus, une fois la corrélation prouvée, il faut avouer que le seul sens de causalité vraisemblable était :
fumée pendant 20 ans->cancer ensuite.
Il était invraisemblable de prétendre que la prédisposition au cancer rendait les malheureux futurs cancéreux accros au tabac......
Par contre certaines affirmations de causalité entre régime alimentaire et état de santé sont moins inattaquables.....
Dernière modification par Bounoume ; 22/03/2018 à 22h49.
rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)
Il est clair qu'il y a souvent ( pas toujours ) une connaissance préalable de la dangerosité.
reste aussi à la quantifier le risque.
si je prend l'amiante par exemple, dont la toxicité était connue mais mal quantifiée. il y a eu encore récemment de nouvelles études épistémologiques sur de larges échantillons afin de mieux mesurer l'ensemble des pathologies pouvant être induites :
je cite Wiki:
Ce matériau est toxique. L'inhalation de fibres d'amiante est à l'origine de l'asbestose (fibrose pulmonaire) ; de cancers broncho-pulmonaires, ainsi que de cancers de la plèvre (mésothéliome) et decancers du larynx des voies digestives. En 2017, selon l’Anses, deux nouvelles études (2015, 2017) basées sur des cohortes de grande taille (2 024 personnes et 14 515 hommes) ont prouvé un lien entre ingestion d'amiante et cancer du colon et cancer colorectal (avec une relation dose-réponse)
[et des liens avec deux autres cancers digestifs (cancer de l'estomacet Cancer de l'œsophage) sont soupçonnés].
A propos où ça en est de la dés-amiantisation (je connais pas le terme exact!) de Jussieu et de certaines autres facs ? Je me souviens que quand j'y avais fait mes études, on voyait des bouts de plaques de plafond cassées et derrière on pouvait voir nettement la poudre d'amiante, blanche.
Voila un débat qui pourrait rebondir sur le principe de précaution sans problème car le risque de l'amiante a été complètement sous-évalué voire ignoré à cause de ses propriétés ignifuges...
Et la corrélation entre certains cancers qui sont apparus + tard et le fait d'avoir été exposé à l'amiante pendant de longues années est apparu d'un seul coup bien des années + tard je crois.
Quelqu'un a suivi cette affaire et pourrait donner des détails ?
“L'eau ferrugineuse, NON !”
Est-ce le sujet? Ou est-ce une digression qui va juste durer 48 posts?? (pourquoi ne pas ouvrir un fil là-dessus??).
On parle plus souvent de facteurs puisque c'est souvent multifactoriel.
Pardon, humilité, humour, hasard, tolérance, partage, curiosité et diversité => liberté et sérénité.