Bonjour
en suivant une suggestion faite sur un des fils où j'ai participé, je tente d'ouvrir un fil sur les probabilités bayesiennes. Je précise que je ne suis pas mathématicien ni spécialiste des probabilités, cependant la théorie de Bayes me parait fondamentale pour essayer de comprendre ce qu'on fait quand on se met à "croire" à quelque chose (et je pense que la plupart des débats ici ou ailleurs se font parce que les gens "croient" à des choses différentes, la question de l'origine des croyances me semble donc absolument fondamentale).
Je vais donc tenter de résumer ce que j'en ai compris et pourquoi je pense que c'est un raisonnement "fondamental" au sens où il est à la base de la plupart des raisonnements sur le monde "réel" qu'on fait (le plus souvent sans se rendre compte qu'on applique un raisonnement bayesien) , et que les divergences ne viennent pas de divergences d'opinion sur la validité de la méthode, mais seulement des valeurs numériques qu'on choisit de mettre derrière.
Le début de l'histoire semble un peu technique et anodine sur la calcul des probabilités, mais elle porte en germe une révolution conceptuelle. A l'époque de Bayes, on a commencé à établir les bases du calcul des probabilités , et on connait en particulier la façon de calculer la probabilité de l'évènement suivant : soit une expérience de tirage aléatoire avec une probabilité connue p de tirer un évènement X (par exemple gagner au loto ou lancer un dé) , quelle est la probabilité de trouver M fois X quand on fait N tirages ?
La formule connue est celle de la loi binomiale (techniquement c'est qui dit que chaque combinaison ayant M fois X et donc (N-M) fois non(X) a une probabilité de se produire, et qu'il y a façons différentes de répartir M tirages parmi N.
La formule du binôme suppose qu'on connait la loi de probabilité p et qu'on évalue la probabilité d'un évènement particulier à l'aide de p.
Bayes se pose la question en quelque sorte inverse : supposons qu'on ne connaisse pas la probabilité p , mais qu'en faisant N tirages, on trouve M fois le résultat X. Que peut on dire sur p ? c'est en pratique ce qu'on fait en faisant un sondage électoral par exemple. Il s'agit là d'un renversement (fondamental) de perspective puisque on fait porter maintenant la certitude sur le tirage et l'incertitude sur la loi de probabilité. Autrement dit si A est le fait que la probabilité de tirer X vaut p , et B est le fait qu'on a trouvé M tirages parmi N donnant X, la loi binomiale donne p(B|A) = la probabilité que B soit vrai si on sait que A est vrai (c'est à dire la pbté qu'on trouve effectivement M tirages X si la probabilité est p), alors que Bayes pose la question inverse : p(A|B) la probabilité que A soit vrai si on sait que B est vrai, c'est à dire la probabilité que la probabilité individuelle de X soit p si on sait qu'on a tiré M tirages parmi N.
Il introduit donc une loi de probabilité sur le paramètre p et non sur le résultat du tirage (qui lui est supposé connu). Autrement dit il se pose la question d'un "théorie du monde", de définir les paramètres d'un modèle qui décrit le monde de manière générale (la probabilité p s'appliquant ensuite à tous les autres tirages !). Ca formalise la notion d'inférence, c'est à dire le fait qu'on tire une loi générale à partir d'une constatation particulière.
La beauté des probabilités est qu'il existe une formule (formule de Bayes, d'ailleurs plutôt énoncée par Richard Price qui a repris les idées de Bayes après sa mort), qui permet de lier p(A|B) à la probabilité "inverse" (pas au sens de l'inverse d'un nombre !) p(B|A) : cette formule dit qu'on peut estimer la probabilité conjointe que A et B soient vrais en même temps de deux manières différentes :
p(A et B) = p(A)p(B|A) = p(B) p(A|B)
cette formule dit simplement qu'on peut calculer la probabilité que A et B soient vrais simultanément :
- soit en supposant d'abord que A est vrai , puis en utilisant la probabilité que B soit vrai si A est vrai.
- soit en supposant d'abord que B est vrai , puis en utilisant la probabilité que A soit vrai si B est vrai.
Ce qui revient bien sur au même à la fin.
Et du coup on a p(A|B)= p(A)*[p(B|A) /p(B)]
que je mets sous la forme p(A|B)= p(A)*
où est un facteur de réévaluation bayesienne = p(B|A) /p(B) , qui permet de réévaluer la probabilité pA , estimée sans savoir le résultat de B , par un facteur pour tenir compte de la nouvelle information apportée par B. Il s'agit donc d'une construction de la probabilité p(A) à l'aide de toutes les informations disponibles pour l'estimer.
Dans le calcul initial de Bayes, la probabilité "a priori" sur le paramètre p était considérée comme uniforme : en l'absence de toute information sur p, on peut considérer que toutes les valeurs ont la même probabilité , donc que la probabilité de trouver p dans un intervalle [p0, p0 +∆p0]*est simplement la largeur de l'intervalle ∆p0. Après le tirage, il faut estimer la probabilité en estimant la probabilité conditionnelle qu'on ait trouvé le tirage effectivement tiré si p est dans cette intervalle, à l'aide de la formule de Bayes et de la loi binomiale, et on trouve
dont le calcul montre qu'elle n'est plus du tout uniforme mais très piquée autour de p = M/N .
On a donc "établi" la valeur de p (ou un estimateur de p) à l'aide d'une expérience de tirage, ce qui est tout à fait "usuel" et "normal" dans la vie de tous les jours et à la base de la définition "fréquentiste" des probabilités (et encore une fois ce qu'on fait en faisant des sondages par exemple).
Comme ce post est déjà assez long , avant de discuter des applications concrètes et des problèmes d'utilisation (il y en a), j'aimerais d'abord savoir si ce que je dis est clair, et juste pour ceux qui connaissent bien la théorie !
-----