Je souhaite calculer la probabilité que l'evenement E se réalise pour une personne donnée grace aux informations que j'ai sur cette personne
Prenons par exemple le critère age que nous appelerons P1, sexe P2 et ville P3 :
P1 = nb de personnes de cet age réalisant l'evenement E / nb de personnes total de cet age
P2 = nb de personnes de ce sexe réalisant l'evenement E / nb de personnes total de ce sexe
P3 = nb de personnes de cette ville réalisant l'evenement E / nb de personnes total de cette ville
Il y a en tout environ 25 criteres dans mon calcul
On calcule une proba générale :
Pe = nb de personnes total réalisant l'evenement E / nb de personnes total
Et on calcule un score global en tenant compte des 3 criteres par rapport a la proba générale :
P = P1/Pe * P2/Pe * P3/Pe
Pour les critères avec trop peu de personnes au total, on remplace P1/Pe par 1
Au final on estime que si P est supérieur a 1, il y a de grandes chances que l'evenement E se réalise pour cette personne
Je m'interroge sur plusieurs choses :
- Peut on définir plus précisement ce seuil arbitraire de P>1, et si oui comment ?
- Comment savoir quels sont les critéres discriminant, et eventuellement leur attribuer un poids plus important dans le calcul ?
- Que pensez vous de l'algo ? Auriez vous fait autrement ? Est il faux ?
Merci d'avance
-----