Quantité d'information fournie par une variable aléatoire

**sobriquet** · 07/03/2020, 23h18

Bonjour,

Je recherche une formule qui quantifie l'information qu'une variable aléatoire A donne sur une variable aléatoire B, chacune étant discrète.

N'ayant rien trouvé sur Wikipedia, j'ai noté I(A,B) la formule recherchée et j'ai noirci quelques pages de mes errements, avant d'arriver à une formule :
$\text{[math]}$

Renseignements pris, j'ai été content de constater que cette formule existe déjà, mais déçu de voir que cela correspond à l'entropie conditionnelle H(B|A), soit "la quantité d'information nécessaire pour connaître le comportement d'une variable aléatoire B, lorsque l'on connaît exactement une variable aléatoire A".

C'est proche de ce que je recherche, mais c'est aussi l'opposé !

Quelques lectures plus tard, je tente une autre approche et je postule : I(A, B), c'est la différence entre l'entropie de B et l'entropie de B sachant A. Soit :
$\text{[math]}$

Comme on sait que $\text{[math]}$ , j'en déduis directement :
$\text{[math]}$

Je constate alors que cette formule est symétrique ( $\text{[math]}$ ), et ça ne me semble pas du tout intuitif : il peut arriver que A donne beaucoup d'information sur B sans que B ne donne d'information sur A !

Savez-vous si la formule que je recherche porte un nom, ou sauriez-vous m'aider à l'exprimer ?

**Dicedead** · 08/03/2020, 13h55

Heyyo

Votre problème est beaucoup plus intéressant qu'il n'y paraît au premier abord.

La formule sous forme de somme que vous trouvez pour I(A,B) est, au signe - précédant la somme près, la formule étendue de H(A|B) et non de H(B|A).
$\text{[math]}$
Cette formule s'interprète comme la quantité d'information ajoutée par A, sachant B, ou alors comme vous avez interprété H(B|A) en intervertissant A et B. Cepedant elle ne semble pas correspondre à ce que vous cherchiez, une "formule qui quantifie l'information qu'une variable aléatoire A donne sur une variable aléatoire B"(*): I(A,B) = H(A|B) = H(A) si les deux variables sont indépendantes, or on s'attendrait plus à ce que I(A,B) = 0 si elles le sont car dans ce cas A ne donne 'aucun renseignement' sur B, étant indépendante de B.

Après beaucoup d'expérimentation retombant systématiquement à une définition équivalente à la seconde ( $\text{[math]}$ ) que vous proposez, je fais une petite recherche qui mène rapidement à cet article wiki sur l'information mutuelle: https://en.wikipedia.org/wiki/Mutual_information; qui est exactement votre seconde définition. En utilisant cette définition-ci, on a que:

*I(A,B) = 0 si A et B sont indépendantes;
*I(A,B) = H(B) si B est fonction de A (ie H(B|A) = 0).

L'article propose cette interprétation de l'information mutuelle:

it quantifies the "amount of information" [...] obtained about one random variable through observing the other random variable

On peut vérifier que l'information mutuelle est symétrique; ainsi deux variables "se donnent mutuellement autant d'information".

Ce que sous-entend votre définition (*) et votre intuition (plutôt, comment je l'interprète), c'est que I(A,B) = H(A) (et non H(B)) si B est fonction de A; on pourrait peut être arguer que c'est une mauvaise intuition ainsi:
Si on interprète "A donne beaucoup d'information sur B" comme H(A|B) = H(A) (ie le maximum d'information possible), alors A et B sont indépendantes, donc H(B|A) = H(B). Tout le problème est dans le 'beaucoup' qui rend possible la situation H(B) très petit et H(A) très grand.
Cela dit, souhaiter que I(A,B) = H(A) quand H(B|A) = 0 (et I(A,B) = 0 quand A et B sont indépendantes) (**) n'est pas du tout dénué de sens.

J'avoue sécher pour l'instant. Je demanderai de l'aide à l'un de mes professeurs durant la semaine et je reviens vers vous si j'ai de nouvelles infos, soit pour justifier pourquoi l'information mutuelle a des propriétés plus intéressantes que la définition textuelle que vous proposez de I(A,B), soit pour exprimer I(A,B) en remplissant les critères (**). Le cœur du problème semble autant être la volonté d'interprétation que celle de la mise en équation.

En espérant que ce message vous ait été utile, bon dimanche

**Dicedead** · 08/03/2020, 15h38

Reyyo

J'ai une première piste en fait:

$\text{[math]}$
Simplification et tentative d'interprétation en cours...
Credits à un ami

**sobriquet** · 08/03/2020, 17h05

J'ai en effectivement commis deux erreurs de typo que vous avez relevées, c'est à dire l'omission du signe "moins" dans la première formule, et le sens de l'entropie conditionnelle.

Merci d'avoir davantage attiré mon attention sur l'information mutuelle, vos observations me parlent beaucoup.

J'étais convaincu que A pouvait donner beaucoup d'information sur B sans que B n'en donne sur A, mais je n'ai pas pu trouver d'exemple, et un diagramme de Venn me convainc que ce n'est pas possible. Mon erreur est sans doute d'avoir intuitionné en rapports plutôt qu'en différences : si H(A) est grand et H(B) petit, I(A,B)/H(B) peut valoir 1 alors que I(A,B)/H(A) peut être très proche de 0, mais pas nul.

Dès lors, l'information mutuelle semble très bien correspondre à la définition que je recherche, et je trouve cette symétrie inattendue et remarquable, cela va nourrir mes futures réflexions !

PS : à la publication de mon message, je découvre votre deuxième réponse. Je vais y réfléchir !

A voir en vidéo sur Futura · Aujourd'hui

invite9dc7b526 · 08/03/2020, 17h40

Envoyé par sobriquet

J'étais convaincu que A pouvait donner beaucoup d'information sur B sans que B n'en donne sur A, mais je n'ai pas pu trouver d'exemple,

si B=A^2 et si A a une distribution symétrique (ou en tout cas à support non inclus dans R+), la connaissance de A implique celle de B mais pas la réciproque n'est pas vraie.

**Dicedead** · 08/03/2020, 18h35

Re-heyyo

Je voulais dire:
$\text{[math]}$

Le fait que cela soit une part de H(X) me chiffonne un peu. On a aussi la limitation H(B) =/= 0 mais ce n'est pas bien grave.

La formule tient pour les cas limites (indépendance et détermination).
Un exemple classique de cas non limite:
Jetons un dé (non pipé) 2 fois, sommons les résultats des 2 lancers, de telle sorte qu'obtenir 1 au premier lancer et 6 au second donne la somme L = "07" (et pas "7"). Notons L1 le chiffre des dizaines et L2 celui des unités de cette somme L.
I(L1,L2) = 0,119 bits
I(L2,L1) = 2,378 bits
(Avec H(L1) = 0,65 ; H(L2) = 3,21 ; H(L1,L2) = 3,27 ; H(L2|L1) = 2,62 ; en bits)
Tant qu'on y est, soit InfoM(X,Y) l'information mutuelle de X et Y;
InfoM(L1,L2) = 0,6 bits.

Après ce travail, je trouve que l'interprétation de l'information mutuelle devrait plutôt être celle d'information apportée conjointement par les deux variables aléatoires.
Et en ce qui concerne la formule proposée dans mon second message, je la trouve plutôt cohérente dans le cadre de l'exemple même s'il y subsiste des couics:
Pour I(L1,L2) = 0,119 bits; L1 = 0 avec proba 5/6, on ne gagne réellement de l'information sur L2 grâce à L1 qu'1/6 du temps (quand L1 = 1 et donc L2 = 0, 1 ou 2). La valeur obtenue est cohérente.
Mais pour I(L2,L1) = 2,378 bits; L2 appartient à [[0,2]] avec proba 7/36 seulement. L'information obtenue sur L1 ne devrait pas être si grande (presque 4 fois plus grande encore H(L1) même...), sauf si l'on renonce à l'idée de maximiser l'information pour des sources équiprobables.

Je lis maintenant les deux nouveaux messages.

@minushabens
Vu que nous nous plaçons dans le cadre de la théorie de l'information, nous ne parlions pas forcément de totale détermination, seulement d'information. En effet, dans le cas que vous explicitez, H(B|A) = 0 pour tous choix d'alphabets, et H(A|B) > 0 sauf dans l'exception d'alphabets inclus dans Rn. Mais en pratique, il y a plutôt intérêt à utiliser des variables fonctions mutuelles - donc avec bijections existantes entre elles (applications en compression par ex).

@sobriquet
L'information mutuelle semble en effet être un concept à creuser. Étant encore pas assez avancé dans mes études, j'ai du mal à voir ses applications, peut être l'information qu'on peut s'affranchir de transmettre car déjà transmise par une source antérieure?
J'insiste autant sur l'interprétation et l'application de ces concepts car la théorie de l'information n'aurait pas grande valeur sans, et s'apparenterait à de la stochastique enjolivée à notations et définitions un peu arbitraires (est-ce vrai?).
Merci à vous pour avoir ouvert la discussion

Je vous tiens au courant si j'ai du nouveau.

Quantité d'information fournie par une variable aléatoire

Quantité d'information fournie par une variable aléatoire

Re : Quantité d'information fournie par une variable aléatoire

Re : Quantité d'information fournie par une variable aléatoire

Re : Quantité d'information fournie par une variable aléatoire

Re : Quantité d'information fournie par une variable aléatoire

Re : Quantité d'information fournie par une variable aléatoire

Discussions similaires

variable aléatoire discrète vs variable aléatoire continue.

[Outils/Fab/Comp] Information fournie par un module GPS

Quantité d'information en theorie d'information SVP

tension fournie très variable