Je suis certain qu'on ne parle pas de la même chose. En gros je dis simplement qu'on peut multiplier un log par n'importe quelle constante genre f(x) = A ln(x).
Et que demblé f aura l'unité de A point...c'est ce qui est fait avec l'entropie.
Oui, pardonne-moi, j'avais tout le bagage mathématique pour répondre à ma question seul comme un grand. Désolé, j'ai dû être intimidé par les précédentes réponses, je n'ai pas assez réfléchiEn fait le problème d'évaluer le cardinal d'un ensemble infini et indénombrable se pose déjà lorsqu'on veut définir une probabilité pour une variable aléatoire continue. En effet, habituellement (sans utiliser le jargon mathématique associé) pour une variable aléatoire discrète appartenant à un ensemble fini dont le cardinal est on a que la probabilité - supposée uniforme ici pour simplifier- pour que la v.a. vaille la valeur ( étant un élément de l'ensemble) est simplement :
Dans le cas d'une variable aléatoire continue le cardinal de l'ensemble correspondant est celui des réels et est clairement infini. L'idée est donc de définir une mesure qui "compte" quelque chose dans ce type d'espace continu. La solution est trivialement l'intégrale sur tout l'ensemble probabilisé associé à . En pratique, on définit la probabilité pour la v.a. d'appartenir à un intervalle comme étant :
La loi de probabilité de la variable est ainsi caractérisée par une densité de probabilité.
L'entropie associée à une v.a. continue s'écrit :
Dans le cas où la loi de probabilité est uniforme, la densité est simplement où I est le "volume" de l'ensemble auquel appartient .
Au final, dans le cas d'une v.a. continue la formule de Boltzmann pour l'entropie sera simplement
Le cardinal de "l'ensemble des possibles" a simplement été remplacé par le "volume de l'ensemble des possibles".
Faire tout ça rigoureusement en math s'appelle la théorie de la mesure.
(au moins ça pourra servir éventuellement à d'autres lecteurs de ce topic).
Et ok pour l'université
Master ? Doctorat ? Quelle discipline ? (je veux dire, la théorie de l'information est-une de tes spécialités ?)
Pour l'histoire du log : je suis d'accord, mais justement, le log en soi est adimensionné, c'est la constante (ici A) qu'on met devant qui dimensionne f.
La question à la base est de dire que si H est un "pur log", il est adimensionné ; ce qui n'est pas le cas de S. Donc les deux entropies n'ont pas la même dimension.
Pas n'importe quelle fonction mathématique : les puissances sont dimensionnées sans que cela ne pose de soucis à personne.
si x est une longueur, x^2 est une surface et x^3 un volume.
La fonction qui à x fait correspondre x^2 admet un argument dimensionné et renvoie une valeur dimensionnée.
Pour ma part, cela dépend du contexte de la discussion.
Cordialement.
Moi ignare et moi pas comprendre langage avec «hasard», «réalité» et «existe».
@Clemgon, Re : dimensions
Dès qu'on parle de dimensions et d'unités, il y a des passions qui se déchaînent. Nombreux ceux qui cherchent une "rationalité" là-dedans, alors qu'au fond c'est sans grand intérêt dans la pratique.
Pour dimensions et unités, l'important c'est ce qu'on en fait, comment on les utilise; de connaître celles utilisées en pratique. Et aussi de bien comprendre que ce domaine est plein d'arbitraire : tout choix d'unité est arbitraire par exemple. Et comme l'indique gatsu, on peut arbitrairement changer l'unité et même la dimension d'une quantité en décidant, par convention, de la multiplier par une constante arbitraire éventuellement dimensionnée.
Comprendre tout cela ne se fait pas en ne s'occupant que d'une seule grandeur, comme dans ce fil, mais en analysant les unités et les dimensions en général, ce qui est très certainement hors sujet dans cette discussion.
Dernière modification par Amanuensis ; 09/04/2012 à 08h53.
Pour toute question, il y a une réponse simple, évidente, et fausse.
Ce qui est tout à fait naturel pour un log complexe.
@Amanuensis :
As-tu dressé la liste des constantes dimensionnées qui permettent de passer d'une grandeur intensive à une grandeur extensive? (Kb en premier vu le thème de ce fil.)
Moi ignare et moi pas comprendre langage avec «hasard», «réalité» et «existe».
Je ne comprends pas. Il n'y en a pas, et ce n'est pas le cas de kb ; le log d'un nombre d'états est extensif si on suppose l'indépendance, car alors le nombre d'états d'une union est le produit des nombres d'états.
Pour toute question, il y a une réponse simple, évidente, et fausse.
Oui, ceci est un point essentiel que j'essaie de redire différamment:
L'idée de Shannon était que la quantité d'information devait être une fonction additive: La quantité d'information reçue au global doit être la somme de ce que je reçois séparément les résultats (indépendants les uns des autres).
La quantité d'information est une fonction de la probabilité.
Le logarithme est juste là pour dire que la probabilité de la première course multipliée par la probabilité de la deuxième course est la probabilité pour les deux courses à la fois. Donc si les probabilités se multiplient, alors les quantités d'informations s'ajoutent.
Un autre point interessant, il me semble aussi, est de voir que la quantité moyenne d'information (donc la somme des quantités d'information pondérées par les probabilités) peut être aussi vu comme le manque d'information (la perplexité) avant réception du message.
Je peux me tromper, mais je pense que ce que stefjm voulait dire, c'est qu'en multipliant la température intensive par kb, on obtient l'énergie thermique extensive du système.
La Quantité d'information propre apportée par la réalisation d'un événement A est d'autant plus grande qu'elle est improbable. La quantité d'information d'un symbole est d'autant plus grande que celui-ci est peu probable.
L'information apportée par un événement sûr est nulle limp -->1 f(p) = 0
L'information apportée par 2 événements indépendants : f(p1. p2) = f(p1) + f(p2). La quantité d'information de deux symboles successifs est la somme de leurs quantités d'information.
f(.) est croissante. f(pk) ↑ si pk ↓ ⇒ f(pk) est une fonction décroissante de pk
Ceci nous conduit à utiliser la fonction logarithmique pour f(.).
Lemme 1. La fonction f(p) = - logb p est la seule qui soit à la fois positive, continue sur ]0; 1], et qui vérifie f(p1 .p2) = f(p1) + f(p2).
Définition : Soit (Omega;A; P) un espace probabilisé et A un événement de A de probabilité P(A) non-nulle. On associe à la réalisation de A la quantité d'information propre : h(A) = - log P(A). L'unité dépend de la base choisie pour le logarithme.
Vocabulaire: h(.) est désigné par incertitude ou encore quantité d'information. h(A) = - logb P(A)
Une source transmet une information à un récepteur celui-ci ne connaissant pas l’information qui va lui être transmise. Qu'est-ce qui est
intéressant pour celui qui écoute? Sûrement pas une suite qu'il connaît à coup sûr car ce n'est plus une information, il est d'autant plus intéressé qu'il ne peut pas prédire la suite. Dans ce cadre conceptuel ce qui rend une information intéressante est son caractère imprédictible. Une information est ainsi d'autant plus riche qu'elle est peu probable.
On considère une source S sélectionnant aléatoirement et indépendamment du passé chaque symbole émis parmi les 16 éléments d'un alphabet {s0; : : : ; s15}, tous équiprobables. L'information propre véhiculée par chacun d'eux est log 16, soit 4 Shannon.
Soit une source S d'information sans mémoire sélectionnant aléatoirement un symbole parmi les n éléments d'un alphabet {s1; : : : ; sn} Soit pi la probabilité d'apparition de si. La quantité d'information moyenne associée à l'apparition de chaque symbole possible est défini comme étant L'entropie c'est à dire une quantité d'information moyenne.
La définition de la quantité d'information propre s'applique à la réalisation conjointe de A et B ..... Quantité d'information conditionnelle de B sachant A ..... Quantité d'information mutuelle ..... quantité d'information mutuelle et de l'entropie conditionnelle ...
...
Tous cela est bien défini à l'heure actuelle non ?
Patrick
Oui et c'est seulement la première étape en quelque sorte. L'étape des définitions.
Mais le théorème de Shannon a aussi une deuxième étape , opérationelle, pourrait-on dire.
Cette étape est basée sur un processus d'optimisation.
Le message est encodé avec en plus quelques bits supplémentaires pour coder un correcteur d'erreurs.
Ce correcteur permet de rectifier des erreurs provoquées par le bruit.
Mais je ne connais pas assez le théorème de Shannon pour en dire bien plus.
Peut-être qu'amanuensis pourrait nous préciser un peu plus le théorème...
Dans le cadre de la transmission par un canal, l'intérêt visé est de récupérer l'information sans distorsion. Se pose la question de l’efficacité du codage de sources. Un codage est dit d'autant plus efficace que le nombre de codes possibles inutilisés est faible. Vise aussi l'algorithmie optimale qui minimise le nombre moyen de bits utilisés pour le codage. Ce qui renvoi aux méthodes de compression de l'information (code de Fano-Shanon, d'Huffman, ...)
Patrick
En général, on appelle théorème de Shannon celui de Shannon-Nyquist le théorème d'échantillonnage.
On trouve aussi ce terme pour la capacité source, le théorème disant que la capacité de canal nécessaire pour transmettre un flux de longueur n tend vers l'entropie de ce flux quand n tend vers l'infini.
Quelle est la question ?
Pour toute question, il y a une réponse simple, évidente, et fausse.
Ce n'est pas à propos de l'échantillonage (théorie du signal) mais bien en théorie de la communication: le théorème de Shannon-Weaver. D'après ce dernier, il existe un codage optimal pour utiliser au mieux le canal de transmission. Mais je n'en sais pas plus. Cependant je me dis qu'il doit bien y avoir la minimisation d'une certaine quantité pour optimaliser le codage.En général, on appelle théorème de Shannon celui de Shannon-Nyquist le théorème d'échantillonnage.
On trouve aussi ce terme pour la capacité source, le théorème disant que la capacité de canal nécessaire pour transmettre un flux de longueur n tend vers l'entropie de ce flux quand n tend vers l'infini.
Quelle est la question ?
Il semble de plus que le codage utilisé pour le téléphone est différent de celui inscrit sur les CD pour la musique, de celui de la photo, du fax, etc...
Vous voyez c'est assez flou ce que j'écris là... La question est donc : Connaissez vous l'algorithme d'optimisation du codage?
Oui, j'avais remarqué que tu avais souligné ce point. Étant un problème stochastique cela ne peut être qu'une approche formelle efficace dans les prises de décisions notamment pour le récepteur.
L'aspect pratique consistant à optimiser la prise de décision.
Maintenant mon regard est entaché d'un préférence Bayésienne dans l'approche de problème stochastique.
Patrick
J'aimerais une référence à ce "théorème".
Tout canal de transmission peut s'utiliser sans codage correcteur. L'intérêt du papier de Kelly que j'ai cité plus tôt est bien là, montrer qu'il existe un moyen de parler de la capacité de canal de manière plus générale.
"Utiliser au mieux" dépend du type d'utilisation !
Je ne connais pas de théorème d'existence d'un "code optimal". Je connais des bornes supérieures à ce qu'on peut attendre d'un code correcteur.
Il existe des tas de codes correcteurs/détecteurs. Les choix sont pour différentes raisons, pas seulement les performances en capacité.Il semble de plus que le codage utilisé pour le téléphone est différent de celui inscrit sur les CD pour la musique, de celui de la photo, du fax, etc...
Je ne connais rien de tel. Je connais des codes avec leurs caractéristiques, ce qui donne une palette parmi laquelle choisir en fonction des besoins.Connaissez vous l'algorithme d'optimisation du codage?
Par ailleurs, si on ne parle que capacité, si un code optimal existe, il est vraisemblable qu'il demande d'attendre l'infini du temps pour "finir" le décodage. (Plus concrètement, il y a souvent des contraintes temporelles portant sur le choix de codage dans le cas d'une transmission sérielle.)
Autre détail pour continuer à mettre du trouble : tout décodage est une perte d'information. Un code correcteur a pour but de transformer une information bruitée en une information moins bruitée, ce qui se fait avec perte. On utilise un code quand l'application ne se satisfait pas de données aussi bruitées que ce qui "sort" du canal de transmission. D'accord, c'est le cas le plus courant, mais l'aspect adaptation à l'utilisation mérite quand même d'être souligné.
Pour toute question, il y a une réponse simple, évidente, et fausse.
Oui, c'est très surprenant que l'information soit calquée sur l'entropie.
Autre détail pour continuer à mettre du trouble : tout décodage est une perte d'information. Un code correcteur a pour but de transformer une information bruitée en une information moins bruitée, ce qui se fait avec perte. On utilise un code quand l'application ne se satisfait pas de données aussi bruitées que ce qui "sort" du canal de transmission. D'accord, c'est le cas le plus courant, mais l'aspect adaptation à l'utilisation mérite quand même d'être souligné.
N'y a t-il pas là un changement radical de paradigme (par rapport au traitement du signal)?
Comme si tout était appréhendé du point de vue du bruit et non du point de vue du signal déterministe (le message à transmettre).
Et le plus surprenant, c'est que cela marche! Il y a des applications pratiques de cette théorie!
Si c'était déterministe nous aurions des modèles comportemental de l'utilisateur qui est à l'origine, via les applications de communication qu'il utilise, des flux d'informations engendrés. La convergence aujourd'hui, des services et des réseaux, rend encore plus difficile cette problématique.
Pour s'en convaincre il faut analyser l'anatomie d'un clic de souris.
Patrick
Dernière modification par invite6754323456711 ; 10/04/2012 à 13h38.
Sans aller aussi loin, je trouve cet indicateur "information" plutôt à contre-courant, contre-intuitif, par rapport aux applications!Si c'était déterministe nous aurions des modèles comportemental de l'utilisateur qui est à l'origine, via les applications de communication qu'il utilise, des flux d'informations engendrés. La convergence aujourd'hui, des services et des réseaux, rend encore plus difficile cette problématique.
Pour s'en convaincre il faut analyser l'anatomie d'un clic de souris.
Un signal audio bruité, j'ai envie de le débruiter en comparent le signal bruité et la signal non-bruité. Pourquoi utilise-t-on un indicateur probabiliste?
Comment le récepteur peut-il savoir lorsqu'il lit un signal qui a été bruité, quel est le signal d'origine ? Intuitivement, on comprend que le travail du récepteur devient extrêmement délicat lors d’une pointe importante de bruit non ?
De plus en amont il y a la problématique pour le récepteur du dispositif de synchronisation, ou circuit de récupération de porteuse, qui lui permet d’acquérir la fréquence et la phase de la porteuse émise. La connaissance de toutes les formes possibles émises exige du récepteur une connaissance parfaite de la porteuse utilisée, d'autant plus difficile si la modulation utilisée n'est linéaire non ?
Dans le domaine des communications numériques en raison des perturbations présentes sur le canal, les symboles délivrés au destinataire ne sont pas tous identiques aux symboles fournis par la source : il y a apparition d’erreurs de transmission. L’objectif fixé est de trouver une règle de décision (en observant r(t) le signal reçu, décider quel si(t) les signaux émis, a été le plus probablement envoyé).
Il est possible selon la nature du message (donnée, audio, vidéo), de fixer un taux d’erreur à ne pas dépasser de façon à assurer le destinataire d’une qualité minimale du message utile.
Patrick
Patrick, c'est un régal de te lire!
Eh oui! C'est logique.
Oui, je comprends la contrainte qu'entrainerait cette approcheDe plus en amont il y a la problématique pour le récepteur du dispositif de synchronisation, ou circuit de récupération de porteuse, qui lui permet d’acquérir la fréquence et la phase de la porteuse émise. La connaissance de toutes les formes possibles émises exige du récepteur une connaissance parfaite de la porteuse utilisée, d'autant plus difficile si la modulation utilisée n'est linéaire non ?
Il y a une sorte de reconnaissance de signal sous forme d'un pari alors?Dans le domaine des communications numériques en raison des perturbations présentes sur le canal, les symboles délivrés au destinataire ne sont pas tous identiques aux symboles fournis par la source : il y a apparition d’erreurs de transmission. L’objectif fixé est de trouver une règle de décision (en observant r(t) le signal reçu, décider quel si(t) les signaux émis, a été le plus probablement envoyé).
C'est vraiment génial cette approche à la louche. Puisque finalement, le reste du travail de débruitage est fait par le cerveau du récepteur!Il est possible selon la nature du message (donnée, audio, vidéo), de fixer un taux d’erreur à ne pas dépasser de façon à assurer le destinataire d’une qualité minimale du message utile.
Il y a un problème de décision à prendre. La question à résoudre est qu'elle action prendre relativement à nos observations, nos connaissances à-priori, notre stratégie conditionnelle de décision ?
L'approche «bayésienne», permet d'interpréter la probabilité comme un pari, quantifient l’incertitude attachée à toute grandeur, observable ou inconnue, grâce au calcul des probabilités. C'est bien effectivement une approche à base de paris. La cohérence du raisonnement est assurée par la règle de Bayes, produit du mode de raisonnement probabiliste conditionnel.
Patrick
D'accord! Donc en sous couche de l'information, il y a des probabilités conditionelles...Il y a un problème de décision à prendre. La question à résoudre est qu'elle action prendre relativement à nos observations, nos connaissances à-priori, notre stratégie conditionnelle de décision ?
L'approche «bayésienne», permet d'interpréter la probabilité comme un pari, quantifient l’incertitude attachée à toute grandeur, observable ou inconnue, grâce au calcul des probabilités. C'est bien effectivement une approche à base de paris. La cohérence du raisonnement est assurée par la règle de Bayes, produit du mode de raisonnement probabiliste conditionnel.
Pour toute question, il y a une réponse simple, évidente, et fausse.
C'est fin ce que vous dites là. Lorsque vous pensez "probabilité" vous avez toujours dans un coin de votre tête le "sachant que..".
Mais alors..., puisqu'un canal de transmission transmet les données "au fur à mesure", ne peut-on pas justement utiliser les données reçues aux instants passés, pour prévoir la probabilité à l'instant t?
Sinon, j'ai lu la phrase suivante qui me semble importante, mais je ne la comprends pas. Je vous la livre, peut-être que vous serez plus en mesure de la comprendre:
"Pourquoi l'information est-elle mesuré en termes de hasard? Simplement parcequ'en choisissant un message dans toute une classe de messages possibles, on se débarasse de l'incertitude ou du hasard présent dans cette classe"
Oui. C'est l'école bayésienne.
Il y a des codages comme cela. Mais le "sachant que" porte surtout sur la forme du signal. Si on transmet un signal modulé de façon binaire, il faut connaître les deux formes d'onde pour choisir entre ! On démodule "sachant que" l'émetteur a envoyé l'une ou l'autre des deux formes.Mais alors..., puisqu'un canal de transmission transmet les données "au fur à mesure", ne peut-on pas justement utiliser les données reçues aux instants passés, pour prévoir la probabilité à l'instant t?
C'est assez évident avec des codes triviaux. Pour la répétition triple, si on reçoit 101 sachant que l'émetteur a envoyé 111 ou 000 et que les erreurs sont indépendantes, on choisira ("fera le pari") que l'émetteur avait émis 111. Cela se formalise très bien en probabilités conditionnelles. Cela montre au passage que l'augmentation de l'information obtenue à la réception de 101 est de moins de 1 bit. (Moins parce qu'il reste une probabilité résiduelle d'erreur, ici entre autres le cas de l'émission 000 et deux erreurs.) Le "sachant que..." intervient obligatoirement dans le calcul de l'augmentation d'information.
Pour toute question, il y a une réponse simple, évidente, et fausse.