Statistiques : perte ou gain d'informations lors d'un croisement de données

**fabio123** · 09/06/2019, 09h53

Bonjour,

je travaille actuellement sur le formalisme de Fisher qui fait partie d'une théorie plus générale, celle de l'information. Mon problème s'applique à l'estimation que je peux tirer de paramètres à partir de données d'entrée. Le contexte est Astrophysique mais ça peut s'appliquer à de nombreux sujets.

Comme ça relève plus de la statistique que de l'Astrophysique, j'ai posté ici sur le forum Maths.

Voici un résumé : les données d'entrées sont 4 colonnes de données, la première représentant le redshift des galaxies (leur distance en gros) et ensuite les 3 autres correspondent chacune au biais (c'est-à-dire en gros à l'incertitude sur leur position) d'un type de galaxie donné : il y a donc 3 types de galaxies donnés et une valeur par redshift (8 redshifts en tout). J'ai donc un tableau de 8x3.

Maintenant, je cherche à faire du croisement de données pour essayer d'extraire de l'information supplémentaire car par exemple, pour le premier type de galaxie, je n'ai que les 2 premiers biais qui sont non nuls (je veux dire pour les 2 premiers redshifts), et pour le second type, j'ai 6 valeurs diffférentes de 0 pour les 6 redshifts supérieurs aux 2 précédents.

Mon prof m'a donc suggéré de fusionner la première colonne (correspondant au premier type de galaxie) avec la seconde (correspondant au second type), de manière à obtenir un vecteur unique avec uniquement des valeurs pour le biais non nulles).

D'un point de vue statistique, y'aura t-il une perte ou un gain d'informations si je fais cette fusion des 2 colonnes ?. Le problème semble assez complexe car tout dépend de la valeur des données.

Un autre point de vue évoqué par mon prof : si je prends un échantillon et que je le coupe en 2 parties, si je fais du croisement de données (cross-corrélations) entre les 2 sous-ensembles obtenus, vais-je gagner ou perdre de l'information au niveau des paramètres qu je vais en tirer ?

Il pense qu' à priori, je ne peux pas perdre de l'information (ce qui paraît intuitif car couper un échantillon en 2 n'est pas une perte d'infos en soi) mais que tout dépend du fait si je connais ou pas avec précision le ratio des biais entre les 2 sous-échantillons (j'ai pas trop compris cette notion de ratio entre les biais).

Je suis donc à la recherche d'informations sur ce problème, peut être que sur ce forum, des statisticiens pourront m'aider dans cette technique de cross-correlations et le fait de savoir ou pas si on gagne ou on perd de l'info en réunissant plusieurs sources d'informations.

J'ai aussi un troisième type de galaxie, que je pourrais fusionner avec le premier ou le second type : là aussi, je pense que le gain ou la perte d'info sera fonction de la redondance des données (on parle d'entropie de Shannon je crois). ça serait bien que je compare ces 2 fusions possibles (le premier type avec le second et le premier avec le troisième).

Je pourrais aussi faire du croisement de donnée entre des données overlappées pour 2 colonnes de données (2 valeurs pour chaque redshift) mais là je pense que c'est encore un autre problème d'un point de vue statistique : d'ailleurs , je parle au début de croisement de données avec la fusion de 2 vecteurs mais le "cross-correlation" est plutôt défini dans le cas de valeurs overlappées, non ?

Cependant, dans les 2 cas, on croise des données, d'une certaine manière.

Pour l'instant, dans mon algorithme, je traite les 2 premières valeurs du 1er type de population, les 3 autres overlappées entre le second et le 3ème type, et les 3 dernières du 3ème type de population, ce qui fait bien 8 bins au total (je veux dire 8 redshifts) : on parle alors de 2 "auto-spectres" et d'1 spectre overlappé.

Vos avis sur la question sont précieux et me permettront de mieux comprendre la logique de cette histoire de "croisement de données".

Toute aide est la bienvenue.

PS: si le sujet vous semble être posé sur le mauvais forum, n'hésitez pas à le déplacer dans le forum Astro.

Merci

invite9dc7b526 · 09/06/2019, 10h27

bonjour,

"croisement de données" n'est pas un terme commun du langage statistique, donc je ne comprends pas bien ce que tu veux faire. A quelle question scientifique veux-tu répondre? c'est par ce bout à mon avis qu'il faut aborder le traitement de données quelles qu'elles soient.

**fabio123** · 09/06/2019, 10h41

le terme anglo-saxon est "cross-correlation", mon prof dit aussi dans notre cas d'étude une "étude multi-populations" (pour faire la distinction dans le traitement avec une seule population).

invite9dc7b526 · 09/06/2019, 12h28

ok mais que veux-tu démontrer sur tes galaxies?

A voir en vidéo sur Futura · Aujourd'hui

**fabio123** · 09/06/2019, 13h52

@minushabens

En fait, le formalisme de Fisher permet de tirer de ces données une estimation de paramètres cosmologiques comme la constante de Hubble ou la quantité de matière. Et les cross-corrélations permettent en principe d'augmenter la précision de l'estimation de ces paramètres.

Le sujet est nouveau pour moi mais peut s'appliquer à plein d'autres domaines dès lors qu'il s'agit de vouloir estimer un jeu de paramètres inter-dépendants (dans le formalisme de Fisher, ça passe par une matrice de covariance).

C'est pour cela que j'aurais voulu avoir des conseils/avis/feedback de personnes ayant déjà rencontré le même type de problématique, c'est-à-dire comment croiser les données, quel peut être le gain ou perte de précisions sur les paramètres en fonction des données que l'on choisit (dans mon cas, SOIT faire la fusion du biais de 2 types de populations et la traiter comme une population unique, ce qui en fait n'est pas juste, OU alors faire du "cross-correlation" quand on a plusieurs valeurs qui se chevauchent, je veux dire plusieurs valeurs pour un même redshift dans mon cas, c'est-à-dire une valeur pour la première population à un redshift donné et une valeur pour la seconde population au même redshift).

Si quelqu'un pouvait m'indiquer l'approche générale que je pourrais appliquer sur ce fameux problème de construire un jeu de données à partir de données de départ (la fusion entre 2 types de population dont je parle au début pour ne pas voir de valeurs de biais nulles) ou en "croisant" les valeurs overlappées, le but étant bien sur d'améliorer les estimations (avoir un écart type plus petit) sur les paramètres.

Même un lien sur cette problématique me suffirait, je veux juste en savoir un peu plus car je ne suis pas statisticien de formation.

invite9dc7b526 · 09/06/2019, 14h47

c'est curieux, tu parles chinois pour moi, et je suis statisticien... Dans la théorie de l'estimation développée par Fisher et d'autres, on commence par postuler un modèle probabiliste. Et surtout (j'insiste) on a une question scientifique. Là je ne la vois pas. Pour essayer quand-même de répondre à ta question je peux te conseiller un ou deux cours de statistique théorique. Tu y trouveras décrites les idées de Fisher.

DR Cox & DV Hinkley: Theoretical Statistics.

ou encore

EL Lehmann: Theory of Point Estimation.

**fabio123** · 09/06/2019, 21h56

La question scientifique dont tu parles, c'est l'estimation de différents paramètres cosmologiques à partir de données théoriques et numériques générées par un programme informatique qui génère en fait ces données selon un modèle de référence (on dit "fiducial model" en anglais). Une fois ces données générées, j'utilise le formalisme de Fisher qui consiste à construire une matrice de Fisher selon une recette bien précise (en fonction de quantités observables). Une fois que j'ai construit cette matrice de Fisher, j'ai accès aux estimations des paramètres grâce à l'inversion de la matrice, qui me donne la matrice de covariance (la diagonale me donne leur variance et les termes non diagonaux les corrélations).

Voilà pour résumer. Mais ce qui m'intéresse, c'est le coté "interprétation" des données d'entrée dont je parle au début de mon message, à savoir le tableau 3x8 de valeurs de biais correspondant aux biais de chacun des 3 types de populations données pour 8 redshifts donnés.

1) Je reviens à l'approche qui consiste à simuler un traitement "single population" en regroupant les valeurs non nulles avec 2 types de population pour ne travailler "virtuellement" qu'avec un échantillon de 8 valeurs de biais non nulles : déjà, cette approche semble si je puis dire sans jeu de mots "déjà biaisé" car les 2 types de populations ont chacune leur spécificité et les fusionner crée de la "fausse information" pour prétendre coller à la réalité des faits et des résultats. Comment gérer cette opération et quels conseils pourriez-vous me donner pour être le plus proche possible de la solution numérique "exacte" et qui impactera directement l'estimation de mes paramètres, c'est-à-dire dans la construction de ma matrice de Fisher ?

2) Concernant le second aspect, "la cross-correlation", en reprenant mon exemple de prendre un échantillon et de le couper en 2 sous-échantillons, n'y a t-il pas un moyen objectif de conclure sous quelles conditions on gagne ou on perd de l'information, au sens formalisme de Fisher (qui est aussi assimilable à de l'entropie comme celle de Shannon) ou tout simplement d'un point de vue statistique : mon prof nous disait qu'en faisant cette séparation en 2 sous-échantillons, on ne perd pas d'info avec les cross-correlations à conditions de connaître avec exactitude le ratio des biais (pas celui des galaxies dont j'ai parlé mais je le biais statistique) entre les 2 sous-échantillons : c'est cette partie que j'ai du mal à saisir.

Si quelqu'un pouvait m'éclairer sur cette "non-perte" d'informations statistiques avec cette séparation d'1 échantillon unique en 2 sous-échantillons, ça serait sympa de me donner des pistes ou des suggestions.

Merci par avance.

**fabio123** · 10/06/2019, 04h33

Voici un résumé : les données d'entrées sont 4 colonnes de données, la première représentant le redshift des galaxies (leur distance en gros) et ensuite les 3 autres correspondent chacune au biais (c'est-à-dire en gros à l'incertitude sur leur position) d'un type de galaxie donné : il y a donc 3 types de galaxies donnés et une valeur par redshift (8 redshifts en tout). J'ai donc un tableau de 8x3.

Maintenant, je cherche à faire du croisement de données pour essayer d'extraire de l'information supplémentaire car par exemple, pour le premier type de galaxie, je n'ai que les 2 premiers biais qui sont non nuls (je veux dire pour les 2 premiers redshifts), et pour le second type, j'ai 6 valeurs diffférentes de 0 pour les 6 redshifts supérieurs aux 2 précédents.

Mon prof m'a donc suggéré de fusionner la première colonne (correspondant au premier type de galaxie) avec la seconde (correspondant au second type), de manière à obtenir un vecteur unique avec uniquement des valeurs pour le biais non nulles).

Excusez-moi, il y a une erreur dans ce que j'ai dit, voici le tableau 3x8 contenant les biais des galaxies (les 3 types de population sont notées b1, b2 et b3) avec les redshifts en colonne supplémentaire (1ère colonne) :

$\text{[math]}$
1.7500000000e-01 1.1133849956e+00 0.0000000000e+00 0.0000000000e+00
4.2500000000e-01 1.7983127401e+00 0.0000000000e+00 0.0000000000e+00
6.5000000000e-01 0.0000000000e+00 1.4469899900e+00 7.1498329000e-01
8.5000000000e-01 0.0000000000e+00 1.4194157200e+00 7.0135835000e-01
1.0500000000e+00 0.0000000000e+00 1.4006739400e+00 6.9209771000e-01
1.2500000000e+00 0.0000000000e+00 0.0000000000e+00 6.8562140000e-01
1.4500000000e+00 0.0000000000e+00 0.0000000000e+00 6.8097541000e-01
1.6500000000e+00 0.0000000000e+00 0.0000000000e+00 6.7756594000e-01

Afin d'éviter d'avoir des valeurs nulles, la correction du texte ci-dessus est donc :

"
Maintenant, je cherche à faire du croisement de données pour essayer d'extraire de l'information supplémentaire car par exemple, pour le premier type de galaxie (b1), je n'ai que les 2 premiers biais qui sont non nuls (je veux dire pour les 2 premiers redshifts), et pour le troisième type (b3), j'ai 6 valeurs diffférentes de 0 pour les 6 redshifts supérieurs aux 2 précédents.

Mon prof m'a donc suggéré de fusionner la première colonne (correspondant au premier type de galaxie b1) avec la troisième (correspondant au troisième type b3), de manière à obtenir un vecteur unique avec uniquement des valeurs pour le biais non nulles). Je simule ainsi un traitement "single population" (population unique) avec uniquement des valeurs de biais non nulles (d'ailleurs c'est le but, éviter les valeurs nulles).

1) D'un point de vue statistique, y'aura t-il une perte ou un gain d'informations si je fais cette fusion des 2 colonnes ?. Le problème semble assez complexe car tout dépend de la valeur des données.
"

invite9dc7b526 · 10/06/2019, 07h39

Bonjour,

peut-être que quelqu'un de plus intelligent que moi passera par ici et pourra t'aider. Mais quant à moi, pour que j'y comprenne quelque-chose il faudrait que tu donnes beaucoup plus d'informations: quels sont ces fameux paramètres et qu'est-ce qui les relie aux données (quelles équations), que sont ces classes de galaxies? pourquoi les zéros t'ennuient-ils?

**fabio123** · 10/06/2019, 09h51

Bonjour minushabens,

peut être que la discussion devrait être déplacée dans le forum astro car il est vrai que le contexte "cosmologie" influe pas mal sur la manière d'aborder les choses. Mais je suis quand même convaincu que ça reste de la statistique appliquée à de l'astrophysique. C'est pour ça qu'initialement, j'ai posté ici.

Par contre, juste une dernière chose, pourrais-tu s'il te plaît me donner des éléments de réponse sur le fameux découpage d'un échantillon en 2 sous échantillons et le fait de savoir sous quelles conditions je gagne ou perds de l'info statistique en faisant du "cross-correlation" entre les 2 sous-échantillons, ça doit être un problème simple à priori mais je n'ai pas trouvé beaucoup d'infos pour avoir des critères pertinents. Ton aide est la bienvenue. Pour le reste, merci quand même.

invite9dc7b526 · 10/06/2019, 12h28

Envoyé par fabio123

Par contre, juste une dernière chose, pourrais-tu s'il te plaît me donner des éléments de réponse sur le fameux découpage d'un échantillon en 2 sous échantillons et le fait de savoir sous quelles conditions je gagne ou perds de l'info statistique en faisant du "cross-correlation" entre les 2 sous-échantillons, ça doit être un problème simple à priori mais je n'ai pas trouvé beaucoup d'infos pour avoir des critères pertinents. Ton aide est la bienvenue. Pour le reste, merci quand même.

l'information de Fisher est une fonction des données, du paramètre et du modèle probabiliste. Comme tu ne précises pas ces choses, je ne peux pas te répondre.

Et "faire du cross correlation" n'a pas de sens pour moi. Ca doit avoir une signification chez les physiciens mais il m'est difficile de deviner ce que c'est.

invite6c250b59 · 10/06/2019, 14h55

Envoyé par fabio123

je suis quand même convaincu que ça reste de la statistique appliquée à de l'astrophysique.

C'est très possible, mais ton vocabulaire semble non standard (ou peut-être cela reflète des habitudes locales ou de ton sous-domaine) ce qui nécessiterait beaucoup d'explications. C'est quoi, une "Information statistique" ou "faire du cross-correlation", un traitement "single population"? On peut essayer de deviner (diminuer la probabilité d'erreur ou l'intervalle de confiance d'une valeur?), (faire semblant que les b1 non nuls sont des b3?), (poser l'hypothèse qu'il n'y a qu'un seul type de galaxie même si on en voit trois), et te donner la réponse bateau qui marche de toute façon (ça dépend des données), mais il y a quelque chose de sous-optimal dans tout ça. Bref... +1 minushabens.

**mh34** · 10/06/2019, 21h43

Discussion déplacée à la demande de l'initiateur.

Statistiques : perte ou gain d'informations lors d'un croisement de données

Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Re : Statistiques : perte ou gain d'informations lors d'un croisement de données

Discussions similaires

ITE facade sud ou pas? gain d'isolation VS perte des apports solaire

perte de données lors d'un transfert

Branchement clé USB & HD simultané : perte d'informations.

perte ou gain d'electron

Vitesse de gain/perte de chaleur .