Bonjour,
je travaille actuellement sur le formalisme de Fisher qui fait partie d'une théorie plus générale, celle de l'information. Mon problème s'applique à l'estimation que je peux tirer de paramètres à partir de données d'entrée. Le contexte est Astrophysique mais ça peut s'appliquer à de nombreux sujets.
Comme ça relève plus de la statistique que de l'Astrophysique, j'ai posté ici sur le forum Maths.
Voici un résumé : les données d'entrées sont 4 colonnes de données, la première représentant le redshift des galaxies (leur distance en gros) et ensuite les 3 autres correspondent chacune au biais (c'est-à-dire en gros à l'incertitude sur leur position) d'un type de galaxie donné : il y a donc 3 types de galaxies donnés et une valeur par redshift (8 redshifts en tout). J'ai donc un tableau de 8x3.
Maintenant, je cherche à faire du croisement de données pour essayer d'extraire de l'information supplémentaire car par exemple, pour le premier type de galaxie, je n'ai que les 2 premiers biais qui sont non nuls (je veux dire pour les 2 premiers redshifts), et pour le second type, j'ai 6 valeurs diffférentes de 0 pour les 6 redshifts supérieurs aux 2 précédents.
Mon prof m'a donc suggéré de fusionner la première colonne (correspondant au premier type de galaxie) avec la seconde (correspondant au second type), de manière à obtenir un vecteur unique avec uniquement des valeurs pour le biais non nulles).
D'un point de vue statistique, y'aura t-il une perte ou un gain d'informations si je fais cette fusion des 2 colonnes ?. Le problème semble assez complexe car tout dépend de la valeur des données.
Un autre point de vue évoqué par mon prof : si je prends un échantillon et que je le coupe en 2 parties, si je fais du croisement de données (cross-corrélations) entre les 2 sous-ensembles obtenus, vais-je gagner ou perdre de l'information au niveau des paramètres qu je vais en tirer ?
Il pense qu' à priori, je ne peux pas perdre de l'information (ce qui paraît intuitif car couper un échantillon en 2 n'est pas une perte d'infos en soi) mais que tout dépend du fait si je connais ou pas avec précision le ratio des biais entre les 2 sous-échantillons (j'ai pas trop compris cette notion de ratio entre les biais).
Je suis donc à la recherche d'informations sur ce problème, peut être que sur ce forum, des statisticiens pourront m'aider dans cette technique de cross-correlations et le fait de savoir ou pas si on gagne ou on perd de l'info en réunissant plusieurs sources d'informations.
J'ai aussi un troisième type de galaxie, que je pourrais fusionner avec le premier ou le second type : là aussi, je pense que le gain ou la perte d'info sera fonction de la redondance des données (on parle d'entropie de Shannon je crois). ça serait bien que je compare ces 2 fusions possibles (le premier type avec le second et le premier avec le troisième).
Je pourrais aussi faire du croisement de donnée entre des données overlappées pour 2 colonnes de données (2 valeurs pour chaque redshift) mais là je pense que c'est encore un autre problème d'un point de vue statistique : d'ailleurs , je parle au début de croisement de données avec la fusion de 2 vecteurs mais le "cross-correlation" est plutôt défini dans le cas de valeurs overlappées, non ?
Cependant, dans les 2 cas, on croise des données, d'une certaine manière.
Pour l'instant, dans mon algorithme, je traite les 2 premières valeurs du 1er type de population, les 3 autres overlappées entre le second et le 3ème type, et les 3 dernières du 3ème type de population, ce qui fait bien 8 bins au total (je veux dire 8 redshifts) : on parle alors de 2 "auto-spectres" et d'1 spectre overlappé.
Vos avis sur la question sont précieux et me permettront de mieux comprendre la logique de cette histoire de "croisement de données".
Toute aide est la bienvenue.
PS: si le sujet vous semble être posé sur le mauvais forum, n'hésitez pas à le déplacer dans le forum Astro.
Merci
-----