[Statistique] Elimination des données parasites.
Répondre à la discussion
Affichage des résultats 1 à 11 sur 11

[Statistique] Elimination des données parasites.



  1. #1
    destroyedlolo

    [Statistique] Elimination des données parasites.


    ------

    Bonjour,

    Je m'excuse par avance si je ne suis pas dans la bonne catégorie, je ne savais pas vraiment où poser ma question .

    J'essaie de corriger les mesures d'une sonde de température influencée par la température du grenier qui se trouve de l'autre coté du mur. J'ai pris environs 11000 valeurs et j'obtiens la courbe suivante :

    Nom : Temperature.png
Affichages : 204
Taille : 9,4 Ko

    En abscisse, j'ai la différence entre la température mesurée par la sonde (Ts) et celle mesurée dans le grenier (Tg) : Tg-Ts
    En ordonné, j'ai la différence entre la température mesurée par la sonde (Ts donc) et celle d'une autre sonde prise comme référence (Tr) : Ts-Tr

    Mon but est donc de contrecarrer l'influence du grenier (Tg) sur la température de la sonde (Ts) pour m'approcher de la valeur de référence (Tr).

    Comme on peut le voir sur la courbe, j'ai des valeurs qui sortent de la tendance générale : les excroissances qui partent vers le bas. Elles sont dues à des parasitages extérieurs (influence du soleil, chauffage, ...), sont en fait peu nombreuses en therme de nombres d'échantillons mais suffisent pour fausser mes calculs de correction.

    Donc, voici ma question : existe-t-il un moyen "statistique" pour éliminer ces valeurs parasites ? Et si oui, comment pourrais-je l'implémenté dans libre office ?

    (sinon, je ferai un filtre numérique mais il y a peu être une manière plus scientifique )

    Merci

    Laurent

    -----

  2. #2
    minushabens

    Re : [Statistique] Elimination des données parasites.

    Oui, il y a diverses approches. Cherche sur le net avec le mot clé "outlier" ou bien "robust regression".

  3. #3
    destroyedlolo

    Re : [Statistique] Elimination des données parasites.

    Bonjour et merci pour ta réponse : j'ai maintenant un nom pour mes problèmes.

    Malheureusement, je n'ai pas trouvé de solution pour LibreOffice (hormis la référence à un plugin mais pour une version obsolète). De plus, LO rame un max lorsqu'on génère des graphismes avec autant de données (bien que j'ai un I7 avec pas mal de RAM).

    Bref, je vais tenté de faire un script numérique comme suit :
    • Sur les abscisses, les données sont regroupées par palliés de 0.125°C (résolution des sondes), donc je vais calculer la moyenne de chacun des groupes.
    • En fonction de cette moyenne, et de celle des 2 groupes adjacents, je vais éliminer les déviants comme décrits dans la partie "Outlier detection" de la page wikipedia.

    Est-ce que c'est une approche qui tient le coup ?

  4. #4
    Dlzlogic

    Re : [Statistique] Elimination des données parasites.

    Bonsoir,
    Je me permets une petite intrusion.
    Si j'ai bien compris, votre problème réside dans le calcul d'une correction a apporter à l'une des mesures. Il est clair que certaines valeurs doivent être éliminées pour différentes raisons.
    Je crois que vous devriez d'abord vous focaliser sur l'établissement de la formule de correction, en supposant que toutes les valeurs sont à prendre en compte. Ceci étant fait, il sera facile d'éliminer les valeurs que l'on appelle aberrantes.
    Je vais me permettre un petit conseil : au lieu d'utiliser les 11000 triplets, imaginez que vous n'en ayez que 100. Organisez le calcul. Il sera bien temps ensuite se scinder par paquets d'environ 500 triplets, puis de comparer les résultats.

  5. A voir en vidéo sur Futura
  6. #5
    gg0
    Animateur Mathématiques

    Re : [Statistique] Elimination des données parasites.

    A noter : L'élimination des "valeurs aberrantes" règle le problème d'avoir un modèle statistique à peu près correct, mais n'aura à peu près aucun intérêt pratique, puisque la sonde ne suivra pas le modèle choisi : Il y a bien trop de valeurs éliminées pour qu'elles n'aient pas une raison à trouver.

    Cordialement.

  7. #6
    destroyedlolo

    Re : [Statistique] Elimination des données parasites.

    Bonjour et merci pour vos réponses.

    Avant toutes choses, je sais que la sonde est mal placée mais la température mesurée n'est qu'indicative et ne commande pas le chauffage. Si un jour ca devait être le cas, je la placerai à un endroit plus pertinent (pour le moment, je soigne le WAF en avancant à petits pas )

    Citation Envoyé par gg0 Voir le message
    A noter : L'élimination des "valeurs aberrantes" règle le problème d'avoir un modèle statistique à peu près correct, mais n'aura à peu près aucun intérêt pratique, puisque la sonde ne suivra pas le modèle choisi : Il y a bien trop de valeurs éliminées pour qu'elles n'aient pas une raison à trouver.
    En fait, j'ai 3 sources de perturbations :
    • Le soleil qui chauffe par l'exposition de la fenêtre. Ca, je peux l'obtenir par ma production photovoltaïque.
    • La température du grenier adjacent que je mesure et qui dépend aussi du soleil. Cette température influe plus sur la mesure de ma sonde que sur la température réelle de la piece.
    • Le chauffage ... que je ne suis ni ne mesure de contrôler, ni de mesurer.

    Vu qu'il me parait compliqué d'intégrer la dedans le soleil (parce qu'en plus, évidement mes panneaux sont plein sud alors que la chambre est pleine ouest, donc un critère horaire devrait rentrer en ligne de compte), j'essaie pour le moment de compenser le pont thermique que je peux avoir entre le grenier et ma sonde.

    Citation Envoyé par Dlzlogic Voir le message
    Je vais me permettre un petit conseil : au lieu d'utiliser les 11000 triplets, imaginez que vous n'en ayez que 100. Organisez le calcul. Il sera bien temps ensuite se scinder par paquets d'environ 500 triplets, puis de comparer les résultats.
    C'est ce que j'ai essayé de faire au début, mais je me retrouvais avec des valeurs vraiment différentes suivant la météo extérieure et le moment de la journée.

    A+

  8. #7
    Dlzlogic

    Re : [Statistique] Elimination des données parasites.

    Bonjour,
    La Palisse, qui s'y connaissait en la matière, avait l'habitude de dire "Si une erreur était connue, ce ne serait plus une erreur".
    Or, c'est justement ce que vous essayez de faire : supprimer les valeurs qui vous paraissent des fautes.
    Si vous voulez des résultats corrects, il faut commencer pas définir ce qu'on appelle souvent "modèle" et qui n'est en fait dans votre cas qu'une formule. Ensuite vous pourrez éliminer les valeurs aberrantes et calculer les paramètres définitif

  9. #8
    destroyedlolo

    Re : [Statistique] Elimination des données parasites.

    Bonjour,

    Oui, j'avais fait ça à l'IUT (transformé en 'p' autant que je me souvienne), mais c'est très très loin et je n'ai jamais réutilisé depuis.

    Mais ceci mis à part, si je pense qu'on peut s'en tirer sur le paramètre "soleil" grâce à la production Photovoltaïque pondéré avec l'horaire et les heures de levé / couché ... le fait que je n'ai aucun moyen de récupéré l'information "chauffage" ne risque-t-il pas d'être bloquant ?

  10. #9
    Dlzlogic

    Re : [Statistique] Elimination des données parasites.

    Pour moi, le principe général est simple : en l'absence d'information certaine, du type étalonnage, on ne peut rien décider a priori. La seule loi que je connaisse, dans un tel cas, est l'application rigoureuse des lois de probabilités.
    Plus j'y pense, plus je trouve ce problème théorique intéressant. Pour l'instant, il me semble qu'on peut définir le problème ainsi : on dispose qu'un grand nombre d'observations. Chaque observation est constituée de 4 valeurs
    - la mesure de la température Ts (sonde)
    - la mesure de la température Tg (grenier)
    - mesure de la température de référence Tr (météo)
    - l'heure de la mesure.
    Le but de l'opération étant d'apporter une correction à Ts. Mais on ne peut pas savoir de quoi dépend cette correction et a fortiori les paramètres.
    N'hésitez pas à m'envoyer vos mesures, si ça peut vous aider.

  11. #10
    destroyedlolo

    Re : [Statistique] Elimination des données parasites.

    Malheureusement, je n'avais pas penser à horodatage ... mais tous n'est pas perdu car je fais une mesure toutes les 120s. Donc en connaissant l'heure de la derniere mesure, on peut plus ou moins extrapolé grosso modo l'heure d’échantillonnage (en parlant d'incertitude, ces 120s sont un peu impactées par le temps de lecture du bus 1-wire).

    Sinon, Tr ne vient pas de la météo mais d'une sonde que j'avais taré précédement (j'ai mis 3 sondes ds18b20 cote a cote, mesuré la moyenne, affecté une dérive à l'une des sondes par rapport à cette moyenne). J'ai donc décidé arbitrairement que ca serait ma référence

    Si vous m'envoyez votre mail par PM, je vous enverai avec plaisir les données a ma dispo.

  12. #11
    destroyedlolo

    Re : [Statistique] Elimination des données parasites.

    Les investigations continuent (merci à Pierre / Dlzlogic au passage pour ses efforts).

    Alors j'ai étudier ce qu'il se passait un jour "sans trop de perturbations" : les données forment une sorte d'ovale incliné.
    La sonde de référence étant placé presque au centre de la piece et ma sonde définitive dans une armoire murale, cette ovale est créé par une sorte de phénomène d'hystérésis due au temps de propagation de la chaleur/fraicheur : en d'autres termes, en début de soirée, la Tref descend plus rapidement que Ts qui reste renvoie des valeur > à la réalité.
    Au contraire, le matin, Tref remonte plus vite que Ts qui affiche alors un température <

    Dans cette situation, une fois la température du grenier et l'offset de la sonde corrigés, on obtient donc une dérive d'environ +/- 0.5°C (pas idéale, mais ca me convient).

    Citation Envoyé par gg0 Voir le message
    Il y a bien trop de valeurs éliminées pour qu'elles n'aient pas une raison à trouver.
    En regardant de prêt ... j'ai compris d'où vienne ces perturbations :
    • ainsi que je le pensais, une partie est dû au soleil.
    • le chauffage n'a pas vraiment d'incidence (vu qu'il essaie de conserver une température constante, pas de grosses variations) ... et la différence entre le mode confort et écho ne montre pas d’influences importantes ... je pense que l'influence du chauffage est amortie par la distance avec les sondes.
    • le facteur que j'avais totalement sous-estimé ... c'est la chaleur humaine. Ainsi, ma fille avait invité une copine à passé la nuit, et du coup, Ts-Tred a chuté à ... -2°C.


    A+

Discussions similaires

  1. Peu de données pour un test statistique
    Par sitingbull dans le forum Mathématiques du supérieur
    Réponses: 2
    Dernier message: 07/08/2015, 08h36
  2. Elimination de valeurs excentriques dans un tableau de données
    Par Dostoiev dans le forum Mathématiques du supérieur
    Réponses: 0
    Dernier message: 04/03/2013, 13h54
  3. Statistique : comment calculer mediane pour des données groupées et données groupées en classes
    Par hilal9207 dans le forum Mathématiques du collège et du lycée
    Réponses: 1
    Dernier message: 28/12/2012, 20h44
  4. Analyse statistique des données
    Par julien_4230 dans le forum Mathématiques du supérieur
    Réponses: 0
    Dernier message: 03/03/2011, 20h11
  5. [Divers] Analyse statistique de données des puces ADN
    Par inviteb332a822 dans le forum Biologie
    Réponses: 6
    Dernier message: 27/04/2009, 12h06