Distribution modélisable par une double gaussienne
Répondre à la discussion
Affichage des résultats 1 à 15 sur 15

Distribution modélisable par une double gaussienne



  1. #1
    invited2a5dafc

    Distribution modélisable par une double gaussienne


    ------

    Bonjour

    Soit un ensemble de données mesurées. En l' occurence il s' agit de données géodésiques enrgistrées au cadencement de 1s par un GPS datalogger. Position approchés de la position réelle, et tranformées en distances orthodromiques, elle même transformées en vitesse, grâce au cadencement à la seconde à 10^-5 prés, jitter négligé

    Nombre connu et tabulé sous Excel, puis un peu bricolé en calculant les écarts successifs Vn-V(n-1) pour en déterminer la distribution court terme à laquelle seule je m' intéresse (Ce bricolage, pas forcément trés orthodoxe mathématiquement filtre en principe tout le long terme des incertitudes de positionnement absolu du GPS, sur lequel je reviendrai si nécessaire)

    Si la distribution de ces mesures peut être simulée et ajustée trés correctement (Coeff de corrélation>0,9995 via Excel MAIS aussi vérification visuelle sur les tracés, des pieds et corps de distribution) par une paire de gaussienne d' écart type trés différent, de max trés différents aussi, mais quand même centrées sur la même valeur moyenne zéro, à quel type de fonctions utilisant les sorties d' écart type, de moyenne, et max relatif de chaque gaussienne, faut-l s' attendre.

    C' est à dire faire une modélisation utilisant les paramètres des deux gaussiennes ajustées sur la distribution réelle, pour en faisant une distribution simulée de ce modèle, retomber sur la distribution réelle avec la même ou trés bonne corrélation. (0,9995)

    Un produit F(a)*F(b) ou une somme F(a)+F(b) ne permettent pas à priori de retrouver la paire de gaussienne initiale. Et c' est normal.

    Mon cusus mathématique ayant atteint ses limites d' incompétence, et n' ayant plus la fraîcheur d' âge qui me permettrait de le faire progresser massivement sans trop de douleur, je fais appel à vous pour me sortir des ronces.

    -----

  2. #2
    invite179e6258

    Re : Distribution modélisable par une double gaussienne

    Citation Envoyé par Papymeche Voir le message
    à quel type de fonctions utilisant les sorties d' écart type, de moyenne, et max relatif de chaque gaussienne, faut-l s' attendre.
    je ne comprends pas la question. Je crois qu'il faudrait la préciser.

    tu modélises ta distribution par un mélange de 2 gaussiennes c'est bien ça?

  3. #3
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour

    Je me suis inscrit à ce forum depuis peu, et je n' ai pas encore fait le tour des possibilités de chargement et des limites de taille de fichiers joints.
    Une vue de la distribution de départ vous parlera sans doute mieux que mes mots. Je vais faire une transformation Pdf de ce que j' ai sous Excel. Ce sera malheureusement inactif puisque le site ne permet pas de charger des fichiers .xls, ni de trés gros fichiers, ce que je comprends trés bien.

    Je modélise effectivement la distribution relevée par un mélange de deux gaussiennes.
    Si Ni représente ne nombre d' échantillon d' une des classes de la distribution initiale, et que j' utilise la même classe de distribution pour mes gaussiennes, alors je cherche à ce que NiG1+NiG2 # Ni, sur tout le domaine.

    Je ne fais pas d' hypothèses sur ce que représentent ces gaussiennes, bien que j' ai quand même une idée la dessus.

    Mais ayant obtenu ces gaussiennes, je cherche a faire le travail inverse. Intuiter un modèle mathématique, qui passé à la moulinette fréquence de distribution, va me faire retomber après ajustement des paramètres, autres que ceux de mes gaussiennes, sur la distribution initiale.

    Ayant ce modèle mathématique, puis sachant comment j' ai obtenu ma distribution initiale à partir de points géodésiques relevés par mon datalogger, j' essayerai ensuite de comprendre ce que représentent ces gaussiennes.
    Mon intuition sur le modèle matématique donnant 2 gaussiennes est pour le moment dans les ronces

    J' espère que c' est plus clair, mais je vous suggère d' attendre le petit Pdf que je vais créer sur un autre PC.

  4. #4
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour

    Plus moyen d' éditer mon message précédent ? Pendant combien de temps après envoi peut-on encore modifier ?

    En tous cas voilà le petit Pdf.
    Je dispose en fait de 2 GPS datalogger (constructeurs et puces GPS diffétentes positionnés tête bêche sous le pare brise.
    Ils enregistrent en principe la même chose s' ils ne se perturbent pas l' un l' autre via EMC, ce que je n' ai pas vérifié.
    Images attachées Images attachées

  5. A voir en vidéo sur Futura
  6. #5
    invite179e6258

    Re : Distribution modélisable par une double gaussienne

    je ne comprends pas bien comment tu calcules une corrélation entre deux distributions.

  7. #6
    Dlzlogic

    Re : Distribution modélisable par une double gaussienne

    Bonjour,
    Pour moi, il faudrait reprendre le choses depuis le début.
    1- vous avez une série de mesures (position + date) que l'on peut exprimer sous la forme y=f(x).
    L'ensemble de ces couples (Xi,Yi) vous donnent un très bon ajustement.
    2- vous avez une autre série de mesures qui vous donne un autre ajustement.

    La courbe de Gauss donne la répartition de mesures relatives à une expérience uique.

    Imaginons que vous ayez un ensemble de 4 mesures, il est possible de trouver une fonction du genre T = f(X, Y, Z)
    Les écarts de valeurs de T calculés par cette fonction par rapport à la valeur observée ont une répartition conforme à celle de la loi normale (courbe de Gauss).

    Compte tenu de cela, il faudrait réexpliquer le problème.
    Vous pouvez m'envoyer vos données.

  8. #7
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour
    Citation Envoyé par toothpick-charlie Voir le message
    je ne comprends pas bien comment tu calcules une corrélation entre deux distributions.
    Je m' en remets à Excel et à la formule de corrélation.
    Je ne sais d' ailleurs pas ce qu'Excel fait sur le sujet autrement que par le bouton d' aide. Ce qui y est expliqué ne m' a pas choqué.

    Je me dis pragmatiquement que si ce n' était pas quelque chose d' admis par le monde des mathématiciens pur jus (vous l' aurez compris, je n' en suis pas un), ça se saurait dans le landernau.

    Mais prudent, j' ai fait aussi une corrélation "à l' oeil" d' ou le double graphe (Toute la distribution et le pied)

  9. #8
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour

    Compte tenu de cela, il faudrait réexpliquer le problème.
    Je vais reprendre en expliquant ce que je cherche, ce que je fais pour y arriver, et ou je coince pour poursuivre.
    Comme ça risque d' être long et qu' un écran de netPC n' est pas facile à gérer sur texte long, je prépare çà et je reviens.

  10. #9
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonsoir

    Je reprends.

    Quand je me déplace en voiture, j’ utilise deux GPS datalogger pour enregistrer les points géodésiques successifs à la récurrence de 1s, et un GPS classique ventousé au pare brise sur lequel j’ asservis la vitesse de mon véhicule sur l’ indication de vitesse qu’ il fournit.˝ manuellement au pied levé ˝ via l’ accélérateur. (Pas de régulation à bord )
    C’ est plus précis que le tachymètre, et surtout c’ est plus facile à utiliser car on ne perd pas la route des yeux. C’ est précis à vitesse stabilisée, mais bien sûr il faut se méfier du traînage de l’ information donnée puisque la vitesse indiquée par le GPS est filtrée sur 5 à 10s d’ acquisitions antérieures.

    Le but est d’ avoir la possibilité de restituer par post traitement sous Excel ma vitesse instantanée en chaque point du parcours au cas ou il le faudrait. Pourquoi le faudrait-il ?
    Je suis très présent sur un forum de droit routier…Bref.

    Chacun des GPS restitue avec les logiciels constructeur, au moins l’ heure UTC chaque seconde, une position géodésique longitude/latitude sur 6 à 8 chiffres après la virgule des degrés selon le datalogger, une altitude, un écart de distances entre points successifs, une vitesse de déplacement et un cap.

    Ce que je fais des positions géodésiques (j’ utilise aussi les vitesse acquises par doppler, mais la problématique étant similaire tout en étant plus simple je n’ en fait pas état).
    Les positions géodésiques sont séparées sur le géoïde terrestre par un arc AB tel qu’ en notation Excel et formulation que j’ utilise actuellement :
    AB = (6378137+6356752)*0.5*2*ASIN(( (SIN((Lat1-Lat2)/2*PI()/180))^2 + COS(Lat1*PI()/180)*COS(Lat2*PI()/180)*(SIN((Long1-Long2)/2*PI()/180))^2)^0.5)
    Il y en a d’ autres, mais celle là a l’ avantage d’ être peu dépendante des arrondis au 15° chiffre significatif d’ Excel
    Aux vitesses de déplacement d’ un véhicule au sol, et des rayons de courbure et pentes des voies de circulation, cet arc est assimilable à un segment de droite sans que cette approximation gène ce qui suit. J’ ai négligé variations de cap ou d’ altitude sur 1s.
    De ces segments AB calculables sur chaque intervalle de temps de 1s sur un trajet point à point, j’ en déduis une vitesse que j’ appelle orthodromique (terme peut être pas très juste sémantiquement mais pratique)
    Un point géodésique est connu avec les puces GPS actuelles et depuis que le DOD a cessé de diluer artificiellement les données descendantes avec une erreur absolue de 15 à 20m. (Revendiqué par les 2 constructeurs)
    Mais ces points sont tributaires de perturbations inhérentes à la propagation, ou aux obstacles qui perturbent la réception.
    Il y a donc des points aberrants dus au fait que les algorithmes des puces déclarent forfait. On perd le point, ou il est dans les choux, ou même plus grave la synchro horaire, ce qui perturbe grandement une restitution de vitesse directe . Il faut, si on veut faire un graphe vitesse pratiquée = phi (temps) faire un petit exercice de nettoyage/élimination de ces vrais aberrants sans altérer le reste des données. Je le fais de façon automatique via des algorithmes qui doivent beaucoup ressembler à ce que d’ autres feraient car j’ avais besoin de voir à l’ oeil l’ étendue des variations de vitesse restituée autours d’ une moyenne elle-même estimée à l’ œil (excellent instrument d’ analyse pour dégrossir ce qui m’ intéresse)

    Ce qui m’ intéresse c’ est la précision de restitution de la vitesse qu’ on peut attendre de tels petits appareils à 100€ en situation réelle à la route.
    Un trajet de 700km a vol d’ oiseau en 20000s va être porteur d’ une erreur absolue de 15/20m sur le point origine, et de 15/20m sur le point d’ arrivée, ça fait une erreur sur la vitesse moyenne de 28/200000*3.6 de 0.1% négligeable devant ce qui suit car chacun des points vitesse ainsi restitué est aussi porteur d’ une erreur aléatoire bien plus grande.

    Les distances entre points calculés par orthodromie à partir de points géodésiques dont la position absolue est connue à 15/20m prés, de par la différence relative élimine une grande partie de cette erreur absolue (Erreur absolue = dilution de la position sur point fixe, qu’ on peut réduire à des valeurs très faibles en moyennant les acquisitions successives du point sur une très longue durée, ce qui est incompatible avec du temps réel et un véhicule en mouvement).
    J’ ai considéré que cette erreur absolue sur les deux points successifs nécessaires au calcul de la vitesse orthodromique était composée d’ une erreur court terme, variant à l’ échelle de la seconde, et d’ une erreur variant sur le long terme quitte à le vérifier à posteriori. Ce qui reste de cette erreur quand on a fait le calcul d’ orthodromie, c’ est l’ erreur court terme qui est très inférieure aux 15/20m correspondant à l’ erreur de la position absolue. Et c’ est bien cette erreur court terme qui va fixer la précision de restitution de vitesse. (C’ est à dire la faible partie de l’ erreur absolue qui évolue chaque seconde, et qui ne peut être filtrée puisque le cadencement d’ acquisition à 1s ne laisse passer que les fréquences supérieures à 0.5hz, et atténue puis supprime tout les contenus fréquentiels inférieurs)

    On ne sait pas à un instant donné ou on se situe sur le géoïde terrestre à mieux que 20m absolus. Une seconde plus tard on ne saura toujours pas ou on se situe sur le géoïde terrestre à mieux que 20m, mais on pourra déduire ce point du précédent, en connaissant la vitesse et la direction suivie.
    Une image simple, Un observateur qui compilerait les données vitesse orthodromique ne saurait pas réellement si le porteur du GPS se déplacerait en moto sur la voie sur berge à Paris, ou serait en train de nager dans le fleuve. Mais il saurait que sa vitesse de déplacement serait de 50km/h avec une précision excellente.

    J’ aurai pu essayer de faire un lissage à tendance moyenne mobile des points relevés pour essayer d’ extraire une distribution des vitesses par rapport à cette vitesse moyenne.
    Je n’ ai pas procédé ainsi pour éviter de rentrer dans des filtres de Kalman que je ne maîtrise pas

    Si on s’ occupe des écarts de vitesse entre points successifs, on élimine la vitesse moyenne en chacun des points. Et si on fait la même chose pour toutes les vitesses restituées par orthodromie (ou par doppler), cette différence va être distribuée de part et d’ autre autours de zéro.
    Bien sûr on risque d’ être perturbé par les variations de la vitesse réelle du véhicule entre deux positions géodésiques successives et s’ en souvenir. Mais comme il est quand même relativement rare au regard des 20000s du trajet que les accélérations dépassent +/-1m/s², ça ne me semble pas dévoyer de trop le principe

    Il est évident que les points fixes n’ ont aucun intérêt dans une détermination de vitesse de déplacement, et qu’ il faut les éliminer car ils distordraient la distribution recherchée en sur-représentant la classe zéro. De même les vitesses lentes, n’ ont pas beaucoup d’ intérêt et comme elles résultent principalement d’ accélérations ou freinage en zone agglomérée, ça m’ a amené naturellement à ne considérer que ce qui se passait au-delà de 30km/h

    C’ est sur cette réflexion initiale et l’ élimination des points fixes tout comme ce qui se passe en dessous de 30km/h que j’ ai analysé ces distributions de Vn-V(n-1) en classant les écart par rapport à zéro avec la fonction Excel correspondante.
    Je souhaite un avis de mathématicien pur et dur sur cette méthodologie. (Bon, pas bon, oui mais....)

    Comme il y a 2 datalogger, il y a 2 distributions. L’ une très lisse, car non perturbée par la résolution au 8° chiffre Lat/Long en degré pour l’ un des datalogger, l’ autre assez chahutée par la résolution au 6° chiffre Lat/Long pour l’ autre. (J’ ai vérifié que cette troncature était bien responsable de ce chahut en tronquant au 6° chiffre les Lat/Long du premier. C’ est comme çà, et sauf à rentrer dans les firmware pour faire de la récupération NMEA, il faut faire avec)

    La forme des distributions avait trop l’ air de gaussiennes, pour que je n’ essaye pas d’ adapter une simple gaussienne. (moindres carrés des écarts entre distribution réelle et modèle de gaussienne approché visuellement et peaufiné au solveur Excel quand celui ci acceptait de converger. Faut l’ aider le bougre !)
    Comme ça ne rendait pas assez bien le pied de distribution, j’ ai rajouté une 2° gaussienne et laissé le solveur se débrouiller après approche visuelle initiale.
    J’ ai obtenu un coefficient de corrélation (fonction d’ Excel sur les matrices) très impressionnant de 0.9996 sur le premier datalogger, et pas terrible pour le second mais dont je sais que la distribution est contrainte par les arrondis au 6° chiffre Lat/Long. C’ est visuellement quand même pas trop mal pour que j’ apporte crédit au résultats, alors que sur le premier datalogger c’ est du presque parfait.
    Je souhaite un avis de mathématicien pur et dur sur ces ajustements du premier datalogger. (Bon, pas bon, oui mais....)

    J’ ai essayé d’ améliorer la distribution du 2° en changeant le pas d’ analyse, après passage FFT pour déterminer celui qui serait relativement en phase avec les valeurs de distance discrétisées par les arrondis. Comme ça ne changeait pas significativement les écarts types, j’ ai laissé pragmatiquement le pas d’ analyse tel qu’ il était.

    L’ aspect distribution normale étant empiriquement démontré, il me semble possible de revenir sur la précision de restitution de vitesse à partir de ces distributions Vn-V(n-1)
    On transforme cette différence de vitesse en partie aléatoire court terme de connaissance du premier point géodésique utilisé dans la restitution de vitesse orthodromique, pareil pour le second point.

    Vn-V(n-1) fait intervenir 3 points géodésiques successifs dont le point central est utilisé 2 fois, ce qui conduit à une incertitude court terme de positionnement à double distribution dont les écarts types distances sont les écarts type de Vn-V(n-1) divisé par l’ intervalle temps de 1s et par 6^0.5.

    Puis ensuite de recomposer ces incertitudes de distance en incertitude de vitesse acquise sur 2 points géodésiques successifs soit en multipliant le précédent résultat par 2^0.5, ce qui fait que les écarts types déterminés par cette méthode du Vn-V(n-1) sont transposables aux écarts types sur la vitesse par un facteur diviseur de 3^0.5……..Hum ?

    Sauf que l’ ajustement se fait sur deux gaussiennes et pas une seule. Et là je commence à atteindre mon niveau d’ incompétence qui fait que l’ orthodoxie mathématique va peut être ne plus être d’ accord …
    Je souhaite un avis de mathématicien pur et dur sur cette méthodologie. (Bon, pas bon, oui mais....)

    Ceci achève l’ exploitation des données et la synthétise via une double gaussienne par datalogger.
    Mais ça ne me donne aucune indication de ce à quoi correspondent ces gaussiennes (bien que j’ en eusse quand même une petite idée)



    D’ ou un travail en sens inverse avec la question :

    Quelles fonctions mathématiques, ou assemblages de fonctions mathématiques fonction du temps et porteuses de termes gaussiens (ou autre), passées au filtre de la détermination d’ une distribution des écarts entre valeurs de la fonction à l’ instant Tn et l’ instant T(n-1), soit Fn-F(n-1) peut/va donner une distribution à double gaussienne ?

    Là je dépasse largement mon niveau d’ incompétence. Ca me désole mais je fais avec.

    Si je dispose de ce panel de fonctions, alors je peux faire le travail inverse au précédent. A savoir :
    Faire coller la distribution de cette fonction Fn-F(n-1) à partir d’ hypothèses échafaudées à l’ empirisme du flair et /ou de l’ instinct pour transposer les caractéristiques des gaussiennes vitesses, sans doute en les bricolant un peu, à une réalité plus physique. (par exemple le contrôle de vitesse du véhicule, performance des algorithmes propre aux datalogger, qui ne traitent sûrement pas les données satellites en strict parallélisme, autres selon les intuitions du moment ….)

    Pour ça, et par approches visuelle puis aidée par le solveur, faire que ce nouveau modèle établit en sens inverse du modèle ayant conduit aux 2 gaussiennes par datalogger, retombe avec un excellent cœfficient de corrélation, sur la distribution extraite des mesures de vitesse.

    Je suis dans les ronces et ne peut achever cette boucle de vérification de mes intuitions sans disposer de ces fonctions mathématiques, que je n’ ai probablement jamais manipulées sciemment.
    Je souhaite un coup de pouce (peut être même une remorque) d’ un mathématicien pur et dur

    Merci de votre aide

    Pour un peu illustrer cette sûrement pénible description de plus de 3 pages A4.
    - 2 tracés vitesse = Phi du temps (Un par datalogger)
    - 2 distributions Vn-V(n-1) (Une par datalogger)
    Fichiers attachés Fichiers attachés

  11. #10
    Dlzlogic

    Re : Distribution modélisable par une double gaussienne

    Bonjour,
    Si j'ai bien compris, le but de cela est d'évaluer la précision d'estimation de la vitesse instantanée d'un véhicule à l'aide d'un GPS.
    Vous testez simultanément 2 GPS différents.
    Vous cherchez donc à évaluer la précision par rapport à la vitesse réelle, et à comparer cette vitesse pour chaque GPS.
    Je n'ai pas vérifié la formule de calcul de la distance, mais je le ferai.
    Vous faites allusion au géoïde, sachez qu'on travaille sur l'ellipsoïde et non sur le géoïde. Vous devez être un lecteur assidu de Wiki.
    Par contre comme il s'agit de distance sur route, mesurable par un radar, il s'agit de distances réelles et non réduites au niveau de la mer. Il n'ai pas vu que vous teniez compte de l'altitude.

    Je ne connais pas très bien le fonctionnement des GPS, mais je sais que la mesure tient compte du déplacement estimé par un gyroscope interne.
    Par contre, il est vrai que on peut estimer une précision résultante, sans avoir à se préoccuper de la manière utilisée pour donner ce résultat.

    Je ne sais pas le nombre d'essais dont vous disposez.
    Je vais être très franc, comme vous paraissez rentrer dans des détails et argumenter avant d'analyser, je dirais que la méthode n'est pas bonne. Bien sûr, et c'est inévitable, la répartition des écarts, s'il n'y a pas d'anomalie, est conforme à la loi normale (que j'aime pas ce terme fait à partir de Gauss). Etant donné le très grand nombre d'observations, il est normal sue le coefficient de corrélation soit aussi bon, mais ça ne veut pas dire grand-chose. Seul l'écart-type a une signification utilisable.
    Le coefficient de corrélation est intéressant pour comparer des méthodes de régression entre-elles avec une série de valeurs unique.

  12. #11
    invite179e6258

    Re : Distribution modélisable par une double gaussienne

    quelques idées en vrac:

    1) je crois que j'ai compris comment tu calcules la corrélation : c'est original mais ce n'est pas comme ça qu'on mesure la proximité entre deux distributions. Il y a plusieurs distances (Chi2, L1, L2, Hellinger, Kullback...) qui sont plus appropriées.

    2) ce n'est pas parce qu'une loi à 5 paramètres (moyennes et variances des deux gaussiennes plus le coefficient du mélange) s'ajuste bien à tes données qu'il faut y chercher une explication physique.

    3) il existe des méthodes de traitement du signal qui ont fait leurs preuves, je ne vois pas l'intérêt de bricoler quelque-chose qui sera nécessairement bancal.

    4) d'autant plus si ces données doivent être utilisées dans un cadre légal.

  13. #12
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour,

    D’ abord je vous remercie de vous intéresser à ce qui m’ intéresse. Je reprend votre texte pour y ajouter commentaires et/ou réponses.

    Si j'ai bien compris, le but de cela est d'évaluer la précision d'estimation de la vitesse instantanée d'un véhicule à l'aide d'un GPS.
    Oui

    Vous testez simultanément 2 GPS différents.
    Vous cherchez donc à évaluer la précision par rapport à la vitesse réelle, et à comparer cette vitesse pour chaque GPS.
    Oui mais la comparaison des GPS, n’ est pas ce que je cherche. Mais bien sûr, c’ est une sortie de cette analyse.

    Je n'ai pas vérifié la formule de calcul de la distance, mais je le ferai.
    La première que j’ ai utilisé était celle ci :
    AB = (6378137+6356752)*0.5*ACOS(COS (Lat1*PI()/180)*COS(Lat2*PI()/180)*COS((Long1-Long2)*PI()/180) + SIN(Lat1*PI()/180)*SIN(Lat2*PI()/180))
    Le Cosinus (long1-long2) avec seulement 6 chiffres après la virgule est particulièrement destructif du fait qu’ on manipule un nombre proche de zéro ou de quelque 10^-6 degrés pour de déplacements d’ environ 40m
    Mais on peut tout aussi bien s’ écarter un peu de l’ orthodoxie polaire en utilisant ceci qui ne génère pas d’ écart relatif supérieur à 5*10^-5 par rapport à l’ orthodoxie polaire sur tout le territoire métropolitain :
    AB = (((6378137+6356752)*0.5*(lat2-Lat1)*PI()/180)^2 +((6378137+6356752)*0.5*COS(La t2*PI()/180)*(Long2-Long1)*PI()/180)^2)^0.5
    Cette dernière est très intéressante car si elle utilise des carrés et des racines carrées, ce qu’ une simple calculette sait faire, et elle se contente d’ une table cosinus qui peut être réduite relativement à peu de points et interpolation entre ces points.

    Vous faites allusion au géoïde, sachez qu'on travaille sur l'ellipsoïde et non sur le géoïde. Vous devez être un lecteur assidu de Wiki.
    Parfois pour wiki, mais c’ est surtout un résidu de mes activités spatiales passées quant au géoïde.

    Par contre comme il s'agit de distance sur route, mesurable par un radar, il s'agit de distances réelles et non réduites au niveau de la mer. Il n'ai pas vu que vous teniez compte de l'altitude.
    Sur un rayon terrestre de quelque 6300km vous pensez bien que des écarts de 500m et même 2000m par rapport au niveau de la mer, eu égard aux écarts type trouvés, c’ est peanuts
    Mais comme ça ne mangeait pas pain, j’ ai quand même tenu compte des écarts d’ altitude entre points géodésiques (mais pour d’ autres raisons que la justesse de la formulation). Comme je n’ ai pas voulu m’ embêter avec le géoîde WS 84 j’ ai approximé le rayon terrestre aux latitudes de 40/45° (Métropole) à la moyenne des rayons équatoriaux et polaires.
    L’ expression distance sur route mesurable par un radar me gène beaucoup. Du moins si vous pensez que les cinémomètres routiers sont fait pour çà….Pas forcément nécessaire d’ aborder çà sur cette file. Mais complètement ouvert quand même sur ce sujet.

    Je ne connais pas très bien le fonctionnement des GPS, mais je sais que la mesure tient compte du déplacement estimé par un gyroscope interne.
    Les miens, y compris le Tomtom basique ventousé au pare brise, n’ ont pas d’ accéléromètres dans leur tripaille (au passage, et pour être précis sur les termes, un gyroscope c’ eest autre chose). Rassurez vous, je ne connais pas très bien non plus le fonctionnement des GPS. Je regarde ce que l’ on peut en tirer.

    Par contre, il est vrai que on peut estimer une précision résultante, sans avoir à se préoccuper de la manière utilisée pour donner ce résultat
    Je ne sais pas le nombre d'essais dont vous disposez.
    Je commence à en avoir une petite dizaine, mais je n’ ai mis que l’ un des derniers, car j’ améliore le post traitement à chaque fois que j’ en fais un. Les fichiers Excel sont excessivement gros (et deviennent très instables sous Excel 97. Ils font parfois plus de 100Mo)

    Je vais être très franc, comme vous paraissez rentrer dans des détails et argumenter avant d'analyser, je dirais que la méthode n'est pas bonne.
    Pour être aussi très franc, vous ne voyez là que la partie émergée. J’ ai bien pris le soin de décrire le plus explicitement possible comment je faisais. Et sur cette méthodologie utilisée, et pas du tout empirique, il y a beaucoup de réflexion.
    Mais pas un socle de connaissance mathématique pur et dur suffisant pour être absolument sûr de l’ orthodoxie de la méthode. C’ est toute la différence entre des théoriciens et des pragmatiques qui vont à la mine. Mais il faut bien que ces 2 mondes diffusent l’ un dans l’ autre. Je postule que vous êtes un théoricien, De par mes activités passées, j’ ai navigué entre ces 2 mondes

    Bien sûr, et c'est inévitable, la répartition des écarts, s'il n'y a pas d'anomalie, est conforme à la loi normale (que j'aime pas ce terme fait à partir de Gauss).
    Gaussienne me semble pourtant sémantiquement accepté par pas mal de gens, mais c’ est à cette remarque que je vous pressens être du monde des mathématiciens pur jus…Et c’ est tant mieux. Si vous n’ êtes pas pur jus vous me le direz.

    Etant donné le très grand nombre d'observations, il est normal sue le coefficient de corrélation soit aussi bon, mais ça ne veut pas dire grand-chose. Seul l'écart-type a une signification utilisable.
    Le coefficient de corrélation est intéressant pour comparer des méthodes de régression entre-elles avec une série de valeurs unique.
    C’ est à mon sens ce que j’ ai fait en utilisant le solveur Excel. Je rentrerai dans ce détail si vous le souhaitez.

  14. #13
    Dlzlogic

    Re : Distribution modélisable par une double gaussienne

    Sur un point de vocabulaire, croyez-moi, la transformation coordonnées géographique -> distance terrestre se fait sur l'ellipsoïde et non sur le géoïde. WGS84 est le nom de l'ellipsoïde utilisé. Le géoïde est une surface très mal connue. Mais c'est juste une question de détail.

    Contrairement aux apparences, je ne suis pas théoricien, mais ce type de notions évoquées, mesures terrestre, précision, font partie de ce que je connais un peu.

    Pour moi, les corrélations n'ont pas vraiment d'intérêt, la seule valeur de critère est l'écart type.
    Le très grand nombre de mesures pour un test n'apporte rien. Il me parait beaucoup plus important de faire plusieurs test avec beaucoup moins de mesures.

    Ne connaissant pas suffisamment les GPS en général et les vôtres en particulier, je ne ferai pas d'hypothèses dessus. Par contre, je peux dire ce que je pense des résultats obtenus. J'ai fait des calculs assez similaires où la préoccupation était la direction suivie, et non la vitesse.

    Enfin, je pense que les observations de Charlie méritent d'être examinées.

  15. #14
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Bonjour

    Quelques réponses en vrac et de nouveaux développements

    1) je crois que j'ai compris comment tu calcules la corrélation : c'est original mais ce n'est pas comme ça qu'on mesure la proximité entre deux distributions. Il y a plusieurs distances (Chi2, L1, L2, Hellinger, Kullback...) qui sont plus appropriées.
    Oui, mais là presque tout emplafonne mon niveau d’ incompétence, et j’ ai l’ âge ou c’ est très douloureux de le faire progresser. Restons en au Khi2 et même plus simple, sauf si çà vaut vraiment le coup que je me fasse mal. !

    2) ce n'est pas parce qu'une loi à 5 paramètres (moyennes et variances des deux gaussiennes plus le coefficient du mélange) s'ajuste bien à tes données qu'il faut y chercher une explication physique.
    Quoi ?. Pas curieux du tout ?
    J’ ai toujours considéré que la curiosité était une qualité et pas un vilain défaut. C’ est une boutade.
    Ben voyez vous, j’ ai quand même une petite idée derrière la tête de ce à quoi ça peut correspondre, et le terme de coefficient de mélange que vous employez colle pas mal à ma petite idée. Je reporte ce point en fin d’ intervention.

    3) il existe des méthodes de traitement du signal qui ont fait leurs preuves, je ne vois pas l'intérêt de bricoler quelque-chose qui sera nécessairement bancal.
    Là je suis toutes ouies. Sur les méthodes de traitement du signal qui ont fait leurs preuves d’ une part.
    Et bien sûr, et surtout, sur ce que vous appelez un bricolage bancal d’ autre part (voir à la fin)

    4) d'autant plus si ces données doivent être utilisées dans un cadre légal
    Ca c’ est autre chose. Mais peut être pas sur ce forum..



    Je reprends au delà des commentaires précédents sur le terme de coefficient de mélange.

    Plusieurs facteurs sont à l’ œuvre dans ces relevés de vitesse orthodromique (ou doppler)
    (a) Il y a le gugusse, moi en l’ occurrence qui fait ce qu’ il peut pour contrôler une vitesse a peu prés stabilisée avec un GPS ventousé au pare brise, et qui doit aussi tenir compte des circonstances de route.
    L’ indication de ce GPS est affichée modulo 1km/h et est fortement moyennée sur les acquisitions des cycles précédents (La puce du Tomtom start fait un calcul par seconde, mais visiblement le firmware du TT fait une moyenne glissante sur au moins 5 acquisitions précédentes, peut être même un peu plus)
    Si bien fait, et je pense que ce doit être bien fait, cette moyenne devrait éliminer valeur min et max pour moyenner sur les valeurs restantes.
    Je n’ avait pas réfléchi plus loin que le bout de mon nez quand j’ ai commencé mes petits essais. Or cette régulation en bang/bang sur une information elle même retardée de plusieurs secondes fait que la vitesse du véhicule oscille autours de celle que l’ on souhaiterait maintenir.(Vieux résidus d’ analyse d’automatismes) Et il y a les circonstances de route qui obligent à quitter la vitesse que l’ on souhaiterait pratiquer.
    A l’ évidence, on doit en retrouver des effets dans la distribution (avant toute tentative de modélisation par gaussiennes). Vis à vis des 2 datalogger, ces effets sont communs.
    (b) Il y a ce que les GPS datalogger savent faire des informations distance et éphémérides de la constellation Navstar.
    - Il y a sûrement une partie commune due à la propagation, aux dérives d’ orbite,
    L’ Orbite d’ un satellite n’ est pas fixe, justement parce que le géoîde terrestre n’ est pas un ellipsoïde (référence à remarque de Dlzlogic), mais aussi que le champ magnétique terrestre et la pression de radiation solaire intervient dessus), aux dérives des horloges atomiques bord qu’ il vaut mieux maintenir vers les 10^-9 de précision.
    - Il y a aussi la convergence atteinte par les algorithmes des puces très dépendante des rapport signal à bruit, mais donc particularisées à chaque appareil.
    A l’ évidence, on doit en retrouver des effets dans la distribution (avant toute tentative de modélisation par gaussiennes). Ces effets ont toute chance d’ être particularisés à chaque datalogger.

    De là pour quelqu’ un de curieux, constatant que les distributions peuvent être chacune modélisées par 2 gaussiennes, a dire que ces 2 gaussiennes peuvent représenter (a) et (b) il y a un pas que je franchis, d’ ailleurs sans savoir si l’ orthodoxie mathématique me le permet, mais que je compte bien vérifier après coup.

    Si je poursuis. J’ ai 2 datalogger et 2 distributions chacune modélisable par deux gaussiennes, dont coup de pot, ou plutôt heureusement, on retrouve dans chacune des distributions une gaussienne d’ écart type voisin, et une autre gaussienne nettement différentiée de la quasi commune gaussienne, et très différentes l’ une de l’ autre rapportées au datalogger

    Et maintenant si je reboucle sur les hypothèses (a) et (b), je commence à voir que çà commence à avoir du sens.
    Reste maintenant a figer le socle mathématique de ce que je me refuse pour le moment à appeler bricolage, sauf à ce que vous me l’ expliquiez avec les mots et la terminologie mathématique qui était employée il y a 50 ans. (Oui je sais, plus de première fraîcheur le papy….)

    Si je poursuis J’ ai environ 20000 échantillons de Vn-V(n-1) desquels je peux tirer deux gaussiennes avec connaissance de l’ écart type de la moyenne et de l’ espérance (terme probablement inexact de ma part, max me paraissant physiquement plus approprié).
    Connaissance de la proportion attribuable à chaque gaussienne dans les 20000 échantillons.

    A un instant donné du trajet je ne sais pas lequel des 2 effets (a) et (b) écrase l’ autre, ou pas. Sans doute pourrai-je associer maladroitement une probabilité que ce soit l’ un ou l’ autre à la proportion des pseudo échantillons donnés par les deux gaussiennes.

    Mais de fait (a) et (b) cohabitent en même temps, ce qui me laisse intuiter qu’ il faut sans doute tenir compte des écarts types et moyennes des 2 gaussiennes dans une formulation qui m’ échappe (Eh oui niveau d’ incompétence oblige), mais qui devrait (conditionnel d’ incompétence) monter 2 gaussiennes aussi.

    C’ est ce que j’ attends pour sortir des ronces, et faire le travail inverse d’ échafauder des hypothèses à l’ instinct, cette fois ci physiques et matérielles, pour d’ une part pouvoir contrôler ces hypothèse par d’ autres moyens si j’ en trouve, ou faire à partir de cette construction Fn-F(n-1) des mises à l’ échelle pour que la distribution Fn-F(n-1) retombe avec cohérence sur la distribution réelle Vn-V(n-1)

    Désolé si je n’ ai pas été clair (Oui je sais, plus de première fraîcheur le papy….Ne soyez pas trop dur)

  16. #15
    invited2a5dafc

    Re : Distribution modélisable par une double gaussienne

    Re

    Point de vocabulaire D' accord, Mais je ne peux plus corriger, car le texte est maintenant figé. D' ailleurs savez vous au bout de combien de temps ça se fige ?

    Trop grand nombre de mesure ? Sur un trajet donné, c' est le temps de parcours qui le détermine.
    Et je rappelle, que je veux connaître ma vitesse de déplacement chaque seconde.
    Sur des parcours plus courts, j' ai même échantilloné à 0,2s avec le datlogger qui le permet. Les conditions de circulation et d' obturation de la visibilité satellite étant trés différentes, j' ai un peu exploité quand j' en étais à la modélisation par gaussienne simple. Bien sur, on voyait assez clairement un facteut de 5^0,5 entre les écarts types d' un même circuit (le périphérique Toulousain) entre echantillonnage à 0,2 et 1,0s.

    Partitionner le temps de parcours échantilloné à la seconde en choisissant les périodes de vitesse stable ou au contraire instables, j' y ai pensé bien sûr. Je ne l' ai pas fait considérant que tout ce qui arrivait sur un long trajet est bon à prendre en compte.
    Comme le post traitement est quand même long à faire, j' évite de trop en faire en particulier si je n' ai pas assez de souvenir sur les évènements liès à la route. Mais quand j' en fais un je le pousse au max de ce que me permet le tableur. J' arrête quand ça rame.

    J' ai vu sur une autre file, ou d' ailleurs je me suis un peu glissé, qu' un intervenant était en train de se paoser des questions de gestion de cap et était gèné par les effets aléatoires.

Discussions similaires

  1. opérations sur des variables de distribution gaussienne
    Par invite7bd3b9d6 dans le forum Mathématiques du supérieur
    Réponses: 8
    Dernier message: 08/08/2019, 12h23
  2. Probabilité : Distribution gaussienne
    Par invite4b31cbd7 dans le forum Mathématiques du supérieur
    Réponses: 6
    Dernier message: 28/05/2011, 11h50
  3. Test distribution gaussienne
    Par invitec05da6c6 dans le forum Mathématiques du supérieur
    Réponses: 4
    Dernier message: 30/03/2010, 15h17
  4. Excel et interpolation par une gaussienne
    Par invite729bea7a dans le forum Logiciel - Software - Open Source
    Réponses: 0
    Dernier message: 05/10/2008, 14h18
  5. distribution gaussienne et intégral
    Par invite22048f50 dans le forum Mathématiques du supérieur
    Réponses: 1
    Dernier message: 30/08/2008, 15h35