[Stat] Question sur les plus proches voisins

**blisax** · 19/11/2020, 11h43

Bonjour,

J'observe des patterns de points en 3D dans deux conditions, disons A et B. Ainsi un pattern est définis par N points et chaque point P est définis par trois coordonnées (x,y,z).
Dans chaque condition j'ai plusieurs patterns de points, dans la condition A j'ai les patterns A1, A2, ... An et dans la condition B j'ai les patterns B1, B2, ... Bn.
J'aimerais comparer mes deux conditions en terme de "Nearest Neighbord Distance" (NND) pour savoir si les points sont plus organisées en cluster dans une condition que dans l'autre.

Néanmoins tout mes patterns n'ont pas le même nombre de points, et le NND dépend du nombre de points. En effet, le premier voisin d'un point sera vraisemblablement plus proche si celui-ci est au milieu de 1000 voisins que si il est au milieu de 10 voisins. La stratégie classique pour normaliser le NND moyen du pattern est de le diviser par le NND moyen attendue si les points étaient distribuées aléatoirement. Cela est réalisable car on peut facilement faire une simulation de Monte-Carlo avec le même nombre de points pour peu que notre fenêtre d'observation soit bien définie. Le problème c'est justement que je ne connais pas cette fenêtre d'observation donc pas possible pour moi d'opter pour cette solution sans introduire des hypothèses bancales.
J'ai décidé de faire un sous-échantillonnage aléatoire de chaque pattern pour garantir le même nombre de points dans chaque pattern, ainsi j'obtiens un NND moyen pour chaque pattern. Il ne me reste qu'a comparer les NND moyens entre mes deux conditions (disons avec un t-test).

Mais voila, la p-value change drastiquement en fonction du tirage aléatoire !!
La différence entre les moyennes varie pas mal (entre 0.1 et 0.3)...
Bref je ne sais pas trop quoi faire, des idées ?

Je pensais faire plusieurs sous-échantillonnage aléatoire pour un même pattern pour que mon estimation du NND moyen de ce pattern soit plus robuste (juste en moyennant le NND moyen obtenu dans chaque sous-échantillonnage). Et faire le test sur ces nouvelles estimations. Est-ce que cela vous semble correct ?

Merci d'avance pour vos idées,

**gg0** · 19/11/2020, 12h25

Bonjour.

Le fait de prendre des sous-échantillons te fait perdre pas mal d'information, ce qui te donne le résultat que tu as vu. Je n'ai d'ailleurs pas vu où tu éliminait le problème de la fenêtre d'observation. Tu n'utilises plus des points pris aléatoirement dans le même domaine.
Si tu fais une comparaison directe, et si tes unités sont les mêmes dans les deux cas (*), ne reste que les nombres de points. S'ils sont très différents N>>n, un tirage aléatoire de n individus dans l'échantillon de taille N te donnera un échantillon de taille analogue à l'autre (évidemment, si tu as des tailles de 10 et de 1000, ça "marchera moins bien", mais la comparaison perd pas mal de sa pertinence).

Comme j'ignore pas mal de circonstances, ce que je dis peut n'être pas adapté.

Cordialement.

(*) Si elles ne le sont pas, tu peux normaliser comme on le fait en ACP, en centrant et réduisant les données.
(**) au départ, j'avais pensé à un bootstrap sur l'échantillon plus petit, mais ça multiplie les distances nulles !

**blisax** · 19/11/2020, 14h17

Merci pour ta réponse !

Je n'ai pas besoin de connaitre explicitement la géométrie de ma fenêtre d'observation pour calculer les NND*. Donc tant que je ne veux pas faire de simulation de Monte Carlo je n'ai pas vraiment besoin de cette information mais je dois trouver une autre façon de normaliser mes NND.

"S'ils sont très différents N>>n, un tirage aléatoire de n individus dans l'échantillon de taille N te donnera un échantillon de taille analogue à l'autre (évidemment, si tu as des tailles de 10 et de 1000, ça "marchera moins bien", mais la comparaison perd pas mal de sa pertinence)"
Je ne comprends pas la différence entre ce que tu proposes et ce que je fais par le "sous-échantillonnage".

"(**) au départ, j'avais pensé à un bootstrap sur l'échantillon plus petit, mais ça multiplie les distances nulles !"
Je pense que c'est toujours une bonne idée mais avec un bootstrap SANS remise (je ne sais pas a quel point cela reste pertinent). C'est ce que j'entends par :
"Je pensais faire plusieurs sous-échantillonnage aléatoire pour un même pattern pour que mon estimation du NND moyen de ce pattern soit plus robuste (juste en moyennant le NND moyen obtenu dans chaque sous-échantillonnage). Et faire le test sur ces nouvelles estimations. Est-ce que cela vous semble correct ?"

* Sous l'hypothèse que la fenêtre est un ensemble convexe.

**gg0** · 19/11/2020, 15h44

"Je ne comprends pas la différence entre ce que tu proposes et ce que je fais par le "sous-échantillonnage"."
Si ce que tu disais est ce que je propose (garder la taille maximum possible), alors c'est simplement que "J'ai décidé de faire un sous-échantillonnage aléatoire de chaque pattern" m'a trompé (c'est moi qui souligne). Car il est préférable de garder le maximum de taille pour les nouveaux échantillons.

Faire plusieurs échantillonnages du pattern le plus nombreux ne donnera en général que peu de différence, sauf si les tailles sont très différentes : la variabilité d'échantillonnage diminue avec la taille des échantillons.

A voir en vidéo sur Futura · Aujourd'hui

**blisax** · 19/11/2020, 15h59

Je suis désolé mais c'est toujours pas très clair.

"Si ce que tu disais est ce que je propose (garder la taille maximum possible)"
Oui en effet je ne souhaite surtout pas garder la taille maximale car alors quand je calcul le NND il reflète deux choses: le degré de clustering (ce qui m'intéresse) mais aussi le nombre de points (et ça c'est pas important).

"Faire plusieurs échantillonnages du pattern le plus nombreux ne donnera en général que peu de différence, sauf si les tailles sont très différentes : la variabilité d'échantillonnage diminue avec la taille des échantillons."

Non je crois que je me suis mal exprimé. Voici ce que je propose:

1) J'ai deux conditions A et B, contenant n et m patterns de points (A1, A2, ..., An et B1, B2, ..., Bm).
2) Chaque pattern contiens un certains nombre de points N (NA1, NA2, ..., Nan, NB1, NB2, ..., NBm).
3) Je définis un nombre minimal de points M comme M = min(NA1, NA2, ..., Nan, NB1, NB2, ..., NBm)
4) Pour chaque pattern de la condition A, je tire au hasard ET SANS remise M points, je calcul le NND moyen (noté NND1). Je fais un deuxième tirage (je peux calculer le NND2). Etc. Je fais la moyenne des NND sur ces échantillons et je prends cela comme un estimateur de mon pattern A1. Je refais ça avec le A2, A3, ... Am.
5) J'applique la même méthode aux patterns B
6) Je compare mes estimations des NND dans les deux conditions.

Qu'en pensez vous ? J'espère que c'est plus clair !

**gg0** · 19/11/2020, 16h37

Désolé,

c'est bien plus compliqué que ce que je pouvais comprendre au premier message. Comme il ne s'agit plus vraiment de statistiques, mais d'une méthode appliquée à ta situation, je ne peux rien t'en dire. Tu as fait un calcul, s'il a un sens pour ce que tu fais, c'est bien. Il est fréquent d'utiliser des moyennes, mais on sait aussi que parfois ça n'a pas de sens. C'est toi qui peux voir si, dans ta situation, ça a un sens.

Cordialement.

[Stat] Question sur les plus proches voisins

[Stat] Question sur les plus proches voisins

Re : [Stat] Question sur les plus proches voisins

Re : [Stat] Question sur les plus proches voisins

Re : [Stat] Question sur les plus proches voisins

Re : [Stat] Question sur les plus proches voisins

Re : [Stat] Question sur les plus proches voisins

Discussions similaires

question basique de stat et convergence

Question débile méca-stat d'équilibre

question stat

question STAT...

petite question de stat