Couteau suisse et statistiques : méthodes Jackknife

invitec1855b44 · 28/12/2011, 16h27

Bonjour ,
je travaille actuellement sur un projet où j'ai besoin d'utiliser une méthode statistiques appelée Jackknife.
Ayant presque totalement oublié le peu de connaissances que j'avais en statistiques (je suis étudiant en Physique) , j'ai fait quelques recherches , et maintenant je sollicite votre
aide. Alors déjà je vais dire rapidement ce que j'ai compris, histoire d'être sûr que je suis pas à côté de la plaque.
Je prends une variable statistique , par exemple l'âge des habitants du Liechtenstein , que j'appellerai $\text{[math]}$ .
Si je veux calculer un paramètre à partir de cette variable , mettons la moyenne ou la variance , je vais utiliser un estimateur.
Pour la moyenne , le plus courant serait $\text{[math]}$

Voilà déjà une chose qui me gêne : à quoi reconnaît-on un "bon" estimateur" ? J'aurais pu décider que mon estimateur de la moyenne c'est un nombre tiré au hasard dans mon échantillon, même si ça n'est pas intuitivement représentatif de la moyenne.
Ensuite vient le problème de la variance. Déjà , si quelqu'un pouvait m'expliquer ce que représente la variance , ça m'aiderait un peu , je n'ai trouvé que des explications peu claires à mon goût.

J'ai trouvé que l'estimateur "classique" de la variance $\text{[math]}$ était :
$\text{[math]}$

En regardant cette formule , j'ai l'impression que la variance cherche à estimer l'écart moyen entre les différentes valeurs et la moyenne , mais dans ce cas pourquoi mettre un carré et pas une valeur absolue , et d'où sort ce $\text{[math]}$ ?
Et ensuite si je décide d'appliquer à ma variable $\text{[math]}$ une fonction non-linéaire $\text{[math]}$ , cette formule ne peut plus être appliquée sinon des problèmes de biais apparaissent. Si quelqu'un pouvait me dire ce que cela signifie vraiment , cela m'aiderait.

Une solution possible , et qui m'est imposée , est d'utiliser une méthode Jackknife.
Les estimateurs de $\text{[math]}$ deviennent alors :

$\text{[math]}$ avec $\text{[math]}$ et $\text{[math]}$

Et l'estimateur de la variance $\text{[math]}$ devient :

$\text{[math]}$

J'ai beau avoir trouvé ces formules , je n'ai aucune de où elles sortent et puisque je ne suis pas certain de bien avoir compris le problème qu'elles sont sensées régler , je bute un peu...J'espère que j'ai été clair , et que quelqu'un pourra m'apporter des réponses.
Merci d'avance.

Dlzlogic · 28/12/2011, 18h56

Bonjour,
Je vais vous exposer quelques principes. Je suis bien conscient que ceci n'est pas vraiment enseigné, mais ça vous aidera peut-être.
Soit une expérience aléatoire, quelle qu'elle soit, le tir au canon, l'age des habitants du Liechtenstein.
La moyenne arithmétique est la valeur la plus probable. On entend par "plus probable" celle qui a le plus de chances "d'être juste" pour autant que le terme "juste" ait un sens. Ceci est un postulat sur lequel repose toute la suite.
On appelle "écart" la différence entre une valeur quelconque de la série aléatoire et la moyenne.
On appelle "écart moyen quadratique" la racine carrée de la somme des carrés des écarts, divisée par N.
Si la moyenne résulte de la moyenne arithmétique (le cas le plus fréquent) N = nombre d'éléments de la série moins un.
Si la moyenne est une valeur connue par ailleurs, donc une "valeur vraie" alors N = nombre d'éléments de la série.
L'emq est plus connue sous le nom d'écart-type dont le carré est la variance.
On appelle "écart probable" la valeur de l'écart pour laquelle la moitié des éléments auront un écart inférieur.
L'écart probable (ep) est égal à 2/3 emq.
On répartit les écarts en 4 classes, à droite et à gauche, cad positifs et négatifs.
On obtient la répartition suivante
25% des écarts sont inférieurs à 1 ep
16% des écarts sont compris entre 1 ep et 2 ep
7% des écarts sont compris entre 2 ep et 3 ep
2% des écarts sont compris entre 3 ep et 4 ep.
Il n'y a que 0.35% (à droite et gauche) des écarts supérieurs ) 4 ep . Ceux-ci sont généralement considérés comme douteux. Mais naturellement, si la série contient un très grand nombre d'éléments, cette classe n'est pas vide.

La représentation graphique de cela est la courbe de Gauss, bien connue.
Autrement dit, toutes les répartitions d'écarts d'expérience aléatoires sont représentées par la même courbe.

Pourquoi la variance se calcule avec le carré des écarts et non la valeur absolue ? Cela fait partie de la démonstration de l'ensemble que je serais incapable de faire moi-même. On peut l'expliquer par le fait que plus un écart est grand, plus il est rare, et inversement, plus il est faible, plus il est fréquent.

Dans la documentation sur le net, on parle rarement de l'écart probable et des bornes des classes que j'ai indiquées. On se limite souvent à vérifier que 66% des écarts est inférieur à l'écart-type. Le principe est strictement le même, ainsi que les résultats, naturellement.

J'ai un cours qui explique tout cela, je l'ai scanné et je peux vous donner un lien sur le PDF, si ça vous intéresse.

invitec1855b44 · 28/12/2011, 19h52

Bonsoir ,
tout d'abord merci pour votre réponse , certaines choses se sont éclaircies. J'ai cependant quelques questions supplémentaires :

On appelle "écart moyen quadratique" la racine carrée de la somme des carrés des écarts, divisée par N.
Si la moyenne résulte de la moyenne arithmétique (le cas le plus fréquent) N = nombre d'éléments de la série moins un.
Si la moyenne est une valeur connue par ailleurs, donc une "valeur vraie" alors N = nombre d'éléments de la série.
L'emq est plus connue sous le nom d'écart-type dont le carré est la variance.
On appelle "écart probable" la valeur de l'écart pour laquelle la moitié des éléments auront un écart inférieur.
L'écart probable (ep) est égal à 2/3 emq.

Pourquoi la valeur de N est-elle différente ? C'est surtout le "-1" que je ne m'explique pas.
Et comment obtient-on le 2/3 ?
Lorsque vous parlez de "justesse" , est-ce la même chose que lorsque je parle des estimateurs et de leur validité?
Je serais très intéressé par le PDF que vous me proposez, il me sera grandement utile.

Dlzlogic · 28/12/2011, 20h15

Naturellement le -1 se justifie par le calcul. Imaginez simplement que vous fassiez la moyenne de 2 valeurs, et que vous calculiez l'écart type, ce n'est naturellement pas une démonstration, mais un moyen mnémotechnique.

La "justesse" : imaginez que vous fassiez 100 mesures d'une chose. Vous voulez le résultat le plus "juste" possible, c'est à dire le résultat qui a la plus grande probabilité d'être proche du résultat réel mais inconnu, c'est la moyenne arithmétique.
Voila le lien vers le pdf
http://www.dlzlogic.com/Gauss1_19.pdf
Ce annexe font peut-être référence à des chapitres précédents, mais normalement c'est pas utile. Mais naturellement je vous les transmettrai si nécessaire.
Ce type de notion est très familière pour moi, de par ma formation, et il est toujours possible que j'élude des points parce qu'il sont évidents, donc je suis tout près à expliquer (si j'en ai les capacités).
Bonne soirée.

A voir en vidéo sur Futura · Aujourd'hui

invitec1855b44 · 30/12/2011, 11h16

Merci pour ce cours , il me sera surement très utile. Sinon , personne ne peut me donner plus d'indications sur la méthode Jackknife?

Couteau suisse et statistiques : méthodes Jackknife

Couteau suisse et statistiques : méthodes Jackknife

Re : Couteau suisse et statistiques : méthodes Jackknife

Re : Couteau suisse et statistiques : méthodes Jackknife

Re : Couteau suisse et statistiques : méthodes Jackknife

Re : Couteau suisse et statistiques : méthodes Jackknife

Discussions similaires

Araignée couteau

couteau antique ?

ngc 5907, galaxie de la lame de couteau

Théorème du coup de couteau dans la patate :