Régression logistique multinomiale - Biologie du comportement

inviteb0a01411 · 22/12/2012, 15h40

Bonjour à tous!

Je suis étudiant en master de biologie. Je suis en train d'écrire mon mémoire et aujourd'hui je suis face à un mur.
Cela fait un mois maintenant que j'essaye de résoudre mon problème de statistique en vain.
Voilà ou j'en suis aujourd'hui :

J'ai essayé trois programmes: R, JMP et SPSS.
J'ai abandonné JMP car je ne suis pas sur que ce soit le programme le plus approprié pour l'analyse que j'essaye de faire. Je me suis donc cantonné à R et SPSS.

Je vais en premier lieu vous décrire mes données :

J'ai une table de donnée (qui vient d'excel mais que j'ai transformé en .txt pour une importation plus facile sous R) avec (chaque point représente une variable de ma table, le titre d'une colonne):

Date (date de l'observation)
Temperature (au moment de l'observation)
Behavior (comportement observé, 3 choix différents : F (Feeding), R(Resting), M(Moving), RUN(Runing))
Valley (vallée ou le comportement à été observé, 2 choix possible (Fuorn et Trupchun)
Age (de l'individu)
Mois (de l'observation)
Année (de l'osbservation)
Kid (si l'individu à un enfant ou pas)
Individu (numéro du tag de la base de donnée du parc national ou j'ai pris mes données, j'ai 11 individus différents)

Mon but ici est de déterminer quels facteurs influencent le comportement des individus.

Passons à présent aux analyse que j'ai faites :

Sous R

Package : VGAM
formule : mod <- vglm(Behavior ~ Temp + Valley + Age + Month + Year + Individual, family=multinomial(), data=Merge)
Summary(mod)

Résultat :

Code:

Pearson Residuals:
                       Min       1Q   Median       3Q    Max
log(mu[,1]/mu[,4]) -29.903 -0.66948  0.61220  0.82061 1.2109
log(mu[,2]/mu[,4]) -29.054 -0.27864 -0.23503 -0.20717 3.8363
log(mu[,3]/mu[,4]) -29.453 -0.54559 -0.42744  0.95586 2.7680

Code:

Coefficients:
                    Estimate Std. Error  z value
(Intercept):1    -3.2212e+02 6.8413e+01  -4.7085
(Intercept):2    -1.7247e+02 6.9163e+01  -2.4937
(Intercept):3    -4.4037e+02 6.8467e+01  -6.4318
Temp:1            4.2142e-02 4.4678e-03   9.4324
Temp:2            6.2538e-02 4.5311e-03  13.8020
Temp:3           -5.4563e-03 4.4795e-03  -1.2181
ValleyTrupchun:1 -3.8754e+00 3.6403e-01 -10.6460
ValleyTrupchun:2 -4.8341e+00 3.7123e-01 -13.0217
ValleyTrupchun:3 -5.1426e+00 3.6443e-01 -14.1113
Age:1            -1.6646e-01 1.4318e-02 -11.6256
Age:2            -1.6630e-01 1.4555e-02 -11.4262
Age:3            -1.8485e-01 1.4342e-02 -12.8886
Month:1          -9.2571e-01 3.6144e-02 -25.6117
Month:2          -9.7004e-01 3.6720e-02 -26.4174
Month:3          -8.8669e-01 3.6186e-02 -24.5036
Year:1            1.6571e-01 3.4046e-02   4.8673
Year:2            9.0428e-02 3.4419e-02   2.6273
Year:3            2.2459e-01 3.4073e-02   6.5916
Individual:1      5.4454e-03 7.1586e-04   7.6068
Individual:2      7.4979e-03 7.3060e-04  10.2626
Individual:3      8.5069e-03 7.1665e-04  11.8704

Number of linear predictors:  3 

Names of linear predictors: 
log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4])

Dispersion Parameter for multinomial family:   1

Residual deviance: 530182.6 on 815760 degrees of freedom

Log-likelihood: -265091.3 on 815760 degrees of freedom

Number of iterations: 8

donc les soucis que je rencontre sous R sont que je ne sais pas à quoi 1, 2, 3 (ex: Kids:1, Kids:2, Kids:3) font référence ni quel est le comportement de référence. Egalement je ne sais pas comment afficher mes p-values!

J'espère que quelqu'un ici connait un peu le package VGAM pour pouvoir m'aider car R est le programme utilisé principalement par mon université.

Sous SPSS

Dans ce programme, j'ai importé mon fichier .txt et mit un label sur chacune de mes variable :

Ma table de donnée :

J'ai ensuite lancé mon analyse multinomiale :

Voici les résultats :

Donc ce qui me pose problème ici :

Je trouve une p-values très faibles pour des variables qui n'ont pas beaucoup d'effet (normalement la vallée à très peu d'effet).
Dans la table "qualité d'ajustement" je trouve des p-value très faibles alors que pour une bonne qualité la p-value doit être élevée (si j'ai bien compris).
Dans la table "Estimation des paramètres" presque tous mes paramètres ont une p-value de 0.000 également, cela me parait bizarre.

Dernièrement dans la table "classification" je trouve que ma table est a 52% correctement estimée.

En gros j'ai plein de chose à dire dessus mais il me semble qu'il y a une faute quelque part, soit dans mon data set (peut-être que mes variables sont mal agencées) soit dans l'analyse ou je n'ai pas coché les bonnes options.

La date de rédition de mon mémoire approche à grands pas et je suis complètement bloqué.
J'espère trouver de l'aide ici!

En attendant, bonne fêtes à tous!

Lapive

Dlzlogic · 22/12/2012, 18h41

Bonjour,
Je n'ai aucun de vos deux logiciels, ce genre de chose, je préfère les calculer moi-même avec mes outils.
Dans un premier temps, vous pouvez m'envoyer vos données et la question posée, indépendamment de tout termes utilisé dans le jargon habituel, par exemple p-value, je sais pas ce que c'est.
J'ai un outil qui établi la fonction d'ajustement jusqu'à 16 variables, avec les résultats nécessaires.
Si vous voulez m'envoyer des fichiers, ce sera plus facile et plus rapide par mail.
Vous pouvez me contacter sur mon site http://www.dlzlogic.com.
Je tiens à préciser que ma proposition est tout à fait désintéressée.

invite179e6258 · 23/12/2012, 07h09

bonjour,

je ne connais pas le package vgam (pourquoi n'utilises-tu pas glm ou lme4?), et pas du touts spss, donc je ne peux pas t'aider sur l'aspect informatique.

par contre j'ai une remarque sur ton modèle : c'est assez classique quand on a des données répétées, d'utiliser un modèle mixte. ici, je verrais bien un effet individu aléatoire. Sauf si tu t'intéresses spécifiquement à ces 11 individus.

inviteb0a01411 · 23/12/2012, 10h32

Salut toothpick charlie!

Alors j'ai essayé 2 autres package sur R dont la formule vglm. Cependant dans cette dernière on ne pouvait par retirer les p-values (m'as t-on dit).
Effectivement j'ai pensé mettre les individus en variable aléatoire mais je ne sais pas comment on peut faire ca sous R ou SPSS malheureusement,
ceci dit je ne suis pas contre un coup de main!

Lapive

A voir en vidéo sur Futura · Aujourd'hui

Régression logistique multinomiale - Biologie du comportement

Régression logistique multinomiale - Biologie du comportement

Re : Régression logistique multinomiale - Biologie du comportement

Re : Régression logistique multinomiale - Biologie du comportement

Re : Régression logistique multinomiale - Biologie du comportement

Discussions similaires

Biologie du comportement lyon 1

regression logistique sous matlab

Statistiques : Régression Logistique

[Zoologie] Régression logistique

[comportement] biologie de la séduction