Bonjour à tous,
J'ai à estimer un modèle qui possède la particularité d'être non linéaire (aie!) mais surtout avec moins de y_i (variable endogène) que de X_j (prédicteurs)
Le modèle est comme suit :
y_j = somme(pour i dans A_j) [x1_i * (a + b * x2_i) * 1/(1+exp(c * x3_i + d * x4_i + e* x5_i + f))]
- avec les a,b,c,d,e,f les variables à estimer
- avec x1_i, x2_i, x3_i, x4_i, x5_i les variables connues
- avec A_j l'intervalle de regroupement. A noter tout de même que l'intersection des ces A_j est nulle.
C'est à dire que je ne connais pas la valeur attendue de chaque y_i mais uniquement la somme de certains de ces y_i.
En pratique, j'ai environ un tableau de 5000 lignes * 5 colonnes pour le X ; un tableau de 500 lignes environ pour le y ; et un dernier tableau qui me permet de savoir quelles lignes sont à sommer ensemble (la définition des 500 A_j donc)
Le tableau en PJ peut donner un exemple de ces données, si ma définition n'est pas très claire.
Ma question est donc : comment estimer les a,b,c,d,e,f? J'ai essayé par la méthode des moindres carrés (problème classique d'optimisation) mais c'est assez difficile à implémenter du fait de la somme sur les intervalles... Je n'arrive pas à trouver de la littérature sur le sujet.
De plus quelles sont les méthodes pour savoir si telle variable est significative ou non (un équivalent du T de student dans la regression linéaire multiple)?
Merci.
-----