Je suis présentement bénévole, en collaboration avec des spécialistes, afin de mesurer l'effet de deux protéines dans un cas particulier. Étant donné que nos recherches en sont encore à un stade expérimental, je ne peux donner plus de détails. Voici une minime partie du travail que je dois effectuer qui me pose problème. Peut-être pourrez-vous m'aider à le résoudre...

Nous effectuons deux tests:un premier test (Test 1), relativement peu onéreux mais plus ou moins précis; et un second test (Test 2) plus précis mais aussi beaucoup plus cher. Compression des dépenses oblige, il est hors de question d’appliquer le deuxième test à tous nos patients. Le premier test est donc d’abord appliqué, puis dépendamment des résultats, le deuxième test est appliqué.

Le Test 1 consiste à mesurer la concentration de deux protéines A et B dans un échantillon de sang pris à jeun. Nous disposons d’un échantillon de patients, avec pour chacun d’eux les concentrations des protéines A et B mesurées dans leur sang, ainsi que l’indication si le patient est sain (-) ou est atteint (+). Cet échantillon de patients est appelé échantillon 1 et est donné dans le Tableau 1.

Patient Protéine A Protéine B Diagnostic
1 1,1 0,3 -
2 1 0,5 -
3 1,3 1 -
4 0,3 0,4 +
5 0,1 0,6 +
6 1,1 1,2 +
7 0,6 1 +


Le test 1 peut être visualisé de la façon suivante (me contacter pour que je vous envoie le graphique): on représente les patients dans un graphique dont l’axe horizontal (l’axe des x) correspond à la concentration de la protéine A et l’axe vertical (l’axe des y) à la concentration de la protéine B.
On cherche ensuite 2 droites parallèles D- d’équation cx+dy = e1 et D+ d’équation cx+dy = e2 telles que les patients malades soient tous situés dans le demi-espace défini par cx+dy > e2, et que les patients sains soient tous situés dans le demi-espace défini par cx+dy < e1, voir Figure 2. Une fois ces 2 droites déterminées, on considère la droite parallèle D qui se trouve à mi-chemin entre les droites D+ et D- (en pointillé dans la figure). Cette droite D servira à classer un nouveau patient (c’est-à-dire un patient dont on ne connaît pas l’état) comme « malade » ou « sain », dépendamment de quel côté de D le point associé à ce patient se trouve. A partir de cette première classification, il sera décidé d’appliquer ou non le second test à ce patient.


Afin d’avoir un test 1 le plus efficace possible, on est intéressé à trouver les droites D- et D+ qui maximisent la séparation entre les 2 groupes de patients, la séparation étant définie comme la distance entre les 2 droites (note : la distance considérée ici n’est pas la distance habituelle, qu’on pourrait par exemple mesurer avec une règle). En supposant que les équations des droites vérifient |c|+|d|=1, cette distance (séparation), au sens de la norme L1, est égale à la différence e2-e1. On dira que les 2 groupes sont strictement séparables si e2-e1>0

Premièrement
Je dois proposer un modèle linéaire continu pour déterminer les équations des 2 droites qui maximisent la séparation entre les 2 groupes (patients malades et patients sains).
Je propose d'utiliser l’astuce de modélisation suivante pour représenter la valeur absolue |u| d’une variable non restreinte en signe : introduire 2 variables non-négatives u1 et u2 et écrire u=u1-u2 et |u|=u1+u2.
Je dois aussi trouver la condition (non-linéaire) liant u1 et u2 qui devrait être respectée pour que l’astuce fonctionne (important : cette contrainte non-linéaire ne devra pas être incluse dans le modèle, qui doit rester linéaire).

Par la suite, je dois bien sur résoudre ce modèle linéaire (avec Excel).

Merci beaucoup pour votre considération, votre aide sera d'une très grande utilité.