Bonjour,
Quelqu’un est-il capable d’expliquer de manière synthétique les commonalités et différences entre les modèles dynamiques suivants?
1. controlleur PID: modulation d’une commande en vue d’obtenir une consigne en tenant d’une mesure, de sa dérivé et de son intégrale temporelle
2. apprentissage par renforcement: découverte d’une stratégie de commande en tenant compte de la probabilité qu’une action place un agent dans un état le rapprochant de l’objectif
3. chaines de Markov: la probabilité d’un état dépend uniquement de l’état précédent
4. process de Hawkes: la probabilité d’un état est la somme d’une probabilité fixe et d’une probabilité d’auto-excitation
Je suppose que les points 1 et 2 rèvevent plus de la théorie du controle que de la description d’un système.
Le lien entre les points 2 et 3 est largement documenté.
Merci de ne pas être trop dur si j’ai écris des anneries et de m’expliquer comme à un enfant…
-----