En fait, c'est quelque chose qui peut se savoir à l'étape d'entraînement. Si la performance du réseau est nettement inférieur à celle des cliniciens, alors on peut être confiant qu'il y a quelque chose que les cliniciens utilisent qui n'a pas été documenté correctement (éventuellement des informations dont ils n'ont même pas conscience). Si à l'inverse les performances sont aussi bonnes que celle des cliniciens, alors leur information est sinon identique du moins redondante. Bref, en pratique les problèmes ne viennent pas de ce genre de chose, mais plutôt de problème de généralisation (on entraîne à partir des données d'une population, on l'utilise sur une autre population). C'est possible d'ajouter un indicateur de fiabilité, mais en pratique c'est rarement fait et la théorie derrière n'est pas encore satisfaisante.
-----