Bonjour,
Je souhaite regrouper des données en un nombre de classes connu. Il s'agit de la tailles de différents individus, je désire les regrouper par classes de taille (le nombre de groupe est connu à l'avance)
.
il semble que la solution optimale soit de faire les groupes de manière à minimiser l'inertie intra-groupe. Il est parfois ajouter qu'il faut aussi maximiser l'inertie inter-groupes; est ce que l'un n'implique pas l'autre ? (question subsidiaire ).
Pour l'expression de la variabilité, plusieurs choix peuvent être fait : distance euclidienne, variance ...). Savez vous s'il existe des avantage à choisir l'une ou l'autre de ces expression ?
Pour ce qui est de la réalisation enfin, plusieurs algorithmes existent : centres mobiles, jenks-caspall, fisher.
Les 2 premiers nécessitent de définir a priori des groupes puis de les compléter par leur plus proches voisins (en gros).
Le problème est que le résultat obtenu dépend du choix initial des classes est que la configuration optimale n'est pas garantie.
L'algorithme de Fisher (1958), basé sur la variance semble lui garantir une solution optimale, mais je ne le trouve nul part, et je ne vois pas en quoi il consiste. Quelqu'un pourrait me dire s'il connait son principe et éventuellement ou est il expliqué sur le net.
Je sais que le logiciel R permet de faire du clustering mais il utilise la méthode Kmeans qui semble correspondre à la méthode des centres mobiles. connaissez vous une fonction de ce logiciel permettant de faire ce que je cherche ?
ps : je crois que l'algorithme de fisher ne fonctionne que sur des données données quantitatives expliqués par une seule variable ce qui est mon cas (la taille)
ps2 : j'espère avoir été clair (), n'hésitez pas à me demander des explications si ce n'est pas le cas ...
-----