Hello guys
J'aide besoin de conseils...
Je dois travailler sur des textes issus de pages web d'actualité. En plus du texte les pages web contiennent d'autres éléments que je nomme 'noise'.
Pensez vous qu'il serait mieux de supprimer les 'noise' ou alors d'extraire tout simplement le texte (je trouve cette solution plus logique)?
Pour faire cela est-il préférable d'utilser Matlab ou un autre langage?
J'ai tenté quelque chose avec Matlab mais je ne trouve pas de commande me permettant de juste rechercher le corps de ma page afin de l'extraire.
Merci d'avance.Code:%open a file webpage = fopen('C:\Documents and Settings\projet\jour6-17 nov\Le Revenu.html','r'); %seek the body part ... %read a file C = fscanf(webpage,'%s',inf) %close a file fclose (webpage);
-----