Extraire un texte depuis une page web
Répondre à la discussion
Affichage des résultats 1 à 13 sur 13

Extraire un texte depuis une page web



  1. #1
    invite0e9d082c

    Extraire un texte depuis une page web


    ------

    Hello guys

    J'aide besoin de conseils...

    Je dois travailler sur des textes issus de pages web d'actualité. En plus du texte les pages web contiennent d'autres éléments que je nomme 'noise'.

    Pensez vous qu'il serait mieux de supprimer les 'noise' ou alors d'extraire tout simplement le texte (je trouve cette solution plus logique)?

    Pour faire cela est-il préférable d'utilser Matlab ou un autre langage?

    J'ai tenté quelque chose avec Matlab mais je ne trouve pas de commande me permettant de juste rechercher le corps de ma page afin de l'extraire.


    Code:
     %open a file
    webpage = fopen('C:\Documents and Settings\projet\jour6-17 nov\Le Revenu.html','r');
    
    %seek the body part
    
    ...
    
    %read a file 
    C = fscanf(webpage,'%s',inf)
    
    %close a file
    fclose (webpage);
    Merci d'avance.

    -----

  2. #2
    zoup1

    Re : Extraire un texte depuis une page web

    Tu veux faire cela de façon automatique ou alors est-ce pour une utilisation occasionnelle.

    Pour extraire le texte d'une page web, il suffit d'utiliser un navigateur de sélectionner tout le contenu de la page, et de la copier dans un éditeur de texte (un vrai).
    Je te donne une idée, tu me donnes une idée, nous avons chacun deux idées.

  3. #3
    invite765732342432
    Invité

    Re : Extraire un texte depuis une page web

    Citation Envoyé par lexxx Voir le message
    Je dois travailler sur des textes issus de pages web d'actualité. En plus du texte les pages web contiennent d'autres éléments que je nomme 'noise'.
    Le problème est d'identifier clairement le 'noise' du contenu correct... As-tu déjà des règles de gestion claires ?

    Quand je fais ce genre de choses, je m'appuies en général sur les balises HTML (tant que je n'ai pas lu la balise XXX, c'est du noise, quand je lis la balise YYY, c'est la fin du bloc)
    Mais cela suppose que l'éditeur de la page web ne change pas trop sa présentation d'un article à l'autre.

    PS: attention aux droits d'auteur !

  4. #4
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    ok.

    C'est exactement mon probleme. Premiere je ne sais pas ce que c'est exactement le 'noise' . Ca peut etre une publicite video ou audio ou juste una affiche.

    Quand tu parles de balise c'est du genre <body> </body> ?


    Je pense qu'il serait plus simple de lire ce qu'il y a entre <body> </body> puis l'extraire. Mais je ne sais pas le faire. je ne suis pas sur que la fonction fseek de matlab sache le faire.

    Cette tache est juste un tache de pretraitement pour un projet que j'ai à faire en apprentissage artificiel.

  5. A voir en vidéo sur Futura
  6. #5
    invite765732342432
    Invité

    Re : Extraire un texte depuis une page web

    Citation Envoyé par lexxx Voir le message
    Quand tu parles de balise c'est du genre <body> </body> ?
    Trop vague, mais c'est le principe
    Je préfère choisir en général un DIV avec certains paramètres particuliers. Mais celà suppose de toujours prendre des infos des mêmes sites

  7. #6
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    qu'est ce qu'un DIV? peux tu m'expliquer le principle?

  8. #7
    Bruno

    Re : Extraire un texte depuis une page web

    Sinon on peut exploiter la commande lynx avec son option -dump pour rediriger le contenu sur l'entrée standard.

  9. #8
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    je ne connais pas du tout cette commande qu'est ce que c'est? quel est son principle de fonctionnement?

  10. #9
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    D'apres ce que j'ai lu sur internet c'est pile ce qu'il me faut Merci beaucoup.
    Je vais continuer a chercher parce que je comprends pas encore comment l'utiliser. S'il faut le telecharger? ou s'il faut ecrire le programme?

  11. #10
    Bruno

    Re : Extraire un texte depuis une page web

    Citation Envoyé par lexxx Voir le message
    D'apres ce que j'ai lu sur internet c'est pile ce qu'il me faut Merci beaucoup.
    Je vais continuer a chercher parce que je comprends pas encore comment l'utiliser. S'il faut le telecharger? ou s'il faut ecrire le programme?
    lynx est un navigateur en mode texte sous Linux/UNIX, il existe aussi une version pour Windows.

  12. #11
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    ok merci beaucoup je vais chercher cette version

  13. #12
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    concretement, lynx est une commande. De quoi ai je besoin exactement pour l'utiliser?

  14. #13
    invite0e9d082c

    Re : Extraire un texte depuis une page web

    J'ai reussi a telecharger la commande. Mais je ne sais l'utiliser.

    J'ai déjà des pages web sauvegardées je voudrais le faire à partir ce celle la

Discussions similaires

  1. Extraire une page d'un fichier PDF
    Par michel5002 dans le forum Logiciel - Software - Open Source
    Réponses: 39
    Dernier message: 03/02/2014, 11h07
  2. convertir p une page Web en pdf ?
    Par calypso06 dans le forum Logiciel - Software - Open Source
    Réponses: 2
    Dernier message: 31/03/2008, 22h12
  3. Vidéo dans une page web
    Par technosvitman dans le forum Internet - Réseau - Sécurité générale
    Réponses: 4
    Dernier message: 09/01/2008, 22h16
  4. Retrouver une page Web.
    Par Antikhippe dans le forum Internet - Réseau - Sécurité générale
    Réponses: 3
    Dernier message: 05/12/2004, 15h35
  5. incorporer une video avi dans une page web ?
    Par invite635440af dans le forum Internet - Réseau - Sécurité générale
    Réponses: 4
    Dernier message: 10/11/2003, 08h49
Découvrez nos comparatifs produits sur l'informatique et les technologies.