extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue
Répondre à la discussion
Affichage des résultats 1 à 4 sur 4

extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue



  1. #1
    Bounoume

    extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue


    ------

    bonjour,
    Encore une question basique.... sur le pages html de certains sites....

    Je voudrais conserver le texte d'un article très intéressant publié par un site web.
    La connexion avec le site est en https: ...... sous firefox....
    Je voudrais utiliser (comme quand j'accède à Futura) la commande 'tout sélectionner' puis ctrl/C..... et copier le résultat soit dans OpenOffice, soit dans le simple éditeur gedit.
    dans un cas, avec un peu de chance, la page est reconstituée correcte, dans l'autre c'est du html.... contenant le texte ciblé : pas joli, mais il y a l'esentiel....
    Or sur un site très intéressant (mais dont je ne suis pas sûr de la pérennité) la sélection du contenu échoue.

    En examinant le contenu html, (superficiellement, je n'ai pas de connaissances spécifiques),depuis le navigateur, je trouve bien le style, des url, et des javascripts.... mais pas le texte lui-même.

    Comment pourrais-je faire pour intercepter et copier les textes bruts?
    merci d'avance
    hp

    -----
    rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)

  2. #2
    Bounoume

    Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

    j'avais oublié....... de faire simplement la commande
    fichier: enregistrer sous.....
    j'obtiens bien alors un fichier " texte " 'html' contenant le texte clair ....... ainsi qu'un répertoire de même nom, contenant les sous-répertoires a_data, button_data, et share_button_data, et divers fichiers....

    Je peux ouvrir le fichier texte "html" avec gedit... et j'y trouve effectivement le contenu textuel complet que je recherchais.....
    (d'ailleurs repérable par la coloration syntaxique particulière donnée par l'éditeur (merci gnome.gedit........)

    Donc j'ai la bouée de secours.....
    En cherchant encore, je viens de constater que firefox accepte d'ouvrir ce fichier texte "html" et , miracle, me l'affiche parfaitement.


    Problème résolu..... pour le moment....
    merci de votre attention
    rien ne sert de penser, il faut réfléchir avant.... (Pierre Dac...)

  3. #3
    goaoute

    Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

    Pour aller au texte tu peux relever un mot 'remarquable" en début de texte et faire "recherche" du mot dans le html.
    Pourquoi ne pas donner le lien du site .

  4. #4
    umfred

    Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

    une autre solution pourrait être d'enregistrer ("imprimer") la page en pdf (chrome le permet directement, sinon via une "imprimante" PDF comme pdfCreator, foxit, ....)

  5. A voir en vidéo sur Futura

Discussions similaires

  1. Extraire un pdf d'une page web
    Par invite7897ed72 dans le forum Logiciel - Software - Open Source
    Réponses: 6
    Dernier message: 01/01/2011, 19h33
  2. restauration de windows echoué ctrl+alt+del
    Par invite57cad243 dans le forum Matériel - Hardware
    Réponses: 1
    Dernier message: 05/02/2010, 11h19
  3. quand l'anesthesie echoue !!!
    Par invite0f3760c9 dans le forum Santé et médecine générale
    Réponses: 19
    Dernier message: 05/01/2010, 20h50
  4. extraire une page d'un pdf
    Par inviteb371ab49 dans le forum Logiciel - Software - Open Source
    Réponses: 9
    Dernier message: 27/07/2009, 15h50
  5. Quand la méthode de Newton échoue ...
    Par Bleyblue dans le forum Mathématiques du supérieur
    Réponses: 10
    Dernier message: 18/01/2006, 14h35