extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

**Bounoume** · 08/02/2020, 16h06

bonjour,
Encore une question basique.... sur le pages html de certains sites....

Je voudrais conserver le texte d'un article très intéressant publié par un site web.
La connexion avec le site est en https: ...... sous firefox....
Je voudrais utiliser (comme quand j'accède à Futura) la commande 'tout sélectionner' puis ctrl/C..... et copier le résultat soit dans OpenOffice, soit dans le simple éditeur gedit.
dans un cas, avec un peu de chance, la page est reconstituée correcte, dans l'autre c'est du html.... contenant le texte ciblé : pas joli, mais il y a l'esentiel....
Or sur un site très intéressant (mais dont je ne suis pas sûr de la pérennité) la sélection du contenu échoue.

En examinant le contenu html, (superficiellement, je n'ai pas de connaissances spécifiques),depuis le navigateur, je trouve bien le style, des url, et des javascripts.... mais pas le texte lui-même.

Comment pourrais-je faire pour intercepter et copier les textes bruts?
merci d'avance
hp

**Bounoume** · 08/02/2020, 16h38

j'avais oublié....

... de faire simplement la commande
fichier: enregistrer sous.....
j'obtiens bien alors un fichier " texte " 'html' contenant le texte clair ....... ainsi qu'un répertoire de même nom, contenant les sous-répertoires a_data, button_data, et share_button_data, et divers fichiers....

Je peux ouvrir le fichier texte "html" avec gedit... et j'y trouve effectivement le contenu textuel complet que je recherchais.....
(d'ailleurs repérable par la coloration syntaxique particulière donnée par l'éditeur (merci gnome.gedit........

)

Donc j'ai la bouée de secours.....
En cherchant encore, je viens de constater que firefox accepte d'ouvrir ce fichier texte "html" et , miracle, me l'affiche parfaitement.

Problème résolu..... pour le moment....
merci de votre attention

invite896757ff · 08/02/2020, 16h42

Pour aller au texte tu peux relever un mot 'remarquable" en début de texte et faire "recherche" du mot dans le html.
Pourquoi ne pas donner le lien du site .

**umfred** · 10/02/2020, 15h46

une autre solution pourrait être d'enregistrer ("imprimer") la page en pdf (chrome le permet directement, sinon via une "imprimante" PDF comme pdfCreator, foxit, ....)

A voir en vidéo sur Futura · Aujourd'hui

extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

Re : extraire les textes (UTF8) affichés par 1 page web... quand CTRL/C échoue

Discussions similaires

Extraire un pdf d'une page web

restauration de windows echoué ctrl+alt+del

quand l'anesthesie echoue !!!

extraire une page d'un pdf

Quand la méthode de Newton échoue ...