Aspirateur de sites
Répondre à la discussion
Affichage des résultats 1 à 17 sur 17

Aspirateur de sites



  1. #1
    Tesla

    Bonjour à tous !

    Tout d'abord j'espere que vous avez tous passé de super bonne vacances à pratiquer vos loisirs préférés !

    Bon ma question : quel est l'aspirateur de sites qui est , selon vous , le plus top pour x raisons.

    Aussi est ce qu'il est possible d'aspirer un site et qu'une fois sur le disque dur les chemins des images ou autres soit changés pour une lecture comme si le site était online ?


    Merci bcp

    @micalement

    Tesla

    -----

  2. #2
    Ryback08

    y'a une bonne aspirateur gratuis est en francais qui se nomme HTTrack
    http://www.httrack.com/page/2/fr/index.html

    je le trouve assez bien, un bon aspirateur gratuit quoi
    assez parametrable

    j'ai eu quelque souci, si on met tros de connection simultané, des images et video manque sur le site aspiré, domage, donc, je conseille de mettre une connection

    une fois ton site aspiré, tu lance la page d'acceuil et c'est comme si tu y etait ( en plus rapide bien sur lol )

    Aussi est ce qu'il est possible d'aspirer un site et qu'une fois sur le disque dur les chemins des images ou autres soit changés pour une lecture comme si le site était online ?
    c'est le but d'un aspirateur de site, aspirer le site pour pouvoir le decouvrir offline

  3. #3
    Futura

    Aspirateur de site : à proscrire !!!

    Certes la joie pour l'aspireur est grande de découvrir un site offline mais il faut penser au webmaster du site et pour certains sites les retombées peuvent être catastrophiques :

    * site hébergé chez des hébergeurs mutualisés ou gratuits : l'aspiration de site envoie de nombreuse requêtes au serveur pour télécharger images, pages html et autres, et le site sature vite ! résultat : les sites hébergés sur le même serveur en pâtissent, et le site aspiré peut devenir inaccessible aux autres internautes !

    * site sur un serveur privé : comme pour le précédent les ressources sont soumises à rudes épreuves : ram qui monte en flèche, du coup le système swap (cherche de l'espace sur le disque dur), les process se multiplient et si les limites imposées au site sont dépassées, l'hébergeur peut être amener à fermer le site !

    * serveur dédié : les sites que vous allez aspirer sont généralement dotés de technologies type php, donc de page dynamiques en connexion avec une bdd ! résultat si vous voulez aspirer un site comme Futura-Sciences par exemple, il vous faudra aspirer plusieurs milliers voire des dizaines de milliers de mégas ! vous en avez pour plusieurs semaines voire des mois ! et durant ce téléchargement les sites ralentissent encore, bande passante oblige, et les autres utilisateurs en pâtissent !

    donc à proscrire ! à moins de pouvoir réellement bien paramétrer son aspirateur et rester très soft dans les requêtes, c'est une solution plus compliqué qu'elle n'en a l'air, qu'il faut étudier au cas par cas en pensant aussi à l'hébergeur et aux autres internautes !

    Pour Futura-Sciences, nous proposerons bientôt aux internautes le moyen de lire plus facilement news, dossiers ... hors connexion, et aussi des compilations scientifiques exceptionnelles !

    Affaire à suivre !

    Futura
    Just do it !

  4. #4
    invite489d0396

    bonsoir,
    c'est un peu étonnant d'aprendre que les sites (plutôt les serveurs) ne sont pas protégés contre les requêtes massives qui viennent du même IP.
    je crois que c'est un minimum pour échaper aux attaques-pirates

  5. A voir en vidéo sur Futura
  6. #5
    Tesla

    Oui il existe des script déjà tous fait pour interdire l'aspiration , j'ai vu ca...

  7. #6
    Ben

    Salut,

    Citation Envoyé par alarabi
    c'est un peu étonnant d'aprendre que les sites (plutôt les serveurs) ne sont pas protégés contre les requêtes massives qui viennent du même IP.
    Il existe des scripts mais leur protection est tres relative, en general ils ne protegent que les fichiers .php, pas les images, etc. Ces scripts consoment eux aussi du temps cpu (pour un site important il faut gerer les connexions dans une base de donnees, etc) cette protection a donc un cout $$

    Mais aucune protection n'est efficace a 100%, la plupart des sites sont assez faciles a saturer, pour peu que l'attaquant aie une bande passante assez large. C'etait d'ailleurs arrivé a yahoo il y a quelques annees, a cause d'un jeune script-kiddie canadien si j'ai bonne mémoire.

    Pour en revenir aux aspirateurs de sites, ils sont ennuyeux pour les webmestres, saturent la bande passante, remplissent les logs, font souvent des erreurs (p.ex dans les url -> logs remplis d'erreurs 404). Bref, il faut les utiliser avec parcimonie et surtout toujours limiter le nombre de threads simultanées.

    Ben

  8. #7
    invite9c19a2aa

    Citation Envoyé par Futura
    Aspirateur de site : à proscrire !!!

    Certes la joie pour l'aspireur est grande de découvrir un site offline mais il faut penser au webmaster du site et pour certains sites les retombées peuvent être catastrophiques
    Futura
    Aspirer tout site que l'on trouve interresant est en effet une mauvaise méthode, et aspirer un site dynamique une erreur profonde (pour rester poli).
    Toutefois, avoir un aspirateur (et savoir s'en servir) peut se réveler très utile. En effet, on peut aussi l'utiliser pour aspirer une partie seulement d'un site. pour ma part, j'utilise régulièrement HTTRack (très bien effectivement), pour aspirer des dossiers présents sur des sites et présentatn pas mal d'images ou de vidéos. Dans ce dernier cas en particulier, la lecture du site est bien plus simple (même si on a du haut débit).

    Aspirer des sites est donc, à mon avis, quelquechose qui doit se faire de manière raisonné. De plus, il me parait important de vérifier comment se passe l'aspiration, pour l'arrêter si on se rend compte qu'elle "dérape" (cela m'est déjà arrivé : en ayant fait une bêtise dans le paramétrage, j'étais soudain en train d'aspirer tout un site énorme au lieu d'un simple dossier...).
    De manière générale, il faut toujours penser à vérifier que des dossiers ne sont pas téléchargeables avant de se lancer dans une aspiration !

  9. #8
    invite6a5889bb

    L'aspirateur de site, il est toujours le bien venu chez moi
    Un script compte les pages vues, au bout de 20 pages par minutes, on affiche une page blanche et l'IP est interdite sur le site.
    Le script est en PHP, donc imparable.
    Certains moteurs ne respectant pas les standards d'indexation sont bloqués égelement.
    Une autre technique consiste à mettre un lien invisible vers une page ou l'adresse IP sera bloquée. La page est paramétrée pour être non indexable par les robots, et n'est pas accessible au visiteurs car le lien n'est pas cliquable visuellement, seul un aspirateur tombe dedans.
    C'est pas franchement interessant à mettre en place, par contre en hebergement mutualisé, il faut bien partager les ressources avec d'autres, celà devient donc interessant à avoir. D'autant que certains hebergeurs facturent leur services à la bande passante consommée.

  10. #9
    invite37693cfc

    lut,

    pas mal matrox , mais le ban d'ip n'est pas forcement interessant si le monsieur qui pompe le site a une connection adsl, du style je redemarre le modem et hop nouvelle adresse ip, donc il serait preferable de coupler un ban serveur avec une page ip non ?

  11. #10
    invite6a5889bb

    Les statistiques de blocage des IP me donne également le user agent utilisé, je n'ai pas remarqué de doublon rapproché dans le temps d'une adresse IP differente avec le même user agent ou serveur. Sinon effectivement si c'est la même IP qui revient quelques temps aprés et identifiable comme étant le même utilisateur, je ne libère pas l'adresse IP que je considère comme fixe.
    Généralement le monsieur en question va pomper ailleurs 8)
    Le changement d'adresse IP a chaque connexion avec ADSL n'est pas généralisé à tous les FAI.

  12. #11
    invite37693cfc

    oki merci!

  13. #12
    Tesla

    mais le ban d'ip n'est pas forcement interessant si le monsieur qui pompe le site a une connection adsl, du style je redemarre le modem et hop nouvelle adresse ip,
    Ce n'est pas plutôt avec un petit modem normal 56 kilo qu'on peu faire ca et pas avec l'asdl ?

    H.S.

    @+

  14. #13
    keul

    remarque : faut que le gars se déconnecte et se reconencte pour revenir dessus : or s'il lance son aspirateur de site, il verra bien qu'il y a un problème et abandonnera généralement.

    Sinon, la technique du lien invisible qui amène à un ban est en effet assez interessante, vu que seul les moteurs de recherche qui ne respectent pas le robot.txt et les aspirateurs de sites sot piegés.

    (attention, mettre un texte en blanc sur fond blanc ne marche pas toujours, les aspirateurs et robots récents conaissent cette technique => il vaut donc mieux mettre un lien : ne pas cliquer ici, ou mettre une image transparente, ou avec une feuille de style le positionner dans un endroit non bisible de la fenêtre (par exemple, en absolu, 400 pixels à gauiche )

  15. #14
    invite6a5889bb

    Citation Envoyé par keul
    (attention, mettre un texte en blanc sur fond blanc ne marche pas toujours, les aspirateurs et robots récents conaissent cette technique => il vaut donc mieux mettre un lien : ne pas cliquer ici, ou mettre une image transparente, ou avec une feuille de style le positionner dans un endroit non bisible de la fenêtre (par exemple, en absolu, 400 pixels à gauiche )
    Le mieux est encore l'image de 1 pixel sur un pixel, tranparente bien sur.
    a moins d'utiliser la touche tab pour acceder au lien, avec la souris il reste très difficle attraper .
    Le texte blanc sur fond blanc est plutot à proscire avec les moteurs de recherche.

  16. #15
    christian1959

    Question Re : Aspirateur de sites

    Bonjour,

    Pour mes besoin pro, j'ai un fournisseurs qui a ses fichiers de produit dans un format bien specifique et il lui est apparement impossible de me le transformer en XLS .

    Je cherche une solution, pour "aspirer" ou donnez le nom que vous voulez son site de maniere à essayer de recuperer les donner (nom du produit, reference, description) .

    Connaissez vous un moyen svp ???

    Merci de votre aide.

  17. #16
    snoosha

    Re : Aspirateur de sites

    Citation Envoyé par christian1959 Voir le message
    Bonjour,

    Pour mes besoin pro, j'ai un fournisseurs qui a ses fichiers de produit dans un format bien specifique et il lui est apparement impossible de me le transformer en XLS .

    Je cherche une solution, pour "aspirer" ou donnez le nom que vous voulez son site de maniere à essayer de recuperer les donner (nom du produit, reference, description) .

    Connaissez vous un moyen svp ???

    Merci de votre aide.
    avec ou sans programmation ?

  18. #17
    christian1959

    Re : Aspirateur de sites

    Pardon ???

Discussions similaires

  1. [Sites Archéo] Visite de sites près des Eyzies
    Par frgo84 dans le forum Archéologie
    Réponses: 2
    Dernier message: 29/07/2006, 22h07
  2. [Sites Paléo] Recherche Sites Sympas Faluns
    Par invitecb4b69eb dans le forum Paléontologie
    Réponses: 24
    Dernier message: 11/06/2006, 14h37
  3. [Sites Paléo] Recherche de sites sur les fossiles
    Par invitec0da153a dans le forum Paléontologie
    Réponses: 1
    Dernier message: 19/10/2005, 09h49
  4. Aspirateur de sites
    Par invite459b7859 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 1
    Dernier message: 28/03/2004, 21h49
Découvrez nos comparatifs produits sur l'informatique et les technologies.