Bonjour, cliquez-ici pour vous inscrire et participer au forum.
  • Login:



+ Répondre à la discussion
Page 1 sur 2 1 DernièreDernière
Affichage des résultats 1 à 15 sur 17

Aspirateur de sites

  1. Tesla

    Date d'inscription
    février 2003
    Localisation
    Nice
    Messages
    502
    Bonjour à tous !

    Tout d'abord j'espere que vous avez tous passé de super bonne vacances à pratiquer vos loisirs préférés !

    Bon ma question : quel est l'aspirateur de sites qui est , selon vous , le plus top pour x raisons.

    Aussi est ce qu'il est possible d'aspirer un site et qu'une fois sur le disque dur les chemins des images ou autres soit changés pour une lecture comme si le site était online ?


    Merci bcp

    @micalement

    Tesla


     


    • Publicité



  2. Ryback08

    Date d'inscription
    février 2003
    Localisation
    ardennes
    Messages
    995
    y'a une bonne aspirateur gratuis est en francais qui se nomme HTTrack
    http://www.httrack.com/page/2/fr/index.html

    je le trouve assez bien, un bon aspirateur gratuit quoi
    assez parametrable

    j'ai eu quelque souci, si on met tros de connection simultané, des images et video manque sur le site aspiré, domage, donc, je conseille de mettre une connection

    une fois ton site aspiré, tu lance la page d'acceuil et c'est comme si tu y etait ( en plus rapide bien sur lol )

    Aussi est ce qu'il est possible d'aspirer un site et qu'une fois sur le disque dur les chemins des images ou autres soit changés pour une lecture comme si le site était online ?
    c'est le but d'un aspirateur de site, aspirer le site pour pouvoir le decouvrir offline
     

  3. Futura

    Date d'inscription
    janvier 2003
    Localisation
    En transit
    Âge
    32
    Messages
    5 801
    Aspirateur de site : à proscrire !!!

    Certes la joie pour l'aspireur est grande de découvrir un site offline mais il faut penser au webmaster du site et pour certains sites les retombées peuvent être catastrophiques :

    * site hébergé chez des hébergeurs mutualisés ou gratuits : l'aspiration de site envoie de nombreuse requêtes au serveur pour télécharger images, pages html et autres, et le site sature vite ! résultat : les sites hébergés sur le même serveur en pâtissent, et le site aspiré peut devenir inaccessible aux autres internautes !

    * site sur un serveur privé : comme pour le précédent les ressources sont soumises à rudes épreuves : ram qui monte en flèche, du coup le système swap (cherche de l'espace sur le disque dur), les process se multiplient et si les limites imposées au site sont dépassées, l'hébergeur peut être amener à fermer le site !

    * serveur dédié : les sites que vous allez aspirer sont généralement dotés de technologies type php, donc de page dynamiques en connexion avec une bdd ! résultat si vous voulez aspirer un site comme Futura-Sciences par exemple, il vous faudra aspirer plusieurs milliers voire des dizaines de milliers de mégas ! vous en avez pour plusieurs semaines voire des mois ! et durant ce téléchargement les sites ralentissent encore, bande passante oblige, et les autres utilisateurs en pâtissent !

    donc à proscrire ! à moins de pouvoir réellement bien paramétrer son aspirateur et rester très soft dans les requêtes, c'est une solution plus compliqué qu'elle n'en a l'air, qu'il faut étudier au cas par cas en pensant aussi à l'hébergeur et aux autres internautes !

    Pour Futura-Sciences, nous proposerons bientôt aux internautes le moyen de lire plus facilement news, dossiers ... hors connexion, et aussi des compilations scientifiques exceptionnelles !

    Affaire à suivre !

    Futura
    Just do it !
     

  4. alarabi

    Date d'inscription
    août 2003
    Localisation
    île de Paris !!
    Messages
    27
    bonsoir,
    c'est un peu étonnant d'aprendre que les sites (plutôt les serveurs) ne sont pas protégés contre les requêtes massives qui viennent du même IP.
    je crois que c'est un minimum pour échaper aux attaques-pirates
     

  5. Tesla

    Date d'inscription
    février 2003
    Localisation
    Nice
    Messages
    502
    Oui il existe des script déjà tous fait pour interdire l'aspiration , j'ai vu ca...
     


    • Publicité



  6. Ben

    Date d'inscription
    mai 2003
    Localisation
    Montreal, Canada
    Âge
    38
    Messages
    31
    Salut,

    Citation Envoyé par alarabi
    c'est un peu étonnant d'aprendre que les sites (plutôt les serveurs) ne sont pas protégés contre les requêtes massives qui viennent du même IP.
    Il existe des scripts mais leur protection est tres relative, en general ils ne protegent que les fichiers .php, pas les images, etc. Ces scripts consoment eux aussi du temps cpu (pour un site important il faut gerer les connexions dans une base de donnees, etc) cette protection a donc un cout $$

    Mais aucune protection n'est efficace a 100%, la plupart des sites sont assez faciles a saturer, pour peu que l'attaquant aie une bande passante assez large. C'etait d'ailleurs arrivé a yahoo il y a quelques annees, a cause d'un jeune script-kiddie canadien si j'ai bonne mémoire.

    Pour en revenir aux aspirateurs de sites, ils sont ennuyeux pour les webmestres, saturent la bande passante, remplissent les logs, font souvent des erreurs (p.ex dans les url -> logs remplis d'erreurs 404). Bref, il faut les utiliser avec parcimonie et surtout toujours limiter le nombre de threads simultanées.

    Ben
     

  7. Gilles Furelaud

    Date d'inscription
    septembre 2003
    Localisation
    Paris
    Messages
    23
    Citation Envoyé par Futura
    Aspirateur de site : à proscrire !!!

    Certes la joie pour l'aspireur est grande de découvrir un site offline mais il faut penser au webmaster du site et pour certains sites les retombées peuvent être catastrophiques
    Futura
    Aspirer tout site que l'on trouve interresant est en effet une mauvaise méthode, et aspirer un site dynamique une erreur profonde (pour rester poli).
    Toutefois, avoir un aspirateur (et savoir s'en servir) peut se réveler très utile. En effet, on peut aussi l'utiliser pour aspirer une partie seulement d'un site. pour ma part, j'utilise régulièrement HTTRack (très bien effectivement), pour aspirer des dossiers présents sur des sites et présentatn pas mal d'images ou de vidéos. Dans ce dernier cas en particulier, la lecture du site est bien plus simple (même si on a du haut débit).

    Aspirer des sites est donc, à mon avis, quelquechose qui doit se faire de manière raisonné. De plus, il me parait important de vérifier comment se passe l'aspiration, pour l'arrêter si on se rend compte qu'elle "dérape" (cela m'est déjà arrivé : en ayant fait une bêtise dans le paramétrage, j'étais soudain en train d'aspirer tout un site énorme au lieu d'un simple dossier...).
    De manière générale, il faut toujours penser à vérifier que des dossiers ne sont pas téléchargeables avant de se lancer dans une aspiration !
     

  8. matrox

    Date d'inscription
    juillet 2003
    Messages
    85
    L'aspirateur de site, il est toujours le bien venu chez moi
    Un script compte les pages vues, au bout de 20 pages par minutes, on affiche une page blanche et l'IP est interdite sur le site.
    Le script est en PHP, donc imparable.
    Certains moteurs ne respectant pas les standards d'indexation sont bloqués égelement.
    Une autre technique consiste à mettre un lien invisible vers une page ou l'adresse IP sera bloquée. La page est paramétrée pour être non indexable par les robots, et n'est pas accessible au visiteurs car le lien n'est pas cliquable visuellement, seul un aspirateur tombe dedans.
    C'est pas franchement interessant à mettre en place, par contre en hebergement mutualisé, il faut bien partager les ressources avec d'autres, celà devient donc interessant à avoir. D'autant que certains hebergeurs facturent leur services à la bande passante consommée.
     

  9. [RV]

    Date d'inscription
    janvier 2003
    Âge
    31
    Messages
    3 423
    lut,

    pas mal matrox , mais le ban d'ip n'est pas forcement interessant si le monsieur qui pompe le site a une connection adsl, du style je redemarre le modem et hop nouvelle adresse ip, donc il serait preferable de coupler un ban serveur avec une page ip non ?
     

  10. matrox

    Date d'inscription
    juillet 2003
    Messages
    85
    Les statistiques de blocage des IP me donne également le user agent utilisé, je n'ai pas remarqué de doublon rapproché dans le temps d'une adresse IP differente avec le même user agent ou serveur. Sinon effectivement si c'est la même IP qui revient quelques temps aprés et identifiable comme étant le même utilisateur, je ne libère pas l'adresse IP que je considère comme fixe.
    Généralement le monsieur en question va pomper ailleurs 8)
    Le changement d'adresse IP a chaque connexion avec ADSL n'est pas généralisé à tous les FAI.
     

  11. [RV]

    Date d'inscription
    janvier 2003
    Âge
    31
    Messages
    3 423
    oki merci!
     

  12. Tesla

    Date d'inscription
    février 2003
    Localisation
    Nice
    Messages
    502
    mais le ban d'ip n'est pas forcement interessant si le monsieur qui pompe le site a une connection adsl, du style je redemarre le modem et hop nouvelle adresse ip,
    Ce n'est pas plutôt avec un petit modem normal 56 kilo qu'on peu faire ca et pas avec l'asdl ?

    H.S.

    @+
     

  13. keul

    Date d'inscription
    janvier 2003
    Messages
    344
    remarque : faut que le gars se déconnecte et se reconencte pour revenir dessus : or s'il lance son aspirateur de site, il verra bien qu'il y a un problème et abandonnera généralement.

    Sinon, la technique du lien invisible qui amène à un ban est en effet assez interessante, vu que seul les moteurs de recherche qui ne respectent pas le robot.txt et les aspirateurs de sites sot piegés.

    (attention, mettre un texte en blanc sur fond blanc ne marche pas toujours, les aspirateurs et robots récents conaissent cette technique => il vaut donc mieux mettre un lien : ne pas cliquer ici, ou mettre une image transparente, ou avec une feuille de style le positionner dans un endroit non bisible de la fenêtre (par exemple, en absolu, 400 pixels à gauiche )
     

  14. matrox

    Date d'inscription
    juillet 2003
    Messages
    85
    Citation Envoyé par keul
    (attention, mettre un texte en blanc sur fond blanc ne marche pas toujours, les aspirateurs et robots récents conaissent cette technique => il vaut donc mieux mettre un lien : ne pas cliquer ici, ou mettre une image transparente, ou avec une feuille de style le positionner dans un endroit non bisible de la fenêtre (par exemple, en absolu, 400 pixels à gauiche )
    Le mieux est encore l'image de 1 pixel sur un pixel, tranparente bien sur.
    a moins d'utiliser la touche tab pour acceder au lien, avec la souris il reste très difficle attraper .
    Le texte blanc sur fond blanc est plutot à proscire avec les moteurs de recherche.
     

  15. christian1959

    Date d'inscription
    juillet 2013
    Messages
    2

    Question Re : Aspirateur de sites

    Bonjour,

    Pour mes besoin pro, j'ai un fournisseurs qui a ses fichiers de produit dans un format bien specifique et il lui est apparement impossible de me le transformer en XLS .

    Je cherche une solution, pour "aspirer" ou donnez le nom que vous voulez son site de maniere à essayer de recuperer les donner (nom du produit, reference, description) .

    Connaissez vous un moyen svp ???

    Merci de votre aide.
     


    • Publicité




Poursuivez votre recherche :




Sur le même thème :




 

Discussions similaires

  1. [Sites Archéo] Visite de sites près des Eyzies
    Par frgo84 dans le forum Archéologie
    Réponses: 2
    Dernier message: 29/07/2006, 23h07
  2. [Sites Paléo] Recherche Sites Sympas Faluns
    Par Siinnas dans le forum Paléontologie
    Réponses: 24
    Dernier message: 11/06/2006, 15h37
  3. [Sites Paléo] Recherche de sites sur les fossiles
    Par marine 75 dans le forum Paléontologie
    Réponses: 1
    Dernier message: 19/10/2005, 10h49
  4. Sites pornographiques : bientôt des sites en .xxx sur la toile
    Par RSSBot dans le forum Commentez les actus, dossiers et définitions
    Réponses: 1
    Dernier message: 06/06/2005, 02h26
  5. Aspirateur de sites
    Par adilou1981 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 1
    Dernier message: 28/03/2004, 22h49