capturer les données d'un site web
Répondre à la discussion
Page 1 sur 2 1 DernièreDernière
Affichage des résultats 1 à 30 sur 36

capturer les données d'un site web



  1. #1
    invite754f3790

    capturer les données d'un site web


    ------

    Salut à tous !

    J'aimerais enregistrer les données d'un site web et stocker ces informations dans une BDD. Avec le package xml j'arrive à le faire, mais pas pour les sites sécurisés en https://

    Est-ce que vous savez s'il est possible de le faire avec R ?
    Ou sinon, je cherche un tuto qui explique en détails comment le faire en C# ou .NET, si vous pouvez m'aider...

    -----

  2. #2
    invite4492c379

    Re : capturer les données d'un site web

    Salut,

    C#/.Net supporte le https de manière transparente de mémoire. Tu utilises un HttpWebRequest créé à partir d'une URI du genre "https://www.truc.com". Si tu dois t'autentifier il faudra utiliser une instance de NetworkCredential. Si tu googles tout ça je pense que tu devrais tomber sur des tutos.

  3. #3
    Slagt

    Re : capturer les données d'un site web

    Bonjour,

    Tu peux aussi faire ça en PHP avec la bibliothèque cURL. Très facile ensuite de stocker le tout dans une BDD. Tu pourras t’identifier s’il le faut, et tu récupèreras les sources de la page. À toi de parser le résultat en quelque chose de compréhensible.
    Seul hic, il te faut un serveur Apache. Dans le pire des cas, tu peux héberger ton script PHP sur un serveur Free, et l’appeler avec R. Le serveur s’occupera du reste.

    Bon courage.
    ••=• ••= = ••= •=• •= =••••= ••• =•=• •• • =• =•=• • •••

  4. #4
    yoda1234

    Re : capturer les données d'un site web

    Citation Envoyé par luckylucky Voir le message

    J'aimerais enregistrer les données d'un site web et stocker ces informations dans une BDD. Avec le package xml j'arrive à le faire, mais pas pour les sites sécurisés en https://
    Dans quel but?
    Là où l'ignorance est un bienfait, c'est de la folie d'être sage (Thomas Gray).

  5. A voir en vidéo sur Futura
  6. #5
    invitea0ecda6e

    Re : capturer les données d'un site web

    Citation Envoyé par yoda1234 Voir le message
    Dans quel but?
    Je me posais la même question

  7. #6
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    En particulier pour les https
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  8. #7
    invite4492c379

    Re : capturer les données d'un site web

    ????

    Quelle est la différence entre accéder via un browser et une application dédiée ? Il y a de la paranoia dans l'air à cause d'un s ???

  9. #8
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    On a quand même bien le droit de demander quel est l'usage prévu pour pouvoir donner des conseils adaptés. D'autre part stocker dans une BDD des données provenant d'un ou plusieurs sites pourrait être dans certains cas d'utilisation une appropriation illicite de données. D'autant qu'on ne met généralement pas des données banales en accès https.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  10. #9
    invite4492c379

    Re : capturer les données d'un site web

    Je ne suis pas un pro, mais https ne sécurise que le transport pas l'accès, si l'utilisateur y a accès par un browser il a a priori le droit de développer une application qui lui permettrait d'accéder aux mêmes données suivant le même prorocole ? Le https ne change rien par rapport au http, non ?

  11. #10
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    Techniquement et en théorie, oui. Mais dans les faits la demande est étrange et ton argument ne répond pas au problème soulevé dans mon message.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  12. #11
    invite4492c379

    Re : capturer les données d'un site web

    Quel problème ? Le fait de vouloir récupérer des données issues d'un site pour les stocker dans une bdd ? Un peu comme le fil parallèle dans lequel un utilisateur demande comment parser un tableau HTML ?

    En gros poser la question "Comment parser un tableau html ?" n'est pas suspicieux alors qu'utiliser un terme comme https déclenche le doute ?

  13. #12
    invitea0ecda6e

    Re : capturer les données d'un site web

    Personnellement c'était juste par curiosité. Je me demande vraiment quel peut être l'intérêt d'aspirer des sites pour les mettre en base.

  14. #13
    invite4492c379

    Re : capturer les données d'un site web

    Il est question de récupérer des données sur un site ... j'ai implémenté ça pour une récupération automatisée d'un lexique.

  15. #14
    Slagt

    Re : capturer les données d'un site web

    Hello,

    Je comprends ton point de vu, mais comme le dit JPL, ce genre d’action est parfois illicite. D’où la question, si c’est illicite et que tu ne le sais pas, tu aimerais le savoir non*?
    Exemple*: récupérer les articles de la version électronique d’un journal pour pouvoir faire un trie automatique dessus et n’afficher que ceux qui t’intéressent. Dans le fond, l’idée est très bien, et je pense même qu’elle est légal. Mais si l’envie te prend un jour de partager l’adresse URL à ta grand-mère, ça deviendra illégal.

    Toujours est-il que répondre à cette question nous aidera à t’aider. Si tu ne veux pas y répondre clairement c’est ton droit, mais comprends alors que l’on soit suspicieux à l’égard de tes intentions. Pour répondre à ta question, j’insiste sur le fait que la librairie cURL est parfaitement adaptée à ce que tu cherche à faire, mais garde à l’esprit que l’utilisation que tu feras des données doit rester strictement personnel (et quand je dis personnel, ça n’inclue que TA personne physique, et rien d’autre même pas ton chat).
    ••=• ••= = ••= •=• •= =••••= ••• =•=• •• • =• =•=• • •••

  16. #15
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    Citation Envoyé par Slagt Voir le message
    Exemple*: récupérer les articles de la version électronique d’un journal pour pouvoir faire un trie automatique dessus et n’afficher que ceux qui t’intéressent. Dans le fond, l’idée est très bien, et je pense même qu’elle est légal. Mais si l’envie te prend un jour de partager l’adresse URL à ta grand-mère, ça deviendra illégal.
    Idem aussi si tu stockes dans une BDD personnelle des articles de journaux téléchargés et que tu proposes l'accès à ta BDD via ton site.
    On peut facilement imaginer pire.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  17. #16
    invite4492c379

    Re : capturer les données d'un site web

    Si tu me réponds tu te trompes de personne

    Je ne suis pas à l'origine du fil. Je ne fais que remarquer la paranoia ambiante dès qu'on rajoute le mot sécurité.

    Je ne fais que remarquer que demander comment récupérer une page par https est d'office plus suspicieux que de demander comment parser un tableau hrml alors que les mauvaises intentions pourraient être les mêmes.

    Je ne fais que remarquer que https ne protège pas les données du site mais leur transfert vers le client.

  18. #17
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    Non, ce message ne t'es pas particulièrement destiné. J'expose un argument, en particulier à destination de l'auteur initial. Par contre je t'ai déjà répondu sur le point que tu soulèves.

    Je précise toutefois que si https protège la transmission, c'est justement parce qu'on considère que les données qui transitent n'ont pas à être consultées par n'importe qui, sauf par des destinataires autorisés. Tout dépend donc de l'usage que veut faire de ces données le demandeur.
    Dernière modification par JPL ; 15/09/2011 à 14h01.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  19. #18
    invite765732342432
    Invité

    Re : capturer les données d'un site web

    Citation Envoyé par JPL Voir le message
    Non, ce message ne t'es pas particulièrement destiné. J'expose un argument, en particulier à destination de l'auteur initial. Par contre je t'ai déjà répondu sur le point que tu soulèves.
    Je suis d'accord avec photon57: tu dis "D'autre part stocker dans une BDD des données provenant d'un ou plusieurs sites pourrait être dans certains cas d'utilisation une appropriation illicite de données. D'autant qu'on ne met généralement pas des données banales en accès https"

    Non, il ne peut pas y avoir appropriation illicite juste en sachant se connecter en https.
    Le caractère illicite peut être dans l'utilisation de ces données, ou dans la méthode d'appropriation. Mais les services sensibles auxquels on se connecte en https sont protégés contre les tentatives d'intrusions (comme le brute-force).

  20. #19
    invite4492c379

    Re : capturer les données d'un site web

    Citation Envoyé par JPL Voir le message
    Non, ce message ne t'es pas particulièrement destiné. J'expose un argument, en particulier à destination de l'auteur initial. Par contre je t'ai déjà répondu sur le point que tu soulèves.
    Désolé ... je répondais en fait Slagt, comme quoi on devrait toujours quoter la réponse .

    Quant à revenir sur le point que je soulève et auquel tu n'as pas apporté de réponse (mais je n'en demandais pas) était :
    Pourquoi ne pas prendre autant de précautions avec le fil "Comment parser un tableau" ?

    Perso je comprends qu'il peut paraître plus suspicieux de poser une question telle que "comment accéder à un page via https ?" que de poser la question "Comment récupérer les données d'un tableau html ?"

    Où placer le seuil, surtout pour la modération sans virer au tout ou rien ? De plus, je pense que les personnes souhaitant craquer un site et étant capable (ou presque) de le faire ne viendrait certainement pas poser leurs questions ici.

    C'est aussi pour battre en brèche la croyance que s'il y a le https et le petit cadenas sur la page web c'est que je ne risque rien ...

  21. #20
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    Entre un tableau et quelque chose qui nécessite une BDD je vois une énorme différence de volume.
    Je reconnais que mon expression "appropriation illicite de données" est discutable je m'étais d'ailleurs corrigé implicitement moi-même dans le message 17 en disant :

    Citation Envoyé par JPL Voir le message
    Tout dépend donc de l'usage que veut faire de ces données le demandeur.
    J'aurais dû écrire "usage illicite" ce qui correspond à ce que j'avais en tête. J'ai donné un exemple hypothétique dans le message 15. Il est évident que s'il s'agit de données accessibles à un visiteur autorisé, qu'il veut stocker pour son usage personnel dans une BDD locale c'est sans problème. Disons qu'initialement il y avait une question fort légitime posée au demandeur et que certains ont voulu y voir de la paranoïa et en faire le procès.

    Citation Envoyé par photon57 Voir le message
    De plus, je pense que les personnes souhaitant craquer un site et étant capable (ou presque) de le faire ne viendrait certainement pas poser leurs questions ici.
    Tu ne t'imagines pas le nombre de question cousues de fil blanc (et donc naïves) qui peuvent être posées sur les forums de FS.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  22. #21
    Dormeur74

    Re : capturer les données d'un site web

    Je constate un truc assez marrant : luckylucky ne se manifeste plus. M'est avis que le comité de surveillance a mis le doigt sur un truc où, sans être parano, on est en droit de se poser des tas de questions.

    Je me suis fait taxer un fichier CSS la semaine dernière sur lequel j'avais passé une quinzaine de jours. Je l'ai su parce que l'auteur, pas vicieux pour un sou, a utilisé mon formulaire pour me poser une question sur un script qu'il avait récupéré en consultant le code source. Faut-il préciser que cela m'a mis en boule pour toute la journée. Et c'est vrai, sur la toile, les fichiers laborieux (Java, JS, CSS, etc.) devraient être mis dans des dossiers protégés.

    Hélas, cette forme de piratage est quotidienne en simple HTTP.

    En HTTPS, on passe de la correctionnelle aux assises. Je suis étonné, photo57, que tu sois surpris que les arbitres aient sorti un carton jaune ; le rouge consistant à fermer le fil, ce que j'aurais fait sans état d'âme.

    Ton avis m'intéresse, parce que j'ai vu la qualité de tes interventions sur pas mal de fils. Cette fois-ci, je ne pige pas.

  23. #22
    invite765732342432
    Invité

    Re : capturer les données d'un site web

    Citation Envoyé par Dormeur74 Voir le message
    Faut-il préciser que cela m'a mis en boule pour toute la journée.
    Pourquoi ? Est-ce que ça retire quelque chose à ton travail ?

    Et c'est vrai, sur la toile, les fichiers laborieux (Java, JS, CSS, etc.) devraient être mis dans des dossiers protégés.
    Si tu mets tes js et css en répertoire protégés, comment sont-ils utilisés ?

    En HTTPS, on passe de la correctionnelle aux assises.
    Il va falloir expliquer pourquoi: il n'y a aucun cassage d'aucune protection. Ce n'est pas un "S" à la fin de http qui change quoique ce soit à la récupération de données auxquelles on a le droit d'accéder.

  24. #23
    invite4492c379

    Re : capturer les données d'un site web

    Citation Envoyé par JPL Voir le message
    (...)

    J'aurais dû écrire "usage illicite" ce qui correspond à ce que j'avais en tête. J'ai donné un exemple hypothétique dans le message 15. Il est évident que s'il s'agit de données accessibles à un visiteur autorisé, qu'il veut stocker pour son usage personnel dans une BDD locale c'est sans problème. Disons qu'initialement il y avait une question fort légitime posée au demandeur et que certains ont voulu y voir de la paranoïa et en faire le procès.


    Tu ne t'imagines pas le nombre de question cousues de fil blanc (et donc naïves) qui peuvent être posées sur les forums de FS.
    Évidemment que la demande est louche, mais pas a cause du https ... et elle est toute aussi louche que celle de vouloir parser un tableau html (du moins a priori).

    Je constate (et j'en suis heureux par ailleurs) qu'il n'y a eu aucune modération forte d'aucun côté. Ce que je trouve bizarre, mais bizarre n'est pas le bon mot disons plutôt ce que je trouve très significatif est que dans le cas d'une question type "comment parser un tableau" on ne demande pas "pour quoi faire ?" mais on trouve des intervenants (j'en suis du nombre d'ailleurs) qui redoublent d'ingéniosité pour aider l'utilisateur alors qu'ici à cause du terme httpstout le monde devient méfiant.

    Je le remarque d'autant plus que le https n'a rien à voir avec une sécurisation des données, mais uniquement avec l'authentification de la source des données et la protection de leur transfert vers le client. Donc a priori rien qui ne concerne quoi que ce soit d'illégal, disons pas plus potentiellement que l'autre fil.

    Comment serait modérée une question du genre : "Comment générer toutes les anagrammes d'un mot donné ?"

  25. #24
    JPL
    Responsable des forums

    Re : capturer les données d'un site web

    Tu oublies ce que j'ai déjà dit : entre un tableau et une BDD il y a généralement une énorme différence de volume. J'ai également dit qu'on ne met généralement pas le même type de données dans un site accessible en http et en https.

    Pour Dormeur74 : tes CSS tu peux les mettre où tu veux (toute révérence gardée) mais finalement n'importe qui regardant ton site va les retrouver dans le cache de son navigateur.
    Dernière modification par JPL ; 15/09/2011 à 16h53.
    Rien ne sert de penser, il faut réfléchir avant - Pierre Dac

  26. #25
    invite4492c379

    Re : capturer les données d'un site web

    Citation Envoyé par Dormeur74 Voir le message
    Je constate un truc assez marrant : luckylucky ne se manifeste plus. M'est avis que le comité de surveillance a mis le doigt sur un truc où, sans être parano, on est en droit de se poser des tas de questions.
    Il ne se manifeste plus ? C'est en effet curieux ... il doit être coupable

    Je vais lui envoyer un petit MP pour m'excuser d'avoir pourri le fil ..

    Citation Envoyé par Dormeur74 Voir le message
    Je me suis fait taxer un fichier CSS la semaine dernière sur lequel j'avais passé une quinzaine de jours. Je l'ai su parce que l'auteur, pas vicieux pour un sou, a utilisé mon formulaire pour me poser une question sur un script qu'il avait récupéré en consultant le code source. Faut-il préciser que cela m'a mis en boule pour toute la journée. Et c'est vrai, sur la toile, les fichiers laborieux (Java, JS, CSS, etc.) devraient être mis dans des dossiers protégés.

    Hélas, cette forme de piratage est quotidienne en simple HTTP.
    Piratage ?

    Citation Envoyé par Dormeur74 Voir le message

    En HTTPS, on passe de la correctionnelle aux assises. Je suis étonné, photo57, que tu sois surpris que les arbitres aient sorti un carton jaune ; le rouge consistant à fermer le fil, ce que j'aurais fait sans état d'âme.
    Je ne suis pas surpris du carton jaune ... mais comme je l'explique dans un post précédent je suis surtout surpris que l'on soit d'office méfiant lorsqu'apparaît le mot sécurité. Alors qu'en soi utiliser https ne signifie en rien vouloir craquer quoi que ce soit et ce quelles que soient les données récupérées. Pour preuve je cite un autre fil où la demande est potentiellement aussi dangeureuse, mais largement moins identifiée comme telle, autant par la modération que par les intervenants.

  27. #26
    invite4492c379

    Re : capturer les données d'un site web

    Citation Envoyé par JPL Voir le message
    Tu oublies ce que j'ai déjà dit : entre un tableau et une BDD il y a généralement une énorme différence de volume. J'ai également dit qu'on ne met généralement pas le même type de données dans un site accessible en http et en https.

    Les données récupérées du tableau parsé dans l'autre fil (dont on ne connait pas grand chose en fait, ni la taille ni l'origine, ...) elles sont stockées où ?
    On ne met le même type de données dans un site accessible en http et en https ... mais leur accès se fait de la même manière, tout est transparent. La plupart des users ne remarquent jamais le https.

    Dans ce fil on a :

    Citation Envoyé par luckylucky Voir le message
    Salut à tous !

    J'aimerais enregistrer les données d'un site web et stocker ces informations dans une BDD.

    Il n'accède pas à un BdD via https comme tu sembles le comprendre, ce sont les données qu'il récupère qu'il désire stocker dans une BdD.

  28. #27
    Dormeur74

    Re : capturer les données d'un site web

    Pourquoi ? Est-ce que ça retire quelque chose à ton travail ?
    Bien sûr ! Sinon, je ne me serais pas senti frustré qu'un type pas vicieux pour un rond ait fait un template du site en question.

    Je me suis mal exprimé. Les fichiers sur lesquels on passe le plus de temps ne sont pas les fichiers HTML, mais les fichiers de script. Ceux-là devraient être dans des dossiers protégés, ce qui n'est pas possible aujourd'hui. Un problème qui se pose depuis plus de dix ans. Je pense qu'on y arrivera, probablement aux forceps, mais ne vois pas d'autre façon de protéger la propriété intellectuelle.

    Un type qui demande, c'est du partage, un type qui s'approprie, c'est du piratage. Entre les deux mots, le "i" fait la différence.

  29. #28
    invite765732342432
    Invité

    Re : capturer les données d'un site web

    L'utilisation classique de la récupération en masse de données et de stockage en base de données, c'est faire un moteur de recherche.
    Vouloir accéder à un serveur en https est parfaitement légitime dans ce cas.

    Ajoutons qu'il est actuellement chaudement recommandé à un maximum de sites web de passer en https, pour sécuriser un minimum les connexions via des hotspots ou au réseaux wifi, etc...

  30. #29
    invite765732342432
    Invité

    Re : capturer les données d'un site web

    Citation Envoyé par Dormeur74 Voir le message
    Bien sûr ! Sinon, je ne me serais pas senti frustré qu'un type pas vicieux pour un rond ait fait un template du site en question.
    Honnêtement, je trouve ça dommage.
    Tu utilises un logiciel libre pour le site que tu as mis en lien sur ton profil. Tu sembles en fait te servir du libre, sans en partager les valeurs.
    (d'ailleurs, si tes scripts constituent des modifications de ce logiciel libre, alors il est potentiellement illégal de ne pas les diffuser sous licence libre)

    Ceux-là devraient être dans des dossiers protégés, ce qui n'est pas possible aujourd'hui. Un problème qui se pose depuis plus de dix ans.
    C'est techniquement impossible. A moins d'utiliser des surcouches logicielles sur le poste client (comme flash, par exemple), cassant le principe du web.
    Si tu as une propriété intellectuelle à défendre, les tribunaux sont là pour ça.

  31. #30
    Dormeur74

    Re : capturer les données d'un site web

    Tu utilises un logiciel libre pour le site que tu as mis en lien sur ton profil. Tu sembles en fait te servir du libre, sans en partager les valeurs.
    Joli ! Comme coup bas, on ne pouvait pas faire mieux. D'abord je n'utilise aucun logiciel libre pour gérer mon site. Contrairement à beaucoup, j'ai une licence en bonne et due forme pour le bundle Macromedia. Je contribue à Piwigo et ai payé une licence pour utiliser le moteur flash des slideshows que tu peux voir dans la rubrique diaporamas. J'ai d'autre part probablement plus de freewares à mon compte que toi, car j'ai démarré sous OUF. Puis WSKA, DPTools, France-Teaser etc. Pas de leçon stp sur le shareware et le freeware.

    Si tu as plus sérieux à proposer, n'hésite pas. Mais sois précis dans tes attaques. Ne donne pas dans le "Mentez, mentez, il en restera toujours quelque chose…", il y a longtemps que Lénine est décomposé. Je ne reprendrai pas sur ce fil qui n'est plus de mon âge.

Page 1 sur 2 1 DernièreDernière

Discussions similaires

  1. Actualisation d'un site web
    Par invite1ca02133 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 4
    Dernier message: 18/03/2008, 06h20
  2. php récupérer les données d'un site web
    Par invite66fa5dc5 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 2
    Dernier message: 26/02/2008, 11h00
  3. hébergement d'un site Web
    Par invite2153e552 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 8
    Dernier message: 13/05/2007, 17h14
  4. Création d'un site Web
    Par invite87912a33 dans le forum Internet - Réseau - Sécurité générale
    Réponses: 27
    Dernier message: 01/07/2006, 20h12
  5. Publication d'un site web
    Par invite2d95666e dans le forum Internet - Réseau - Sécurité générale
    Réponses: 2
    Dernier message: 04/02/2004, 23h13