WEB Scraping PYTHON
Répondre à la discussion
Affichage des résultats 1 à 3 sur 3

WEB Scraping PYTHON



  1. #1
    balto1717

    WEB Scraping PYTHON


    ------

    Bonjour, je suis un débutant en python et en WEB scraping. Je dois réaliser un projet qui récupère un bon nombre d'informations sur des emplois sur le site Glassdoor. Je me retrouve confronté à un problème : Les informations que je désire se trouvent dans des divisions possédant toutes la même classe, jusque là pas de problème, dans ces divisions se trouvent des balises <span> Le text que je veux </span>. J'arrive à afficher soit le texte de tous les span soit une liste des span mais possedant tout le code html que je ne veux pas. Ce qui me faudrait c'est un mélange des deux je veux une liste comprenant uniquement le texte des span.
    Voici mon code :
    Code:
    import requests
    from bs4 import BeautifulSoup
    
    url = 'https://www.glassdoor.fr/Emploi/paris-ia-emplois-SRCH_IL.0,5_IC2881970_KO6,8.htm'
    
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'}
    
    response = requests.get(url, headers=headers)
    print(response)
    if response.ok:
        i = 0
        soup = BeautifulSoup(response.text,"lxml")
        mydivs = soup.findAll("div", {"class": "d-flex flex-column pl-sm css-1buaf54 job-search-key-1mn3dn8 e1rrn5ka0"})
        with open("data.txt", "a+") as fichier:
            for span in mydivs:
    
                listeSpan = span.findAll("span")
                print("Liste des span : ",listeSpan)
    
                print("Tous les span en text : ",span.text)
    Merci pour votre aide !

    -----

  2. #2
    CM63

    Re : WEB Scraping PYTHON

    C'est un problème général de traitement de l'information, ce n'est pas spécifique à Web Scraping Python. Tu as des infos que tu veux trier : j'en veux certains et pas d'autres, selon un certain critère de choix.
    Le mieux pour faire cela dans Python est d'utiliser des dictionnaires:

    Code:
    a={}
    >>> a["un"]=1
    >>> a["deux"]=2
    >>> a
    {'un': 1, 'deux': 2}
    >>> a.__class__
    <class 'dict'>
    Et après tu fais le tri en faisant des tests.
    Quoi? Quelque chose que je ne connais pas et qui me fait l'affront d'exister?!

  3. #3
    oxycryo

    Re : WEB Scraping PYTHON

    je sais pas, mais perso, j'utiliserais simplement url.urlib ou quelquechose avoisinant pour télécharger la page HTML
    et ensuite faire quelques def spécifique pour le traitement du HTML à l'équivalen des fonction DOM du javascript... récupérer des balises <html> et/ou leur contenu.

    pas besoin de bibliothèque particulière (beautiful soup) pour downloader du contenu HTML...

Discussions similaires

  1. Self en python
    Par Leond95 dans le forum Programmation et langages, Algorithmique
    Réponses: 7
    Dernier message: 17/03/2019, 12h59
  2. [Python] Problème de lag de programme et essai de Timer python
    Par Loupsio dans le forum Programmation et langages, Algorithmique
    Réponses: 20
    Dernier message: 26/01/2018, 15h14
  3. python
    Par quasarLie dans le forum Programmation et langages, Algorithmique
    Réponses: 1
    Dernier message: 08/11/2017, 21h36
  4. [Python] subprocess, lancer un autre programme avec python
    Par Loupsio dans le forum Programmation et langages, Algorithmique
    Réponses: 10
    Dernier message: 30/11/2016, 18h56
  5. en python le multi tache n'est pas possible alors pourquoi les threads existent sur python?
    Par docEmmettBrown dans le forum Programmation et langages, Algorithmique
    Réponses: 5
    Dernier message: 10/06/2015, 15h47