WEB Scraping PYTHON

invitec2d1a74e · 09/02/2022, 17h46

Bonjour, je suis un débutant en python et en WEB scraping. Je dois réaliser un projet qui récupère un bon nombre d'informations sur des emplois sur le site Glassdoor. Je me retrouve confronté à un problème : Les informations que je désire se trouvent dans des divisions possédant toutes la même classe, jusque là pas de problème, dans ces divisions se trouvent des balises <span> Le text que je veux </span>. J'arrive à afficher soit le texte de tous les span soit une liste des span mais possedant tout le code html que je ne veux pas. Ce qui me faudrait c'est un mélange des deux je veux une liste comprenant uniquement le texte des span.
Voici mon code :

Code:

import requests
from bs4 import BeautifulSoup

url = 'https://www.glassdoor.fr/Emploi/paris-ia-emplois-SRCH_IL.0,5_IC2881970_KO6,8.htm'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'}

response = requests.get(url, headers=headers)
print(response)
if response.ok:
    i = 0
    soup = BeautifulSoup(response.text,"lxml")
    mydivs = soup.findAll("div", {"class": "d-flex flex-column pl-sm css-1buaf54 job-search-key-1mn3dn8 e1rrn5ka0"})
    with open("data.txt", "a+") as fichier:
        for span in mydivs:

            listeSpan = span.findAll("span")
            print("Liste des span : ",listeSpan)

            print("Tous les span en text : ",span.text)

Merci pour votre aide !

**CM63** · 13/02/2022, 10h26

C'est un problème général de traitement de l'information, ce n'est pas spécifique à Web Scraping Python. Tu as des infos que tu veux trier : j'en veux certains et pas d'autres, selon un certain critère de choix.
Le mieux pour faire cela dans Python est d'utiliser des dictionnaires:

Code:

a={}
>>> a["un"]=1
>>> a["deux"]=2
>>> a
{'un': 1, 'deux': 2}
>>> a.__class__
<class 'dict'>

Et après tu fais le tri en faisant des tests.

**oxycryo** · 02/03/2022, 22h48

je sais pas, mais perso, j'utiliserais simplement url.urlib ou quelquechose avoisinant pour télécharger la page HTML
et ensuite faire quelques def spécifique pour le traitement du HTML à l'équivalen des fonction DOM du javascript... récupérer des balises <html> et/ou leur contenu.

pas besoin de bibliothèque particulière (beautiful soup) pour downloader du contenu HTML...

WEB Scraping PYTHON

WEB Scraping PYTHON

Re : WEB Scraping PYTHON

Re : WEB Scraping PYTHON

Discussions similaires

Self en python

[Python] Problème de lag de programme et essai de Timer python

python

[Python] subprocess, lancer un autre programme avec python

en python le multi tache n'est pas possible alors pourquoi les threads existent sur python?