Bonjour, je suis un débutant en python et en WEB scraping. Je dois réaliser un projet qui récupère un bon nombre d'informations sur des emplois sur le site Glassdoor. Je me retrouve confronté à un problème : Les informations que je désire se trouvent dans des divisions possédant toutes la même classe, jusque là pas de problème, dans ces divisions se trouvent des balises <span> Le text que je veux </span>. J'arrive à afficher soit le texte de tous les span soit une liste des span mais possedant tout le code html que je ne veux pas. Ce qui me faudrait c'est un mélange des deux je veux une liste comprenant uniquement le texte des span.
Voici mon code :
Merci pour votre aide !Code:import requests from bs4 import BeautifulSoup url = 'https://www.glassdoor.fr/Emploi/paris-ia-emplois-SRCH_IL.0,5_IC2881970_KO6,8.htm' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'} response = requests.get(url, headers=headers) print(response) if response.ok: i = 0 soup = BeautifulSoup(response.text,"lxml") mydivs = soup.findAll("div", {"class": "d-flex flex-column pl-sm css-1buaf54 job-search-key-1mn3dn8 e1rrn5ka0"}) with open("data.txt", "a+") as fichier: for span in mydivs: listeSpan = span.findAll("span") print("Liste des span : ",listeSpan) print("Tous les span en text : ",span.text)
-----