Bonjour à tous,
Je cherche à parser du PDF avec python,
j'ai vu qu'il existait des outils tels que pyPDF2 ou pdfMiner mais ceux ci servent à lire le PDF et a chercher des mots, un peu comme s'il s'agissait d'un .txt, (ou récupérer les métadonnées, mais cela reste donc limité)
Or j'ai un pdf créé avec LaTeX (package hyperref) ce qui me permet non seulement d'avoir des champs remplissables (champs a écrire, menu déroulants, etc...) dans le pdf, mais aussi de nommer chaque champs comme un html afin de pouvoir y avoir accès plus tard, ex :
Chaque question remplissable du pdf a donc un "name" associé, et je souhaiterai parser les informaions afin de recueillir les champs rempli du PDF grâce à celaCode:\TextField[name=poids]{Poids :} \ChoiceMenu[name=sexe,combo]{Sexe}{Masculin, Féminin, Non-binaire}
Celui qui avait l'air le plus complet est pyPDF2, mais je n'ai pas vu quoi que ce soit qui mentionne de parser et récupérer autre chose que les métadonnées (titre auteur...), je n'ai rien vu sur les champs remplissables
car lorsqu'on passe par :il récupère des attributs connus :Code:pdf.getDocumentInfo()
'/Author'
'/CreationDate'
'/Creator'
'/Producer'
'/Title'
Mais pas des attributs qu'on aurait nous même donné,
Merci à vous
-----