Guide de traitement de PDF
Vue d'ensemble
Ce guide couvre les opérations essentielles de traitement de PDF en utilisant des bibliothèques Python et des outils en ligne de commande. Pour les fonctionnalités avancées, les bibliothèques JavaScript et des exemples détaillés, consultez REFERENCE.md. Si vous devez remplir un formulaire PDF, lisez FORMS.md et suivez ses instructions.
Démarrage rapide
from pypdf import PdfReader, PdfWriter
# Lire un PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")
# Extraire le texte
text = ""
for page in reader.pages:
text += page.extract_text()
Bibliothèques Python
pypdf - Opérations de base
Fusionner des PDF
from pypdf import PdfWriter, PdfReader
writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
reader = PdfReader(pdf_file)
for page in reader.pages:
writer.add_page(page)
with open("merged.pdf", "wb") as output:
writer.write(output)
Diviser un PDF
reader = PdfReader("input.pdf")
for i, page in enumerate(reader.pages):
writer = PdfWriter()
writer.add_page(page)
with open(f"page_{i+1}.pdf", "wb") as output:
writer.write(output)
Extraire les métadonnées
reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Subject: {meta.subject}")
print(f"Creator: {meta.creator}")
Faire pivoter les pages
reader = PdfReader("input.pdf")
writer = PdfWriter()
page = reader.pages[0]
page.rotate(90) # Pivoter de 90 degrés dans le sens horaire
writer.add_page(page)
with open("rotated.pdf", "wb") as output:
writer.write(output)
pdfplumber - Extraction de texte et de tableaux
Extraire le texte avec mise en page
import pdfplumber
with pdfplumber.open("document.pdf") as pdf:
for page in pdf.pages:
text = page.extract_text()
print(text)
Extraire les tableaux
with pdfplumber.open("document.pdf") as pdf:
for i, page in enumerate(pdf.pages):
tables = page.extract_tables()
for j, table in enumerate(tables):
print(f"Table {j+1} on page {i+1}:")
for row in table:
print(row)
Extraction avancée de tableaux
import pandas as pd
with pdfplumber.open("document.pdf") as pdf:
all_tables = []
for page in pdf.pages:
tables = page.extract_tables()
for table in tables:
if table: # Check if table is not empty
df = pd.DataFrame(table[1:], columns=table[0])
all_tables.append(df)
# Combiner tous les tableaux
if all_tables:
combined_df = pd.concat(all_tables, ignore_index=True)
combined_df.to_excel("extracted_tables.xlsx", index=False)
reportlab - Créer des PDF
Création basique de PDF
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
# Ajouter du texte
c.drawString(100, height - 100, "Hello World!")
c.drawString(100, height - 120, "This is a PDF created with reportlab")
# Ajouter une ligne
c.line(100, height - 140, 400, height - 140)
# Enregistrer
c.save()
Créer un PDF avec plusieurs pages
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, PageBreak
from reportlab.lib.styles import getSampleStyleSheet
doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []
# Ajouter du contenu
title = Paragraph("Report Title", styles['Title'])
story.append(title)
story.append(Spacer(1, 12))
body = Paragraph("This is the body of the report. " * 20, styles['Normal'])
story.append(body)
story.append(PageBreak())
# Page 2
story.append(Paragraph("Page 2", styles['Heading1']))
story.append(Paragraph("Content for page 2", styles['Normal']))
# Générer le PDF
doc.build(story)
Indices et exposants
IMPORTANT : N'utilisez jamais de caractères Unicode pour les indices/exposants (₀₁₂₃₄₅₆₇₈₉, ⁰¹²³⁴⁵⁶⁷⁸⁹) dans les PDF ReportLab. Les polices intégrées ne contiennent pas ces glyphes, ce qui les rend sous forme de carrés noirs pleins.
À la place, utilisez les balises de markup XML de ReportLab dans les objets Paragraph :
from reportlab.platypus import Paragraph
from reportlab.lib.styles import getSampleStyleSheet
styles = getSampleStyleSheet()
# Indices : utiliser la balise <sub>
chemical = Paragraph("H<sub>2</sub>O", styles['Normal'])
# Exposants : utiliser la balise <super>
squared = Paragraph("x<super>2</super> + y<super>2</super>", styles['Normal'])
Pour le texte dessiné sur canvas (pas des objets Paragraph), ajustez manuellement la taille de la police et la position plutôt que d'utiliser des indices/exposants Unicode.
Outils en ligne de commande
pdftotext (poppler-utils)
# Extraire le texte
pdftotext input.pdf output.txt
# Extraire le texte en préservant la mise en page
pdftotext -layout input.pdf output.txt
# Extraire des pages spécifiques
pdftotext -f 1 -l 5 input.pdf output.txt # Pages 1-5
qpdf
# Fusionner des PDF
qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf
# Diviser les pages
qpdf input.pdf --pages . 1-5 -- pages1-5.pdf
qpdf input.pdf --pages . 6-10 -- pages6-10.pdf
# Faire pivoter les pages
qpdf input.pdf output.pdf --rotate=+90:1 # Pivoter la page 1 de 90 degrés
# Supprimer le mot de passe
qpdf --password=mypassword --decrypt encrypted.pdf decrypted.pdf
pdftk (si disponible)
# Fusionner
pdftk file1.pdf file2.pdf cat output merged.pdf
# Diviser
pdftk input.pdf burst
# Faire pivoter
pdftk input.pdf rotate 1east output rotated.pdf
Tâches courantes
Extraire le texte de PDF numérisés
# Requis : pip install pytesseract pdf2image
import pytesseract
from pdf2image import convert_from_path
# Convertir le PDF en images
images = convert_from_path('scanned.pdf')
# OCR pour chaque page
text = ""
for i, image in enumerate(images):
text += f"Page {i+1}:\n"
text += pytesseract.image_to_string(image)
text += "\n\n"
print(text)
Ajouter un filigrane
from pypdf import PdfReader, PdfWriter
# Créer un filigrane (ou charger un existant)
watermark = PdfReader("watermark.pdf").pages[0]
# Appliquer à toutes les pages
reader = PdfReader("document.pdf")
writer = PdfWriter()
for page in reader.pages:
page.merge_page(watermark)
writer.add_page(page)
with open("watermarked.pdf", "wb") as output:
writer.write(output)
Extraire des images
# Utiliser pdfimages (poppler-utils)
pdfimages -j input.pdf output_prefix
# Cela extrait toutes les images en tant que output_prefix-000.jpg, output_prefix-001.jpg, etc.
Protection par mot de passe
from pypdf import PdfReader, PdfWriter
reader = PdfReader("input.pdf")
writer = PdfWriter()
for page in reader.pages:
writer.add_page(page)
# Ajouter un mot de passe
writer.encrypt("userpassword", "ownerpassword")
with open("encrypted.pdf", "wb") as output:
writer.write(output)
Référence rapide
| Tâche | Meilleur outil | Commande/Code |
|---|---|---|
| Fusionner des PDF | pypdf | writer.add_page(page) |
| Diviser des PDF | pypdf | Une page par fichier |
| Extraire le texte | pdfplumber | page.extract_text() |
| Extraire les tableaux | pdfplumber | page.extract_tables() |
| Créer des PDF | reportlab | Canvas ou Platypus |
| Fusion en ligne de commande | qpdf | qpdf --empty --pages ... |
| OCR pour PDF numérisés | pytesseract | Convertir en image d'abord |
| Remplir des formulaires PDF | pdf-lib ou pypdf (voir FORMS.md) | Voir FORMS.md |
Prochaines étapes
- Pour l'utilisation avancée de pypdfium2, consultez REFERENCE.md
- Pour les bibliothèques JavaScript (pdf-lib), consultez REFERENCE.md
- Si vous devez remplir un formulaire PDF, suivez les instructions dans FORMS.md
- Pour les guides de dépannage, consultez REFERENCE.md