Guide de traitement de PDF

Vue d'ensemble

Ce guide couvre les opérations essentielles de traitement de PDF en utilisant des bibliothèques Python et des outils en ligne de commande. Pour les fonctionnalités avancées, les bibliothèques JavaScript et des exemples détaillés, consultez REFERENCE.md. Si vous devez remplir un formulaire PDF, lisez FORMS.md et suivez ses instructions.

Démarrage rapide

from pypdf import PdfReader, PdfWriter

# Lire un PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

# Extraire le texte
text = ""
for page in reader.pages:
    text += page.extract_text()

Bibliothèques Python

pypdf - Opérations de base

Fusionner des PDF

from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

Diviser un PDF

reader = PdfReader("input.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

Extraire les métadonnées

reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Subject: {meta.subject}")
print(f"Creator: {meta.creator}")

Faire pivoter les pages

reader = PdfReader("input.pdf")
writer = PdfWriter()

page = reader.pages[0]
page.rotate(90)  # Pivoter de 90 degrés dans le sens horaire
writer.add_page(page)

with open("rotated.pdf", "wb") as output:
    writer.write(output)

pdfplumber - Extraction de texte et de tableaux

Extraire le texte avec mise en page

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

Extraire les tableaux

with pdfplumber.open("document.pdf") as pdf:
    for i, page in enumerate(pdf.pages):
        tables = page.extract_tables()
        for j, table in enumerate(tables):
            print(f"Table {j+1} on page {i+1}:")
            for row in table:
                print(row)

Extraction avancée de tableaux

import pandas as pd

with pdfplumber.open("document.pdf") as pdf:
    all_tables = []
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:  # Check if table is not empty
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

# Combiner tous les tableaux
if all_tables:
    combined_df = pd.concat(all_tables, ignore_index=True)
    combined_df.to_excel("extracted_tables.xlsx", index=False)

reportlab - Créer des PDF

Création basique de PDF

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter

# Ajouter du texte
c.drawString(100, height - 100, "Hello World!")
c.drawString(100, height - 120, "This is a PDF created with reportlab")

# Ajouter une ligne
c.line(100, height - 140, 400, height - 140)

# Enregistrer
c.save()

Créer un PDF avec plusieurs pages

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, PageBreak
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []

# Ajouter du contenu
title = Paragraph("Report Title", styles['Title'])
story.append(title)
story.append(Spacer(1, 12))

body = Paragraph("This is the body of the report. " * 20, styles['Normal'])
story.append(body)
story.append(PageBreak())

# Page 2
story.append(Paragraph("Page 2", styles['Heading1']))
story.append(Paragraph("Content for page 2", styles['Normal']))

# Générer le PDF
doc.build(story)

Indices et exposants

IMPORTANT : N'utilisez jamais de caractères Unicode pour les indices/exposants (₀₁₂₃₄₅₆₇₈₉, ⁰¹²³⁴⁵⁶⁷⁸⁹) dans les PDF ReportLab. Les polices intégrées ne contiennent pas ces glyphes, ce qui les rend sous forme de carrés noirs pleins.

À la place, utilisez les balises de markup XML de ReportLab dans les objets Paragraph :

from reportlab.platypus import Paragraph
from reportlab.lib.styles import getSampleStyleSheet

styles = getSampleStyleSheet()

# Indices : utiliser la balise <sub>
chemical = Paragraph("H<sub>2</sub>O", styles['Normal'])

# Exposants : utiliser la balise <super>
squared = Paragraph("x<super>2</super> + y<super>2</super>", styles['Normal'])

Pour le texte dessiné sur canvas (pas des objets Paragraph), ajustez manuellement la taille de la police et la position plutôt que d'utiliser des indices/exposants Unicode.

Outils en ligne de commande

pdftotext (poppler-utils)

# Extraire le texte
pdftotext input.pdf output.txt

# Extraire le texte en préservant la mise en page
pdftotext -layout input.pdf output.txt

# Extraire des pages spécifiques
pdftotext -f 1 -l 5 input.pdf output.txt  # Pages 1-5

qpdf

# Fusionner des PDF
qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

# Diviser les pages
qpdf input.pdf --pages . 1-5 -- pages1-5.pdf
qpdf input.pdf --pages . 6-10 -- pages6-10.pdf

# Faire pivoter les pages
qpdf input.pdf output.pdf --rotate=+90:1  # Pivoter la page 1 de 90 degrés

# Supprimer le mot de passe
qpdf --password=mypassword --decrypt encrypted.pdf decrypted.pdf

pdftk (si disponible)

# Fusionner
pdftk file1.pdf file2.pdf cat output merged.pdf

# Diviser
pdftk input.pdf burst

# Faire pivoter
pdftk input.pdf rotate 1east output rotated.pdf

Tâches courantes

Extraire le texte de PDF numérisés

# Requis : pip install pytesseract pdf2image
import pytesseract
from pdf2image import convert_from_path

# Convertir le PDF en images
images = convert_from_path('scanned.pdf')

# OCR pour chaque page
text = ""
for i, image in enumerate(images):
    text += f"Page {i+1}:\n"
    text += pytesseract.image_to_string(image)
    text += "\n\n"

print(text)

Ajouter un filigrane

from pypdf import PdfReader, PdfWriter

# Créer un filigrane (ou charger un existant)
watermark = PdfReader("watermark.pdf").pages[0]

# Appliquer à toutes les pages
reader = PdfReader("document.pdf")
writer = PdfWriter()

for page in reader.pages:
    page.merge_page(watermark)
    writer.add_page(page)

with open("watermarked.pdf", "wb") as output:
    writer.write(output)

Extraire des images

# Utiliser pdfimages (poppler-utils)
pdfimages -j input.pdf output_prefix

# Cela extrait toutes les images en tant que output_prefix-000.jpg, output_prefix-001.jpg, etc.

Protection par mot de passe

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

for page in reader.pages:
    writer.add_page(page)

# Ajouter un mot de passe
writer.encrypt("userpassword", "ownerpassword")

with open("encrypted.pdf", "wb") as output:
    writer.write(output)

Référence rapide

Tâche	Meilleur outil	Commande/Code
Fusionner des PDF	pypdf	`writer.add_page(page)`
Diviser des PDF	pypdf	Une page par fichier
Extraire le texte	pdfplumber	`page.extract_text()`
Extraire les tableaux	pdfplumber	`page.extract_tables()`
Créer des PDF	reportlab	Canvas ou Platypus
Fusion en ligne de commande	qpdf	`qpdf --empty --pages ...`
OCR pour PDF numérisés	pytesseract	Convertir en image d'abord
Remplir des formulaires PDF	pdf-lib ou pypdf (voir FORMS.md)	Voir FORMS.md

Prochaines étapes

Pour l'utilisation avancée de pypdfium2, consultez REFERENCE.md
Pour les bibliothèques JavaScript (pdf-lib), consultez REFERENCE.md
Si vous devez remplir un formulaire PDF, suivez les instructions dans FORMS.md
Pour les guides de dépannage, consultez REFERENCE.md