azure-ai-document-intelligence-dotnet

npx skills add https://github.com/microsoft/skills --skill azure-ai-document-intelligence-dotnet

Azure.AI.DocumentIntelligence (.NET)

Extrayez du texte, des tableaux et des données structurées à partir de documents en utilisant des modèles prédéfinis et personnalisés.

Installation

dotnet add package Azure.AI.DocumentIntelligence
dotnet add package Azure.Identity

Version actuelle : v1.0.0 (GA)

Variables d'environnement

DOCUMENT_INTELLIGENCE_ENDPOINT=https://<resource-name>.cognitiveservices.azure.com/
DOCUMENT_INTELLIGENCE_API_KEY=<your-api-key>
BLOB_CONTAINER_SAS_URL=https://<storage>.blob.core.windows.net/<container>?<sas-token>

Authentification

Microsoft Entra ID (recommandé)

using Azure.Identity;
using Azure.AI.DocumentIntelligence;

string endpoint = Environment.GetEnvironmentVariable("DOCUMENT_INTELLIGENCE_ENDPOINT");
var credential = new DefaultAzureCredential();
var client = new DocumentIntelligenceClient(new Uri(endpoint), credential);

Remarque : Entra ID nécessite un sous-domaine personnalisé (par exemple, https://<resource-name>.cognitiveservices.azure.com/), et non un endpoint régional.

Clé API

string endpoint = Environment.GetEnvironmentVariable("DOCUMENT_INTELLIGENCE_ENDPOINT");
string apiKey = Environment.GetEnvironmentVariable("DOCUMENT_INTELLIGENCE_API_KEY");
var client = new DocumentIntelligenceClient(new Uri(endpoint), new AzureKeyCredential(apiKey));

Types de clients

Client Objectif
DocumentIntelligenceClient Analyser les documents, classer les documents
DocumentIntelligenceAdministrationClient Créer/gérer les modèles et classificateurs personnalisés

Modèles prédéfinis

ID du modèle Description
prebuilt-read Extraire le texte, les langues, l'écriture manuscrite
prebuilt-layout Extraire le texte, les tableaux, les cases à cocher, la structure
prebuilt-invoice Extraire les champs de facture (fournisseur, articles, totaux)
prebuilt-receipt Extraire les champs de reçu (commerçant, articles, total)
prebuilt-idDocument Extraire les champs de document d'identité (nom, date de naissance, adresse)
prebuilt-businessCard Extraire les champs de carte de visite
prebuilt-tax.us.w2 Extraire les champs du formulaire fiscal W-2
prebuilt-healthInsuranceCard.us Extraire les champs de carte d'assurance maladie

Flux de travail principaux

1. Analyser une facture

using Azure.AI.DocumentIntelligence;

Uri invoiceUri = new Uri("https://example.com/invoice.pdf");

Operation<AnalyzeResult> operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, 
    "prebuilt-invoice", 
    invoiceUri);

AnalyzeResult result = operation.Value;

foreach (AnalyzedDocument document in result.Documents)
{
    if (document.Fields.TryGetValue("VendorName", out DocumentField vendorNameField)
        && vendorNameField.FieldType == DocumentFieldType.String)
    {
        string vendorName = vendorNameField.ValueString;
        Console.WriteLine($"Vendor Name: '{vendorName}', confidence: {vendorNameField.Confidence}");
    }

    if (document.Fields.TryGetValue("InvoiceTotal", out DocumentField invoiceTotalField)
        && invoiceTotalField.FieldType == DocumentFieldType.Currency)
    {
        CurrencyValue invoiceTotal = invoiceTotalField.ValueCurrency;
        Console.WriteLine($"Invoice Total: '{invoiceTotal.CurrencySymbol}{invoiceTotal.Amount}'");
    }

    // Extraire les articles
    if (document.Fields.TryGetValue("Items", out DocumentField itemsField)
        && itemsField.FieldType == DocumentFieldType.List)
    {
        foreach (DocumentField item in itemsField.ValueList)
        {
            var itemFields = item.ValueDictionary;
            if (itemFields.TryGetValue("Description", out DocumentField descField))
                Console.WriteLine($"  Item: {descField.ValueString}");
        }
    }
}

2. Extraire la mise en page (texte, tableaux, structure)

Uri fileUri = new Uri("https://example.com/document.pdf");

Operation<AnalyzeResult> operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, 
    "prebuilt-layout", 
    fileUri);

AnalyzeResult result = operation.Value;

// Extraire le texte par page
foreach (DocumentPage page in result.Pages)
{
    Console.WriteLine($"Page {page.PageNumber}: {page.Lines.Count} lines, {page.Words.Count} words");

    foreach (DocumentLine line in page.Lines)
    {
        Console.WriteLine($"  Line: '{line.Content}'");
    }
}

// Extraire les tableaux
foreach (DocumentTable table in result.Tables)
{
    Console.WriteLine($"Table: {table.RowCount} rows x {table.ColumnCount} columns");
    foreach (DocumentTableCell cell in table.Cells)
    {
        Console.WriteLine($"  Cell ({cell.RowIndex}, {cell.ColumnIndex}): {cell.Content}");
    }
}

3. Analyser un reçu

Operation<AnalyzeResult> operation = await client.AnalyzeDocumentAsync(
    WaitUntil.Completed, 
    "prebuilt-receipt", 
    receiptUri);

AnalyzeResult result = operation.Value;

foreach (AnalyzedDocument document in result.Documents)
{
    if (document.Fields.TryGetValue("MerchantName", out DocumentField merchantField))
        Console.WriteLine($"Merchant: {merchantField.ValueString}");

    if (document.Fields.TryGetValue("Total", out DocumentField totalField))
        Console.WriteLine($"Total: {totalField.ValueCurrency.Amount}");

    if (document.Fields.TryGetValue("TransactionDate", out DocumentField dateField))
        Console.WriteLine($"Date: {dateField.ValueDate}");
}

4. Créer un modèle personnalisé

var adminClient = new DocumentIntelligenceAdministrationClient(
    new Uri(endpoint), 
    new AzureKeyCredential(apiKey));

string modelId = "my-custom-model";
Uri blobContainerUri = new Uri("<blob-container-sas-url>");

var blobSource = new BlobContentSource(blobContainerUri);
var options = new BuildDocumentModelOptions(modelId, DocumentBuildMode.Template, blobSource);

Operation<DocumentModelDetails> operation = await adminClient.BuildDocumentModelAsync(
    WaitUntil.Completed, 
    options);

DocumentModelDetails model = operation.Value;

Console.WriteLine($"Model ID: {model.ModelId}");
Console.WriteLine($"Created: {model.CreatedOn}");

foreach (var docType in model.DocumentTypes)
{
    Console.WriteLine($"Document type: {docType.Key}");
    foreach (var field in docType.Value.FieldSchema)
    {
        Console.WriteLine($"  Field: {field.Key}, Confidence: {docType.Value.FieldConfidence[field.Key]}");
    }
}

5. Créer un classificateur de documents

string classifierId = "my-classifier";
Uri blobContainerUri = new Uri("<blob-container-sas-url>");

var sourceA = new BlobContentSource(blobContainerUri) { Prefix = "TypeA/train" };
var sourceB = new BlobContentSource(blobContainerUri) { Prefix = "TypeB/train" };

var docTypes = new Dictionary<string, ClassifierDocumentTypeDetails>()
{
    { "TypeA", new ClassifierDocumentTypeDetails(sourceA) },
    { "TypeB", new ClassifierDocumentTypeDetails(sourceB) }
};

var options = new BuildClassifierOptions(classifierId, docTypes);

Operation<DocumentClassifierDetails> operation = await adminClient.BuildClassifierAsync(
    WaitUntil.Completed, 
    options);

DocumentClassifierDetails classifier = operation.Value;
Console.WriteLine($"Classifier ID: {classifier.ClassifierId}");

6. Classer un document

string classifierId = "my-classifier";
Uri documentUri = new Uri("https://example.com/document.pdf");

var options = new ClassifyDocumentOptions(classifierId, documentUri);

Operation<AnalyzeResult> operation = await client.ClassifyDocumentAsync(
    WaitUntil.Completed, 
    options);

AnalyzeResult result = operation.Value;

foreach (AnalyzedDocument document in result.Documents)
{
    Console.WriteLine($"Document type: {document.DocumentType}, confidence: {document.Confidence}");
}

7. Gérer les modèles

// Obtenir les détails de la ressource
DocumentIntelligenceResourceDetails resourceDetails = await adminClient.GetResourceDetailsAsync();
Console.WriteLine($"Custom models: {resourceDetails.CustomDocumentModels.Count}/{resourceDetails.CustomDocumentModels.Limit}");

// Obtenir un modèle spécifique
DocumentModelDetails model = await adminClient.GetModelAsync("my-model-id");
Console.WriteLine($"Model: {model.ModelId}, Created: {model.CreatedOn}");

// Lister les modèles
await foreach (DocumentModelDetails modelItem in adminClient.GetModelsAsync())
{
    Console.WriteLine($"Model: {modelItem.ModelId}");
}

// Supprimer un modèle
await adminClient.DeleteModelAsync("my-model-id");

Référence des types clés

Type Description
DocumentIntelligenceClient Client principal pour l'analyse
DocumentIntelligenceAdministrationClient Gestion des modèles
AnalyzeResult Résultat de l'analyse du document
AnalyzedDocument Document unique dans le résultat
DocumentField Champ extrait avec valeur et confiance
DocumentFieldType String, Date, Number, Currency, etc.
DocumentPage Informations de page (lignes, mots, cases à cocher)
DocumentTable Tableau extrait avec cellules
DocumentModelDetails Métadonnées du modèle personnalisé
BlobContentSource Source de données d'entraînement

Modes de création

Mode Cas d'usage
DocumentBuildMode.Template Documents à mise en page fixe (formulaires)
DocumentBuildMode.Neural Documents à mise en page variable

Bonnes pratiques

  1. Utilisez DefaultAzureCredential pour la production
  2. Réutilisez les instances de client — les clients sont thread-safe
  3. Gérez les opérations longues — Utilisez WaitUntil.Completed pour la simplicité
  4. Vérifiez la confiance du champ — Vérifiez toujours la propriété Confidence
  5. Utilisez le modèle approprié — Prédéfini pour les documents courants, personnalisé pour les cas spécialisés
  6. Utilisez un sous-domaine personnalisé — Requis pour l'authentification Entra ID

Gestion des erreurs

using Azure;

try
{
    var operation = await client.AnalyzeDocumentAsync(
        WaitUntil.Completed, 
        "prebuilt-invoice", 
        documentUri);
}
catch (RequestFailedException ex)
{
    Console.WriteLine($"Error: {ex.Status} - {ex.Message}");
}

SDK connexes

SDK Objectif Installation
Azure.AI.DocumentIntelligence Analyse de documents (ce SDK) dotnet add package Azure.AI.DocumentIntelligence
Azure.AI.FormRecognizer SDK hérité (déprécié) Utilisez DocumentIntelligence à la place

Liens de référence

Ressource URL
Package NuGet https://www.nuget.org/packages/Azure.AI.DocumentIntelligence
Référence API https://learn.microsoft.com/dotnet/api/azure.ai.documentintelligence
Exemples GitHub https://github.com/Azure/azure-sdk-for-net/tree/main/sdk/documentintelligence/Azure.AI.DocumentIntelligence/samples
Document Intelligence Studio https://documentintelligence.ai.azure.com/
Modèles prédéfinis https://aka.ms/azsdk/formrecognizer/models

Skills similaires