Extracteur web universel

Extraction de données pilotée par l'IA à partir d'~100 Actors sur 15+ plateformes via l'Apify CLI.

Règles pour chaque commande apify :

Passez --json pour une sortie lisible par machine (stable entre versions du CLI).
Passez --user-agent apify-agent-skills/apify-ultimate-scraper pour l'attribution de télémétrie.
Redirigez stderr avec 2>/dev/null (stderr contient des messages de progression qui cassent les parseurs JSON).

Prérequis

Apify CLI v1.5.0+ (npm install -g apify-cli)
Session authentifiée (voir ci-dessous)

Authentification

Si une commande CLI échoue avec une erreur d'authentification, authentifiez-vous en utilisant l'une de ces méthodes :

OAuth (interactif) : apify login (ouvre le navigateur)
Variable d'environnement : export APIFY_TOKEN=your_token_here
Depuis fichier .env : source .env (si le fichier contient APIFY_TOKEN=...)

Générer un token : https://console.apify.com/settings/integrations

Flux de travail

Step 1: Comprendre l'objectif et sélectionner un Actor

Identifiez la plateforme cible et le cas d'usage. Lisez references/actor-index.md pour trouver le bon Actor.

Si la tâche implique un pipeline multi-étapes, lisez aussi le guide de workflow correspondant :

La tâche implique...	Lire
leads, contacts, emails, B2B	`references/workflows/lead-generation.md`
concurrent, publicités, tarification	`references/workflows/competitive-intel.md`
influenceur, créateur	`references/workflows/influencer-vetting.md`
marque, mentions, sentiment	`references/workflows/brand-monitoring.md`
avis, évaluations, réputation	`references/workflows/review-analysis.md`
SEO, SERP, crawl, contenu, RAG	`references/workflows/content-and-seo.md`
analytique, engagement, performance	`references/workflows/social-media-analytics.md`
tendances, mots-clés, hashtags	`references/workflows/trend-research.md`
emplois, recrutement, candidats	`references/workflows/job-market-and-recruitment.md`
immobilier, annonces, hôtels	`references/workflows/real-estate-and-hospitality.md`
surveillance tarifaire, e-commerce, produits	`references/workflows/ecommerce-price-monitoring.md`
enrichissement de contacts, extraction emails	`references/workflows/contact-enrichment.md`
base de connaissances, RAG, flux données LLM	`references/workflows/knowledge-base-and-rag.md`
recherche d'entreprise, due diligence	`references/workflows/company-research.md`

Si aucun Actor ne correspond dans l'index, cherchez dynamiquement :

apify actors search "KEYWORDS" --user-agent apify-agent-skills/apify-ultimate-scraper --json --limit 10 2>/dev/null

Dans les résultats : items[].username/items[].name (ID Actor), items[].title, items[].stats.totalUsers30Days, items[].currentPricingInfo.pricingModel.

Step 2: Récupérer le schéma de l'Actor et vérifier les pièges

Récupérez le schéma d'entrée dynamiquement :

apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --input --json 2>/dev/null

Lisez aussi references/gotchas.md pour vérifier les pièges courants du Actor sélectionné.

Pour la documentation de l'Actor : apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --readme

Step 3: Configurer et exécuter

Ignorez les préférences utilisateur pour les recherches simples (p. ex., « nombre d'abonnés de Nike »). Allez directement à l'exécution avec mode réponse rapide.

Pour les tâches plus grandes, confirmez le format de sortie (réponse rapide / CSV / JSON) et le nombre de résultats.

Exécution standard (bloquante) :

apify actors call "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Dans la sortie : .id (ID de run), .status, .defaultDatasetId, .stats.durationMillis

Récupérer les résultats :

apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format json

Pour CSV : apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format csv

Mode réponse rapide : Récupérez les résultats en JSON, sélectionnez les 5 premiers, présentez formatés en chat.

Enregistrer dans un fichier : Récupérez les résultats, utilisez l'outil Write pour enregistrer comme YYYY-MM-DD_descriptive-name.csv ou .json.

Scrapes grands/longue durée :

apify actors start "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Vérifiez : apify runs info RUN_ID --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null (vérifiez .status pour SUCCEEDED).

Step 4: Délivrer les résultats

Rapport : nombre de résultats, emplacement du fichier (s'il est enregistré), champs de données clés, et liens :

Dataset : https://console.apify.com/storage/datasets/DATASET_ID
Run : https://console.apify.com/actors/runs/RUN_ID

Pour les workflows multi-étapes : suggérez l'étape suivante du pipeline à partir du guide de workflow.

Dépannage

Les erreurs courantes et pièges sont documentés dans references/gotchas.md. Lisez-le avant d'exécuter les Actors PPE (pay-per-event).