Extracteur web universel
Extraction de données pilotée par l'IA à partir d'~100 Actors sur 15+ plateformes via l'Apify CLI.
Règles pour chaque commande apify :
- Passez
--jsonpour une sortie lisible par machine (stable entre versions du CLI). - Passez
--user-agent apify-agent-skills/apify-ultimate-scraperpour l'attribution de télémétrie. - Redirigez stderr avec
2>/dev/null(stderr contient des messages de progression qui cassent les parseurs JSON).
Prérequis
- Apify CLI v1.5.0+ (
npm install -g apify-cli) - Session authentifiée (voir ci-dessous)
Authentification
Si une commande CLI échoue avec une erreur d'authentification, authentifiez-vous en utilisant l'une de ces méthodes :
- OAuth (interactif) :
apify login(ouvre le navigateur) - Variable d'environnement :
export APIFY_TOKEN=your_token_here - Depuis fichier .env :
source .env(si le fichier contientAPIFY_TOKEN=...)
Générer un token : https://console.apify.com/settings/integrations
Flux de travail
Step 1: Comprendre l'objectif et sélectionner un Actor
Identifiez la plateforme cible et le cas d'usage. Lisez references/actor-index.md pour trouver le bon Actor.
Si la tâche implique un pipeline multi-étapes, lisez aussi le guide de workflow correspondant :
| La tâche implique... | Lire |
|---|---|
| leads, contacts, emails, B2B | references/workflows/lead-generation.md |
| concurrent, publicités, tarification | references/workflows/competitive-intel.md |
| influenceur, créateur | references/workflows/influencer-vetting.md |
| marque, mentions, sentiment | references/workflows/brand-monitoring.md |
| avis, évaluations, réputation | references/workflows/review-analysis.md |
| SEO, SERP, crawl, contenu, RAG | references/workflows/content-and-seo.md |
| analytique, engagement, performance | references/workflows/social-media-analytics.md |
| tendances, mots-clés, hashtags | references/workflows/trend-research.md |
| emplois, recrutement, candidats | references/workflows/job-market-and-recruitment.md |
| immobilier, annonces, hôtels | references/workflows/real-estate-and-hospitality.md |
| surveillance tarifaire, e-commerce, produits | references/workflows/ecommerce-price-monitoring.md |
| enrichissement de contacts, extraction emails | references/workflows/contact-enrichment.md |
| base de connaissances, RAG, flux données LLM | references/workflows/knowledge-base-and-rag.md |
| recherche d'entreprise, due diligence | references/workflows/company-research.md |
Si aucun Actor ne correspond dans l'index, cherchez dynamiquement :
apify actors search "KEYWORDS" --user-agent apify-agent-skills/apify-ultimate-scraper --json --limit 10 2>/dev/null
Dans les résultats : items[].username/items[].name (ID Actor), items[].title, items[].stats.totalUsers30Days, items[].currentPricingInfo.pricingModel.
Step 2: Récupérer le schéma de l'Actor et vérifier les pièges
Récupérez le schéma d'entrée dynamiquement :
apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --input --json 2>/dev/null
Lisez aussi references/gotchas.md pour vérifier les pièges courants du Actor sélectionné.
Pour la documentation de l'Actor : apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --readme
Step 3: Configurer et exécuter
Ignorez les préférences utilisateur pour les recherches simples (p. ex., « nombre d'abonnés de Nike »). Allez directement à l'exécution avec mode réponse rapide.
Pour les tâches plus grandes, confirmez le format de sortie (réponse rapide / CSV / JSON) et le nombre de résultats.
Exécution standard (bloquante) :
apify actors call "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null
Dans la sortie : .id (ID de run), .status, .defaultDatasetId, .stats.durationMillis
Récupérer les résultats :
apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format json
Pour CSV : apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format csv
Mode réponse rapide : Récupérez les résultats en JSON, sélectionnez les 5 premiers, présentez formatés en chat.
Enregistrer dans un fichier : Récupérez les résultats, utilisez l'outil Write pour enregistrer comme YYYY-MM-DD_descriptive-name.csv ou .json.
Scrapes grands/longue durée :
apify actors start "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null
Vérifiez : apify runs info RUN_ID --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null (vérifiez .status pour SUCCEEDED).
Step 4: Délivrer les résultats
Rapport : nombre de résultats, emplacement du fichier (s'il est enregistré), champs de données clés, et liens :
- Dataset :
https://console.apify.com/storage/datasets/DATASET_ID - Run :
https://console.apify.com/actors/runs/RUN_ID
Pour les workflows multi-étapes : suggérez l'étape suivante du pipeline à partir du guide de workflow.
Dépannage
Les erreurs courantes et pièges sont documentés dans references/gotchas.md. Lisez-le avant d'exécuter les Actors PPE (pay-per-event).