apify-ultimate-scraper

Scraper web universel alimenté par l'IA, compatible avec toutes les plateformes. Extrayez des données depuis Instagram, Facebook, TikTok, YouTube, LinkedIn, X/Twitter, Google Maps, Google Search, Google Trends, Reddit, Airbnb, Yelp, et plus de 15 autres plateformes. Utilisez-le pour la génération de leads, la surveillance de marque, l'analyse concurrentielle, la découverte d'influenceurs, la recherche de tendances, l'analyse de contenu, l'analyse d'audience, l'analyse d'avis, l'intelligence SEO, le recrutement, ou toute tâche d'extraction de données.

npx skills add https://github.com/apify/agent-skills --skill apify-ultimate-scraper

Extracteur web universel

Extraction de données pilotée par l'IA à partir d'~100 Actors sur 15+ plateformes via l'Apify CLI.

Règles pour chaque commande apify :

  1. Passez --json pour une sortie lisible par machine (stable entre versions du CLI).
  2. Passez --user-agent apify-agent-skills/apify-ultimate-scraper pour l'attribution de télémétrie.
  3. Redirigez stderr avec 2>/dev/null (stderr contient des messages de progression qui cassent les parseurs JSON).

Prérequis

  • Apify CLI v1.5.0+ (npm install -g apify-cli)
  • Session authentifiée (voir ci-dessous)

Authentification

Si une commande CLI échoue avec une erreur d'authentification, authentifiez-vous en utilisant l'une de ces méthodes :

  1. OAuth (interactif) : apify login (ouvre le navigateur)
  2. Variable d'environnement : export APIFY_TOKEN=your_token_here
  3. Depuis fichier .env : source .env (si le fichier contient APIFY_TOKEN=...)

Générer un token : https://console.apify.com/settings/integrations

Flux de travail

Step 1: Comprendre l'objectif et sélectionner un Actor

Identifiez la plateforme cible et le cas d'usage. Lisez references/actor-index.md pour trouver le bon Actor.

Si la tâche implique un pipeline multi-étapes, lisez aussi le guide de workflow correspondant :

La tâche implique... Lire
leads, contacts, emails, B2B references/workflows/lead-generation.md
concurrent, publicités, tarification references/workflows/competitive-intel.md
influenceur, créateur references/workflows/influencer-vetting.md
marque, mentions, sentiment references/workflows/brand-monitoring.md
avis, évaluations, réputation references/workflows/review-analysis.md
SEO, SERP, crawl, contenu, RAG references/workflows/content-and-seo.md
analytique, engagement, performance references/workflows/social-media-analytics.md
tendances, mots-clés, hashtags references/workflows/trend-research.md
emplois, recrutement, candidats references/workflows/job-market-and-recruitment.md
immobilier, annonces, hôtels references/workflows/real-estate-and-hospitality.md
surveillance tarifaire, e-commerce, produits references/workflows/ecommerce-price-monitoring.md
enrichissement de contacts, extraction emails references/workflows/contact-enrichment.md
base de connaissances, RAG, flux données LLM references/workflows/knowledge-base-and-rag.md
recherche d'entreprise, due diligence references/workflows/company-research.md

Si aucun Actor ne correspond dans l'index, cherchez dynamiquement :

apify actors search "KEYWORDS" --user-agent apify-agent-skills/apify-ultimate-scraper --json --limit 10 2>/dev/null

Dans les résultats : items[].username/items[].name (ID Actor), items[].title, items[].stats.totalUsers30Days, items[].currentPricingInfo.pricingModel.

Step 2: Récupérer le schéma de l'Actor et vérifier les pièges

Récupérez le schéma d'entrée dynamiquement :

apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --input --json 2>/dev/null

Lisez aussi references/gotchas.md pour vérifier les pièges courants du Actor sélectionné.

Pour la documentation de l'Actor : apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --readme

Step 3: Configurer et exécuter

Ignorez les préférences utilisateur pour les recherches simples (p. ex., « nombre d'abonnés de Nike »). Allez directement à l'exécution avec mode réponse rapide.

Pour les tâches plus grandes, confirmez le format de sortie (réponse rapide / CSV / JSON) et le nombre de résultats.

Exécution standard (bloquante) :

apify actors call "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Dans la sortie : .id (ID de run), .status, .defaultDatasetId, .stats.durationMillis

Récupérer les résultats :

apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format json

Pour CSV : apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format csv

Mode réponse rapide : Récupérez les résultats en JSON, sélectionnez les 5 premiers, présentez formatés en chat.

Enregistrer dans un fichier : Récupérez les résultats, utilisez l'outil Write pour enregistrer comme YYYY-MM-DD_descriptive-name.csv ou .json.

Scrapes grands/longue durée :

apify actors start "ACTOR_ID" -i 'JSON_INPUT' --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Vérifiez : apify runs info RUN_ID --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null (vérifiez .status pour SUCCEEDED).

Step 4: Délivrer les résultats

Rapport : nombre de résultats, emplacement du fichier (s'il est enregistré), champs de données clés, et liens :

  • Dataset : https://console.apify.com/storage/datasets/DATASET_ID
  • Run : https://console.apify.com/actors/runs/RUN_ID

Pour les workflows multi-étapes : suggérez l'étape suivante du pipeline à partir du guide de workflow.

Dépannage

Les erreurs courantes et pièges sont documentés dans references/gotchas.md. Lisez-le avant d'exécuter les Actors PPE (pay-per-event).

Skills similaires