Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

59 skills

# Skill Source Description Maj
1 arize-link github/awesome-copilot Générer des liens profonds vers l'interface Arize pour traces, spans, datasets et évaluateurs. 32 878 20h
2 opensea-api projectopensea/opensea-skill Interroger les données NFT et tokens sur les principales blockchains via l'API OpenSea. 35 1j
3 apify-actor-development apify/agent-skills Développer et déployer des Actors serverless sur la plateforme Apify. 2 032 1j
4 x-twitter-scraper github/awesome-copilot Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. 32 878 2j
5 opensea projectopensea/opensea-skill Interroger, trader et swapper des NFT et tokens ERC20 via l'API OpenSea multi-chaînes. 35 5j
6 finding-replay-for-issue posthog/skills Identifier et présenter l'enregistrement de session le plus pertinent pour une erreur. 36 5j
7 video-search nvidia/skills Rechercher des archives vidéo en langage naturel via des embeddings vectoriels. 85 5j
8 opensea-swaps projectopensea/opensea-skill Échanger des tokens ERC20 via l'agrégateur DEX cross-chain d'OpenSea avec routage optimal. 35 7j
9 query-onchain-data coinbase/agentic-wallet-skills Interroger les données onchain Base via l'API SQL CDP avec paiement par requête. 106 9j
10 coingecko elophanto/elophanto Intégrer l'API CoinGecko pour accéder aux données Solana en temps réel. 59 10j
11 speech-to-text elevenlabs/skills Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis. 236 12j
12 huggingface-datasets huggingface/skills Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer. 10 483 13j
13 apify-ultimate-scraper apify/agent-skills Extraire des données web depuis plus de 100 sources via l'API Apify. 2 032 16j
14 exploring-autocapture-events posthog/skills Explorer les événements d'autocapture PostHog pour analyser les interactions utilisateurs. 36 16j
15 diagnosing-sdk-health posthog/skills Diagnostiquer la santé des SDK PostHog et recommander les mises à jour nécessaires. 36 17j
16 setting-up-a-data-warehouse-source posthog/skills Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes. 36 19j
17 suggesting-data-imports posthog/skills Identifier et importer des données externes dans PostHog via l'entrepôt de données. 36 19j
18 omni-query exploreomni/omni-agent-skills Interroger la couche sémantique Omni via CLI pour extraire des données structurées. 16 20j
19 autobrowse browserbase/skills Créer et affiner automatiquement des skills de navigation web par itérations successives. 3 184 20j
20 firecrawl-parse firecrawl/cli Convertir des fichiers locaux (PDF, DOCX, XLSX…) en markdown propre sur disque. 383 21j
21 firecrawl firecrawl/cli Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. 383 21j
22 diagnosing-missing-recordings posthog/skills Diagnostiquer pourquoi une session PostHog n'a pas été enregistrée. 36 22j
23 mapbox-location-grounding mapbox/mapbox-agent-skills Ancrer les réponses géolocalisées dans des données Mapbox en temps réel. 53 29j
24 tavily-dynamic-search tavily-ai/skills Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. 289 1mo
25 firecrawl-interact firecrawl/cli Interagir avec des pages web en session navigateur live via prompts ou code. 383 1mo
26 firecrawl-agent firecrawl/cli Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. 383 1mo
27 firecrawl-scrape firecrawl/cli Extraire le contenu de pages web en markdown optimisé pour les LLMs. 383 1mo
28 bx brave/brave-search-skills Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. 128 1mo
29 rw-check-compatibility runwayml/skills Vérifier la compatibilité d'un projet avec l'API serveur de Runway. 46 1mo
30 rw-fetch-api-reference runwayml/skills Récupérer la référence API Runway en temps réel avant toute intégration. 46 1mo
31 rw-integrate-uploads runwayml/skills Uploader des fichiers locaux vers Runway pour les utiliser comme inputs génératifs. 46 1mo
32 rw-recipe-full-setup runwayml/skills Intégrer l'API Runway dans un projet en guidant chaque étape de configuration. 46 1mo
33 browser browserbase/skills Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. 3 184 1mo
34 bx-search brave/brave-search-skills Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. 128 1mo
35 workload-analysis posthog/skills Analyser les dépenses clients par workload et générer des visualisations React interactives. 36 1mo
36 mapbox-geospatial-operations mapbox/mapbox-agent-skills Choisir et appliquer les bons outils géospatiaux Mapbox selon le contexte du problème. 53 1mo
37 mapbox-mcp-runtime-patterns mapbox/mapbox-agent-skills Intégrer des capacités géospatiales Mapbox dans des applications IA via MCP. 53 1mo
38 mapbox-search-patterns mapbox/mapbox-agent-skills Sélectionner et paramétrer les outils de recherche Mapbox selon le contexte géographique. 53 1mo
39 defuddle kepano/obsidian-skills Extraire le contenu lisible et épuré de pages web via Defuddle CLI. 31 034 1mo
40 firecrawl-crawl firecrawl/cli Extraire en masse le contenu de multiples pages d'un site web via crawl. 383 1mo
41 firecrawl-map firecrawl/cli Cartographier toutes les URLs d'un site web avec filtrage par recherche. 383 1mo
42 firecrawl-search firecrawl/cli Rechercher sur le web et récupérer le contenu complet des pages résultantes. 383 1mo
43 search browserbase/skills Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. 3 184 1mo
44 tavily-crawl tavily-ai/skills Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. 289 1mo
45 tavily-extract tavily-ai/skills Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. 289 1mo
46 tavily-map tavily-ai/skills Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. 289 1mo
47 tavily-research tavily-ai/skills Générer un rapport cité et approfondi à partir de multiples sources web analysées. 289 1mo
48 tavily-search tavily-ai/skills Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. 289 1mo
49 tavily-cli tavily-ai/skills Rechercher, extraire, crawler et analyser le web via Tavily CLI. 289 1mo
50 tavily-best-practices tavily-ai/skills Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs. 289 1mo

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.