Web Scraping & Crawling
Extraction de donnees web : crawlers, RSS, Apify, indexation.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | arize-link | github/awesome-copilot | Générer des liens profonds vers l'interface Arize pour traces, spans, datasets et évaluateurs. | 32 878 | 20h |
| 2 | opensea-api | projectopensea/opensea-skill | Interroger les données NFT et tokens sur les principales blockchains via l'API OpenSea. | 35 | 1j |
| 3 | apify-actor-development | apify/agent-skills | Développer et déployer des Actors serverless sur la plateforme Apify. | 2 032 | 1j |
| 4 | x-twitter-scraper | github/awesome-copilot | Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. | 32 878 | 2j |
| 5 | opensea | projectopensea/opensea-skill | Interroger, trader et swapper des NFT et tokens ERC20 via l'API OpenSea multi-chaînes. | 35 | 5j |
| 6 | finding-replay-for-issue | posthog/skills | Identifier et présenter l'enregistrement de session le plus pertinent pour une erreur. | 36 | 5j |
| 7 | video-search | nvidia/skills | Rechercher des archives vidéo en langage naturel via des embeddings vectoriels. | 85 | 5j |
| 8 | opensea-swaps | projectopensea/opensea-skill | Échanger des tokens ERC20 via l'agrégateur DEX cross-chain d'OpenSea avec routage optimal. | 35 | 7j |
| 9 | query-onchain-data | coinbase/agentic-wallet-skills | Interroger les données onchain Base via l'API SQL CDP avec paiement par requête. | 106 | 9j |
| 10 | coingecko | elophanto/elophanto | Intégrer l'API CoinGecko pour accéder aux données Solana en temps réel. | 59 | 10j |
| 11 | speech-to-text | elevenlabs/skills | Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis. | 236 | 12j |
| 12 | huggingface-datasets | huggingface/skills | Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer. | 10 483 | 13j |
| 13 | apify-ultimate-scraper | apify/agent-skills | Extraire des données web depuis plus de 100 sources via l'API Apify. | 2 032 | 16j |
| 14 | exploring-autocapture-events | posthog/skills | Explorer les événements d'autocapture PostHog pour analyser les interactions utilisateurs. | 36 | 16j |
| 15 | diagnosing-sdk-health | posthog/skills | Diagnostiquer la santé des SDK PostHog et recommander les mises à jour nécessaires. | 36 | 17j |
| 16 | setting-up-a-data-warehouse-source | posthog/skills | Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes. | 36 | 19j |
| 17 | suggesting-data-imports | posthog/skills | Identifier et importer des données externes dans PostHog via l'entrepôt de données. | 36 | 19j |
| 18 | omni-query | exploreomni/omni-agent-skills | Interroger la couche sémantique Omni via CLI pour extraire des données structurées. | 16 | 20j |
| 19 | autobrowse | browserbase/skills | Créer et affiner automatiquement des skills de navigation web par itérations successives. | 3 184 | 20j |
| 20 | firecrawl-parse | firecrawl/cli | Convertir des fichiers locaux (PDF, DOCX, XLSX…) en markdown propre sur disque. | 383 | 21j |
| 21 | firecrawl | firecrawl/cli | Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. | 383 | 21j |
| 22 | diagnosing-missing-recordings | posthog/skills | Diagnostiquer pourquoi une session PostHog n'a pas été enregistrée. | 36 | 22j |
| 23 | mapbox-location-grounding | mapbox/mapbox-agent-skills | Ancrer les réponses géolocalisées dans des données Mapbox en temps réel. | 53 | 29j |
| 24 | tavily-dynamic-search | tavily-ai/skills | Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. | 289 | 1mo |
| 25 | firecrawl-interact | firecrawl/cli | Interagir avec des pages web en session navigateur live via prompts ou code. | 383 | 1mo |
| 26 | firecrawl-agent | firecrawl/cli | Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. | 383 | 1mo |
| 27 | firecrawl-scrape | firecrawl/cli | Extraire le contenu de pages web en markdown optimisé pour les LLMs. | 383 | 1mo |
| 28 | bx | brave/brave-search-skills | Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. | 128 | 1mo |
| 29 | rw-check-compatibility | runwayml/skills | Vérifier la compatibilité d'un projet avec l'API serveur de Runway. | 46 | 1mo |
| 30 | rw-fetch-api-reference | runwayml/skills | Récupérer la référence API Runway en temps réel avant toute intégration. | 46 | 1mo |
| 31 | rw-integrate-uploads | runwayml/skills | Uploader des fichiers locaux vers Runway pour les utiliser comme inputs génératifs. | 46 | 1mo |
| 32 | rw-recipe-full-setup | runwayml/skills | Intégrer l'API Runway dans un projet en guidant chaque étape de configuration. | 46 | 1mo |
| 33 | browser | browserbase/skills | Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. | 3 184 | 1mo |
| 34 | bx-search | brave/brave-search-skills | Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. | 128 | 1mo |
| 35 | workload-analysis | posthog/skills | Analyser les dépenses clients par workload et générer des visualisations React interactives. | 36 | 1mo |
| 36 | mapbox-geospatial-operations | mapbox/mapbox-agent-skills | Choisir et appliquer les bons outils géospatiaux Mapbox selon le contexte du problème. | 53 | 1mo |
| 37 | mapbox-mcp-runtime-patterns | mapbox/mapbox-agent-skills | Intégrer des capacités géospatiales Mapbox dans des applications IA via MCP. | 53 | 1mo |
| 38 | mapbox-search-patterns | mapbox/mapbox-agent-skills | Sélectionner et paramétrer les outils de recherche Mapbox selon le contexte géographique. | 53 | 1mo |
| 39 | defuddle | kepano/obsidian-skills | Extraire le contenu lisible et épuré de pages web via Defuddle CLI. | 31 034 | 1mo |
| 40 | firecrawl-crawl | firecrawl/cli | Extraire en masse le contenu de multiples pages d'un site web via crawl. | 383 | 1mo |
| 41 | firecrawl-map | firecrawl/cli | Cartographier toutes les URLs d'un site web avec filtrage par recherche. | 383 | 1mo |
| 42 | firecrawl-search | firecrawl/cli | Rechercher sur le web et récupérer le contenu complet des pages résultantes. | 383 | 1mo |
| 43 | search | browserbase/skills | Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. | 3 184 | 1mo |
| 44 | tavily-crawl | tavily-ai/skills | Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. | 289 | 1mo |
| 45 | tavily-extract | tavily-ai/skills | Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. | 289 | 1mo |
| 46 | tavily-map | tavily-ai/skills | Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. | 289 | 1mo |
| 47 | tavily-research | tavily-ai/skills | Générer un rapport cité et approfondi à partir de multiples sources web analysées. | 289 | 1mo |
| 48 | tavily-search | tavily-ai/skills | Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. | 289 | 1mo |
| 49 | tavily-cli | tavily-ai/skills | Rechercher, extraire, crawler et analyser le web via Tavily CLI. | 289 | 1mo |
| 50 | tavily-best-practices | tavily-ai/skills | Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs. | 289 | 1mo |
À propos de cette sélection
L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.