Web Scraping & Crawling
Extraction de donnees web : crawlers, RSS, Apify, indexation.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | firecrawl-monitor | firecrawl/cli | Surveiller des pages web et recevoir des alertes automatiques lors de changements détectés. | 491 | 1j |
| 2 | firecrawl | firecrawl/cli | Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. | 491 | 4j |
| 3 | apify-actor-development | apify/agent-skills | Développer et déployer des Actors serverless sur la plateforme Apify. | 2 183 | 4j |
| 4 | apify-ultimate-scraper | apify/agent-skills | Extraire des données web depuis plus de 100 sources via l'API Apify. | 2 183 | 4j |
| 5 | x-twitter-scraper | github/awesome-copilot | Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. | 35 826 | 4j |
| 6 | fetch | browserbase/skills | Récupérer le contenu, les en-têtes et métadonnées d'une page web sans navigateur. | 3 610 | 12j |
| 7 | search | browserbase/skills | Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. | 3 610 | 12j |
| 8 | literature-search-arxiv | mkurman/zorai | Rechercher, télécharger et extraire des métadonnées de publications arXiv. | 315 | 26j |
| 9 | literature-search-biorxiv | mkurman/zorai | Rechercher des prépublications bioRxiv et medRxiv par date, catégorie ou DOI. | 315 | 26j |
| 10 | literature-search-europepmc | mkurman/zorai | Rechercher et télécharger des articles scientifiques en libre accès depuis Europe PMC. | 315 | 26j |
| 11 | pubchem-database | mkurman/zorai | Interroger la base PubChem pour obtenir données chimiques, propriétés et interactions biologiques. | 315 | 26j |
| 12 | firecrawl-scrape | firecrawl/cli | Extraire le contenu de pages web en markdown optimisé pour les LLMs. | 491 | 26j |
| 13 | browser | browserbase/skills | Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. | 3 610 | 1mo |
| 14 | firecrawl-search | firecrawl/cli | Rechercher sur le web et récupérer le contenu complet des pages résultantes. | 491 | 1mo |
| 15 | apify-sdk-integration | apify/agent-skills | Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API. | 2 183 | 1mo |
| 16 | aeon-last30 | bankrbot/skills | Cartographier les narratifs dominants et dissidents d'un sujet sur 30 jours. | 1 158 | 1mo |
| 17 | paper-lookup | mkurman/zorai | Rechercher des articles scientifiques dans 10 bases de données académiques via leurs APIs. | 315 | 1mo |
| 18 | parallel-web | mkurman/zorai | Effectuer des recherches web rapides ou approfondies et sauvegarder les résultats. | 315 | 1mo |
| 19 | research-lookup | mkurman/zorai | Effectuer des recherches multi-sources avec citations académiques classées par qualité. | 315 | 1mo |
| 20 | wayback-api-archive-recovery | divinevideo/divine-mobile | Récupérer des données archivées d'APIs défuntes via la Wayback Machine. | 256 | 1mo |
| 21 | wayback-cdx-wildcard-pagination | divinevideo/divine-mobile | Paginer l'API CDX Wayback Machine avec des requêtes wildcard via showResumeKey. | 256 | 1mo |
| 22 | wayback-indirect-asset-recovery | divinevideo/divine-mobile | Récupérer des assets introuvables via l'extraction indirecte depuis Wayback Machine. | 256 | 1mo |
| 23 | wayback-machine-raw-content-id-modifier | divinevideo/divine-mobile | Récupérer le contenu brut d'archives Wayback Machine via le modificateur id_. | 256 | 1mo |
| 24 | tavily | mkurman/zorai | Effectuer des recherches web, extractions et crawls via l'API REST Tavily. | 315 | 1mo |
| 25 | bgpt-paper-search | mkurman/zorai | Rechercher des articles scientifiques avec données structurées extraites du texte intégral. | 315 | 1mo |
| 26 | perplexity-search | mkurman/zorai | Effectuer des recherches web en temps réel avec citations via les modèles Perplexity. | 315 | 1mo |
| 27 | browser-automation | elophanto/elophanto | Automatiser la navigation web, les formulaires et l'extraction de données via 47 outils. | 82 | 1mo |
| 28 | replay-ux-research | getsentry/skills | Analyser des replays de sessions utilisateurs réels pour identifier les patterns UX et points de friction. | 830 | 2mo |
| 29 | mapbox-location-grounding | mapbox/mapbox-agent-skills | Ancrer les réponses géolocalisées dans des données Mapbox en temps réel. | 66 | 2mo |
| 30 | tavily-dynamic-search | tavily-ai/skills | Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. | 393 | 2mo |
| 31 | firecrawl-interact | firecrawl/cli | Interagir avec des pages web en session navigateur live via prompts ou code. | 491 | 2mo |
| 32 | firecrawl-agent | firecrawl/cli | Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. | 491 | 2mo |
| 33 | bx | brave/brave-search-skills | Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. | 155 | 2mo |
| 34 | bx-search | brave/brave-search-skills | Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. | 155 | 2mo |
| 35 | defuddle | kepano/obsidian-skills | Extraire le contenu lisible et épuré de pages web via Defuddle CLI. | 38 535 | 3mo |
| 36 | firecrawl-crawl | firecrawl/cli | Extraire en masse le contenu de multiples pages d'un site web via crawl. | 491 | 3mo |
| 37 | firecrawl-map | firecrawl/cli | Cartographier toutes les URLs d'un site web avec filtrage par recherche. | 491 | 3mo |
| 38 | tavily-crawl | tavily-ai/skills | Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. | 393 | 3mo |
| 39 | tavily-extract | tavily-ai/skills | Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. | 393 | 3mo |
| 40 | tavily-map | tavily-ai/skills | Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. | 393 | 3mo |
| 41 | tavily-research | tavily-ai/skills | Générer un rapport cité et approfondi à partir de multiples sources web analysées. | 393 | 3mo |
| 42 | tavily-search | tavily-ai/skills | Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. | 393 | 3mo |
| 43 | tavily-cli | tavily-ai/skills | Rechercher, extraire, crawler et analyser le web via Tavily CLI. | 393 | 3mo |
| 44 | tavily-best-practices | tavily-ai/skills | Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs. | 393 | 3mo |
| 45 | firecrawl-download | firecrawl/cli | Télécharger un site entier en fichiers locaux organisés via map et scrape. | 491 | 3mo |
| 46 | local-descriptions | brave/brave-search-skills | Récupérer des descriptions IA de lieux d'intérêt via l'API Brave Search. | 155 | 4mo |
| 47 | local-pois | brave/brave-search-skills | Récupérer les détails complets de points d'intérêt locaux via l'API Brave Search. | 155 | 4mo |
| 48 | news-search | brave/brave-search-skills | Rechercher des actualités récentes via l'API Brave avec filtres temporels et géographiques. | 155 | 4mo |
| 49 | videos-search | brave/brave-search-skills | Rechercher des vidéos sur le web via l'API Brave Search. | 155 | 4mo |
| 50 | web-search | brave/brave-search-skills | Effectuer des recherches web structurées via l'API Brave Search avec filtres avancés. | 155 | 4mo |
À propos de cette sélection
L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.