Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

52 skills

# Skill Source Description
1 defuddle kepano/obsidian-skills Extraire le contenu lisible et épuré de pages web via Defuddle CLI. 35 815
2 x-twitter-scraper github/awesome-copilot Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter. 35 126
3 browser browserbase/skills Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée. 3 561
4 fetch browserbase/skills Récupérer le contenu, les en-têtes et métadonnées d'une page web sans navigateur. 3 561
5 search browserbase/skills Rechercher sur le web et retourner des résultats structurés via l'API Browserbase. 3 561
6 apify-actor-development apify/agent-skills Développer et déployer des Actors serverless sur la plateforme Apify. 2 150
7 apify-sdk-integration apify/agent-skills Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API. 2 150
8 apify-ultimate-scraper apify/agent-skills Extraire des données web depuis plus de 100 sources via l'API Apify. 2 150
9 aeon-last30 bankrbot/skills Cartographier les narratifs dominants et dissidents d'un sujet sur 30 jours. 1 147
10 replay-ux-research getsentry/skills Analyser des replays de sessions utilisateurs réels pour identifier les patterns UX et points de friction. 797
11 firecrawl firecrawl/cli Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé. 465
12 firecrawl-agent firecrawl/cli Extraire automatiquement des données structurées depuis des sites web complexes multi-pages. 465
13 firecrawl-crawl firecrawl/cli Extraire en masse le contenu de multiples pages d'un site web via crawl. 465
14 firecrawl-download firecrawl/cli Télécharger un site entier en fichiers locaux organisés via map et scrape. 465
15 firecrawl-interact firecrawl/cli Interagir avec des pages web en session navigateur live via prompts ou code. 465
16 firecrawl-map firecrawl/cli Cartographier toutes les URLs d'un site web avec filtrage par recherche. 465
17 firecrawl-monitor firecrawl/cli Surveiller des pages web et recevoir des alertes automatiques lors de changements détectés. 465
18 firecrawl-scrape firecrawl/cli Extraire le contenu de pages web en markdown optimisé pour les LLMs. 465
19 firecrawl-search firecrawl/cli Rechercher sur le web et récupérer le contenu complet des pages résultantes. 465
20 tavily-best-practices tavily-ai/skills Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs. 373
21 tavily-cli tavily-ai/skills Rechercher, extraire, crawler et analyser le web via Tavily CLI. 373
22 tavily-crawl tavily-ai/skills Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI. 373
23 tavily-dynamic-search tavily-ai/skills Filtrer et extraire des résultats web sans polluer la fenêtre de contexte. 373
24 tavily-extract tavily-ai/skills Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs. 373
25 tavily-map tavily-ai/skills Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu. 373
26 tavily-research tavily-ai/skills Générer un rapport cité et approfondi à partir de multiples sources web analysées. 373
27 tavily-search tavily-ai/skills Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily. 373
28 bgpt-paper-search mkurman/zorai Rechercher des articles scientifiques avec données structurées extraites du texte intégral. 312
29 literature-search-arxiv mkurman/zorai Rechercher, télécharger et extraire des métadonnées de publications arXiv. 312
30 literature-search-biorxiv mkurman/zorai Rechercher des prépublications bioRxiv et medRxiv par date, catégorie ou DOI. 312
31 literature-search-europepmc mkurman/zorai Rechercher et télécharger des articles scientifiques en libre accès depuis Europe PMC. 312
32 paper-lookup mkurman/zorai Rechercher des articles scientifiques dans 10 bases de données académiques via leurs APIs. 312
33 parallel-web mkurman/zorai Effectuer des recherches web rapides ou approfondies et sauvegarder les résultats. 312
34 perplexity-search mkurman/zorai Effectuer des recherches web en temps réel avec citations via les modèles Perplexity. 312
35 pubchem-database mkurman/zorai Interroger la base PubChem pour obtenir données chimiques, propriétés et interactions biologiques. 312
36 pubmed-database mkurman/zorai Interroger PubMed et PubMed Central via une CLI Python unifiée à dix fonctions. 312
37 research-lookup mkurman/zorai Effectuer des recherches multi-sources avec citations académiques classées par qualité. 312
38 tavily mkurman/zorai Effectuer des recherches web, extractions et crawls via l'API REST Tavily. 312
39 wayback-api-archive-recovery divinevideo/divine-mobile Récupérer des données archivées d'APIs défuntes via la Wayback Machine. 255
40 wayback-cdx-wildcard-pagination divinevideo/divine-mobile Paginer l'API CDX Wayback Machine avec des requêtes wildcard via showResumeKey. 255
41 wayback-indirect-asset-recovery divinevideo/divine-mobile Récupérer des assets introuvables via l'extraction indirecte depuis Wayback Machine. 255
42 wayback-machine-raw-content-id-modifier divinevideo/divine-mobile Récupérer le contenu brut d'archives Wayback Machine via le modificateur id_. 255
43 bx brave/brave-search-skills Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA. 150
44 bx-search brave/brave-search-skills Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte. 150
45 images-search brave/brave-search-skills Rechercher des images sur le web via l'API Brave Search. 150
46 local-descriptions brave/brave-search-skills Récupérer des descriptions IA de lieux d'intérêt via l'API Brave Search. 150
47 local-pois brave/brave-search-skills Récupérer les détails complets de points d'intérêt locaux via l'API Brave Search. 150
48 news-search brave/brave-search-skills Rechercher des actualités récentes via l'API Brave avec filtres temporels et géographiques. 150
49 videos-search brave/brave-search-skills Rechercher des vidéos sur le web via l'API Brave Search. 150
50 web-search brave/brave-search-skills Effectuer des recherches web structurées via l'API Brave Search avec filtres avancés. 150

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.