Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

50 skills

#	Skill	Source	Description		Maj
1	firecrawl-monitor	firecrawl/cli	Surveiller des pages web et recevoir des alertes automatiques lors de changements détectés.	491	1j
2	firecrawl	firecrawl/cli	Scraper, rechercher et interagir avec le web via Firecrawl CLI en markdown optimisé.	491	4j
3	apify-actor-development	apify/agent-skills	Développer et déployer des Actors serverless sur la plateforme Apify.	2 183	4j
4	apify-ultimate-scraper	apify/agent-skills	Extraire des données web depuis plus de 100 sources via l'API Apify.	2 183	4j
5	x-twitter-scraper	github/awesome-copilot	Intégrer l'API Xquik pour scraper, monitorer et automatiser des tâches X/Twitter.	35 826	4j
6	fetch	browserbase/skills	Récupérer le contenu, les en-têtes et métadonnées d'une page web sans navigateur.	3 610	12j
7	search	browserbase/skills	Rechercher sur le web et retourner des résultats structurés via l'API Browserbase.	3 610	12j
8	literature-search-arxiv	mkurman/zorai	Rechercher, télécharger et extraire des métadonnées de publications arXiv.	315	26j
9	literature-search-biorxiv	mkurman/zorai	Rechercher des prépublications bioRxiv et medRxiv par date, catégorie ou DOI.	315	26j
10	literature-search-europepmc	mkurman/zorai	Rechercher et télécharger des articles scientifiques en libre accès depuis Europe PMC.	315	26j
11	pubchem-database	mkurman/zorai	Interroger la base PubChem pour obtenir données chimiques, propriétés et interactions biologiques.	315	26j
12	firecrawl-scrape	firecrawl/cli	Extraire le contenu de pages web en markdown optimisé pour les LLMs.	491	26j
13	browser	browserbase/skills	Automatiser les interactions navigateur en local ou via Browserbase avec une CLI dédiée.	3 610	1mo
14	firecrawl-search	firecrawl/cli	Rechercher sur le web et récupérer le contenu complet des pages résultantes.	491	1mo
15	apify-sdk-integration	apify/agent-skills	Intégrer des Actors Apify dans une application via SDK JS, Python ou REST API.	2 183	1mo
16	aeon-last30	bankrbot/skills	Cartographier les narratifs dominants et dissidents d'un sujet sur 30 jours.	1 158	1mo
17	paper-lookup	mkurman/zorai	Rechercher des articles scientifiques dans 10 bases de données académiques via leurs APIs.	315	1mo
18	parallel-web	mkurman/zorai	Effectuer des recherches web rapides ou approfondies et sauvegarder les résultats.	315	1mo
19	research-lookup	mkurman/zorai	Effectuer des recherches multi-sources avec citations académiques classées par qualité.	315	1mo
20	wayback-api-archive-recovery	divinevideo/divine-mobile	Récupérer des données archivées d'APIs défuntes via la Wayback Machine.	256	1mo
21	wayback-cdx-wildcard-pagination	divinevideo/divine-mobile	Paginer l'API CDX Wayback Machine avec des requêtes wildcard via showResumeKey.	256	1mo
22	wayback-indirect-asset-recovery	divinevideo/divine-mobile	Récupérer des assets introuvables via l'extraction indirecte depuis Wayback Machine.	256	1mo
23	wayback-machine-raw-content-id-modifier	divinevideo/divine-mobile	Récupérer le contenu brut d'archives Wayback Machine via le modificateur id_.	256	1mo
24	tavily	mkurman/zorai	Effectuer des recherches web, extractions et crawls via l'API REST Tavily.	315	1mo
25	bgpt-paper-search	mkurman/zorai	Rechercher des articles scientifiques avec données structurées extraites du texte intégral.	315	1mo
26	perplexity-search	mkurman/zorai	Effectuer des recherches web en temps réel avec citations via les modèles Perplexity.	315	1mo
27	browser-automation	elophanto/elophanto	Automatiser la navigation web, les formulaires et l'extraction de données via 47 outils.	82	1mo
28	replay-ux-research	getsentry/skills	Analyser des replays de sessions utilisateurs réels pour identifier les patterns UX et points de friction.	830	2mo
29	mapbox-location-grounding	mapbox/mapbox-agent-skills	Ancrer les réponses géolocalisées dans des données Mapbox en temps réel.	66	2mo
30	tavily-dynamic-search	tavily-ai/skills	Filtrer et extraire des résultats web sans polluer la fenêtre de contexte.	393	2mo
31	firecrawl-interact	firecrawl/cli	Interagir avec des pages web en session navigateur live via prompts ou code.	491	2mo
32	firecrawl-agent	firecrawl/cli	Extraire automatiquement des données structurées depuis des sites web complexes multi-pages.	491	2mo
33	bx	brave/brave-search-skills	Rechercher sur le web via Brave Search CLI avec extraction de contenu optimisée pour les agents IA.	155	2mo
34	bx-search	brave/brave-search-skills	Effectuer des recherches web optimisées via CLI pour alimenter des agents IA en contexte.	155	2mo
35	defuddle	kepano/obsidian-skills	Extraire le contenu lisible et épuré de pages web via Defuddle CLI.	38 535	3mo
36	firecrawl-crawl	firecrawl/cli	Extraire en masse le contenu de multiples pages d'un site web via crawl.	491	3mo
37	firecrawl-map	firecrawl/cli	Cartographier toutes les URLs d'un site web avec filtrage par recherche.	491	3mo
38	tavily-crawl	tavily-ai/skills	Explorer et extraire le contenu de plusieurs pages web via l'outil Tavily CLI.	393	3mo
39	tavily-extract	tavily-ai/skills	Extraire le contenu textuel ou Markdown propre depuis une ou plusieurs URLs.	393	3mo
40	tavily-map	tavily-ai/skills	Cartographier rapidement toutes les URLs d'un site sans en extraire le contenu.	393	3mo
41	tavily-research	tavily-ai/skills	Générer un rapport cité et approfondi à partir de multiples sources web analysées.	393	3mo
42	tavily-search	tavily-ai/skills	Effectuer des recherches web optimisées pour LLM avec scores de pertinence via Tavily.	393	3mo
43	tavily-cli	tavily-ai/skills	Rechercher, extraire, crawler et analyser le web via Tavily CLI.	393	3mo
44	tavily-best-practices	tavily-ai/skills	Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs.	393	3mo
45	firecrawl-download	firecrawl/cli	Télécharger un site entier en fichiers locaux organisés via map et scrape.	491	3mo
46	local-descriptions	brave/brave-search-skills	Récupérer des descriptions IA de lieux d'intérêt via l'API Brave Search.	155	4mo
47	local-pois	brave/brave-search-skills	Récupérer les détails complets de points d'intérêt locaux via l'API Brave Search.	155	4mo
48	news-search	brave/brave-search-skills	Rechercher des actualités récentes via l'API Brave avec filtres temporels et géographiques.	155	4mo
49	videos-search	brave/brave-search-skills	Rechercher des vidéos sur le web via l'API Brave Search.	155	4mo
50	web-search	brave/brave-search-skills	Effectuer des recherches web structurées via l'API Brave Search avec filtres avancés.	155	4mo

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.