Web Scraping & Crawling

Extraction de donnees web : crawlers, RSS, Apify, indexation.

14 skills

#	Skill	Source	Description
1	browser-use	browser-use/browser-use	Contrôler un navigateur Chrome via CDP pour automatiser des tâches web.	105 796
2	tavily-best-practices	tavily-ai/skills	Accéder à des données web en temps réel via une API de recherche optimisée pour les LLMs.	426
3	tavily-cli	tavily-ai/skills	Rechercher, extraire, crawler et analyser le web via Tavily CLI.	426
4	tavily-dynamic-search	tavily-ai/skills	Filtrer et extraire des résultats web sans polluer la fenêtre de contexte.	426
5	literature-search-arxiv	mkurman/zorai	Rechercher, télécharger et extraire des métadonnées de publications arXiv.	319
6	literature-search-biorxiv	mkurman/zorai	Rechercher des prépublications bioRxiv et medRxiv par date, catégorie ou DOI.	319
7	literature-search-europepmc	mkurman/zorai	Rechercher et télécharger des articles scientifiques en libre accès depuis Europe PMC.	319
8	parallel-web	mkurman/zorai	Effectuer des recherches web rapides ou approfondies et sauvegarder les résultats.	319
9	perplexity-search	mkurman/zorai	Effectuer des recherches web en temps réel avec citations via les modèles Perplexity.	319
10	pubchem-database	mkurman/zorai	Interroger la base PubChem pour obtenir données chimiques, propriétés et interactions biologiques.	319
11	wayback-cdx-cloud-ip-workaround	divinevideo/divine-mobile	Contourner le blocage IP cloud de l'API Wayback CDX via GCS comme intermédiaire.	258
12	wayback-cdx-wildcard-pagination	divinevideo/divine-mobile	Paginer l'API CDX Wayback Machine avec des requêtes wildcard via showResumeKey.	258
13	wayback-indirect-asset-recovery	divinevideo/divine-mobile	Récupérer des assets introuvables via l'extraction indirecte depuis Wayback Machine.	258
14	wayback-machine-raw-content-id-modifier	divinevideo/divine-mobile	Récupérer le contenu brut d'archives Wayback Machine via le modificateur id_.	258

À propos de cette sélection

L'outillage de scraping web a longtemps ressemblé à un chantier artisanal : un script Playwright bricolé, un cron qui tombe en silence, des sélecteurs CSS qui rendent l'âme dès qu'un front-end se restructure. Les agents IA changent la donne. Ils ont besoin d'accéder au web de façon fiable, autonome et reproductible, et c'est précisément ce que couvrent les skills web scraping & crawling rassemblés ici. De quoi piloter un navigateur headless pour extraire des données structurées depuis des pages dynamiques, ou brancher un agent sur un moteur de recherche comme Tavily et Brave sans écrire une ligne de parsing. Ces skills s'adressent aux développeurs Python ou TypeScript qui alimentent des pipelines de données, construisent des agents de veille ou enrichissent des datasets pour du fine-tuning. L'écosystème couvre déjà une bonne partie des cas d'usage courants.