gnomad-database

Par mkurman · zorai

Interroge la base de données Genome Aggregation Database (gnomAD). À utiliser pour déterminer la rareté ou la fréquence allélique de variants génétiques spécifiques, récupérer les métriques de contrainte génique (pLI, LOEUF) afin d'évaluer l'intolérance aux variants perte-de-fonction, rechercher des variants dans une région génomique ou un gène, ou interroger des variants structuraux. Ne pas utiliser pour analyser les génomes de patients individuels, suivre les mutations somatiques dans les cancers (utiliser COSMIC), ou demander des lectures de séquençage brutes (utiliser ENA).

npx skills add https://github.com/mkurman/zorai --skill gnomad-database

Base de données gnomAD

Prérequis

  1. uv : Consultez la skill uv et suivez ses instructions de configuration pour vous assurer que uv est installé et disponible dans PATH.
  2. Notification à l'utilisateur : Si le fichier LICENSE_NOTIFICATION.txt n'existe pas déjà dans le répertoire de cette skill, alors (1) notifiez l'utilisateur de manière visible afin qu'il consulte les conditions à https://gnomad.broadinstitute.org/policies et https://gnomad.broadinstitute.org/data#api, puis (2) créez le fichier enregistrant le texte de notification et l'horodatage.

Règles fondamentales

  • Utiliser le wrapper : EXÉCUTEZ TOUJOURS les scripts helper fournis pour interroger la base de données au lieu d'y accéder directement. Les scripts appliquent automatiquement les limites de débit de l'API gnomAD de manière gracieuse.
  • Notification : Si cette skill est utilisée, assurez-vous que cela soit mentionné dans la sortie.

Scripts utilitaires

Tous les scripts se trouvent dans le sous-répertoire scripts/ du répertoire d'installation de cette skill. Lors de leur exécution, utilisez le chemin absolu complet du script (par exemple /path/to/gnomad_database/scripts/get_variant_frequency.py).

1. Variant Frequency. Récupère les fréquences alléliques globales et spécifiques à l'ascendance, les comptages d'homozygotes et la Grpmax Filtering AF (faf95/faf99) pour les données d'exome, de génome et totales (exome+génome combinés). La fréquence allélique de filtrage (FAF) est l'AF du groupe d'ascendance génétique crédible maximale (limite inférieure de l'intervalle de confiance à 95 % ou 99 %). Le format d'ID de variante doit être chrom-pos-ref-alt (par exemple 1-55516888-G-GA). Vous pouvez également fournir un rsID.

# Par ID de variante :
uv run scripts/get_variant_frequency.py --variant_id {variant_id} [--dataset {dataset}] --output variant_frequency.json

# Par rsID (par exemple, rs1800562) :
uv run scripts/get_variant_frequency.py --rsid {rsid} [--dataset {dataset}] --output variant_frequency.json

2. Gene Constraint. Récupère les métriques de contrainte pour un gène. La réponse contiendra explicitement pli, et le score LOEUF est représenté par oe_lof_upper.

uv run scripts/get_gene_constraint.py --gene {gene_symbol} --output {gene_symbol}_constraint.json

3. Region/Gene Variant Search. Trouve toutes les variantes dans une région ou un gène.

# Par région :
uv run scripts/search_variants.py --chrom {chrom} --start {start} --end {end} --output region_variants.json
# Par gène :
uv run scripts/search_variants.py --gene {gene_symbol} --consequence {pLoF|missense} --output {gene_symbol}_variants.json

Références

Documentation supplémentaire sur les données : https://gnomad.broadinstitute.org/data#api Documentation générale de la base de données : https://gnomad.broadinstitute.org/help

Skills similaires