molfeat

Par mkurman · zorai

npx skills add https://github.com/mkurman/zorai --skill molfeat

name: molfeat description: Featurisation moléculaire pour ML (100+ featureurs). ECFP, MACCS, descripteurs, modèles préentraînés (ChemBERTa), convertir SMILES en features, pour QSAR et ML moléculaire. license: Apache-2.0 license tags: [scientific-skills, molfeat, machine-learning, cheminformatics] metadata: skill-author: K-Dense Inc. ---------|------|------------|-------|----------| | ecfp | Fingerprint | 2048 | Rapide | Usage général | | maccs | Fingerprint | 167 | Très rapide | Similarité de scaffold | | desc2D | Descripteurs | 200+ | Rapide | Modèles interprétables | | mordred | Descripteurs | 1800+ | Moyen | Features complètes | | map4 | Fingerprint | 1024 | Rapide | Dépistage à grande échelle | | ChemBERTa-77M-MLM | Deep learning | 768 | Lent | Apprentissage par transfert | | gin-supervised-masking | GNN | Variable | Lent | Modèles à base de graphes |

*La première exécution est lente ; les exécutions suivantes bénéficient du cache

Ressources

Cette skill inclut une documentation de référence complète :

references/api_reference.md

Documentation API complète couvrant :

  • molfeat.calc - Toutes les classes de calculateur et paramètres
  • molfeat.trans - Classes de transformateur et méthodes
  • molfeat.store - Utilisation de ModelStore
  • Motifs courants et exemples d'intégration
  • Conseils d'optimisation des performances

Quand charger : Référence lors de l'implémentation de calculateurs spécifiques, de la compréhension des paramètres du transformateur, ou de l'intégration avec scikit-learn/PyTorch.

references/available_featurizers.md

Catalogue complet de plus de 100 featureurs organisés par catégorie :

  • Modèles de langage basés sur transformateurs (ChemBERTa, ChemGPT)
  • Réseaux de neurones à graphes (GIN, Graphormer)
  • Descripteurs moléculaires (RDKit, Mordred)
  • Fingerprints (ECFP, MACCS, MAP4, et 15+ autres)
  • Descripteurs pharmacophore (CATS, Gobbi)
  • Descripteurs de forme (USR, ElectroShape)
  • Descripteurs basés sur scaffold

Quand charger : Référence lors de la sélection du featureur optimal pour une tâche spécifique, de l'exploration des options disponibles, ou de la compréhension des caractéristiques des featureurs.

Conseil de recherche : Utilisez grep pour trouver des types de featureur spécifiques :

grep -i "chembert" references/available_featurizers.md
grep -i "pharmacophore" references/available_featurizers.md

references/examples.md

Exemples de code pratiques pour des scénarios courants :

  • Installation et démarrage rapide
  • Exemples de calculateur et transformateur
  • Utilisation de modèles préentraînés
  • Intégration scikit-learn et PyTorch
  • Workflows de dépistage virtuel
  • Construction de modèles QSAR
  • Recherche de similarité
  • Dépannage et bonnes pratiques

Quand charger : Référence lors de l'implémentation de workflows spécifiques, du dépannage de problèmes, ou de l'apprentissage des motifs molfeat.

Dépannage

Molécules invalides

Activez la gestion des erreurs pour ignorer les SMILES invalides :

transformer = MoleculeTransformer(
    calc,
    ignore_errors=True,
    verbose=True
)

Problèmes de mémoire avec les grands datasets

Traitez par chunks ou utilisez des approches de streaming pour les datasets > 100 000 molécules.

Dépendances des modèles préentraînés

Certains modèles nécessitent des packages supplémentaires. Installez les extras spécifiques :

uv pip install "molfeat[transformer]"  # Pour ChemBERTa/ChemGPT
uv pip install "molfeat[dgl]"          # Pour les modèles GIN

Reproductibilité

Enregistrez les configurations exactes et documentez les versions :

transformer.to_state_yaml_file("config.yml")
import molfeat
print(f"molfeat version: {molfeat.__version__}")

Ressources supplémentaires

Skills similaires