name: molfeat
description: Featurisation moléculaire pour ML (100+ featureurs). ECFP, MACCS, descripteurs, modèles préentraînés (ChemBERTa), convertir SMILES en features, pour QSAR et ML moléculaire.
license: Apache-2.0 license
tags: [scientific-skills, molfeat, machine-learning, cheminformatics]
metadata:
skill-author: K-Dense Inc.
---------|------|------------|-------|----------|
| ecfp | Fingerprint | 2048 | Rapide | Usage général |
| maccs | Fingerprint | 167 | Très rapide | Similarité de scaffold |
| desc2D | Descripteurs | 200+ | Rapide | Modèles interprétables |
| mordred | Descripteurs | 1800+ | Moyen | Features complètes |
| map4 | Fingerprint | 1024 | Rapide | Dépistage à grande échelle |
| ChemBERTa-77M-MLM | Deep learning | 768 | Lent | Apprentissage par transfert |
| gin-supervised-masking | GNN | Variable | Lent | Modèles à base de graphes |
*La première exécution est lente ; les exécutions suivantes bénéficient du cache
Ressources
Cette skill inclut une documentation de référence complète :
references/api_reference.md
Documentation API complète couvrant :
molfeat.calc- Toutes les classes de calculateur et paramètresmolfeat.trans- Classes de transformateur et méthodesmolfeat.store- Utilisation de ModelStore- Motifs courants et exemples d'intégration
- Conseils d'optimisation des performances
Quand charger : Référence lors de l'implémentation de calculateurs spécifiques, de la compréhension des paramètres du transformateur, ou de l'intégration avec scikit-learn/PyTorch.
references/available_featurizers.md
Catalogue complet de plus de 100 featureurs organisés par catégorie :
- Modèles de langage basés sur transformateurs (ChemBERTa, ChemGPT)
- Réseaux de neurones à graphes (GIN, Graphormer)
- Descripteurs moléculaires (RDKit, Mordred)
- Fingerprints (ECFP, MACCS, MAP4, et 15+ autres)
- Descripteurs pharmacophore (CATS, Gobbi)
- Descripteurs de forme (USR, ElectroShape)
- Descripteurs basés sur scaffold
Quand charger : Référence lors de la sélection du featureur optimal pour une tâche spécifique, de l'exploration des options disponibles, ou de la compréhension des caractéristiques des featureurs.
Conseil de recherche : Utilisez grep pour trouver des types de featureur spécifiques :
grep -i "chembert" references/available_featurizers.md
grep -i "pharmacophore" references/available_featurizers.md
references/examples.md
Exemples de code pratiques pour des scénarios courants :
- Installation et démarrage rapide
- Exemples de calculateur et transformateur
- Utilisation de modèles préentraînés
- Intégration scikit-learn et PyTorch
- Workflows de dépistage virtuel
- Construction de modèles QSAR
- Recherche de similarité
- Dépannage et bonnes pratiques
Quand charger : Référence lors de l'implémentation de workflows spécifiques, du dépannage de problèmes, ou de l'apprentissage des motifs molfeat.
Dépannage
Molécules invalides
Activez la gestion des erreurs pour ignorer les SMILES invalides :
transformer = MoleculeTransformer(
calc,
ignore_errors=True,
verbose=True
)
Problèmes de mémoire avec les grands datasets
Traitez par chunks ou utilisez des approches de streaming pour les datasets > 100 000 molécules.
Dépendances des modèles préentraînés
Certains modèles nécessitent des packages supplémentaires. Installez les extras spécifiques :
uv pip install "molfeat[transformer]" # Pour ChemBERTa/ChemGPT
uv pip install "molfeat[dgl]" # Pour les modèles GIN
Reproductibilité
Enregistrez les configurations exactes et documentez les versions :
transformer.to_state_yaml_file("config.yml")
import molfeat
print(f"molfeat version: {molfeat.__version__}")
Ressources supplémentaires
- Documentation officielle : https://molfeat-docs.datamol.io/
- Dépôt GitHub : https://github.com/datamol-io/molfeat
- Package PyPI : https://pypi.org/project/molfeat/
- Tutoriel : https://portal.valencelabs.com/datamol/post/types-of-featurizers-b1e8HHrbFMkbun6