Molfeat : featurisation moléculaire pour le ML chimique

name: molfeat description: Featurisation moléculaire pour ML (100+ featureurs). ECFP, MACCS, descripteurs, modèles préentraînés (ChemBERTa), convertir SMILES en features, pour QSAR et ML moléculaire. license: Apache-2.0 license tags: [scientific-skills, molfeat, machine-learning, cheminformatics] metadata: skill-author: K-Dense Inc. ---------|------|------------|-------|----------| | ecfp | Fingerprint | 2048 | Rapide | Usage général | | maccs | Fingerprint | 167 | Très rapide | Similarité de scaffold | | desc2D | Descripteurs | 200+ | Rapide | Modèles interprétables | | mordred | Descripteurs | 1800+ | Moyen | Features complètes | | map4 | Fingerprint | 1024 | Rapide | Dépistage à grande échelle | | ChemBERTa-77M-MLM | Deep learning | 768 | Lent | Apprentissage par transfert | | gin-supervised-masking | GNN | Variable | Lent | Modèles à base de graphes |

*La première exécution est lente ; les exécutions suivantes bénéficient du cache

Ressources

Cette skill inclut une documentation de référence complète :

references/api_reference.md

Documentation API complète couvrant :

molfeat.calc - Toutes les classes de calculateur et paramètres
molfeat.trans - Classes de transformateur et méthodes
molfeat.store - Utilisation de ModelStore
Motifs courants et exemples d'intégration
Conseils d'optimisation des performances

Quand charger : Référence lors de l'implémentation de calculateurs spécifiques, de la compréhension des paramètres du transformateur, ou de l'intégration avec scikit-learn/PyTorch.

references/available_featurizers.md

Catalogue complet de plus de 100 featureurs organisés par catégorie :

Modèles de langage basés sur transformateurs (ChemBERTa, ChemGPT)
Réseaux de neurones à graphes (GIN, Graphormer)
Descripteurs moléculaires (RDKit, Mordred)
Fingerprints (ECFP, MACCS, MAP4, et 15+ autres)
Descripteurs pharmacophore (CATS, Gobbi)
Descripteurs de forme (USR, ElectroShape)
Descripteurs basés sur scaffold

Quand charger : Référence lors de la sélection du featureur optimal pour une tâche spécifique, de l'exploration des options disponibles, ou de la compréhension des caractéristiques des featureurs.

Conseil de recherche : Utilisez grep pour trouver des types de featureur spécifiques :

grep -i "chembert" references/available_featurizers.md
grep -i "pharmacophore" references/available_featurizers.md

references/examples.md

Exemples de code pratiques pour des scénarios courants :

Installation et démarrage rapide
Exemples de calculateur et transformateur
Utilisation de modèles préentraînés
Intégration scikit-learn et PyTorch
Workflows de dépistage virtuel
Construction de modèles QSAR
Recherche de similarité
Dépannage et bonnes pratiques

Quand charger : Référence lors de l'implémentation de workflows spécifiques, du dépannage de problèmes, ou de l'apprentissage des motifs molfeat.

Dépannage

Molécules invalides

Activez la gestion des erreurs pour ignorer les SMILES invalides :

transformer = MoleculeTransformer(
    calc,
    ignore_errors=True,
    verbose=True
)

Problèmes de mémoire avec les grands datasets

Traitez par chunks ou utilisez des approches de streaming pour les datasets > 100 000 molécules.

Dépendances des modèles préentraînés

Certains modèles nécessitent des packages supplémentaires. Installez les extras spécifiques :

uv pip install "molfeat[transformer]"  # Pour ChemBERTa/ChemGPT
uv pip install "molfeat[dgl]"          # Pour les modèles GIN

Reproductibilité

Enregistrez les configurations exactes et documentez les versions :

transformer.to_state_yaml_file("config.yml")
import molfeat
print(f"molfeat version: {molfeat.__version__}")

Ressources supplémentaires

Documentation officielle : https://molfeat-docs.datamol.io/
Dépôt GitHub : https://github.com/datamol-io/molfeat
Package PyPI : https://pypi.org/project/molfeat/
Tutoriel : https://portal.valencelabs.com/datamol/post/types-of-featurizers-b1e8HHrbFMkbun6