Création d'un VCF
Cette page est dédiée à comment créer un VCF à partir d'un BAM. Ce VCF pourra être chargé sur Alamut ou bien sur IGV
Installer Miniconda
Télécharger le script d'installation:
Ouvrez un terminal.
Téléchargez le script d'installation de Miniconda pour Linux. Assurez-vous de choisir le script correspondant à votre version de Python préférée (Python 3.x est recommandé).
Exécuter le script d'installation:
Rendez le script exécutable et lancez-le.
Suivez les instructions à l'écran. Il vous sera demandé de passer en revue la licence, d'approuver la licence, puis de choisir le répertoire d'installation.
Initialiser l'installation:
Une fois l'installation terminée, vous pouvez être invité à exécuter la commande
conda init
pour initialiser Conda pour votre shell (bash, zsh, etc.).
Vérifiez que Conda est correctement installé en vérifiant sa version. Cette commande devrait retourner la version de Conda installée :
Mettre à jour Conda pour s'assurer que vous avez la dernière version :
Confirmez avec "yes" lorsque vous êtes invité à continuer.
Utiliser Conda
Préparation de l'Environnement
Il est souvent recommandé de créer un environnement Conda dédié pour chaque projet afin d'éviter les conflits de dépendances entre les outils. Voici comment vous pouvez créer et activer un nouvel environnement :
Installation des Outils Nécessaires
Avec Conda, vous pouvez facilement installer des outils comme bcftools
pour manipuler des fichiers VCF, tabix
pour indexer des fichiers compressés, et samtools
pour travailler avec des fichiers BAM.
Création du BCF
Préparation des Fichiers de Référence
Avant de commencer, assurez-vous que vous avez un génome de référence correspondant à votre fichier BAM, souvent au format .fasta
. Ce fichier doit être indexé :
Indexer le Fichier BAM
Si votre fichier BAM n'est pas encore indexé :
Appel de Variants avec Samtools et Bcftools
3.1 Appel des Piles (mpileup)
Utilisez bcftools mpileup
pour générer un fichier BCF (Binary Call Format) qui contient les informations de pileup de toutes les positions :
Explication des options utilisées :
bcftools mpileup
-Ou
: Output format to uncompressed BCF, which is suitable for piping intobcftools call
.-f hg38.fa
: Spécifie le fichier de référence FASTA.
bcftools call
-mv
: Appelle les variants;-m
est le mode multicall et-v
ne produit que les variants (pas les positions de référence conservées).-Ob
: Output format to compressed BCF.-o SQK-NBD114-24_barcode09.bcf
: Spécifie le fichier de sortie.
Prise en compte des ploidies
Le message concernant la ploïdie indique que
bcftools call
suppose que tous les sites sont diploïdes car aucun fichier de ploïdie n'a été spécifié. Si vous travaillez avec des organismes non-diploïdes ou des analyses qui nécessitent une configuration spécifique de ploïdie, vous devriez spécifier ces options :--ploidy
: Pour définir une ploïdie constante pour tous les échantillons.--ploidy-file
: Pour définir des ploïdies différentes selon les régions ou les échantillons.
Validation et Indexation du Fichier de Sortie
Après avoir créé le fichier BCF, il est souvent utile de l'indexer pour des analyses futures :
Convertir BCF en VCF
Convertir le fichier BCF en VCF compressé : Utilisez bcftools view
pour convertir le fichier BCF en un fichier VCF gzip compressé (.vcf.gz
). C'est utile pour économiser de l'espace disque et pour les analyses futures où les fichiers compressés sont plus rapides à lire.
Indexer le fichier VCF compressé : Utilisez tabix
pour indexer le fichier VCF compressé. L'indexation est essentielle pour permettre des accès rapides à des régions spécifiques du fichier, ce qui est très utile pour les analyses et les visualisations qui nécessitent de lire des segments spécifiques du fichier VCF.
L'option -p vcf
spécifie que le format du fichier à indexer est VCF, ce qui aide tabix
à appliquer les règles d'indexation appropriées.
Validation de l'Output
Pour vérifier que votre fichier VCF a été correctement généré et qu'il contient des données valides :
Inspecter les premières lignes du fichier VCF :
Cette commande affichera les premières lignes du fichier VCF, vous permettant de voir les en-têtes et les premiers enregistrements de variant, ce qui confirme que le fichier est bien formaté et contient des données.
Chargement des VCF dans Alamut ou dans IGV
Script qui automatise la création de VCF quand les dépendances nécessaires sont installées
Et en python via interface graphique
Last updated