Calculer la moyenne des reads des cibles

Pour calculer la moyenne des reads des cibles spécifiées dans un fichier BED, vous pouvez utiliser plusieurs outils bioinformatiques. Un des outils les plus couramment utilisés pour manipuler et analyser les fichiers BED est bedtools. Voici un guide étape par étape pour utiliser bedtools afin de calculer la couverture moyenne des reads sur les régions cibles d'un fichier BED.

Installation de bedtools

Avec conda :

conda install -c bioconda bedtools

Calculer le coverage

Indexer votre fichier BAM (si ce n'est pas déjà fait) :

samtools index alignments_sorted.bam

Utiliser bedtools coverage pour calculer la couverture :

bedtools coverage -a regions.bed -b alignments_sorted.bam > coverage.txt

VĂ©rification de l'Ă©tat de sortie et analyse

Après avoir exécuté la commande, la sortie devrait ressembler à ceci :

chr1  2370423173  2370424198  RYR2  10  1000  1025  0.975

Dans cet exemple :

  1. chr1 : Chromosome.

  2. 2370423173 : Début de la région (0-based, inclusif).

  3. 2370424198 : Fin de la région (1-based, exclusif).

  4. RYR2 : Identifiant de la région.

  5. 10 : Nombre de reads qui chevauchent la région.

  6. 1000 : Nombre total de bases couvertes par des reads dans la région.

  7. 1025 : Longueur de la région (4198 - 3173).

  8. 0.975 : Fraction de la région couverte par des reads (1000 / 1025).

Calcul de la Moyenne de la Couverture

Pour calculer la moyenne de la couverture (nombre de reads) pour les régions spécifiées dans un fichier BED, vous pouvez utiliser awk (installation ici):

awk '{ total += $5; count++ } END { print total/count }' coverage.txt

Cette commande additionne toutes les valeurs de la cinquième colonne (nombre de reads couvrant chaque région) et divise par le nombre total de lignes pour obtenir la couverture moyenne.

Last updated