Filtrage des reads selon les régions d'intérêt

Après le basecalling, utilisez des outils comme samtools ou bedtools pour filtrer les reads qui s'alignent sur les régions génomiques qui vous intéressent. Vous devrez disposer d'un fichier BED définissant ces régions.

Par exemple, pour filtrer les reads qui s'alignent sur certaines régions spécifiques, vous pouvez d'abord aligner le BAM sur une référence génomique, puis utiliser samtools view avec une option -L qui spécifie un fichier BED contenant les régions d'intérêt :

# Alignement (supposant que vous avez un index de référence hg38.mmi préparé avec minimap2)
dorado aligner hg38.mmi calls.bam --output-dir aligned/

# Filtrage basé sur les régions d'intérêt
samtools view -b -L regions_of_interest.bed aligned/aligned.bam > targeted.bam

Cette approche nécessite que le séquençage et le basecalling soient effectués sur l'ensemble de l'échantillon, mais le filtrage post-basecalling vous permet de réduire la quantité de données avec lesquelles vous travaillez pour les étapes d'analyse et de stockage subséquentes.

Last updated