Basecalling avec Dorado

Cette section introduit le concept de basecalling, son importance dans le séquençage de nouvelle génération (NGS), et spécifiquement dans le contexte des technologies de séquençage par Nanopore.


Qu'est-ce que le Basecalling?

Le basecalling est le processus par lequel les signaux bruts de séquençage sont convertis en séquences de nucléotides lisibles (A, T, C, G). Dans le contexte du séquençage par Nanopore, les signaux électriques générés par le passage de l'ADN à travers un nanopore sont traduits en séquences de bases.

Exigences Matérielles

  • GPU compatible CUDA (recommandé pour une performance optimale)

  • CPU avec au moins X Go de RAM

  • Espace disque suffisant pour stocker les données brutes et les résultats du basecalling


Exécution du Basecalling

Assurez que vos fichiers soient bien des fichiers pod5

# On se place dans le dossier des données
cd ~/Bureau/Formation/Données

# On lance l’appel de base avec Dorado
dorado basecaller \
         --device cuda:all \
         --recursive \
         --kit-name SQK-PCB111-24 \
         --sample-sheet samplesheet/samplesheet.csv \
         fast \
         pod5/ \
         > output.bam

Explication des Options

  • --device : all pouvant être remplacé par le nombre de carte graphique que l'on souhaite utilisé

  • --recursive : Recherche de manière récursive tous les fichiers dans le dossier spécifié.

  • --kit-name SQK-PCB111-24 : Spécifie le kit utilisé, important pour ajuster le basecalling aux caractéristiques spécifiques du kit.

  • --sample-sheet samplesheet/samplesheet.csv : Chemin vers une feuille de calcul contenant des informations sur les échantillons, utilisée pour le démultiplexage si nécessaire.

  • fast : Mode de basecalling rapide. Il existe aussi un mode 'hac' pour une précision accrue.

  • pod5/ : Dossier contenant les fichiers .pod5 à traiter.

  • > output.bam : Redirige la sortie du basecalling dans un fichier BAM.

Last updated