Quel qscore ?

Le Q-score est une métrique qui exprime la qualité d'une lecture de séquence individuelle. Le Q-score est généralement utilisé pour quantifier la confiance que l'on peut avoir dans chaque base appelée lors du séquençage.

Définition du Q-score

Q-score est une mesure logarithmique de la probabilité d'erreur de basecalling. Plus précisément, un Q-score est défini comme :

Q=−10log 10 ​ P

où 𝑃 est la probabilité qu'une base appelée soit incorrecte. Ainsi, un Q-score plus élevé indique une plus grande confiance dans la lecture de la base et vice versa. Par exemple, un Q-score de 20 indique une probabilité d'erreur de 1 sur 100, tandis qu'un Q-score de 30 indique une probabilité d'erreur de 1 sur 1000.

Utilisation du Q-score dans Dorado

Dans Dorado, comme dans d'autres outils de basecalling pour le séquençage par nanopores, le Q-score sert à évaluer et à filtrer les lectures en fonction de leur qualité. Dorado permet aux utilisateurs de spécifier un Q-score minimum (--min-qscore) lors du basecalling. Cela permet de filtrer et de ne conserver que les lectures qui atteignent ou dépassent un seuil de qualité spécifique, ce qui est utile pour éliminer les données de faible qualité qui pourraient compromettre les analyses en aval.

Importance du qscore

Filtrage des données

Le filtrage basé sur le Q-score aide à réduire le volume de données à analyser et améliore la précision des analyses en aval, telles que l'assemblage de génomes, l'identification de variants, et d'autres formes d'analyses bioinformatiques.

Comparaison de kits de séquençage

Le Q-score peut également être utilisé pour comparer les performances de différents kits de préparation d'échantillons ou de conditions expérimentales, offrant une mesure standardisée de la qualité des lectures.

Optimisation des protocoles

En surveillant les Q-scores, les chercheurs peuvent ajuster les protocoles de séquençage pour optimiser la qualité des données produites.

Analyse

Analyse du gène TTR à partir d'un amplicon de 1F à 4R (7096 paires de bases). C'est toutes les régions codantes et introns du gène TTR (Transthyretin). Ces résultats sont pris de 1 pod5 parmis les 48 (Mingon de nanopore (NATIF)) réalisés avec le modèle hac@5.0.0 et le kit SQK-NBD114-24. Pour obtenir ces différents résultats nous avons modifié le qscore au moment du basecalling. Toutes ces valeurs nous laissent à penser que le qscore réglé aux alentours des 17 permettent d'avoir des résultats fiables sans perte de profondeur. A voir si celà change sur tout le séquençage (les 48 pod5).

/home/grid/dorado-0.7.2-linux-x64/bin/dorado basecaller \
    -x "cuda:0" \
    --min-qscore 7 \
    --no-trim \
    --emit-fastq \
    /home/grid/dorado-0.7.2-linux-x64/bin/dna_r10.4.1_e8.2_400bps_hac@v5.0.0
    pod5/ | \
    /home/grid/dorado-0.7.2-linux-x64/bin/dorado demux \
    --kit-name SQK-NBD114-24 \
    --emit-fastq \
    --output-dir demultiplexed

DDN

N° dossier

Echantillon

illumina

Nanopore

Profondeur (x) c.13

VAF(%) c.13 C>T

Profondeur (x) c.371

VAF(%)c.371 G>A

illumina

Nanopore

Profondeur (x) c.13

VAF(%) c.13 C>T

Profondeur (x) c.371

VAF(%) c.371 G>A

25/12/1945

2023-3726

RB16

FLG-114

RAS

1750

1258

Minion

RAS

16441

14670

05/11/1942

2024-0849

RB17

FLG-114

RAS

2683

1959

Minion

RAS

27768

26159

13/11/1962

2024-0851

RB18

FLG-114

POS/c.290C>A

1563

10681

Minion

POS/c.290C>A

11817

10202

05/01/1947

2024-0882

RB19

FLG-114

RAS

1313

1003

Minion

RAS

10599

9934

01/11/1948

2024-0869

RB20

FLG-114

RAS

2085

1749

Minion

RAS

23943

22449

18/08/1984

2024-0325

RB21

FLG-114

POS/c.290C>A

1556

1171

Minion

POS/c.290C>A

15205

13343

02/04/1970

220691295

RB22

FLG-114

POS/c.424G>A

1548

1374

Minion

POS/c.424G>A

15311

15079

16/03/1968

203301144

RB23

FLG-114

POS/c.424G>A

1595

1128

Minion

POS/c.424G>A

12567

11631

qscore 0

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

690

723

666

707

927

959

qscore 9 (par défaut)

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

620

659

605

654

811

859

Tous POD

78 264

80 084

77 604

81 460

91 754

94 442

qscore 14

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

562

589

539

585

711

770

Tous POD

69222

71956

68312

72931

80929

84629

qscore 15

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

522

566

523

559

675

742

qscore 17

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

436

465

444

455

567

619

Tous POD

55636

58835

54870

59291

65218

69171

qscore 19

Barcode

Nbr Bases

371 C > T %

Nbr Bases

13 C > T %

13 C > G %

1 POD

246

271

252

266

306

351

qscore 24

Il faut savoir que j'ai mis que 3 barcodes dans les tableaux du dessus mais en réalité j'en possède de 9 à 17 soit 9. Une fois le qscore passé à 24, j'ai perdu des barecodes et ils n'avaient presque pas de profondeur. Le qscore de 24 est donc trop élevé.

Pour effectuer des tests de qualité, nous pouvons automatiser tout ce processus via un script en .sh. Un point d'entrée de POD5 et on en ressort les BAM qui sont rangé en fonction du barcode et du qscore.

#!/bin/bash

# Définir le chemin de l'exécutable Dorado
DORADO_BIN="/home/grid/dorado-0.7.2-linux-x64/bin/dorado"
MODEL_PATH="/home/grid/dorado-0.7.2-linux-x64/bin/dna_r10.4.1_e8.2_400bps_hac@v5.0.0"

# Dossier contenant les données POD5
INPUT_DIR="pod5/"

# Scores de qualité à tester
QS_SCORES=(0 9 14 15 17 19 24)

# Boucle sur chaque score de qualité
for qscore in "${QS_SCORES[@]}"; do
    # Créer un répertoire pour les résultats de ce Q-score
    OUTPUT_DIR="demultiplexed_q${qscore}"
    mkdir -p "${OUTPUT_DIR}"

    # Basecalling et démultiplexage
    $DORADO_BIN basecaller -x "cuda:0" --min-qscore "$qscore" --no-trim --emit-fastq $MODEL_PATH $INPUT_DIR | \
    $DORADO_BIN demux --kit-name SQK-NBD114-24 --emit-fastq --output-dir "${OUTPUT_DIR}"

    # Dossier pour stocker les fichiers BAM
    BAM_DIR="bam_files_q${qscore}"
    mkdir -p "${BAM_DIR}"

    # Convertir chaque fichier FASTQ en BAM
    for fastq in "${OUTPUT_DIR}"/*.fastq; do
        bam_file="${BAM_DIR}/$(basename "${fastq}" .fastq).bam"
        minimap2 -ax map-ont -t 8 ref_genome.mmi "${fastq}" | samtools sort -o "${bam_file}"
    done
done

echo "Basecalling, démultiplexage, et conversion en BAM terminés pour tous les Q-scores."

PreviousBaseCalling Dorado + Demultiplexage NextRésultats

Last updated 1 year ago

hashtagDéfinition du Q-score

hashtagUtilisation du Q-score dans Dorado

hashtagImportance du qscore

hashtagFiltrage des données

hashtagComparaison de kits de séquençage

hashtagOptimisation des protocoles

hashtagAnalyse

hashtagqscore 0

hashtagqscore 9 (par défaut)

hashtagqscore 14

hashtagqscore 15

hashtagqscore 17

hashtagqscore 19

hashtagqscore 24

Définition du Q-score

Utilisation du Q-score dans Dorado

Importance du qscore

Filtrage des données

Comparaison de kits de séquençage

Optimisation des protocoles

Analyse

qscore 0

qscore 9 (par défaut)

qscore 14

qscore 15

qscore 17

qscore 19

qscore 24