Le Q-score est une métrique qui exprime la qualité d'une lecture de séquence individuelle. Le Q-score est généralement utilisé pour quantifier la confiance que l'on peut avoir dans chaque base appelée lors du séquençage.
Définition du Q-score
Q-score est une mesure logarithmique de la probabilité d'erreur de basecalling. Plus précisément, un Q-score est défini comme :
Q=−10log10P où 𝑃 est la probabilité qu'une base appelée soit incorrecte. Ainsi, un Q-score plus élevé indique une plus grande confiance dans la lecture de la base et vice versa. Par exemple, un Q-score de 20 indique une probabilité d'erreur de 1 sur 100, tandis qu'un Q-score de 30 indique une probabilité d'erreur de 1 sur 1000.
Utilisation du Q-score dans Dorado
Dans Dorado, comme dans d'autres outils de basecalling pour le séquençage par nanopores, le Q-score sert à évaluer et à filtrer les lectures en fonction de leur qualité. Dorado permet aux utilisateurs de spécifier un Q-score minimum (--min-qscore) lors du basecalling. Cela permet de filtrer et de ne conserver que les lectures qui atteignent ou dépassent un seuil de qualité spécifique, ce qui est utile pour éliminer les données de faible qualité qui pourraient compromettre les analyses en aval.
Importance du qscore
Filtrage des données
Le filtrage basé sur le Q-score aide à réduire le volume de données à analyser et améliore la précision des analyses en aval, telles que l'assemblage de génomes, l'identification de variants, et d'autres formes d'analyses bioinformatiques.
Comparaison de kits de séquençage
Le Q-score peut également être utilisé pour comparer les performances de différents kits de préparation d'échantillons ou de conditions expérimentales, offrant une mesure standardisée de la qualité des lectures.
Optimisation des protocoles
En surveillant les Q-scores, les chercheurs peuvent ajuster les protocoles de séquençage pour optimiser la qualité des données produites.
Analyse du gène TTR à partir d'un amplicon de 1F à 4R (7096 paires de bases). C'est toutes les régions codantes et introns du gène TTR (Transthyretin). Ces résultats sont pris de 1 pod5 parmis les 48 (Mingon de nanopore (NATIF)) réalisés avec le modèle hac@5.0.0 et le kit SQK-NBD114-24. Pour obtenir ces différents résultats nous avons modifié le qscore au moment du basecalling. Toutes ces valeurs nous laissent à penser que le qscore réglé aux alentours des 17 permettent d'avoir des résultats fiables sans perte de profondeur. A voir si celà change sur tout le séquençage (les 48 pod5).
DDN
N° dossier
Echantillon
FC
illumina
Nanopore
Profondeur (x) c.13
VAF(%) c.13 C>T
Profondeur (x) c.371
VAF(%)c.371 G>A
illumina
Nanopore
Profondeur (x) c.13
VAF(%) c.13 C>T
Profondeur (x) c.371
VAF(%) c.371 G>A
RB09 Gridion 1 seul bam (bam0) Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
qscore 9 (par défaut)
Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
Barcode
Nbr Bases
371 C > T %
Nbr Bases
13 C > T %
13 C > G %
Il faut savoir que j'ai mis que 3 barcodes dans les tableaux du dessus mais en réalité j'en possède de 9 à 17 soit 9. Une fois le qscore passé à 24, j'ai perdu des barecodes et ils n'avaient presque pas de profondeur. Le qscore de 24 est donc trop élevé.
Pour effectuer des tests de qualité, nous pouvons automatiser tout ce processus via un script en .sh. Un point d'entrée de POD5 et on en ressort les BAM qui sont rangé en fonction du barcode et du qscore.