Types de Fichiers dans le Séquençage par Nanopore

Cette section présente un aperçu des différents types de fichiers rencontrés lors du séquençage par Nanopore, leur utilité et comment ils s'interconnectent dans un flux de travail de séquençage.


POD5 Files

Définition

POD5 : Un format de fichier contenant des données de séquençage brutes générées par les appareils de séquençage Nanopore. Ce format encapsule à la fois les signaux bruts et les métadonnées associées.

Utilisation

Utilisé directement par les outils de basecalling comme Dorado pour générer des lectures en format FASTQ ou BAM.


FAST5 Files

Définition

FAST5 : Un format de fichier basé sur HDF5 qui stocke des données de séquençage brutes ainsi que des données de séquençage traitées et des métadonnées dans un format compressé et structuré.

Utilisation

Principalement utilisé dans les premières étapes du séquençage pour le basecalling avec des outils comme Guppy. Le format Fast5 n’est plus le format de fichier de sortie par défaut depuis la mi-mai 2023 pour les runs utilisant le Kit 14. Le format POD5 est le remplaçant du format Fast5. Il est bien plus performant dans la manière de stocker les données et permet notamment de réaliser bien plus efficacement l’appel de base, notamment en duplex.


FASTQ Files

Définition

FASTQ : Un format de fichier qui encode à la fois une séquence de nucléotides et une qualité de séquence correspondante pour chaque base, ce qui est crucial pour l'évaluation de la qualité des données de séquençage.

Utilisation

Généré à partir de fichiers FAST5 ou POD5 par des outils de basecalling, et utilisé pour le mappage, le démultiplexage, et d'autres analyses bioinformatiques.


SAM/BAM Files

Définition

SAM (Sequential Alignment/Map) : Un format de fichier qui stocke des alignements de séquences contre une référence.

BAM : La version binaire compressée de SAM, plus compacte et plus rapide à traiter.

Utilisation

Utilisé pour stocker des informations d'alignement de séquences pour des analyses ultérieures telles que l'appel de variantes ou l'analyse structurale du génome.


FASTA Files

Définition

FASTA : Un format de fichier utilisé pour représenter des séquences de nucléotides ou de protéines, sans stocker d'informations de qualité.

Utilisation

Souvent utilisé pour stocker des séquences de référence génomique ou d'autres séquences de base utilisées pour l'alignement de séquences.


MMI Files

Définition

MMI (Minimap2 Index) : Un fichier d'index généré par Minimap2 pour permettre un alignement rapide des séquences.

Utilisation

Utilisé par Minimap2 pour accélérer le processus d'alignement en permettant à l'outil de localiser rapidement les régions correspondantes dans la référence génomique.

Last updated