sRNAPipe: a Galaxy-based pipeline for bioinformatic in-depth exploration of small RNAseq data

sRNAPipe: a Galaxy-based pipeline for bioinformatic in-depth exploration of small RNAseq data

Les recherches menées au cours de cette dernière décennie ont révélé que la quasi-totalité des génomes est transcrite et que la plupart des molécules d’ARN ainsi produites correspondent à de multiples classes de petits ARN non codants. Malgré l'importance de ces découvertes, aucun outil bioinformatique, simple d’utilisation, n’a été développé à ce jour pour analyser des données de séquençage ciblant ces petits ARNs ("small RNA-Seq"). Dans cette étude, publiée dans  mobile DNA (Pogorelcnik et al., 2018), l'équipe de C. Vaury et E. Brasset  présente précisément  un nouveau  pipeline qui permet une analyse rapide de données de small RNA-Seq. Pour faciliter son utilisation par les biologistes, le pipeline a été intégré avec une interface conviviale à un portail Galaxy.

Autrefois, on pensait que seuls les gènes étaient transcrits. Une découverte majeure de cette dernière décennie est l'évidence que la quasi-totalité des génomes est transcrite et que la plupart des molécules d’ARN produites correspondent finalement à de multiples classes de petits ARN non codants. Plus de dix ans après la découverte des premiers petits ARN non codants incluant les microRNAs et les siRNAs (short interfering RNAs), une troisième classe de petits ARNs interagissant avec la protéine Piwi, celle des piRNAs (Piwi-interacting RNA), a été découverte dans les cellules de la lignée germinale chez la souris, le rat et l’homme en 2006 puis en 2007 chez la drosophile. Les piRNAs sont apparus par la suite comme une population extrêmement complexe de petits ARNs enrichis dans la lignée germinale de la majorité des métazoaires. Les piRNAs sont connus pour contrôler l’expression des Elements Transposables (ET), ces séquences d’ADN mobiles hautement mutagènes, constituants majeurs des génomes eucaryotes. Les ETs ont été retrouvés dans toutes les espèces étudiées et représentent près de la moitié du génome humain. Découverte importante, les piRNAs, produits dans la lignée germinale des animaux, sont transmis à la génération suivante et constituent donc un signal épigénétique produit chez la mère et transmis à l’enfant.

Malgré l'importance de ces découvertes, aucun outil bioinformatique, simple d’utilisation, n’avait été développé à ce jour pour analyser des données de séquençage de petits ARNs ("small RNA-Seq"). Dans cette étude, publiée dans  Mobile DNA (Pogorelcnik et al., 2018), l'équipe de C. Vaury et E. Brasset  a développé et validé un pipeline qui permet une analyse rapide de données de small RNA-Seq. Pour faciliter son utilisation par les biologistes, le pipeline a été intégré avec une interface conviviale à un portail Galaxy.

Ce pipeline permet aux utilisateurs, à partir d’un ou de plusieurs fichiers de séquençage, d’obtenir un alignement sur le génome pour l’ensemble des séquences et de les classifier en différentes sous-populations de petits ARNs selon leur nature (piRNAs, siRNAs, microRNAs …). De plus, pour chaque sous-population, le nombre de petits ARNs correspondant à chaque gène ou élément transposable est fourni dans des tableaux. Toutes ces valeurs sont normalisées pour permettre la comparaison des différentes expériences. Le pipeline fournit également les figures, prêtes à être publiées, permettant de cartographier les petits ARNs sur les chromosomes, ainsi que sur les ETs individuellement, et de visualiser la distribution des différents petits ARNs selon leur origine (ETs, gènes, ARNs ribosomaux, de transfert, petits ARNs nucléaires, etc.). Et, renseignements particulièrement précieux, le pipeline détecte des caractéristiques particulières des petits ARNs liées à leur biogenèse (signatures de "ping-pong").

 

Last modified: 11/12/2018