Informație

Software pentru analiza întregii secvențe a genomului


Vă rugăm să ajutați la alegerea pachetelor Bioconductor R și a altor programe software pentru analiza întregii secvențe a genomului și, în special, obiectivele ratei mutației de descoperire falsă, excluderea mutațiilor, contribuția mutației și reducerea dimensionalității datelor. Am putut găsi software-ul Expander, MeV, Genesis pentru experimentele de microarray, cu toate acestea, nu am putut găsi instrumente similare pentru analiza întregii secvențe a genomului micobacteriilor. Ne pare rău, întrebarea mea nu are cod.


Sunt câțiva dintre ei. Mai întâi dacă doriți să analizați secvența pachetele de bază sunt:

http://www.bioconductor.org/help/workflows/high-throughput-sequencing/

De asemenea, Maqweb pare promițător.

http://maqweb.sourceforge.net


SyRI: găsirea rearanjărilor genomice și a diferențelor secvenței locale față de ansamblurile genomului întreg

Diferențele genomice variază de la diferențe de nucleotide unice la variații structurale complexe. Metodele actuale adnotează de obicei diferențele de secvență variind de la SNP la indels mari, dar nu dezvăluie întreaga complexitate a rearanjărilor structurale, inclusiv inversiuni, translocații și duplicări, unde secvența foarte similară schimbă locația, orientarea sau numărul de copiere. Aici, vă prezentăm SyRI, un instrument de comparare pereche a întregului genom pentru ansambluri la nivel cromozomial. SyRI începe prin găsirea regiunilor rearanjate și apoi caută diferențele în secvențe, care se disting pentru că locuiesc în regiuni sintetice sau rearanjate. Această distincție este importantă, deoarece regiunile rearanjate sunt moștenite diferit în comparație cu regiunile sintetice.


Nume Descriere Tipul secvenței * Autori An
EXPLOZIE Căutare locală cu euristică rapidă k-tuple (Instrument de căutare locală de bază) Ambii Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ [1] 1990
HPC-BLAST Multinod compatibil NCBI și ambalaj BLAST multicore. Distribuită cu cea mai recentă versiune de BLAST, acest wrapper facilitează paralelizarea algoritmului pe arhitecturi hibride moderne cu multe noduri și multe nuclee în fiecare nod. [2] Proteină Burdyshaw CE, Sawyer S, Horton MD, Brook RG, Rekapalli B 2017
CS-BLAST Secvență-context specifică BLAST, mai sensibilă decât BLAST, FASTA și SSEARCH. Versiunea iterativă specifică poziției CSI-BLAST este mai sensibilă decât PSI-BLAST Proteină Angermueller C, Biegert A, Soeding J [3] 2013
CUDASW ++ GPU a accelerat algoritmul Smith Waterman pentru mai multe GPU-uri partajate Proteină Liu Y, Maskell DL și Schmidt B. 2009/2010
DIAMANT Aliniator BLASTX și BLASTP bazat pe indexare dublă Proteină Buchfink B, Xie C, Huson DH, Reuter K, Drost HG [4] [5] 2015/2021
FASTA Căutare locală cu rapiditate k-euristice duble, mai lente, dar mai sensibile decât BLAST Ambii
GGSEARCH, GLSEARCH Global: Global (GG), Global: Local (GL) alinierea la statistici Proteină
Magician genom Software pentru căutarea de motive de secvență ADN locală ultra rapidă și alinierea în perechi pentru datele NGS (FASTA, FASTQ). ADN Hepperle D (www.sequentix.de) 2020
Genoogle Genoogle folosește tehnici de indexare și procesare paralelă pentru căutarea secvențelor ADN și proteine. Este dezvoltat în Java și open source. Ambii Albrecht F 2015
HMMER Căutare locală și globală cu modele Markov ascunse de profil, mai sensibile decât PSI-BLAST Ambii Durbin R, Eddy SR, Krogh A, Mitchison G [6] 1998
Suita HH Compararea în perechi a modelelor ascunse de profil Markov foarte sensibile Proteină Söding J [7] [8] 2005/2012
IDF Frecvența documentului invers Ambii
Infernal Căutare profil SCFG ARN Eddy S
KLAST Instrument de căutare de similaritate a secvențelor cu scop general de înaltă performanță Ambii 2009/2014
LAMBDA Aliniator local de înaltă performanță compatibil cu BLAST, dar acceptă mult mai rapid SAM / BAM Proteină Hannes Hauswedell, Jochen Singer, Knut Reinert [9] 2014
MMseqs2 Suită software pentru a căuta și a grupa seturi uriașe de secvențe. Sensibilitate similară cu BLAST și PSI-BLAST, dar ordine de mărime mai rapide Proteină Steinegger M, Mirdita M, Galiez C, Söding J [10] 2017
UTILIZARE Instrument de analiză a secvențelor ultra-rapid Ambii Edgar, R. C. (2010). „Căutați și grupați ordine de mărime mai rapid decât BLAST”. Bioinformatica. 26 (19): 2460–2461. doi: 10.1093 / bioinformatics / btq461. PMID 20709691. publicație 2010
OSWALD OpenCL Smith-Waterman pe FPGA Altera pentru baze de date cu proteine ​​mari Proteină Rucci E, García C, Botella G, De Giusti A, Naiouf M, Prieto-Matías M [11] 2016
parasail Căutare rapidă Smith-Waterman utilizând paralelizarea SIMD Ambii Zilnic J 2015
PSI-BLAST BLAST iterativ specific poziției, căutare locală cu matrice de punctare specifice poziției, mult mai sensibilă decât BLAST Proteină Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ [12] 1997
Căutare PSI Combinând algoritmul de căutare Smith-Waterman cu strategia de construcție a profilului PSI-BLAST pentru a găsi secvențe proteice legate la distanță și pentru a preveni erorile omoloage de supra-extindere. Proteină Li W, McWilliam H, Goujon M, Cowley A, Lopez R, Pearson WR [13] 2012
ScalaBLAST Blast scalabil foarte paralel Ambii Oehmen și colab. [14] 2011
Sequilab Conectarea și profilarea datelor de aliniere a secvențelor din rezultatele NCBI-BLAST cu servere / servicii majore de analiză a secvenței Nucleotidă, peptidă 2010
SAM Căutare locală și globală cu modele Markov ascunse de profil, mai sensibile decât PSI-BLAST Ambii Karplus K, Krogh A [15] 1999
CĂUTARE Căutare Smith-Waterman, mai lentă, dar mai sensibilă decât FASTA Ambii
SWAPHI Primul algoritm paralelizat care folosește noul Intel Xeon Phis pentru a accelera căutarea bazei de date cu proteine ​​Smith-Waterman Proteină Liu Y și Schmidt B. 2014
SWAPHI-LS Primul algoritm Smith-Waterman paralel care exploatează clusterele Intel Xeon Phi pentru a accelera alinierea secvențelor lungi de ADN ADN Liu Y, Tran TT, Lauenroth F, Schmidt B 2014
SWIMM Implementare Smith-Waterman pentru arhitecturi Intel Multicore și Manycore Proteină Rucci E, García C, Botella G, De Giusti A, Naiouf M și Prieto-Matías M [16] 2015
SWIMM2.0 Smith-Waterman îmbunătățit pe arhitecturile Intel Multicore și Manycore bazate pe extensii vectoriale AVX-512 Proteină Rucci E, García C, Botella G, De Giusti A, Naiouf M și Prieto-Matías M [17] 2018
BEŢIVAN Căutare rapidă Smith-Waterman utilizând paralelizarea SIMD Ambii Rognes T 2011

*Tipul secvenței: proteine ​​sau nucleotide

Nume Descriere Tipul secvenței * Tipul de aliniere ** Autor An
ACANA Ancorare euristică rapidă bazată pe alinierea în perechi Ambii Ambii Huang, Umbach, Li 2005
AlignMe Alinieri pentru secvențe de proteine ​​de membrană Proteină Ambii M. Stamm, K. Khafizov, R. Staritzbichler, L.R. Pentru odihnă 2013
ALLALIGN Pentru moleculele de ADN, ARN și proteine ​​de până la 32 MB, aliniază toate secvențele de dimensiunea K sau mai mare. Alinieri similare sunt grupate împreună pentru analiză. Filtru automat de secvențe repetitive. Ambii Local E. Wachtel 2017
Bioconductori Biostrings :: pairwiseAlignment Programare dinamică Ambii Ambele + Nu se termină P. Aboyoun 2008
BioPerl dpAlign Programare dinamică Ambii Ambele + Nu se termină Y. M. Chan 2003
BLASTZ, LASTZ Potrivirea modelelor însămânțate Nucleotidă Local Schwartz și colab. [18] [19] 2004,2009
CUDAlign Alinierea secvenței ADN de dimensiuni nelimitate în GPU-uri simple sau multiple Nucleotidă Local, SemiGlobal, Global E. Sandes [20] [21] [22] 2011-2015
DNADot Instrument de punctare a punctelor bazat pe web Nucleotidă Global R. Bowen 1998
DNASTAR Lasergene Molecular Biology Suite Software pentru alinierea ADN, ARN, proteine ​​sau ADN + secvențe proteice prin algoritmi de aliniere în perechi și secvențe multiple, inclusiv MUSCLE, Mauve, MAFFT, Clustal Omega, Jotun Hein, Wilbur-Lipman, Martinez Needleman-Wunsch, Lipman-Pearson și analiza Dotplot. Ambii Ambii DNASTAR 1993-2016
DOTLET Unealtă de punctare grafică bazată pe Java Ambii Global M. Pagni și T. Junier 1998
SĂRBĂTOARE Extensie locală bazată pe posterior cu model de evoluție descriptivă Nucleotidă Local A. K. Hudek și D. G. Brown 2010
Genome Compiler Genome Compiler Aliniați fișierele de cromatogramă (.ab1, .scf) cu o secvență șablon, localizați erorile și corectați-le instantaneu. Nucleotidă Local Genome Compiler Corporation 2014
G-PAS Programare dinamică bazată pe GPU cu backtracking Ambii Local, SemiGlobal, Global W. Frohmberg, M. Kierzynka și colab. 2011
GapMis Realizează alinierea secvenței în perechi cu un spațiu Ambii SemiGlobal K. Frousios, T. Flouri, C. S. Iliopoulos, K. Park, S. P. Pissis, G. Tischler 2012
Magician genom Software pentru căutarea motivelor de secvență ADN locală ultra rapidă și alinierea în perechi pentru datele NGS (FASTA, FASTQ). ADN Local, SemiGlobal, Global Hepperle D (www.sequentix.de) 2020
GGSEARCH, GLSEARCH Global: Global (GG), Global: Local (GL) alinierea la statistici Proteină Interogare globală W. Pearson 2007
JAligner Implementare Java open-source a Smith-Waterman Ambii Local A. Moustafa 2005
K * Sincronizare Secvența de proteine ​​pentru a structura alinierea care include structura secundară, conservarea structurală, profiluri de secvență derivate din structură și scoruri de aliniere consens Proteină Ambii D. Chivian și amp D. Baker [23] 2003
LALIGN Similitudine locale multiple, fără suprapunere (același algoritm ca SIM) Ambii Non-suprapunere locală W. Pearson 1991 (algoritm)
Aliniere NW Algoritm de programare dinamică Needleman-Wunsch standard Proteină Global Y Zhang 2012
mAlign modelarea alinierii modelează conținutul informațional al secvențelor Nucleotidă Ambii D. Powell, L. Allison și T. I. Dix 2004
potrivitor Aliniere locală Waterman-Eggert (bazată pe LALIGN) Ambii Local I. Longden (modificat din W. Pearson) 1999
MCALIGN2 modele explicite ale evoluției indel ADN Global J. Wang și colab. 2006
MUMmer bazat pe arborele sufixului Nucleotidă Global S. Kurtz și colab. 2004
ac Programare dinamică Needleman-Wunsch Ambii SemiGlobal A. Bleasby 1999
Ngila costuri de decalaj logaritmice și afine și modele explicite de evoluție indel Ambii Global R. Cartwright 2007
NW Programare dinamică Needleman-Wunsch Ambii Global A.C.R. Martin 1990-2015
parasail Biblioteca de programare dinamică C / C ++ / Python / Java SIMD pentru SSE, AVX2 Ambii Global, fără sfârșit, local J. Zilnic 2015
cale Smith-Waterman pe graficul de traducere a proteinei (detectează schimbări de cadre la nivel de proteine) Proteină Local M. Gîrdea și colab. [24] 2009
PatternHunter Potrivirea modelelor însămânțate Nucleotidă Local B. Ma și colab. [25] [26] 2002–2004
ProbA (de asemenea, propA) Eșantionarea funcției partiției stochastice prin programare dinamică Ambii Global U. Mückstein 2002
PyMOL Comanda "align" aliniază secvența & amp o aplică structurii Proteină Global (prin selecție) W. L. DeLano 2007
REPuter bazat pe arborele sufixului Nucleotidă Local S. Kurtz și colab. 2001
SABERTOOTH Alinierea utilizând profilurile de conectivitate prezise Proteină Global F. Teichert, J. Minning, U. Bastolla și M. Porto 2009
Satsuma Alinieri paralele ale sinteziei genomului întreg ADN Local M.G. Grabherr și colab. 2010
SEQALN Diverse programe dinamice Ambii Local sau global DOMNIȘOARĂ. Waterman și P. Hardy 1996
SIM, GAP, NAP, LAP Asemănare locală cu diferite tratamente pentru lacune Ambii Local sau global X. Huang și W. Miller 1990-6
SIM Similitudine locale Ambii Local X. Huang și W. Miller 1991
SPA: Aliniere super pereche Aliniere globală rapidă în perechi Nucleotidă Global Shen, Yang, Yao, Hwang 2002
CĂUTARE Aliniere locală (Smith-Waterman) cu statistici Proteină Local W. Pearson 1981 (Algoritm)
Studio de secvențe Applet Java care demonstrează diferiți algoritmi din [27] Secvență generică Local și global A.Meskauskas 1997 (carte de referință)
SWIFOLD Accelerarea Smith-Waterman pe FPGA Intel cu OpenCL pentru secvențe ADN lungi Nucleotidă Local E. Rucci [28] [29] 2017-2018
Costum SWIFT Căutare rapidă a alinierii locale ADN Local K. Rasmussen, [30] W. Gerlach 2005,2008
targă Programare dinamică Needleman-Wunsch optimizată pentru memorie Ambii Global I. Longden (modificat din G. Myers și W. Miller) 1999
tranalign Aliniază secvențele de acid nucleic având o aliniere proteică Nucleotidă N / A G. Williams (modificat din B. Pearson) 2002
UGENE Opensource Smith-Waterman pentru SSE / CUDA, Suffix array based repeats finder & amp dotplot Ambii Ambii UniPro 2010
apă Programare dinamică Smith-Waterman Ambii Local A. Bleasby 1999
wordmatch k-mai multe perechi Ambii N / A I. Longden 1998
YASS Potrivire tipar semănat Nucleotidă Local L. Noe și G. Kucherov [31] 2004

*Tipul secvenței: proteine ​​sau nucleotide **Tipul alinierii: local sau global

Nume Descriere Tipul secvenței * Tipul de aliniere ** Autor An Licență
ABA Aliniere A-Bruijn Proteină Global B. Rafael și colab. 2004 Proprietate, freeware pentru educație, cercetare, nonprofit
ALE alinierea manuală asistență software Nucleotide Local J. Blandy și K. Fogel 1994 (ultima versiune 2007) Gratuit, GPL2
ALLALIGN Pentru moleculele de ADN, ARN și proteine ​​de până la 32 MB, aliniază toate secvențele de dimensiunea K sau mai mare, MSA sau într-o singură moleculă. Alinieri similare sunt grupate împreună pentru analiză. Filtru automat de secvențe repetitive. Ambii Local E. Wachtel 2017 Liber
O HARTĂ Recuplarea secvenței Ambii Global A. Schwartz și L. Pachter 2006
anon. alinierea rapidă și optimă a trei secvențe folosind costuri de decalare liniare Nucleotide Global D. Powell, L. Allison și T. I. Dix 2000
BAli-Phy Arborele + estimarea comună probabilistică-bayesiană multi-aliniere Ambele + codoni Global BD Redelings și MA Suchard 2005 (ultima versiune 2018) Gratuit, GPL
Bază de bază Editor de aliniere a secvențelor multiple bazat pe Java cu instrumente de analiză integrate Ambii Local sau global R. Brodie și colab. 2004 Proprietatea, freeware, trebuie să se înregistreze
HAOS, DIALIGN Alinierea iterativă Ambii Local (preferat) M. Brudno și B. Morgenstern 2003
ClustalW Aliniere progresivă Ambii Local sau global Thompson și colab. 1994 Gratuit, LGPL
CodonCode Aligner Suport multi-aliniere ClustalW & amp Phrap Nucleotide Local sau global P. Richterich și colab. 2003 (ultima versiune 2009)
Busolă COpararea alinierii secvenței de proteine ​​multiple cu evaluarea semnificației statistice Proteină Global R.I. Sadreyev, și colab. 2009
DESCIFRA Aliniere progresiv-iterativă Ambii Global Erik S. Wright 2014 Gratuit, GPL
DIALIGN-TX și DIALIGN-T Metodă bazată pe segmente Ambii Local (preferat) sau Global A.R.Subramanian 2005 (ultima versiune 2008)
Alinierea ADN-ului Metodă bazată pe segmente pentru alinieri intraspecifice Ambii Local (preferat) sau Global A.Roehl 2005 (ultima versiune 2008)
DNA Baser Sequence Assembler Aliniere multiplă Alinierea completă a secvenței automate Corecția automată a ambiguității Apelant de bază intern Alinierea secvenței liniei de comandă Nucleotide Local sau global Heracle BioSoft SRL 2006 (ultima versiune 2018) Comercial (unele module sunt freeware)
DNADynamo ADN-ul legat de aliniere multiplă a proteinelor cu MUSCLE, Clustal și Smith-Waterman Ambii Local sau global DNADynamo 2004 (cea mai nouă versiune 2017)
DNASTAR Lasergene Molecular Biology Suite Software pentru alinierea ADN, ARN, proteine ​​sau ADN + secvențe proteice prin algoritmi de aliniere în perechi și secvențe multiple, inclusiv MUSCLE, Mauve, MAFFT, Clustal Omega, Jotun Hein, Wilbur-Lipman, Martinez Needleman-Wunsch, Lipman-Pearson și analiza Dotplot. Ambii Local sau global DNASTAR 1993-2016
EDNA Alinierea secvenței multiple bazate pe energie pentru siturile de legare a ADN-ului Nucleotide Local sau global Salama, RA. și colab. 2013
FAMSA Aliniere progresivă pentru familii de proteine ​​extrem de mari (sute de mii de membri) Proteină Global Deorowicz și colab. 2016
FSA Recuplarea secvenței Ambii Global R. K. Bradley și colab. 2008
Genios Plugin ClustalW de aliniere progresivă-iterativă Ambii Local sau global A.J. Drummond și colab. 2005 (ultima versiune 2017)
Kalign Aliniere progresivă Ambii Global T. Lassmann 2005
MAFFT Aliniere progresiv-iterativă Ambii Local sau global K. Katoh și colab. 2005 Gratuit, BSD
MARNA Multi-alinierea ARN-urilor ARN Local S. Siebert și colab. 2005
MAVID Aliniere progresivă Ambii Global N. Bray și L. Pachter 2004
MSA Programare dinamică Ambii Local sau global D.J. Lipman și colab. 1989 (modificat 1995)
MSAProbs Programare dinamică Proteină Global Y. Liu, B. Schmidt, D. Maskell 2010
MULTALIN Programare dinamică-clustering Ambii Local sau global F. Corpet 1988
Multi-LAGAN Alinierea progresivă a programării dinamice Ambii Global M. Brudno și colab. 2003
MUŞCHI Aliniere progresiv-iterativă Ambii Local sau global R. Edgar 2004
Opal Aliniere progresiv-iterativă Ambii Local sau global T. Wheeler și J. Kececioglu 2007 (ultima versiune 2013 stabilă, ultima versiune beta 2016)
Pecan Probabilitate-consistență ADN Global B. Paten și colab. 2008
Phylo Un cadru de calcul uman pentru genomică comparativă pentru a rezolva alinierea multiplă Nucleotide Local sau global McGill Bioinformatics 2010
PMFastR Alinierea conștientă a structurii progresive ARN Global D. DeBlasio, J Braund, S Zhang 2009
Praline Alinierea progresivă-iterativă-consistență-omologie-extinsă cu preprofilarea și predicția structurii secundare Proteină Global J. Heringa 1999 (ultima versiune 2009)
PicXAA Alinierea nonprogresivă a preciziei maxime așteptate Ambii Global S.M.E. Sahraeian și B.J. Yoon 2010
POA Ordin parțial / model Markov ascuns Proteină Local sau global C. Lee 2002
Probalign Probabilitate / coerență cu probabilitățile funcției de partiție Proteină Global Roshan și Livesay 2006 Domeniu public gratuit
ProbCons Probabilitate / consistență Proteină Local sau global C. Fă și colab. 2005 Domeniu public gratuit
PROMALS3D Aliniere progresivă / model Markov ascuns / Structură secundară / structură 3D Proteină Global J. Pei și colab. 2008
PRRN / PRRP Aliniere iterativă (în special rafinament) Proteină Local sau global Y. Totoki (bazat pe O. Gotoh) 1991 și mai târziu
PSAlign Alinierea păstrarea non-euristică Ambii Local sau global SH. Sze, Y. Lu, Q. Yang. 2006
RevTrans Combină alinierea ADN-ului și a proteinelor, prin traducerea înapoi a alinierii proteinelor la ADN. ADN / Proteine ​​(speciale) Local sau global Wernersson și Pedersen 2003 (cea mai nouă versiune 2005)
SAGA Alinierea secvenței prin algoritm genetic Proteină Local sau global C. Notredame și colab. 1996 (versiune nouă 1998)
SAM Modelul Markov ascuns Proteină Local sau global A. Krogh și colab. 1994 (cea mai recentă versiune 2002)
Sigiliu Aliniere manuală Ambii Local A. Rambaut 2002
StatAlign Coestimarea bayesiană a alinierii și filogeniei (MCMC) Ambii Global A. Novak și colab. 2008
Stemloc Alinierea multiplă și predicția structurii secundare ARN Local sau global I. Holmes 2005 Gratuit, GPL 3 (parte de DART)
T-Coffee Aliniere progresivă mai sensibilă Ambii Local sau global C. Notredame și colab. 2000 (cea mai nouă versiune 2008) Gratuit, GPL 2
UGENE Suportă alinierea multiplă cu pluginurile MUSCLE, KAlign, Clustal și MAFFT Ambii Local sau global Echipa UGENE 2010 (cea mai nouă versiune 2020) Gratuit, GPL 2
VectorFriends VectorFriends Aligner, plugin MUSCLE și plugin ClustalW Ambii Local sau global Echipa BioFriends 2013 Proprietate, freeware pentru utilizare academică
GLProbs Abordare adaptată bazată pe modelul Markov ascuns Proteină Global Da și colab. 2013

*Tipul secvenței: proteine ​​sau nucleotide. **Tipul alinierii: local sau global


Configurați întreaga analiză a genomului / exomei în câteva minute

Doriți să încercați aceste funcții pentru dvs.? Cu încercarea noastră gratuită de 14 zile, puteți încărca propriile date ADN-Seq și puteți alege dintr-o serie de fluxuri de lucru testate în luptă, cum ar fi QC, alinierea, adnotarea variantelor și varianta de apelare, acoperire, variante structurale și numărul copiei. Vedeți de ce unele dintre instituțiile de top din lume folosesc Basepair pentru a economisi mii de ore (și dolari) pentru nevoile lor de analiză a datelor NGS.


Aliniere

Când genomul de referință este cunoscut, alinierea citirilor scurte la genomul de referință necesită, de obicei, o etapă de indexare a genomului care are ca scop reducerea și îmbunătățirea eficienței de calcul în timpul procesului de cartografiere. Fișierele produse în timpul indexării pot varia în funcție de software-ul utilizat. Apoi, citirile sunt mapate la secvența de referință. Cel mai frecvent utilizat software pentru datele WGS este BWA. Basepair oferă o conductă folosind acest instrument. Ca rezultat al acestui pas, este generat un fișier SAM sau BAM care conține informații despre citirile aliniate. În cazul în care de asamblare novo, algoritmii utilizați pentru a efectua această analiză se bazează pe asamblarea contigului, schele și umplerea golurilor în proiectul genomului din fragmentele secvențiate. Basepair oferă o conductă de asamblare de-novo care folosește instrumentul Trinity.


Materiale și metode

SO și SOFA au fost construite și sunt întreținute folosind instrumentul de editare ontologică OBO-Edit. Ontologiile sunt disponibile la [34].

FlyBase D. melanogaster [35] datele au fost derivate din baza de date relațională GadFly [36] și convertite în Chaos-XML folosind instrumentele Bio-haos. Trăsăturile au fost adnotate la cel mai profund concept din ontologie posibil, date fiind informațiile disponibile. De exemplu, gradul de informații din adnotări a fost suficient de profund pentru a descrie caracteristicile transcrierii cu tipul de ARN, cum ar fi ARNm, sau ARNt. Prin urmare, a fost posibil să se limiteze analiza la anumite tipuri de transcriere. Instrumentele CGL au fost utilizate pentru a valida fiecare dintre adnotări, itera prin gene și pentru a interoga caracteristicile. Operatorii EM au fost aplicați la caracteristicile părții genelor.

Alte date despre organism au fost derivate din genomi secțiunea GenBank [37]. Fișierele plate GenBank au fost convertite în Chaos-XML compatibil SO folosind scriptul cx-genbank2chaos.pl (disponibil de la [19]) și BioPerl [23]. Analizatorul BioPerl GenBank, Bio :: SeqIO :: genbank a fost folosit pentru a converti fișierele plate GenBank în obiecte Bioperl SeqFeature. Relațiile caracteristice dintre aceste obiecte au fost deduse din informații despre locație utilizând codul Bioperl Bio :: SeqFeature :: Tools :: Unflattener. Tipurile Tabelului de caracteristici GenBank au fost convertite în termeni SO folosind clasa Bio :: SeqFeature :: Tools :: TypeMapper, care conține o mapare codificată pentru subsetul Tabelului de caracteristici GenBank care este utilizat în prezent în genomi secțiunea GenBank. Aceeași clasă Perl a fost utilizată pentru a tasta feature_relationships în funcție de tipurile de relații SO. Analiza EM a fost efectuată pe adnotările Chaos-XML folosind suita de module CGL pentru a itera peste părțile fiecărei gene.


Soluții de analiză a datelor de secvențiere ADN

Instrumente simple de analiză a secvenței ADN

Sistemele de secvențiere Illumina pot produce baze de date cu date de secvențiere pe zi. Soluțiile noastre intuitive de bioinformatică îi ajută pe cercetători să dea sens tuturor acestor apeluri de bază. Oferim o gamă largă de soluții complete de analiză a datelor de secvențiere (NGS) cuprinzătoare și fără probleme, inclusiv instrumente cu butoane pentru alinierea secvenței ADN, apelarea variantelor și vizualizarea datelor.

Analizați datele de secvențiere a ADN-ului de la genomi întregi mari sau mici, exomi întregi, regiuni genetice vizate și multe altele cu ajutorul software-ului nostru ușor de utilizat.

Scalarea de la Exomes la Genomes

Platforma DRAGEN BioIT permite GeneDx să se extindă la analiza întregului genom, păstrând în același timp costurile scăzute, duratele scurte și precizia ridicată.

Avantajele analizei datelor de secvențiere a ADN-ului cu soluțiile software Illumina

Datele generate pe instrumentele de secvențiere Illumina pot fi transferate și stocate automat în siguranță în Illumina Connected Analytics și BaseSpace Sequence Hub. Acest mediu de computing cloud de genomică are o colecție de aplicații de analiză a datelor NGS preferate de experți, care acceptă o gamă largă de studii și simplifică gestionarea datelor NGS. Aceste aplicații oferă soluții scalabile de bioinformatică pentru analiza datelor secvențierii ADN și a altor date Illumina.

Platforma Bio-IT Illumina DRAGEN (Dynamic Read Analysis for GENomics) oferă o analiză secundară extrem de precisă, ultra-rapidă a datelor NGS, inclusiv date din genom întreg, exom și experimente de secvențiere a ADN-ului țintit. Disponibilă în Illumina Connected Analytics, BaseSpace Sequence Hub sau la fața locului, această platformă oferă o varietate de conducte de analiză secundară accelerată, variind de la linie germinativă la somatică (T / N și numai pentru tumori), genotipare comună, metilare, un sistem autonom harta și alinierea conductei și multe altele.

În plus, DRAGEN folosește compresie genomică fără pierderi pentru a comprima și decomprima rapid fișierele FASTQ. Această tehnologie reduce amprenta de stocare a datelor cu până la 5x, păstrând totodată integritatea datelor.


Sistemul de analiză și gestionare a secvențelor - SAMS-2.0: gestionarea datelor și analiza secvenței adaptate cerințelor în schimbare de la secvențierea tradițională a sangerului la tehnologiile de secvențiere ultrarapide

Secvențierea ADN joacă un rol din ce în ce mai important în diferite domenii ale geneticii. Aceasta include secvențierea genomurilor întregi, bibliotecile de clone ADNc și sondele comunităților de metagenomi. Tehnologiile de secvențiere aplicate evoluează permanent. Odată cu apariția tehnologiilor de secvențiere ultrarapide, a început recent o nouă eră a secvențierii ADN-ului. În același timp, apar nevoile de instrumente bioinformatice adaptate. Deoarece capacitatea de a procesa eficient seturile de date actuale este esențială pentru genetică modernă, o platformă modulară de bioinformatică care oferă metode extinse de analiză a secvențelor este desemnată pentru a atinge bine cerințele în continuă creștere. Sistemul de analiză și gestionare a secvențelor (SAMS) este o platformă software de bioinformatică cu un backend de bază de date conceput pentru a sprijini analiza computațională a (1) secvențierii genomului bacterian cu pușcă cu genom întreg (WGS), (2) secvențierea ADNc prin citirea etichetelor de secvență exprimate (EST) ) precum și (3) date de secvență obținute prin secvențializare ultrarapidă. Oferă o analiză bioinformatică extinsă a citirilor unice secvențiate, bibliotecilor de secvențiere și a fragmentelor de secvențe ADN arbitrare, cum ar fi contigurile asamblate ale citirilor metagenomului, de exemplu. Sistemul a fost implementat pentru a face față câtorva mii de secvențe, procesându-le eficient și stocând rezultatele pentru analize ulterioare. Odată cu configurarea proiectului, SAMS recunoaște automat tipul de date.


Rezultate

Evaluarea algoritmilor de detectare SV folosind date WGS simulate și reale

Am accesat 79 de algoritmi de detectare SV disponibili public care pot gestiona datele WGS umane, dar nu necesită mai multe eșantioane, cum ar fi seturi de date potrivite (de exemplu, eșantioane de control și tumori). Am exclus 10 algoritmi care nu funcționau în mediul nostru de calcul. Rezultatele completate au fost obținute cu 69 de algoritmi utilizând date WGS umane simulate și reale (Fișier suplimentar 1: Tabelele S1 și S2, vă rugăm să consultați Fișierul suplimentar 1: Tabelul S1 pentru referința pentru fiecare algoritm descris mai jos și Fișierul suplimentar 1: Tabelul S2 pentru listă de algoritmi neprelucrați) pentru a calcula precizia și rechemarea. Un set de date de citire scurtă simulat a fost generat folosind simulatorul VarSim [37]: mai întâi, a fost generat un genom diploid uman GRCh37 simulat în care fuseseră introduse SV-uri cunoscute în locurile cunoscute, apoi acesta a fost folosit pentru a genera citiri scurte simulate de capăt 125 bp) cu dimensiunea inserției de 500 bp, cu o acoperire medie de 30 × a genomului simulat (Sim-A). Numărul de SV simulate de fiecare tip a fost ușor mai mare decât numărul mediu detectat pentru un genom uman individual în proiectul 1000 Genome [6] (de exemplu, de 1,3 ori mai mare pentru DEL-uri, Fișier suplimentar 1: Tabelul S4-A și S4- C). Patru seturi de date de citire scurtă Illumina NA12878 (data1, data2, data3 și data4) și trei seturi de date de citire lungă PacBio (PacBio-data1, PacBio-data2 și PacBio-data3) au fost utilizate ca seturi de date reale și au fost achiziționate de la surse diferite cu lungimi diferite de citire și / sau dimensiuni de inserare (Fișier suplimentar 1: Tabel S3). Un set de date SV de referință pentru datele reale a fost generat prin combinarea setului de date DGV corespunzător NA12878 și a datelor INS, DEL și INV detectate din ansamblurile de citire lungă NA12878 (Fișier suplimentar 1: Tabelul S4 vezi secțiunea „Metode” pentru detalii).

Aceste seturi de date, inclusiv datele simulate și patru sau trei seturi de date NA12878, au fost aliniate cu genomul de referință GRCh37d5 folosind bwa [38] sau alte instrumente de aliniere specifice (vezi secțiunea „Metode”). Datele de aliniere sau datele citite au fost apoi utilizate pentru apelarea DEL-urilor, DUP-urilor, INS-urilor și INV-urilor în toate cu excepția cromozomului Y pentru datele reale. Translocațiile nu au fost evaluate deoarece există puține translocații cunoscute în bazele de date și VarSim nu poate simula translocații. Pentru DEL-uri și DUP-uri, SV-urile au fost împărțite în patru și respectiv trei categorii, în funcție de dimensiunile lor (DEL-SS: 50-100 bp DEL-S și DUP-S, 100 bp până la 1 kb DEL-M și DUP-M, 1–100 kb DEL-L și DUP-L, 100 kb la 1 Mb). Am definit adevăratele SV numite SV-urile care se suprapun semnificativ cu SV-urile de referință prin proporții (≧ 50% [sau ≧ 80% pentru datele simulate] se suprapun reciproc pentru DEL-uri, DUP-uri și INV-uri se suprapun cu un BP ± 200 bp pentru INS-uri ). Schița întregului proces de evaluare este prezentată în Figura S1 în fișierul suplimentar 1.

Am observat modificări de precizie și rechemare utilizând diferite praguri de filtrare, numărul minim de citiri care susțin SV-urile numite, denumite „RSS” (Reads Supporting SV) în acest studiu (a se vedea fișierul suplimentar 1: Figura S2 pentru exemple reprezentative). Astfel, pentru a compara performanța fiecărui algoritm cât mai obiectiv posibil, am selectat un RSS pentru fiecare set de apeluri la care numărul de apeluri pentru un tip SV aproximează datele de referință simulate sau numărul așteptat de SV-uri la o persoană (a se vedea „ Secțiunea Metode ”pentru detalii). Atât precizia, cât și rechemarea au fost calculate pentru fiecare interval de dimensiuni DEL (fișier suplimentar 1: Figura S3), DUP (fișier suplimentar 1: Figura S4), INS și INV (fișier suplimentar 1: Figura S5) pentru datele reale, media sunt prezentate precizia și rechemarea din cele patru seturi de date citite pe scurt. Datele numerice pentru toate rezultatele pentru seturile de date reale Sim-A și multiple NA12878 sunt prezentate în tabelele S5-S9 din fișierul suplimentar 3. Valorile de precizie și de rechemare la RSS-urile selectate pentru cele patru seturi de date reale NA12878 și media și standardul deviația (SD) sunt prezentate în tabelul S10 din fișierul suplimentar 3.

Precizia și rechemarea apelurilor SV variază foarte mult în funcție de algoritm, tipul SV și dimensiunea SV. Figurile 1 și 2 evidențiază o serie de algoritmi care au detectat în mod specific și / sau sensibil senzorii SV pentru fiecare tip de SV și pentru fiecare gamă de dimensiuni a SV (a se vedea, de asemenea, Fișierul suplimentar 1: Figurile S3-S5 pentru graficele de recuperare de precizie). Figura 1 prezintă statisticile combinate (F-măsură) pentru precizia și rechemarea fiecărui algoritm pentru apelarea fiecărui tip SV și evidențiază un subset de algoritmi care pot apela multe SV-uri cu un nivel ridicat de precizie și rechemare atât pentru seturile de date simulate, cât și pentru cele reale, care includ 1-2-3- SV [39], DELLY [32], GRIDSS [40], inGAP-sv [41], Lumpy [35], Manta [42], MetaSV [43], Pindel [34], SoftSV [44], SvABA [45] ] și Wham [46]. Deși mulți dintre algoritmii care apelează DEL sau DUP au acoperit toate intervalele de dimensiuni (S, M și L) atât pentru seturile de date simulate, cât și pentru cele reale, un subset de algoritmi a prezentat o performanță limitată într-un anumit interval de dimensiuni (Fig. 2). De exemplu, CLEVER [47] a detectat mai puțin eficient DEL-uri mari și algoritmi bazați pe adâncime (de exemplu, AS-GENESENG [48], Control-FREEC [49], CNVnator, OncoSNP-Seq [50], readDepth [51] și GenomeSTRiP [33]) a detectat mai puțin eficient DEL-uri mici și / sau DUP-uri.

Specificitatea tipului SV a algoritmilor de detectare SV. Precizia și rechemarea DEL-urilor, DUP-urilor, INS-urilor și INV-urilor au fost determinate cu ajutorul simulării (A) și datele reale NA12878 (b). Modificat F-măsuri (statisticile combinate pentru precizie și rechemare (vezi secțiunea „Metode” pentru detalii)) sunt afișate pentru algoritmii indicați cu albastru (pentru DEL), roșu (pentru DUP), portocaliu (pentru INS) și violet (pentru INV) bare. Sunt indicate valorile medii ale rezultatelor obținute cu cele patru seturi de date reale NA12878 (trei seturi de date PacBio pentru citiri lungi). Algoritmii au fost clasificați în funcție de metodele utilizate pentru detectarea semnalelor SV (RP, perechi de citire SR, citire divizată RD, adâncime de citire AS, asamblare LR, citiri lungi) și metodele lor combinate (RP-SR, RP-RD, RP-AS , RP-SR-AS și RP-SR-RD)

Specificitatea intervalului de mărime al algoritmilor de detectare SV pentru DEL-uri și DUP-uri. Precizie și rechemare a fiecărei game de dimensiuni a DEL-urilor (A, b) și DUP (c, d) au fost determinate cu simularea (A, c) și datele reale NA12878 (b, d). Modificat F-măsurile (statisticile combinate pentru precizie și rechemare) sunt afișate pentru algoritmii indicați cu portocaliu (pentru S, 100 bp la 1 kb), albastru (pentru M, 1 la 100 kb) și roșu (pentru L, 100 kb la 1 Mb) bare. Sunt indicate valorile medii ale rezultatelor obținute cu cele patru (sau trei) seturi de date reale NA12878. Algoritmii au fost clasificați în conformitate cu metodele utilizate pentru a detecta semnale SV, ca în Fig. 1

Algoritmii de referință în acest studiu se bazează pe una dintre cele 10 clase de metode, inclusiv RP, RD, SR, AS sau LR singur, sau una dintre cele cinci metode combinate (RP-RD, RP-SR, RP-AS, RP- RD-S și RP-SR-AS) (Fișier suplimentar 1: Tabel S1). Pentru apelarea DEL și DUP, metodele SR, LR și RP-SR-AS au obținut performanțe relativ bune atât cu datele simulate, cât și cu cele reale, așa cum se arată în graficele de precizie-rechemare pentru cele 10 metode de detecție SV clasificate (Fișier suplimentar 1: Figura S6).

În plus, am determinat potențialele apeluri fals pozitive pentru fiecare algoritm folosind date genealogice NA12878, NA12878 pentru copil și NA12891 și NA12892 pentru părinți (Fișier suplimentar 1: Tabel S3). Variantele prezente numai la copil, dar nu la ambii părinți, sunt atribuibile erorilor de moștenire mendeliene sau variantelor de novo. Deoarece apariția SV de novo este destul de scăzută și este astfel neglijabilă [28], apelurile SV de la singurul copil sunt derivate din erori de moștenire mendeliene sau apel fals-negativ la părinți. Am determinat rata de eroare a moștenirii mendeliene (MIER procentul de erori de moștenire mendeliană în apelurile totale) pentru fiecare algoritm din fiecare tip SV. Am observat o corelație slabă între „100 - MIER” și precizie pentru fiecare algoritm din fiecare tip SV (coeficienții de corelație a rangului Spearman, 0,31

0,46 pentru fiecare tip SV) (Fișier suplimentar 1: Figura S7 și fișier suplimentar 3: Tabelele S6 – S10 pentru date numerice). Corelația slabă se poate datora apelurilor fals-negative la părinți și / sau prezenței falsurilor pozitive care sunt numite frecvent între părinți și copil.

Evaluare cu date HG00514 WGS

Am evaluat în continuare algoritmul de detectare SV folosind un alt datele reale WGS ale unui individ chinez Han HG00514 (Fișier suplimentar 1: Tabel S3), care este una dintre datele utilizate în Consorțiul de Variație Structurală a Genomului Uman (HGSV). În HGSV, un set SV HG00514 a fost generat folosind 13 algoritmi scurți de detectare SV bazate pe citire și folosind o abordare cu ansambluri lungi bazate pe citire [36]. Am folosit acest set SV ca set SV de referință, deși era lipsit de INV (Fișier suplimentar 1: Tabelul S4 vezi secțiunea „Metode” pentru detalii). Am arătat performanța fiecărui algoritm pentru fiecare tip de SV și pentru fiecare gamă de dimensiuni a SV folosind F-măsură (Fișier suplimentar 1: Figurile S8 și S9) și utilizarea graficelor de recuperare de precizie (Fișier suplimentar 1: Figurile S10 și S11 și fișierul suplimentar 3: Tabel S11 pentru date numerice), așa cum s-a demonstrat pentru seturile de date NA12878 din secțiunea anterioară . Deși tendința de precizie și rechemare între algoritmi a fost similară cu cea a rezultatelor NA12878, valorile generale ale preciziei în special pentru DEL au fost mai mici decât cele ale NA12878 (precizia medie în HG00514: 53,6 pentru DEL, 22,5 pentru DUP, 42,9 pentru INS precizie medie în NA12878: 62,0 pentru DEL, 27,9 pentru DUP, 47,7 pentru INS).

We examined the correlation in the SV calling accuracies between the six datasets (the four NA12878 real datasets, one HG00514 real dataset, and one simulation dataset), by comparing the accuracy ranks of algorithms between SV types and/or datasets with the Spearman rank correlation coefficients (Additional file 1: Figure S12). The rank correlation coefficients for these algorithms were high (> 0.7 for almost all cases) for all types of SV between the five real datasets, suggesting that the determined SV calling accuracies for the tested algorithms were robust at least among the NA12878 and HG00514 datasets. The accuracy ranks between the simulated and NA12878 real datasets correlated reasonably well for DELs (0.72) and INSs (0.61) but weakly correlated for INVs (0.57) and DUPs (0.48). This result suggests that the simulated data fails to accurately model the mechanisms of SV formation, especially the properties of the real DUPs and INVs, which often involve complex SVs in which other types of SVs are integrated [24]. Alternatively, DUPs and INVs for NA12878 may be insufficiently represented in the reference databases. Exceptionally, the accuracy ranks for DUPs between the simulated and HG00514 real datasets (0.72) were considerably higher than those between the simulated and NA12878 real datasets (0.49). This high correlation is probably because HG00514 DUPs reported in HGSV have been detected mainly with short read-based SV detection algorithms [36], in contrast with NA12878 DUPs that are derived mainly from array-based detection. On the other hand, the high correlation between all the datasets observed for DELs was probably because the NA12878 reference DELs were covered with the datasets derived from both array-based and assembly-based SV detection.

Evaluation of algorithms that call MEIs, NUMTs, and VEIs

Based on the identity of the inserted sequence, some INSs can be classified into special classes including MEIs, NUMTs, and VEIs. Thus, we next evaluated the subset of computational algorithms that detect specific classes of INSs. We used three different simulated datasets (Sim-MEI, Sim-NUMT, and Sim-VEI, generated using only the chr17 sequence see the “Methods” section) and the four NA12878 real datasets to evaluate the performances of 12 algorithms and an additional five derivatives of three algorithms (Fig. 3, and see Additional file 3: Tables S5–S10 for the numerical data). For the real data, the numbers of true positives (TPs) was determined in place of recall, because MEI, NUMT, and VEI have not been defined for the NA12878 INS reference. We added NUMT-compatible versions of Mobster [52], MELT [53], and Tangram [54] (Mobster-numt, MELT-numt, and Tangram-numt) and VEI-compatible versions of Mobster and Tangram (Mobster-vei, Tangram-vei) to NUMT- and VEI-detection algorithms, respectively (see Additional file 4: Supplementary methods for detail).

Precision and recall of MEIs, NUMTs, and VEIs called using existing algorithms. MEI (A, b), NUMT, and VEI (c, d) insertions were called using the indicated algorithms and simulated data (A, c) and the real data (b, d). NUMTs and VEIs were called using algorithms including modified versions of Mobster, MELT, and Tangram (Mobster-numt, Mobster-vei, MELT-numt, Tangram-numt, and Tangram-vei). For the real data, the mean values of the results obtained with the four NA12878 real datasets (data1 to data4) are indicated. VirusFinder and HGT-ID could not be applied to accomplish the runs for the real data due to unresolvable errors. The precision and recall percentages (or the number of true positives for the real data) determined for the respective call sets are indicated on the X-axis and y-axis, respectively. The data labeled with (+len) were determined considering insertion length in addition to breakpoints in (A). In this case, called sites were judged as true when the ratio of the called MEI lengths and the matched reference MEI length was ≧ 0.5 and ≦ 2.0. The algorithms without the label do not output the defined length of insertions

For MEI calling, MELT and Mobster achieved higher performances with both the simulated and real data than the other algorithms (> 88% in precision and > 50% in recall [> 900 TPs], Fig. 3a and b). Although MELT had the highest recall for MEI calling, RetroSeq, Tangram, and Mobster exhibited higher recall metrics in calling simulated LINE1 than MELT (Additional file 3: Table S5). For NUMT, MELT-numt exhibited the highest precision (> 92%) both with the simulated and the real data but exhibited only 20% recall with the simulated data (Fig. 3c and d). A more increased recall for NUMT calling may be achieved by a combination with Tangram-numt or DINUMT, because MELT-numt calls exhibited only 67% overlap with the Tangram-numt or DINUMT calls. For VEI, Mobster-vei had the highest precision (100%) and recall (

90%) in the simulated data (Fig. 3c).

Evaluation of algorithms with long read data

We evaluated the performances of three SV detection algorithms with long read data, including PBHoney [22], Sniffles [55], and pbsv [56]. We also added a modified PBHoney algorithm (PBHoney-NGM), which used NGM-LR as alignment tool (see the “Methods” section). To generate a simulated dataset of long reads, PacBio long reads (average 7.5–20 kb) aimed at 10× coverage were simulated with Sim-A using the PBSIM simulator [57] (Fig. 4, Additional file 1: Table S3). For real data, we used long read datasets from three individuals: NA12878 (PacBio-data1 to PacBio-data3), HG002 (PacBio-HG002), and HG00524 (PacBio-HG00524) to determine precision and recall (Additional file 1: Table S3). pbsv achieved the highest precision and recall in DEL calling with the simulated data (Fig. 4, Additional file 3: Tables S5-S10 for the numerical data). Overall, however, the three algorithms exhibited similar accuracy in the real data, especially in the HG002 data. Although the input datasets used for evaluation of short read-based and long read-based algorithms were different, we compared the evaluation results of these three detection algorithms with those of short read-based ones (Figs. 1 and 2, Additional file 1: Figures S3–S5 and S8–S11). The long read-based algorithms exhibited good performances in calling short DELs (DEL-SS and DEL-S) and INSs despite the lower coverage of the long read data (10×) than that of the short read data (30×).

Precision and recall of SV detection algorithms with long read data. Precision and recall determined with the Sim-A-PacBio simulated data (A), the NA12878 real datasets (b), the PacBio-HG002 real data (c), and the PacBio-HG00514 real data (d). For the NA12878 data, the mean values of the results obtained with the three NA12878 long read datasets (PacBio-data1 to PacBio-data3) are indicated

Effect of different properties of read data on detection accuracy

We examined how read and library characteristics affect the precision and recall of SV calling among algorithms with relatively high precision and/or recall for each type and each size range. We generated datasets with different read lengths (100 bp, 125 bp, and 150 bp), read coverage (10×, 20×, 30×, and 60×), and library insert size (400 bp, 500 bp, and 600 bp) and evaluated the SV calling accuracies of the algorithms with these datasets (Additional file 2: Figure S13).

Changes in read coverage prominently affected recall and precision (see Additional file 1: Tables S12 and S13 for the summarized and statistical results). Data with higher coverage exhibited higher recall due to an increased number of signals including discordant reads and split reads. Interestingly, for many algorithms data with higher coverage resulted in lower precision than data with lower coverage when compared at the same threshold of RSS (as representative examples, see Additional file 2: Figure S13-A, S13-N, S13-X, S13-Z, S13-AJ, S13-AN, S13-AS, and S13-AU). In many cases, the precision using high-coverage data was comparable to that with lower coverage when the threshold values of RSS were increased (Additional file 2: Figure S13-M, S13-T, S13-X, S13-Y, S13-AB, S13-AD, S13-AH, S13-AL, S13-AN, S13-AP, S13-AR, and S13-AU). These results suggest that increasing the read coverage results in an increased number of spuriously aligned reads that lead to miscalling of SVs. In contrast to read coverage, neither read length nor insert size greatly affected recall and precision. We noted overall moderate effects on recall and precision for INS calling, while larger insert sizes led to greater than 10% decreased recall for DEL calling for several algorithms including BreakDancer [30], DELLY, inGAP-sv, Meerkat [58], and RAPTR-SV [59] (Additional file 1: Tables S12 and S13).

Accuracy for calling breakpoints, sizes, and genotypes of SVs

We evaluated the accuracy with which each algorithm called breakpoints (BPs) and SV length (both calculated in root mean squared errors, RMSEs) using the Sim-A data (Additional file 3: Table S14 also see the “Methods” section for RMSEs). BreakSeek [60], BreakSeq2 [61], CREST [62], DELLY, GRIDSS, PBHoney-NGM, pbsv, SvABA, SVseq2 [63], and Wham achieved the highest accuracy (< 60-bp RMSE) for calling BPs for all size ranges of the DELs and/or DUPs. CREST, Manta, FermiKit [64], Pamir [65], pbsv, SVseq2, SoftSearch [66], Wham, and the specific INS detection algorithms (MEI and NUMT algorithms) exhibited the highest accuracy (< 10-bp RMSE) for calling INS BPs. Most algorithms that called BPs accurately used the split reads-based or assembly-based methods whereas algorithms only using the read depth-based alone approach exhibited poor BP resolution. BreakSeek, BreakSeq2, CLEVER, CREST, DELLY, FermiKit, GASVPro [67], GRIDSS, inGAP-sv, laSV [68], Lumpy, Manta, PBHoney-NGM, pbsv, PRISM [69], SvABA, SVseq2, and Wham provided higher accuracy (< 100-bp RMSV) for lengths of called DELs and/or DUPs, and most of these algorithms used the read pair-based or assembly-based method. These results suggest that the basic method used in SV detection algorithms affects the resolution of the called BPs and sizes.

Twenty-two algorithms used in this study call the genotypes or copy number associated with the detected SVs. We determined the precision and recall of the SV genotypes called with these algorithms using the Sim-A and NA12878 real datasets (Additional file 1: Figure S14 and Table S15). In the real datasets, only 335 DELs and 120 DUPs with specified genotype information were available. For the real DEL data, most algorithms exhibited > 95% precision. In contrast, most of the called DUPs did not match the 120 reference DUPs, limiting interpretation (Additional file 1: Table S15). For the simulated DEL data, Manta, Lumpy, Pindel, and ERDS [70] exhibited top performance in terms of both precision (> 90%) and recall (> 1900 TPs). PennCNV-Seq, CNVnator, BICseq2 [71], and readDepth exhibited high precision (> 89%) and recall (> 800 TPs) for the DUP data. For the INS data, Manta achieved the best performance, with > 97% precision. We note that algorithms with high performance genotype calling are also algorithms with good SV detection precision and recall.

Run time and memory consumption

Figure 5 shows run time and maximum memory per CPU for each SV detection algorithm, which were determined with 30× short read data (10× for long reads) of the NA12878 data1 that were aligned to the NA12878 chromosome 8 (146 Mb). SV detection algorithms directly using fastq read files (FermiKit, laSV, MinTheGap, Pamir, ITIS, and VirusSeq), many of which use the assembly method, exhibited long run time and large memory consumption. Algorithms requiring specific alignment tools, including VariationHunter [72] and long read-based algorithms, took longer run time than the standard algorithms using BWA. Pindel, known as a popular algorithm, also took longer run time although it exhibited good SV calling accuracy. Many of algorithms using the read depth method or detecting viral element insertions consumed larger memory than the others.

A, b Run time and memory consumption for SV detection algorithms. A bam or fastq files of the reads aligned to the NA12878 chromosome 8 (NA12878 data1 or PacBio-data1) was used as input data, and GRCh37 chr8 fasta file was used as reference. Each of the indicated algorithms was run using a single CPU. For VH (VariationHunter) and PBHoney, the data obtained together with the run of the indicated alignment tools (BL, BLASR NG, NGM-LR) are also shown. For MetaSV, run time and maximum memory without those spent on Pindel and the other required tools are indicated. The algorithms were categorized according to the methods used to detect SV signals (RP, SR, RD, AS, LR, MEI/NUMT/VEI, and others) and their combined methods (RP-SR, RP-RD, RP-AS, RP-SR-AS, and RP-SR-RD)

Systematic identification of pairs of algorithms showing high accuracy in their overlapping, called SVs

The above results revealed that the precision and recall with which a given algorithm calls SVs varies widely and depends on the types and size ranges of the SVs. However, few algorithms could call SVs with high precision, especially for DUP, INS, and INV of the real data, although the real dataset is likely to be incomplete (i.e., there are unidentified true SVs not present in our reference SV set). Several studies have taken the strategy of selecting SVs that are commonly called by multiple algorithms to increase the precision of the called SVs [13, 14, 24,25,26,27,28,29]. However, there has been no systematic investigation into optimal strategies to combine the results of multiple algorithms. We selected a total of 51 algorithms (12–38 algorithms for each SV type and size range) that exhibited relatively high precision and recall [the sum of recall (or precision) of the simulated and the NA12878 real data is > 10 for INS and INV or > 30 for the other types of SVs] for each type and each size range, and determined the precision and recall of the SVs that were commonly called for each combination of pairs of algorithms (Fig. 6 for INS and Additional file 1: Figures S15–S22 for DEL, DUP, and INV, also see Additional file 3: Table S16). The set of SVs called in common by two algorithms was more precise than the SVs called with either algorithm alone, as expected, yet this came at the cost of decreased recall. The degree of increased precision and decreased recall was varied depending on the algorithm combination. Combinations of algorithms that yielded more precise calls for a given type and size range of SV in both the simulated and real data are highlighted (Fig. 6 and Additional file 1: Figures S15–S22). We calculated the mean precision and recall values of overlapped calls between pairs of algorithms for each SV category (Additional file 1: Figure S23, Additional file 3: Table S17). As expected, high precision in the overlapped calls was often observed in pairs containing an algorithm exhibiting high precision by itself. Interestingly, however, several algorithms with a moderate level of precision in an SV category yielded higher precision in their overlapped calls. Examples of such good “team players” include CREST and VariationHunter in the DEL category and BASIL-ANISE [73] and BreakSeek in the INS category, each of which showed over twofold increase in combination with another algorithm.

Recall and precision of SVs commonly called between a pair of SV detection algorithms for the INS category. INSs, called from the indicated algorithms, were filtered with the minimum number of reads supporting the called SVs, indicated with the suffix number of the algorithm name. The INSs overlapping between the filtered SV sets from a pair of the indicated algorithms were selected, and the recall and precision of the selected INSs were determined. Recall and precision percentages are presented with an intervening slash, and the recall/precision values for the simulated and real data are indicated in the upper and lower lines of each cell, respectively. Results for the real data represent the mean values of the values determined with four different NA12878 datasets (three PacBio datasets for long reads). The recall/precision values for the individual algorithm are indicated with blue letters and a white background. The data contained in the top 20th percentile of the combined precision scores (see the “Methods” section for details) for the simulated and real data are highlighted with a red background, and the next data contained in the top 21st to 50th percentile of the combined precision scores are shown with a pale red background. “–” indicates undetermined data

We then examined how precision and recall change when combining algorithms across the six SV detection methods, including RP, SR, RD, AS, LR, and CB (Fig. 7 and Additional file 3: Table S18). The DEL-calling precision increased less than the other types of SV because precision was already high. In general, combinations of algorithms from two different method class led to higher precision but lower recall than two algorithms using the same methods (mean fold change of precision: 1.63× for the same method and 1.82× for different methods mean fold change of recall, 0.5× for the same method and 0.33× for different methods) (Fig. 7). These results suggest that combining algorithms from two different methods is a better strategy for obtaining an accurate representation of SV than using two algorithms of the same class. However, the results also suggest that the importance of obtaining overlapping SV calls with high precision and high recall to select good pairs of algorithms, irrespective of the combination of methods used in the algorithms.

Increased or decreased rates of precision and recall of overlapped calls between various SV detection methods. Precision and recall values of overlapped calls between pairs of algorithms based on the indicated six different methods were determined for different SV categories (DEL-M (A), DEL-L (b), DUP-S (c), DUP-M (d), DUP-L (e), INS (f), and INV (g)) using four sets of NA12878 real data. The mean values (presented in Additional file 3: Table S18 in detail) were summarized based on pairs of methods (method 1 and method 2) by calculating the fold increase of precision or recall of overlapped calls relative to those for method 1 alone. RP, method using read pairs-based signal RD, method using read depth-based signal SR, method using split (soft-clipped) reads-based signal AS, assembly-based approach LR, method using long reads, CB combined method using two or more methods out of RP, SR, RD, and AS


Genetic variants filtering¶

Resulting genetic variants files, annotated or not, can be opened in the Variant Explorer app. In the Variant Explorer you can interactively explore the information about found mutations, as well as sort and filter them by specific factors such as: locus, type of variants (SNP, INS, DEL, MNP), reference or alternative allele, Phred-scaled probability that the alternative allele is called incorrectly, and for annotated variants by their predicted effect, impact and functional class. Besides that, the app computes genotype frequencies for homozygous samples with reference and alternative alleles (GF HOM REF and GF HOM ALT columns, respectively), reads depth for homozygous samples with alternative allele (DP HOM ALT) and reads depth for heterozygous samples (DP HET). To prioritise found mutations open an annotated genetic variants file in the Variant Explorer: right-click on the resulting file name in the Data Flow Runner, Task Manager or File Browser and select Variant Explorer in the context menu. In total 4,361,389 variants were found.

Let’s now use the filters to see how many of these are high impact variants. Set the filter “Impact” to “high”. As we can see out of all the identified variants 1007 have a high impact.

Let’s now see how many of these are nonsense mutations by applying “Functional class” filter. And now out of all the high impact variants, 154 are nonsense mutations.

Let’s see how many of those are found on chromosome 10 by specifying the chromosome in the “Locus”. Turns out on chromosome 10 there only one variant change that is high impact nonsense mutation. This base change is located in CTBP2 gene, and result in a premature stop codon.

These are all of the steps of WGS data analysis pipeline. You can use files from our tutorial folder to reproduce the results. Feel free to perform further prioritisation, play with filters in Variant Explorer to get more information. For example, you may want to find out, how many InDels results in frame-shift, codon deletion or explore variant distribution on any region of interest etc. In summary, our analysis allowed to identify 3,835,537 SNPs. We also identified 252,548 insertions and 301,169 deletions ranging from -43 to 28 bp. Although our results are in concordance with original paper, there are also some differences in number of identified mutations or InDel length distribution we mentioned above. Such variation could be explained by the use of different tools. For example, authors identified variants with the vendor-supplied Eland-Casava pipeline and The Genome Analysis Toolkit (GATK v2.2), while we used Variant Calling application based on SAMtools and BCFtools.

This is the end of this tutorial. We hope you found it useful and that you are now ready to make the most out of our platform. If you have any questions and comments, feel free to email us at support @ genestack . com. Also we invite you to follow us on Twitter @genestack.


Priveste filmarea: Partea Software (Ianuarie 2022).