Informație

5: Asamblarea genomului și alinierea întregului genom - Biologie


5: Asamblarea genomului și alinierea întregului genom

Asamblarea genomului la nivel cromozomial pentru panda uriaș oferă informații noi despre evoluția cromozomului Carnivorei

Evoluția cromozomilor este un factor important de speciație și evoluția speciilor. Studiile anterioare au detectat evenimente de rearanjare a cromozomilor la diferite specii de carnivore folosind strategii de pictare a cromozomilor. Cu toate acestea, puține dintre aceste studii s-au concentrat asupra evoluției cromozomilor la o rezoluție a nucleotidelor datorită disponibilității limitate a genomurilor carnivore la nivel cromozomial. Deși ansamblul genomului de novo al panda gigant este disponibil, ansamblurile actuale scurte pe bază de citire sunt limitate la schele de dimensiuni moderate, ceea ce face dificil studiul evoluției cromozomilor.

Rezultate

Aici, vă prezentăm un genom de panda gigant la nivel cromozomic, cu o dimensiune totală de 2,29 Gb. Pe baza genomului panda gigant și a genomului de câine și pisică la nivel cromozomial publicat, realizăm șase aliniamente de sinteză pe perechi la scară largă și identificăm regiunile punctului de întrerupere evolutiv. Interesant este faptul că analiza de îmbogățire funcțională a genelor arată că pentru toate cele trei genomi ale carnivorelor, unele gene situate în regiunile punctului de întrerupere evolutiv sunt semnificativ îmbogățite în căi sau termeni legați de percepția senzorială a mirosului. În plus, descoperim că gena receptorului dulce TAS1R2, care sa dovedit a fi un pseudogen în genomul pisicii, se află într-o regiune evolutivă a punctului de întrerupere al panda gigant, sugerând că rearanjarea intercromozomială poate juca un rol la pisică TAS1R2 pseudogenizare.

Concluzii

Arătăm că strategiile combinate utilizate în acest studiu pot fi utilizate pentru a genera ansambluri de genomi eficiente la nivel cromozomial. Mai mult decât atât, analizele noastre comparative de genomică oferă perspective noi despre evoluția cromozomului Carnivora, legând evoluția cromozomului de evoluția funcțională a genelor.


Abstract

Sistemul MUMmer și nucleul de aliniere a secvenței genomice incluse în acesta sunt printre cele mai utilizate pachete de aliniere în genomică. De la ultima versiune majoră a versiunii MUMmer 3 în 2004, a fost aplicată multor tipuri de probleme, inclusiv alinierea secvențelor genomului întreg, alinierea citirilor la un genom de referință și compararea diferitelor ansambluri ale aceluiași genom. În ciuda utilității sale largi, MUMmer3 are limitări care pot face dificilă utilizarea acestuia pentru genomii mari și pentru seturile de date de secvențe foarte mari, care sunt comune astăzi. În această lucrare descriem MUMmer4, o versiune substanțial îmbunătățită a MUMmer care abordează constrângerile dimensiunii genomului prin schimbarea structurii de date a arborelui sufixului de 32 de biți din miezul MUMmer într-o matrice de sufixe de 48 de biți și care oferă o viteză îmbunătățită prin procesarea paralelă a secvențe de interogare de intrare. Cu o limită teoretică a dimensiunii de intrare de 141Tbp, MUMmer4 poate lucra acum cu secvențe de intrare de orice lungime realistă biologic. Arătăm că, ca urmare a acestor îmbunătățiri, programul nucmer din MUMmer4 este ușor capabil să gestioneze aliniamentele genomilor mari, ilustrăm acest lucru cu o aliniere a genomului uman și a cimpanzeului, ceea ce ne permite să calculăm că cele două specii sunt identice în proporție de 98%. peste 96% din lungimea lor. Cu îmbunătățirile descrise aici, MUMmer4 poate fi, de asemenea, utilizat pentru alinierea eficientă a citirilor la genomii de referință, deși este mai puțin sensibilă și precisă decât aliniatorii de citire dedicați. Alineatorul nucmer din MUMmer4 poate fi apelat acum din limbaje de scriptare precum Perl, Python și Ruby. Aceste îmbunătățiri fac din MUMer4 unul dintre cele mai versatile pachete de aliniere a genomului disponibile.

Citare: Marçais G, Delcher AL, Phillippy AM, Coston R, Salzberg SL, Zimin A (2018) MUMmer4: Un sistem de aliniere a genomului rapid și versatil. PLoS Comput Biol 14 (1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

Editor: Aaron E. Darling, Universitatea de Tehnologie din Sydney, AUSTRALIA

Primit: 15 august 2017 Admis: 1 ianuarie 2018 Publicat: 26 ianuarie 2018

Acesta este un articol cu ​​acces liber, lipsit de orice drept de autor și poate fi reprodus, distribuit, transmis, modificat, construit sau utilizat în orice mod de către oricine în orice scop legal. Lucrarea este pusă la dispoziție sub dedicarea domeniului public Creative Commons CC0.

Disponibilitatea datelor: Datele utilizate pentru această lucrare sunt disponibile de la NCBI SRA https://www.ncbi.nlm.nih.gov/sra și de pe site-ul web Cold Spring Harbor Laboratory http://schatzlab.cshl.edu/data/ectools /.

Finanțarea: Această cercetare a fost susținută parțial de către Institutele Naționale de Sănătate din SUA în cadrul grantului R01 GM083873 acordat lui Steven Salzberg, în parte de Inițiativa de descoperire bazată pe date a Fundației Gordon și Betty Moore prin Grant GBMF4554 către Carl Kingsford și, în parte, de subvențiile Fundației Naționale a Științei. IOS-1238231 pentru Jan Dvorak, IOS-144893 pentru Herbert Aldwinckle, Keithanne Mockaitis, Aleksey Zimin, James Yorke și Marcela Yepes. Finanțatorii nu au avut nici un rol în proiectarea studiului, colectarea și analiza datelor, decizia de publicare sau pregătirea manuscrisului.

Interese concurente: Autorii au declarat că nu există interese concurente.

Acesta este un PLOS Computational Biology Hârtie software.


Rezultate

Prezentare generală a algoritmului

După cum este descris în introducere, inovația algoritmică majoră a acestei lucrări este algoritmul SibeliaZ-LCB. SibeliaZ-LCB ia ca intrare un grafic de Bruijn construit pe o colecție de genomi asamblate. Un genom asamblat este el însuși un set de secvențe contig. SibeliaZ-LCB identifică și generează toate blocurile care nu se suprapun de sub-secvențe omoloage ale genomului de intrare. Un bloc poate fi compus din două sau mai multe secvențe de la unul sau mai mulți genomi. În această subsecțiune, vom oferi o imagine de ansamblu la nivel înalt despre SibeliaZ-LCB, lăsând versiunea mai formală și detaliată pentru „Metode”.

SibeliaZ-LCB se bazează foarte mult pe graficul de Bruijn al genomilor. În acest grafic, vârfurile corespund cu k-mers (șiruri de lungime fixă k) a intrării. A k-mer care apare de mai multe ori în intrare este reprezentat folosind un singur nod. Atunci, k-mere care apar consecutiv în unele secvențe de intrare sunt conectate printr-o margine de la stânga la dreapta (a se vedea Fig. 1a pentru un exemplu). În acest fel, fiecare genom corespunde unei căi din grafic din care sărituri k-mer să k-mer folosind marginile.

A Graficul construit din șirurile „GCACGTCC” și „GCACTTCC”, cu k = 2. Cele două corzi sunt reflectate de plimbările albastre și respectiv magenta. Acesta este un exemplu de bloc coliniar din două plimbări. Există patru bule. Bula formată din vârfurile „AC” și „TC” descrie o substituție în interiorul blocului, în timp ce alte trei bule sunt formate din margini paralele. Mersul albastru și magenta formează un lanț de patru bule consecutive. b Un exemplu de bloc mai complex, în care am adăugat o a treia secvență „CACGTTCC” (turcoaz) la intrare. Nu mai putem descrie blocul ca un lanț de bule, deoarece acestea se suprapun pentru a forma structuri încurcate. În schimb, considerăm calea din grafic (negru punctat) care împarte multe vârfuri cu cele trei mersuri coliniare. Această cale de transport împarte multe vârfuri cu cele trei plimbări existente și fiecare plimbare își formează propriul lanț cu ea. Sarcina de a găsi blocuri coliniare bune poate fi apoi încadrată ca găsirea căilor de transport care formează lanțuri bune cu plimbările genomice.

În acest grafic, două secvențe omoloage formează ceea ce se numește un lanț: o secvență intercalată de margini paralele, care corespund secvențelor identice și „bule”, care corespund unor mici variații, cum ar fi variante de nucleotide simple sau indels. Cu toate acestea, conceptul de lanț este dificil de extins la mai mult de două secvențe omoloage, deoarece modelul încurcat din grafic este dificil de definit cu precizie (a se vedea Fig. 1b pentru un exemplu).

Pentru a aborda această provocare, introducem ideea că fiecare bloc are o „cale de transport” în graficul de Bruijn care ține blocul împreună. Ideea de bază este că secvențele omoloage care formează blocul au multe partajate k-meri și căile lor genomice corespunzătoare trec prin aproape aceleași vârfuri. O cale de transport este apoi o cale care trece prin vârfurile cele mai frecvent vizitate, puțin asemănătoare cu noțiunea unei secvențe consens din aliniere. Fiecare cale genomică din bloc formează apoi un lanț cu această cale de transport (a se vedea Fig. 1b pentru un exemplu).

Nu cunoaștem căile de transport în avans, dar le putem folosi ca mecanism de ghidare pentru a găsi blocuri. Începem cu o margine arbitrară e în grafic și toate celelalte căi genomice care formează bule cu e. Facem e punctul de plecare al unei căi purtătoare și folosiți-o împreună cu celelalte căi genomice pentru a iniția colectarea secvențelor care alcătuiesc blocul corespunzător acestei căi purtătoare. Pentru a extinde calea de transport, ne uităm la marginile care extind căile genomice din blocul curent și o luăm pe cea mai comună. Structurile de date care mențin căile genomice în bloc și calea de transport sunt apoi actualizate și procedura de extensie se repetă. Figura 2 prezintă un exemplu de rulare a acestui algoritm.

Fiecare subfigură arată conținutul blocului coliniar P iar calea purtătoare. Mersurile coliniare sunt solide, calea de transport este întreruptă, iar restul graficului este punctat. Subfigura A arată starea acestor variabile după subfigurile de inițializare bd arată starea după finalizarea fiecărei faze.

Continuăm acest proces până când funcția de notare care descrie cât de bine o cale de transport ține blocul împreună cade sub zero. În acel moment, luăm în considerare posibilitatea că am fi extins prea mult blocul și ar fi trebuit să-l încheiem mai devreme. Pentru a face acest lucru, ne uităm la toate blocurile intermediare pe care le-am creat în timpul procesului de extensie și îl scoatem pe cel care are cel mai mare scor. Odată ce un bloc este o ieșire, ieșim toate marginile sale constitutive așa cum sunt utilizate, astfel încât să nu fie alese ca parte a unui bloc viitor.

În acest fel, SibeliaZ-LCB găsește un singur bloc. Ulterior, încercăm să găsim un alt bloc pornind de la o altă margine arbitrară. Acest proces continuă până când toate marginile din grafic sunt fie utilizate, fie au fost încercate ca inițiale potențiale pentru o cale de transport.

Seturi de date, instrumente și valori de evaluare

Evaluarea multiplilor aliniatori ai genomului întreg este o problemă de sine stătătoare și, prin urmare, am ales să folosim practicile descrise în competiția Alignathon 1 ca punct de plecare. Acestea prezintă mai multe abordări pentru a evalua calitatea unei alinieri multiple a întregului genom. În mod ideal, cel mai bine este să comparați o aliniere cu un standard de aur curat manual, din păcate, un astfel de standard de aur nu există. Prin urmare, am ales să ne concentrăm evaluarea pe date reale.

Am evaluat capacitatea SibeliaZ de a alinia genomii reali, rulându-l pe mai multe seturi de date constând dintr-un număr diferit de genomi de șoareci. Am recuperat 16 șoareci genomi disponibili la GenBank 30 și etichetați ca având un nivel de asamblare „cromozomial”. Acestea constau din genomul de referință al șoarecelui și 15 tulpini diferite asamblate ca parte a unui studiu recent 12 (Tabelul suplimentar 1). Genomul variază ca mărime de la 2,6 la 2,8 Gbp și numărul de schele (între 2977 și 7154, cu excepția referinței, care are 377). Numerele lor de acces la GenBank sunt enumerate în Tabelul 1. Am construit patru seturi de date de dimensiuni crescânde pentru a testa scalabilitatea conductelor în raport cu numărul de genomi de intrare. Seturile de date conțin genomii 1-2, 1-4, 1-8 și 1-16 din tabelul suplimentar 1, genomul 1 fiind genomul de referință.

Pentru a măsura acuratețea, am folosit mai multe alinieri adevăr-sol (care urmează să fie descrise) și am folosit metricele de precizie și rechemare utilizate în Alignathon și implementate de pachetul mafTools 1. Pentru aceste valori, alinierea este privită ca o relație de echivalență. Spunem că două poziții în genomii de intrare sunt echivalente dacă provin din aceeași poziție în genomul strămoșului lor comun recent. Notăm prin H setul tuturor perechilor de poziții echivalente, participând la alinierea „adevărată”. Lăsa A denotați relația produsă de un algoritm de aliniere. Precizia alinierii este apoi dată de rechemare (A) = 1 − ∣ HA ∣ / ∣ H ∣ și precizie (A) = 1 − ∣ AH ∣ / ∣ A ∣, unde ⧹ reprezintă diferența stabilită.

Pentru a evalua rechemarea, am comparat rezultatele noastre cu adnotările genelor care codifică proteinele. Am recuperat toate perechile de secvențe genice omogene de codificare a proteinelor de la Ensembl și apoi am calculat alinieri globale perechi între ele folosind LAGAN 31. Alinierea conține atât gene ortologice, cât și gene paraloge, deși majoritatea perechilor paraloge provin din genomul de referință al șoarecelui bine adnotat. Am eliminat orice pereche de gene paralogice cu coordonate care se suprapun, deoarece acestea erau probabil adnotări greșite, după cum a confirmat serviciul de asistență Ensembl 32. Am făcut aceste alinieri filtrate, precum și aliniamentele produse de SibeliaZ disponibile pentru descărcare publică din depozitul nostru GitHub (consultați secțiunea „Disponibilitatea datelor” pentru linkuri).

Definim identitatea nucleotidică a unei aliniere ca fiind numărul de nucleotide potrivite împărțit la lungimea unei alinieri, inclusiv goluri. Distribuția identităților nucleotidice, precum și acoperirea adnotării, este prezentată în Fig. Suplimentară. 1. În analiza noastră, am combinat perechi de gene în funcție de identitatea lor nucleotidică.

Deoarece genele care codifică proteinele compromit doar o mică porțiune a genomului, am calculat, de asemenea, alinieri locale pereche între cromozomii 1 ai genomilor 1-2 și 1-4 folosind LASTZ 6, un aliniator local de încredere cunoscut pentru acuratețea sa. Am calculat numai aliniamentele dintre cromozomii genomilor diferiți, adică nu au inclus auto-alinieri, ceea ce exclude duplicările, cum ar fi genele paraloge din aliniament. Am folosit setările implicite ale LASTZ, cu excepția faptului că i-am făcut să producă alinieri ale identității nucleotidice cu cel puțin 90%. Am evaluat apoi reamintirea și precizia aliniamentelor noastre, dar ne-am restricționat aliniamentele la secvențele cromozomului 1. Am tratat apoi aliniamentele LASTZ ca adevărul de la sol. Alinierile LASTZ sunt disponibile pentru descărcare din secțiunea de date suplimentare a depozitului nostru. Rețineți că, deoarece alinierea este reprezentată ca un set de perechi de poziții, este posibilă evaluarea mai multor alinieri ale întregului genom folosind alinieri locale perechi.

Pentru a măsura precizia, folosim aliniamentele LASTZ pe cromozomul 1. Cu toate acestea, este prohibitiv din punct de vedere al calculului să calculăm astfel de alinieri cu LASTZ pentru întregul genom. Prin urmare, folosim și o modalitate indirectă de a evalua precizia pentru întregul genom. Pentru fiecare coloană din aliniere, calculăm numărul mediu de diferențe de nucleotide 33. Într-o aliniere de genomi foarte asemănători, care are o precizie ridicată, ne așteptăm ca aceste numere să fie mai mici (aproape de 0) pentru majoritatea coloanelor din aliniament. În caz contrar, s-ar sugera prezența unor blocuri necorespunzătoare slab aliniate în aliniament. În mod oficial, a primit o coloană c a unei multiple alinieri ale întregului genom cu ceu fiind a lui eual treilea element, numărul mediu de diferențe de nucleotide este dat de ( pi (c) = < sum> _ <1 le i le | c |> < sum> _, j le | c | > Eu [_<,> e <,>_] / Big ( begin| c | 2 end Mare) ). Variabila Eu[ceucj] este egal cu 1 dacă ambele ceu și cj sunt diferite caractere ADN valabile și 0 în caz contrar ∣ c ∣ este numărul de rânduri din coloană c.

Am comparat performanța SibeliaZ față de Progressive Cactus 34, un aliniator bazat pe analiza graficelor Cactus 35 construite din aliniamente perechi. De asemenea, am încercat să rulăm Sibelia 23 (un predecesor al SibeliaZ) și MultiZ + TBA 8, dar acestea ar putea rula până la finalizare în decurs de o săptămână chiar și pe un singur genom al șoarecelui. Alți aliniatori multipli 9,10,16 comparabili în Alignathon nu au putut gestiona un set de date de 20 de muște și, prin urmare, este puțin probabil să se adapteze la un set de date de mamifere. De asemenea, am ales să nu rulăm Mercator 14, deoarece necesită un set de exoni genici ca intrare și, prin urmare, rezolvă o problemă diferită: în această lucrare ne concentrăm pe calcularea alinierii întregului genom direct din secvențele de nucleotide fără a utiliza informații externe. Mai multe detalii despre parametri, versiuni și hardware se găsesc în nota suplimentară 1 și în tabelul suplimentar 4.

Timp de funcționare și memorie

Duratele de funcționare ale SibeliaZ și Cactus sunt prezentate în Fig. 3 (Tabelul 2 suplimentar conține valorile brute). Pe setul de date format din 2 șoareci, SibeliaZ este de peste 10 ori mai rapid decât Cactus, în timp ce pe 4 șoareci SibeliaZ este de peste 20 de ori mai rapid. Pe seturile de date cu 8 și 16 șoareci, SibeliaZ a finalizat în mai puțin de 7 și respectiv 16 ore, în timp ce Cactus nu a terminat (l-am terminat după o săptămână). Pentru SibeliaZ, observăm că alinierea globală cu spoa durează 44–73% din timpul de funcționare și, pentru unele aplicații (de exemplu, analiza rearanjării), acest pas poate fi omis în continuare pentru a economisi timp. Memoria este prezentată în tabelul suplimentar 2. Când se poate completa, Cactus are performanțe de memorie mai bune decât SibeliaZ, totuși, ambele instrumente necesită memorie care se încadrează în gama celor mai moderne servere, dar în afara gamei de computere personale.

Fiecare bară corespunde unei conducte. Bara SibeliaZ este împărțită în funcție de componentele sale: spoa (umplere pentru trapa), TwoPaCo (umplere solidă) și SibeliaZ-LCB (umplere goală). Cactus nu este afișat în seturile de date 1-8 și 1-16 deoarece nu s-a finalizat. Am folosit 32 de fire pentru fiecare experiment.

Precizie

În tabelele 2 și 3, arătăm proprietățile aliniamentelor găsite de SibeliaZ și Cactus. Pentru a calcula rechemarea, am folosit numai nucleotide din perechi de gene care au cel puțin 90% identitate în adnotare. Pentru seturile de date în care Cactus a reușit să se completeze, SibeliaZ a avut o reamintire similară pe perechi ortologe. Nu am evaluat rezultatele pe paralogi de către Cactus, deoarece filtrează euristic aliniamentele paralogice 34 ca parte a conductei sale. Reamintirea SibeliaZ scade doar ușor până la întregul set de date de 16 șoareci, indicând faptul că reamintirea variază în funcție de numărul de genomi.

De asemenea, am măsurat acoperirea, care este procentul din secvența genomului care este inclusă în aliniament. Acoperirea ambelor instrumente este aproximativ aceeași, dar SibeliaZ are doar aproximativ jumătate din blocuri. Este posibil ca diferitele cantități de blocuri produse de instrumente să fie rezultatul diferitelor abordări ale formatării ieșirii. Reprezentarea mai multor alinieri ale genomului întreg este ambiguă și aceeași aliniere poate fi formatată în forme diferite, dar echivalente din punct de vedere matematic, variind în funcție de numărul de blocuri.

Investigăm în continuare cum s-a comportat rechemarea ca o funcție a identității nucleotidice, pentru setul de date cu doi și patru șoareci (Fig. 4). Așa cum era de așteptat, amintirea scade odată cu identitatea nucleotidică, deși amintirea SibeliaZ rămâne peste 90% pentru nucleotidele din gene similare (80-100% identitate) ortologe.Cactus are o amintire puțin mai bună în genele ortologe cu identitate inferioară pe setul de date cu doi șoareci. Observăm că adnotarea genică a fost construită 12 folosind o aliniere produsă de Cactus, care a fost procesată ulterior prin software-ul de adnotare CAT 36. Acest fapt ar putea oferi lui Cactus un ușor avantaj în această comparație și ar explica de ce Cactus are o amintire puțin mai bună. Reamintirea perechilor de gene ortologice rămâne consecventă atât în ​​seturile de date cu doi, cât și în cele de patru șoareci pentru ambele seturi de date.

Panourile arată amintirea ortologului (A) și paralog (b) perechile de nucleotide combinate în funcție de identitatea nucleotidică a genelor lor respective în adnotare. Reamintirea paralogilor de către Cactus nu este afișată (vezi textul).

În același timp, am observat o imagine mult mai puțin consistentă pentru perechile paraloge de gene. De exemplu, SibeliaZ a reușit să recupereze aproape 90% din perechile de bază paralogice aparținând perechilor genetice de identitate nucleotidică de 90%, dar a găsit mai puțin de 45% din perechile de baze ale perechilor genetice de 80% identitate.

Rezultatele preciziei și rechemării măsurate în ceea ce privește aliniamentele LASTZ sunt prezentate în tabelul suplimentar 3. Pe setul de date constând din doi genomi, Cactus a avut o rechemare ușor mai mare de 0,97 față de 0,95 din SibeliaZ. Pe de altă parte, SibeliaZ a avut o precizie mai bună: 0,93 contra 0,89 din Cactus. Cu cele patru genomi, SibeliaZ și-a menținut rechemarea de 0,95, în timp ce rechemarea lui Cactus a scăzut la 0,92. Pe acest set de date, SibeliaZ a avut, de asemenea, o precizie mai mare: 0,96 și, respectiv, 0,90. În general, aceste cifre arată că precizia alinierii dintre SibeliaZ și Cactus este similară.

În cele din urmă, deoarece nu am putut evalua precizia la nivelul genomului, folosim proxy-ul numărului mediu de diferențe de nucleotide pentru coloanele de aliniere (Fig. 2 suplimentar). Alinierea SibeliaZ are un grad ridicat de asemănare: mai mult de 95% din coloanele de aliniere au π(c) ≤ 0,1, ceea ce ne-am aștepta de la alinierea genomurilor strâns legate. Cactus are un procent ușor mai mic de coloane foarte asemănătoare, ceea ce poate indica pur și simplu că găsește mai multe blocuri cu divergență mai mare.

Observăm că rezultatele din această secțiune evaluează acuratețea simultană a SibeliaZ-LCB și a spoa, totuși, întrucât SibeliaZ se adresează genomului strâns legat, ne așteptăm ca procedura de aliniere globală să aibă un efect neglijabil asupra preciziei. Acest lucru se datorează faptului că alinierea globală a secvențelor similare este probabil să fie neambiguă la nucleotide omoloage și robustă în raport cu diferiți algoritmi și parametrii lor.

Rezultate privind datele simulate

În plus față de datele reale, am măsurat performanța diferiților aliniatori ai genomului întreg pe un set de date mai mare simulat cu o divergență genomică mică, numită „primate” în ref. 1. În acest set de date, distanța de la rădăcină până la frunzele din arborele filogenetic este egală cu 0,02 substituții pe sit. Setul de date are patru genomi, cu patru cromozomi fiecare și fiecare genom are o dimensiune de aproximativ 185 Mbp. Nu am folosit celălalt set de date simulat în ref. 1, deoarece divergența sa de aproximativ 0,4 substituții pe site este în afara intervalului țintă al SibeliaZ.

Pe acest set de date, conducta SibeliaZ a fost de 20 de ori mai rapidă decât Cactus și a consumat de 2,5 ori mai puțină memorie: SibeliaZ a terminat în 18 minute folosind 7 GB de memorie, în timp ce Cactus a durat 363 de minute pentru a finaliza și a folosit 18 GB de memorie. Sibelia și MultiZ nu au putut termina pe setul de date „primate” într-o săptămână. Tabelul 4 demonstrează valorile de rechemare și precizie pentru alinierile produse de SibeliaZ și Cactus pe acest set de date. SibeliaZ a arătat o rechemare de 95% și o precizie de 92%, în timp ce Cactus a avut o rechemare de 98% și o precizie de 95%. Observăm că, conform ref. 1, valorile de precizie calculate folosind acest set de date pot fi considerate limite inferioare datorită caracteristicilor procesului de simulare. În special, adevărul de bază pentru acest set de date este probabil să rateze unele alinieri repetitive, de aceea credem că valorile mai mici de precizie ale SibeliaZ se pot datora acestui motiv.

Familii genetice

Am vrut să înțelegem în continuare capacitatea SibeliaZ de a aminti nucleotide omoloage din familii mari de gene. Alinierea genelor care au mai multe copii este o sarcină provocatoare, deoarece generează un grafic încurcat de Bruijn. Pentru a investiga, am luat fiecare pereche de gene din setul de date cu doi șoareci care au mai mult de 90% identitate de nucleotide. Apoi identificăm orice alte gene omoloage care aveau o identitate nucleotidică de cel puțin 90% la una dintre genele din pereche. Ne referim la numărul de astfel de gene ca dimensiunea inferioară a familiei perechii de gene, care corespunde aproximativ cu dimensiunea familiei de gene în sens biologic. Fig. Suplimentară 3 arată apoi reamintirea perechilor de nucleotide în raport cu dimensiunea inferioară a familiei a genelor lor respective. Reamintirea arată o mare diferență față de dimensiunea inferioară a familiei, dar prezintă o tendință generală de scădere odată cu creșterea dimensiunii familiei. Cel mai mare coș (cu o dimensiune inferioară a familiei de 58) corespunde unei singure familii de gene mari pe cromozomul Y (PTHR19368) și are de fapt o rechemare relativ mare.

Acest experiment arată că găsirea tuturor copiilor secvențelor omoloage chiar similare în genomii lungi poate fi o sarcină provocatoare. Mai mult, varianța mare pe care o observăm indică faptul că această provocare nu poate fi redusă la un singur factor, cum ar fi dimensiunea familiei. O inspecție manuală a negativelor false sugerează că scăderea rechemării se poate datora unor substructuri complexe de repetări neanotate care formează structuri de grafic încurcate.

Efectul parametrilor și divergența secvenței

SibeliaZ-LCB are patru parametri principali care îi afectează performanța. Cea mai critică dependență este de dimensiunea unui k-mer (adică k) și lungimea maximă admisă a unei bule b. Pentru o divergență de secvență dată, distanța dintre partajată k-meri care formează bule în regiuni omoloage crește odată cu k. În același timp, lungimea maximă admisă a unei bule este b. Dacă distanța depășește b, atunci SibeliaZ poate să nu descopere astfel de regiuni și să ducă la o rechemare mai mică. Pentru a evita această situație, putem fie să scădem k sau crește b. In scadere k este de dorit până la un punct, dar când k devine prea scăzut, graficul de Bruijn devine complicat și algoritmul nostru devine mai mult timp și memorie. Crescând b se poate face și dar crește simultan lungimea spațiului admisibil, ducând la o precizie scăzută.

Supraalinierea este problema combinării secvențelor neomologe într-un singur bloc, care este strâns legat de precizia redusă 37. În cazul nostru, se poate controla supra-alinierea uitându-se la π(c), așa cum am făcut în analiza noastră (Fig. 2 suplimentară). Un scor mai mare indică faptul că sunt incluse secvențe mai divergente într-un bloc. Dacă divergența este considerată prea mare de către utilizator, se recomandă reducerea b.

Pentru a investiga această interacțiune complexă între k și b și relația sa cu divergența de secvență, am folosit simulări (Nota suplimentară 2) pentru a măsura rechemarea (Fig. suplimentară 4) și precizia (Fig. suplimentară 5) sub diferite combinații. După cum s-a prezis, amintirea crește odată cu scăderea k și odată cu creșterea b, iar precizia scade odată cu creșterea b. Observăm totuși că precizia variază puțin și rămâne ridicată. Pe baza acestor analize, recomandăm două valori ale k pentru uz practic. Pentru organismele mai puțin complexe (de exemplu, bacterii), vă recomandăm k = 15, deoarece produce cea mai mare rechemare. Această valoare nu este practică pentru organismele complexe (de exemplu, mamifere) din cauza duratei de rulare, așa că vă recomandăm setarea k = 25 în acele cazuri, deoarece oferă un compromis rezonabil între precizie și resursele de calcul necesare (am folosit acest lucru pentru seturile noastre de date de șoareci). Pentru valoarea b, am observat că în creștere b scade precizia doar la valori mai mari. Prin urmare, vă recomandăm b = 200 ca valoare implicită în toate cazurile, deoarece a dus la o rechemare ridicată în toate intervalele testate de k pe datele noastre simulate fără a reduce precizia.

Pentru a testa nivelul de divergență pe care SibeliaZ-LCB îl poate tolera, am luat valorile implicite ale k = 15 sau 25 și b = 200 și a reprezentat curba de precizie vs. reamintire în funcție de divergența rădăcină-frunză a setului de date (Fig. Suplimentară 6). Vedem asta pentru k = 25 rechemarea se deteriorează semnificativ pentru seturile de date având o distanță evolutivă de la rădăcină la frunză mai mare de 0,09 substituții pe site. Pe baza acestui fapt, recomandăm ca pentru seturile de date mari SibeliaZ-LCB să fie utilizat numai pentru detectarea omologilor cu o distanță evolutivă de MRCA de cel mult 0,09 substituții pe site.

Ceilalți doi parametri care pot afecta performanța SibeliaZ-LCB sunt dimensiunea minimă a unui bloc coliniar local m și parametrul de tăiere a abundenței A. Acești parametri trebuie setați în funcție de tipul de date și de utilizarea intenționată a acestora. Parametrul m controlează fragmentarea alinierii și a acoperirii - mai mare m rezultă blocuri mai lungi care se întind pe mai puțin din genomi, deoarece blocurile scurte nu sunt raportate. Vă recomandăm parametrul m să fie setat la lungimea celei mai scurte secvențe omoloage de interes pentru analiza din aval. Noi am stabilit m = 50 ca implicit, deoarece acesta este mai mic decât 93,1% din șoarecii cunoscuți exoni 38 și, mai general, nu ne așteptăm ca majoritatea aplicațiilor să fie interesate de blocuri mult mai scurte de 50 nt. În cazul în care un utilizator este interesat de unități omoloage mai mari, acesta poate crește m impreuna cu b. Alternativ, pot utiliza fie generarea de blocuri de sinteză, fie algoritmi de înlănțuire a alinierii pentru post-procesarea alinierilor produse de SibeliaZ (a se vedea nota suplimentară 3 pentru referințe relevante).

Parametrul de tăiere a abundenței A este un parametru de filtrare pentru k-meri a căror abundență este mai mare A. Astfel de k-meri sunt încă considerați de SibeliaZ-LCB, dar într-o măsură mai mică, rezultând o rechemare redusă în regiunile cu astfel de k-mers. Vă recomandăm setarea A pe cât permit resursele de calcul, ținând cont de faptul că blocurile omoloage cu multiplicitate mai mare decât A nu vor fi capturate. Pentru setul de date de șoareci, am folosit A = 150.


Alinierea întregului genom și adnotarea comparativă

Îmbunătățirea rapidă a tehnologiei de secvențiere, împreună cu evoluțiile de calcul în asamblarea secvenței, fac ca asamblarea genomului de calitate de referință să fie economică. Sute de ansambluri ale genomului vertebratelor sunt acum accesibile publicului, iar proiectele sunt propuse pentru a secvența mii de specii suplimentare în următorii câțiva ani. O astfel de eșantionare densă a arborelui vieții ar trebui să ofere o nouă înțelegere fără precedent a evoluției și să permită o determinare detaliată a evenimentelor care au condus la bogăția biodiversității din jurul nostru. Pentru a obține aceste cunoștințe, aceste noi genomi trebuie comparate prin alinierea genomului (la nivelul secvenței) și adnotarea comparativă (la nivelul genei). Cu toate acestea, diferite metode de aliniere și adnotare au caracteristici diferite înainte de a începe o analiză comparativă de genomică, este important să înțelegem natura și prejudecățile și limitările inerente metodelor alese. Această revizuire este menită să acționeze ca o imagine de ansamblu tehnică, dar la nivel înalt, a domeniului care ar trebui să ofere această înțelegere. Studiem pe scurt starea alinierii genomului și a câmpurilor de adnotare comparative și a direcțiilor viitoare potențiale pentru aceste câmpuri într-o nouă eră la scară largă a genomicii comparative.


Repetările afectează semnificativ continuitatea

Pentru ansamblurile generate folosind conducta noastră automată (date extinse Fig. 3a) înainte de curare manuală, toate cu excepția 2 (patinele spinoase și canalul bull blenny) din cele 17 ansambluri au depășit valorile de continuitate dorite (Tabelul suplimentar 13). În căutarea unei explicații a acestor rezultate, am constatat că contigul NG50 a scăzut exponențial odată cu creșterea conținutului de repetare, patina spinoasă având cel mai mare conținut de repetare (Fig. 2b, Tabelul suplimentar 13). În consecință, după schele și umplerea golurilor, am observat o corelație pozitivă semnificativă între conținutul repetat și numărul de goluri (Fig. 2c). Papagalul kākāpō, care avea un conținut de repetare de 15%, avea aproximativ 325 de goluri pe Gb, inclusiv 2 din 26 de cromozomi fără goluri (cromozomii 16 și 18) și nici o dovadă de prăbușiri sau suport scăzut, sugerând că contigurile cromozomiale erau complete (bStrHab1 în tabelul suplimentar 6). În schimb, patina spinoasă, cu un conținut de repetare de 54%, avea aproximativ 1.400 de goluri pe Gb (Tabelul 1 de date extinse), niciunul dintre cele 49 de schele de nivel cromozomial nu conținea mai puțin de opt goluri și toate aveau unele regiuni care conțineau prăbușiri sau suport redus. (sAmbRad1 în tabelul suplimentar 6). Chiar și după curare și alte modificări pentru a crește calitatea asamblării (nota suplimentară 2), numărul de colapsuri, dimensiunea totală a acestora, bazele lipsă și numărul de gene din colapsuri corelate cu conținutul de repetare (date extinse Fig. 4a-d) . Lungimea medie prăbușită, totuși, s-a corelat cu lungimile medii de citire CLR (10-35 kb Date extinse Fig. 4e). Nu au existat corelații între numărul de baze prăbușite și heterozigoza sau dimensiunea genomului (date extinse Fig. 4f, g). În funcție de specii, 77,4 până la 99,2% din regiunile prăbușite au constat din duplicări segmentare nerezolvate (date extinse Fig. 4h). Restul au fost repetări cu copii mari, în mare parte de tipuri necunoscute anterior (date extinse Fig. 4i) și de tipuri cunoscute, cum ar fi matrice de satelit, repetări simple, repetări terminale lungi (LTR) și elemente nucleare scurte și lungi intercalate (SINE și LINE), în funcție de specie (date extinse Fig. 4j). Am constatat că mascarea repetată înainte de a genera contigs a împiedicat unele repetări să ajungă la ansamblul final (Nota suplimentară 3). Toate constatările de mai sus demonstrează cantitativ efectul pe care îl are conținutul repetat asupra capacității de a produce ansambluri foarte continue și complete.


Cuprins

Dacă două secvențe dintr-o aliniere împărtășesc un strămoș comun, nepotrivirile pot fi interpretate ca mutații punctuale și lacune ca indels (adică mutații de inserție sau ștergere) introduse într-una sau ambele linii în timp, de când s-au divergat una de alta. În alinierea secvențelor proteinelor, gradul de asemănare între aminoacizii care ocupă o anumită poziție în secvență poate fi interpretat ca o măsură aproximativă a modului în care este conservată o anumită regiune sau motiv de secvență printre descendenți. Absența substituțiilor sau prezența doar a substituțiilor foarte conservatoare (adică substituirea aminoacizilor ale căror lanțuri laterale au proprietăți biochimice similare) într-o anumită regiune a secvenței, sugerează [3] că această regiune are importanță structurală sau funcțională. . Deși bazele nucleotidice ADN și ARN sunt mai asemănătoare între ele decât sunt aminoacizii, conservarea perechilor de baze poate indica un rol funcțional sau structural similar.

Secvențele foarte scurte sau foarte asemănătoare pot fi aliniate manual. Cu toate acestea, majoritatea problemelor interesante necesită alinierea unor secvențe lungi, extrem de variabile sau extrem de numeroase, care nu pot fi aliniate doar prin efortul uman. În schimb, cunoștințele umane sunt aplicate în construcția algoritmilor pentru a produce alinieri de secvență de înaltă calitate și, ocazional, în ajustarea rezultatelor finale pentru a reflecta modele dificil de reprezentat algoritmic (în special în cazul secvențelor de nucleotide). Abordările computaționale pentru alinierea secvenței se încadrează în general în două categorii: alinieri globale și alinieri locale. Calculul unei alinieri globale este o formă de optimizare globală care „forțează” alinierea să se întindă pe întreaga lungime a tuturor secvențelor de interogare. Prin contrast, alinierile locale identifică regiunile de similitudine în cadrul unor secvențe lungi, care sunt adesea larg divergente în general. Alinierile locale sunt adesea preferabile, dar pot fi mai dificil de calculat din cauza provocării suplimentare de identificare a regiunilor de similitudine. [4] O varietate de algoritmi de calcul au fost aplicate problemei de aliniere a secvenței. Acestea includ metode lente, dar formal corecte, cum ar fi programarea dinamică. Acestea includ, de asemenea, algoritmi euristici eficienți sau metode probabilistice concepute pentru căutarea pe baze de date pe scară largă, care nu garantează găsirea celor mai bune potriviri.

Alinierile sunt reprezentate în mod obișnuit atât în ​​format grafic, cât și în format text. În aproape toate reprezentările de aliniere a secvențelor, secvențele sunt scrise în rânduri dispuse astfel încât reziduurile aliniate să apară în coloane succesive. În formatele de text, coloanele aliniate care conțin caractere identice sau similare sunt indicate cu un sistem de simboluri de conservare. La fel ca în imaginea de mai sus, un asterisc sau un simbol de țeavă este utilizat pentru a arăta identitatea între două coloane, alte simboluri mai puțin frecvente includ un punct pentru substituțiile conservatoare și o perioadă pentru substituțiile semiconservative. Multe programe de vizualizare a secvențelor folosesc, de asemenea, culoarea pentru a afișa informații despre proprietățile elementelor secvenței individuale în secvențele ADN și ARN, ceea ce echivalează cu atribuirea fiecărei nucleotide a culorii sale. În aliniamentele de proteine, cum ar fi cea din imaginea de mai sus, culoarea este adesea utilizată pentru a indica proprietățile aminoacizilor pentru a ajuta la evaluarea conservării unei anumite substituții de aminoacizi. Pentru mai multe secvențe, ultimul rând din fiecare coloană este adesea secvența consens determinată de aliniere, secvența consens este, de asemenea, adesea reprezentată în format grafic cu un logo de secvență în care dimensiunea fiecărei litere de nucleotide sau aminoacizi corespunde gradului său de conservare. [5]

Alinierile secvenței pot fi stocate într-o mare varietate de formate de fișiere bazate pe text, dintre care multe au fost inițial dezvoltate împreună cu un anumit program de aliniere sau implementare. Majoritatea instrumentelor bazate pe web permit un număr limitat de formate de intrare și ieșire, precum formatul FASTA și formatul GenBank, iar ieșirea nu este ușor de editat. Sunt disponibile mai multe programe de conversie care oferă interfețe grafice și / sau de linie de comandă [ verigă moartă ], cum ar fi READSEQ și EMBOSS. Există, de asemenea, mai multe pachete de programare care oferă această funcționalitate de conversie, cum ar fi BioPython, BioRuby și BioPerl. Fișierele SAM / BAM folosesc formatul de șiruri CIGAR (Compact Idiosyncratic Gapped Alignment Report) pentru a reprezenta alinierea unei secvențe la o referință prin codificarea unei secvențe de evenimente (de exemplu, potrivire / nepotrivire, inserții, ștergeri). [6]

CIGAR Format Edit

Ref. : GTCGTAGAATA
Citiți: CACGTAG — TA
TIGAR: 2S5M2D2M unde:
2S = 2 decupare ușoară (pot fi nepotriviri sau o citire mai lungă decât secvența potrivită)
5M = 5 potriviri sau nepotriviri
2D = 2 ștergeri
2M = 2 potriviri sau nepotriviri

Formatul original CIGAR din programul de aliniere exonerat nu făcea distincție între nepotriviri sau potriviri cu caracterul M.

Documentul specific SAMv1 definește coduri CIGAR mai noi. În majoritatea cazurilor, se preferă utilizarea caracterelor „=” și „X” pentru a indica potriviri sau nepotriviri, mai degrabă decât caracterul mai vechi „M”, care este ambiguu.

  • „Consumă interogare” și „consumă referință” indică dacă operațiunea CIGAR determină alinierea să treacă de-a lungul secvenței de interogare și respectiv a secvenței de referință.
  • H poate fi prezent doar ca prima și / sau ultima operație.
  • S poate avea doar operații H între ele și capetele șirului CIGAR.
  • Pentru alinierea mARN-genom, o operație N reprezintă un intron. Pentru alte tipuri de alinieri, interpretarea lui N nu este definită.
  • Suma lungimilor operațiunilor M / I / S / = / X trebuie să fie egală cu lungimea SEQ

Alinierile globale, care încearcă să alinieze fiecare reziduu din fiecare secvență, sunt cele mai utile atunci când secvențele din setul de interogări sunt similare și de dimensiuni aproximativ egale. (Aceasta nu înseamnă că alinierile globale nu pot începe și / sau se pot termina în goluri.) O tehnică generală de aliniere globală este algoritmul Needleman-Wunsch, care se bazează pe programare dinamică. Alinierile locale sunt mai utile pentru secvențe diferite care se suspectează că conțin regiuni de similaritate sau motive de secvență similare în contextul lor de secvență mai mare. Algoritmul Smith – Waterman este o metodă generală de aliniere locală bazată pe aceeași schemă de programare dinamică, dar cu opțiuni suplimentare pentru a începe și a termina în orice loc. [4]

Metode hibride, cunoscute sub numele de semiglobal sau "glocal" (prescurtare pentru global-local), căutați cea mai bună aliniere parțială posibilă a celor două secvențe (cu alte cuvinte, o combinație a unuia sau ambelor începuturi și a unuia sau ambelor capete este declarată a fi aliniată). Acest lucru poate fi util mai ales atunci când partea din aval a unei secvențe se suprapune cu partea din amonte a celeilalte secvențe. În acest caz, nici alinierea globală, nici cea locală nu sunt pe deplin adecvate: o aliniere globală ar încerca să forțeze alinierea să se extindă dincolo de regiunea suprapunerii, în timp ce o aliniere locală ar putea să nu acopere în totalitate regiunea suprapunerii. [7] Un alt caz în care alinierea semi-globală este utilă este atunci când o secvență este scurtă (de exemplu o secvență genică) și cealaltă este foarte lungă (de exemplu o secvență cromozomială). În acest caz, secvența scurtă ar trebui să fie aliniată global (complet), dar numai o aliniere locală (parțială) este dorită pentru secvența lungă.

Extinderea rapidă a datelor genetice provoacă viteza algoritmilor actuali de aliniere a secvenței ADN. Nevoile esențiale pentru o metodă eficientă și precisă pentru descoperirea variantelor ADN necesită abordări inovatoare pentru procesarea paralelă în timp real. Abordările de calcul optic au fost sugerate ca alternative promițătoare la implementările electrice actuale, totuși aplicabilitatea lor rămâne de testat [1].

Metodele de aliniere a secvențelor în perechi sunt utilizate pentru a găsi cele mai potrivite alinieri în bucăți (locale sau globale) a două secvențe de interogare. Alinierile în perechi pot fi utilizate numai între două secvențe la un moment dat, dar sunt eficiente de calculat și sunt adesea folosite pentru metode care nu necesită o precizie extremă (cum ar fi căutarea unei baze de date pentru secvențe cu asemănare mare cu o interogare). Cele trei metode principale de producere a alinierilor în perechi sunt metode cu matrice de puncte, programare dinamică și metode de cuvinte [1], cu toate acestea, tehnicile de aliniere a secvențelor multiple pot alinia, de asemenea, perechi de secvențe. Deși fiecare metodă are punctele sale forte și punctele slabe individuale, toate cele trei metode în perechi au dificultăți în secvențele foarte repetitive cu conținut scăzut de informații - mai ales în cazul în care numărul de repetări diferă în cele două secvențe care urmează să fie aliniate.

Potrivire maximă unică Edit

O modalitate de cuantificare a utilității unei aliniere date în perechi este „potrivirea maximă unică” (MUM) sau cea mai lungă subsecvență care apare în ambele secvențe de interogare. Secvențele MUM mai lungi reflectă de obicei o relație mai strânsă. [8] în alinierea secvenței multiple a genomilor în biologia computațională. Identificarea MUM-urilor și a altor ancore potențiale este primul pas în sistemele de aliniere mai mari, cum ar fi MUMmer. Ancorele sunt zonele dintre două genomi în care sunt foarte asemănătoare. Pentru a înțelege ce este o MUM putem descompune fiecare cuvânt din acronim. Potrivirea implică faptul că șirul apare în ambele secvențe pentru a fi aliniate. Unic înseamnă că șirul apare o singură dată în fiecare secvență. În cele din urmă, maximul afirmă că șirul nu face parte dintr-un alt șir mai mare care îndeplinește ambele cerințe anterioare. Ideea din spatele acestui lucru este că secvențele lungi care se potrivesc exact și apar doar o singură dată în fiecare genom fac aproape sigur parte din alinierea globală.

  • este maximă, adică nu poate fi extinsă la ambele capete fără a suferi o nepotrivire și
  • este unic în ambele secvențe "[9]

Metode cu matrice de puncte Edit

Abordarea cu matrice de puncte, care produce implicit o familie de alinieri pentru regiuni individuale de secvență, este calitativă și conceptual simplă, deși necesită mult timp pentru a fi analizată la scară largă. În absența zgomotului, poate fi ușor să identificați vizual anumite caracteristici ale secvenței - cum ar fi inserții, ștergeri, repetări sau repetări inversate - dintr-un grafic cu matrice de puncte. Pentru a construi un grafic cu matrice de puncte, cele două secvențe sunt scrise de-a lungul rândului de sus și al coloanei din stânga a unei matrice bidimensionale și un punct este plasat în orice punct în care se potrivesc caracterele din coloanele corespunzătoare - acesta este un grafic tipic de recurență. Unele implementări variază dimensiunea sau intensitatea punctului în funcție de gradul de similitudine al celor două caractere, pentru a se potrivi substituțiilor conservatoare. Graficele de puncte ale secvențelor foarte strâns legate vor apărea ca o singură linie de-a lungul diagonalei principale a matricei.

Problemele cu graficele de puncte ca tehnică de afișare a informațiilor includ: zgomotul, lipsa de claritate, non-intuitivitatea, dificultatea de a extrage statistici rezumative meciuri și pozițiile meciurilor pe cele două secvențe. Există, de asemenea, mult spațiu irosit în care datele de potrivire sunt în mod inerent duplicate pe diagonală și cea mai mare parte a suprafeței reale a parcelei este ocupată fie de spațiu gol, fie de zgomot și, în cele din urmă, punctele grafice sunt limitate la două secvențe. Niciuna dintre aceste limitări nu se aplică diagramelor de aliniere Miropeats, dar au propriile lor defecte.

Graficele punctelor pot fi, de asemenea, utilizate pentru a evalua repetitivitatea într-o singură secvență. O secvență poate fi trasată împotriva sa, iar regiunile care au asemănări semnificative vor apărea ca linii de pe diagonala principală. Acest efect poate apărea atunci când o proteină constă din mai multe domenii structurale similare.

Programare dinamică Edit

Tehnica programării dinamice poate fi aplicată pentru a produce alinieri globale prin intermediul algoritmului Needleman-Wunsch și alinieri locale prin algoritmul Smith-Waterman. În utilizarea obișnuită, alinierile de proteine ​​folosesc o matrice de substituție pentru a atribui scoruri potrivirilor de aminoacizi sau nepotrivirilor și o penalizare a decalajului pentru potrivirea unui aminoacid într-o secvență cu o decalaj în cealaltă. Alinierile ADN și ARN pot utiliza o matrice de punctaj, dar în practică deseori atribuie pur și simplu un scor de potrivire pozitiv, un scor de nepotrivire negativ și o penalizare a decalajului negativ. (În programarea dinamică standard, scorul fiecărei poziții de aminoacizi este independent de identitatea vecinilor săi și, prin urmare, efectele de stivuire a bazelor nu sunt luate în considerare. Cu toate acestea, este posibil să se țină seama de astfel de efecte modificând algoritmul.) extinderea comună la costurile standard ale decalajului liniar este utilizarea a două penalități diferite pentru decalarea unui decalaj și pentru extinderea decalajului. De obicei, primul este mult mai mare decât cel din urmă, de ex. -10 pentru spațiul deschis și -2 pentru extinderea spațiului. Astfel, numărul de goluri dintr-o aliniere este de obicei redus și reziduurile și golurile sunt menținute împreună, ceea ce are de obicei un sens mai biologic. Algoritmul Gotoh implementează costuri de decalare afine utilizând trei matrice.

Programarea dinamică poate fi utilă în alinierea nucleotidei la secvențele de proteine, o sarcină complicată de necesitatea de a lua în considerare mutațiile framehift (de obicei inserții sau ștergeri). Metoda de cercetare a cadrelor produce o serie de alinieri perechi globale sau locale între o secvență de nucleotide de interogare și un set de căutare de secvențe de proteine, sau invers. Capacitatea sa de a evalua schimbările de cadru compensate de un număr arbitrar de nucleotide face ca metoda să fie utilă pentru secvențe care conțin un număr mare de indeli, care poate fi foarte dificil de aliniat cu metode euristice mai eficiente. În practică, metoda necesită cantități mari de putere de calcul sau un sistem a cărui arhitectură este specializată pentru programarea dinamică. Suitele BLAST și EMBOSS oferă instrumente de bază pentru crearea alinierilor traduse (deși unele dintre aceste abordări profită de efectele secundare ale capabilităților de căutare de secvențe ale instrumentelor). Sunt disponibile metode mai generale din software-ul open-source, cum ar fi GeneWise.

Metoda de programare dinamică este garantată pentru a găsi o aliniere optimă, dată fiind o anumită funcție de notare, cu toate acestea, identificarea unei bune funcții de notare este adesea o problemă empirică mai degrabă decât teoretică. Deși programarea dinamică este extensibilă la mai mult de două secvențe, este prohibitiv de lentă pentru un număr mare de secvențe sau secvențe extrem de lungi.

Metode Word Edit

Metode Word, cunoscute și sub numele de k-metodele duble, sunt metode euristice care nu sunt garantate pentru a găsi o soluție optimă de aliniere, dar sunt semnificativ mai eficiente decât programarea dinamică. Aceste metode sunt utile în special în căutările pe baze de date la scară largă, unde se înțelege că o mare parte din secvențele candidate nu vor avea în esență nicio potrivire semnificativă cu secvența de interogare. Metodele Word sunt cele mai cunoscute pentru implementarea lor în instrumentele de căutare a bazelor de date FASTA și familia BLAST. [1] Metodele Word identifică o serie de subsecvențe scurte, care nu se suprapun („cuvinte”) în secvența de interogare, care sunt apoi potrivite cu secvențele de baze de date candidate. Pozițiile relative ale cuvântului în cele două secvențe comparate sunt scăzute pentru a obține un offset, aceasta va indica o regiune de aliniere dacă mai multe cuvinte distincte produc același offset. Doar dacă această regiune este detectată, aceste metode aplică criterii de aliniere mai sensibile, astfel, multe comparații inutile cu secvențe fără similitudini apreciabile sunt eliminate.

În metoda FASTA, utilizatorul definește o valoare k de folosit ca lungimea cuvântului cu care să căutați în baza de date. Metoda este mai lentă, dar mai sensibilă la valori mai mici de k, care sunt, de asemenea, preferate pentru căutările care implică o secvență de interogare foarte scurtă. Familia de metode de căutare BLAST oferă o serie de algoritmi optimizați pentru anumite tipuri de interogări, cum ar fi căutarea de potriviri de secvențe legate la distanță. BLAST a fost dezvoltat pentru a oferi o alternativă mai rapidă la FASTA fără a sacrifica multă precizie ca FASTA, BLAST folosește o căutare de cuvinte de lungime k, dar evaluează doar cele mai semnificative potriviri de cuvinte, mai degrabă decât fiecare potrivire de cuvinte la fel ca și FASTA. Majoritatea implementărilor BLAST utilizează o lungime de cuvânt implicită fixă, care este optimizată pentru tipul de interogare și bază de date și care este modificată numai în circumstanțe speciale, cum ar fi atunci când se caută cu secvențe de interogare repetitive sau foarte scurte. Implementările pot fi găsite prin intermediul unui număr de portaluri web, cum ar fi EMBL FASTA și NCBI BLAST.

Alinierea secvenței multiple este o extensie a alinierii perechi pentru a încorpora mai mult de două secvențe la un moment dat. Metodele de aliniere multiple încearcă să alinieze toate secvențele dintr-un set de interogări dat. Alinierea multiplă este adesea utilizată în identificarea regiunilor de secvență conservate dintr-un grup de secvențe presupuse a fi legate evolutiv. Astfel de motive de secvență conservate pot fi utilizate împreună cu informații structurale și mecaniciste pentru a localiza siturile catalitice active ale enzimelor. Alinierile sunt, de asemenea, utilizate pentru a ajuta la stabilirea relațiilor evolutive prin construirea copacilor filogenetici. Alinierile de secvențe multiple sunt dificil de realizat din punct de vedere computerizat și majoritatea formulărilor problemei conduc la probleme de optimizare combinatorie NP-complete. [10] [11] Cu toate acestea, utilitatea acestor alinieri în bioinformatică a dus la dezvoltarea unei varietăți de metode adecvate pentru alinierea a trei sau mai multe secvențe.

Programare dinamică Edit

Tehnica programării dinamice este teoretic aplicabilă oricărui număr de secvențe, totuși, deoarece este costisitoare din punct de vedere al calculului atât în ​​timp cât și în memorie, este rar utilizată pentru mai mult de trei sau patru secvențe în forma sa cea mai de bază. Această metodă necesită construirea n-equivalent dimensional al matricei de secvență formată din două secvențe, unde n este numărul de secvențe din interogare. Programarea dinamică standard este utilizată mai întâi pe toate perechile de secvențe de interogare și apoi „spațiul de aliniere” este completat luând în considerare posibile potriviri sau goluri în poziții intermediare, construind în cele din urmă o aliniere în esență între fiecare aliniere cu două secvențe. Deși această tehnică este costisitoare din punct de vedere al calculului, garanția unei soluții optime globale este utilă în cazurile în care doar câteva secvențe trebuie aliniate cu precizie. O metodă de reducere a cerințelor de calcul ale programării dinamice, care se bazează pe funcția obiectivă „suma perechilor”, a fost implementată în pachetul software MSA. [12]

Metode progresive Edit

Metodele progresive, ierarhice sau arborescente generează o aliniere de secvență multiplă prin alinierea mai întâi a celor mai similare secvențe și apoi adăugarea succesivă a secvențelor sau grupurilor mai puțin conexe la aliniere până când întregul set de interogări a fost încorporat în soluție. Arborele inițial care descrie legătura secvenței se bazează pe comparații în perechi care pot include metode euristice de aliniere în perechi similare cu FASTA. Rezultatele alinierii progresive sunt dependente de alegerea secvențelor „cele mai înrudite” și astfel pot fi sensibile la inexactități în aliniamentele inițiale perechi. Cele mai multe metode progresive de aliniere a secvențelor multiple ponderează în plus secvențele din setul de interogări în funcție de relația lor, ceea ce reduce probabilitatea de a face o alegere slabă a secvențelor inițiale și astfel îmbunătățește precizia alinierii.

Multe variații ale implementării progresive Clustal [13] [14] [15] sunt utilizate pentru alinierea secvenței multiple, construcția filogenetică a arborelui și ca element de intrare pentru predicția structurii proteinelor. O variantă mai lentă, dar mai precisă a metodei progresive este cunoscută sub numele de T-Coffee. [16]

Metode iterative Edit

Metodele iterative încearcă să îmbunătățească dependența mare de precizia alinierilor inițiale în perechi, care este punctul slab al metodelor progresive. Metodele iterative optimizează o funcție obiectivă bazată pe o metodă selectată de notare a alinierii prin atribuirea unei alinieri globale inițiale și apoi realinierea subseturilor de secvențe. Subseturile realiniate sunt apoi ele însele aliniate pentru a produce următoarea iterație de aliniere multiplă a secvenței. Diverse moduri de selectare a subgrupurilor de secvențe și a funcției obiective sunt revizuite în. [17]

Găsirea motivului Edit

Găsirea motivelor, cunoscută și sub denumirea de analiză a profilului, construiește alinieri globale multiple de secvențe care încearcă să alinieze motive de secvență scurte conservate între secvențele din setul de interogări. Acest lucru se face, de obicei, prin construirea mai întâi a unei alinieri generale generale de secvențe multiple, după care regiunile foarte conservate sunt izolate și utilizate pentru a construi un set de matrice de profil. Matricea profilului pentru fiecare regiune conservată este aranjată ca o matrice de punctare, dar numărul de frecvențe pentru fiecare aminoacid sau nucleotidă la fiecare poziție este derivat din distribuția caracterului regiunii conservate, mai degrabă decât dintr-o distribuție empirică mai generală. Matricile de profil sunt apoi utilizate pentru a căuta în alte secvențe aparițiile motivului pe care îl caracterizează. În cazurile în care setul de date original conținea un număr mic de secvențe sau doar secvențe foarte înrudite, se adaugă pseudoconturi pentru a normaliza distribuțiile de caractere reprezentate în motiv.

Tehnici inspirate din informatică Edit

O varietate de algoritmi de optimizare generală utilizați în mod obișnuit în informatică au fost, de asemenea, aplicați problemei de aliniere a secvenței multiple. Modelele ascunse Markov au fost utilizate pentru a produce scoruri de probabilitate pentru o familie de posibile alinieri de secvențe multiple pentru un anumit set de interogări, deși metodele bazate pe HMM timpurii au produs performanțe copleșitoare, aplicațiile ulterioare le-au găsit deosebit de eficiente în detectarea secvențelor legate de la distanță, deoarece sunt mai puțin sensibile la zgomotul creat de substituții conservatoare sau semiconservatoare. [18] Algoritmii genetici și recoacerea simulată au fost, de asemenea, utilizați în optimizarea scorurilor de aliniere a secvențelor multiple, după cum se judecă printr-o funcție de notare, cum ar fi metoda sumelor de perechi. Detalii și pachete software mai complete pot fi găsite în articolul principal, alinierea secvenței multiple.

Transformarea Burrows – Wheeler a fost aplicată cu succes pentru alinierea rapidă scurtă a citirii în instrumente populare precum Bowtie și BWA. Vezi indexul FM.

Alinierile structurale, care sunt de obicei specifice proteinelor și uneori secvențelor de ARN, folosesc informații despre structura secundară și terțiară a moleculei de proteină sau ARN pentru a ajuta la alinierea secvențelor. Aceste metode pot fi utilizate pentru două sau mai multe secvențe și produc în mod obișnuit aliniamente locale, deoarece acestea depind de disponibilitatea informațiilor structurale, pot fi utilizate numai pentru secvențe ale căror structuri corespunzătoare sunt cunoscute (de obicei prin cristalografie cu raze X sau spectroscopie RMN) . Deoarece atât proteina cât și structura ARN sunt conservate mai mult din punct de vedere evolutiv decât secvența, [19] aliniamentele structurale pot fi mai fiabile între secvențele care sunt foarte îndepărtate și care au divergut atât de mult încât comparația secvenței nu le poate detecta fiabil similitudinea.

Alinierile structurale sunt folosite ca „standard de aur” în evaluarea alinierilor pentru predicția structurii proteinei bazate pe omologie [20] deoarece aliniază în mod explicit regiunile secvenței de proteine ​​care sunt similare din punct de vedere structural mai degrabă decât să se bazeze exclusiv pe informațiile de secvență. Cu toate acestea, aliniamentele structurale în mod clar nu pot fi utilizate în predicția structurii, deoarece cel puțin o secvență din setul de interogări este ținta care trebuie modelată, pentru care structura nu este cunoscută. S-a arătat că, având în vedere alinierea structurală între o țintă și o secvență șablon, modelele extrem de precise ale secvenței de proteine ​​țintă pot fi produse un obstacol major în predicția structurii bazate pe omologie, este producerea de aliniamente precise din punct de vedere structural, date doar informații de secvență. . [20]

Editare DALI

Metoda DALI, sau alinierea matricei la distanță, este o metodă bazată pe fragmente pentru construirea alinierilor structurale bazate pe modele de similitudine de contact între hexapeptide succesive în secvențele de interogare. [21] Poate genera alinieri perechi sau multiple și poate identifica vecinii structurali ai unei secvențe de interogări în Protein Data Bank (PDB). Acesta a fost folosit pentru a construi baza de date de aliniere structurală FSSP (clasificarea pliurilor pe baza alinierii structură-structură a proteinelor sau a familiilor de proteine ​​similare din punct de vedere structural). Un server web DALI poate fi accesat la DALI, iar FSSP se află la baza de date Dali.

Editare SSAP

SSAP (program secvențial de aliniere a structurii) este o metodă dinamică de aliniere structurală bazată pe programare, care folosește vectori atom-atom în spațiul structurii ca puncte de comparație. A fost extinsă de la descrierea sa originală pentru a include alinieri multiple, precum și perechi, [22] și a fost utilizată în construcția clasificării ierarhice a bazelor de date proteice CATH (Class, Architecture, Topology, Homology). [23] Baza de date CATH poate fi accesată la Clasificarea structurii proteinelor CATH.

Extensie combinatorie Edit

Metoda de extensie combinatorie a alinierii structurale generează o aliniere structurală în perechi utilizând geometria locală pentru a alinia fragmente scurte ale celor două proteine ​​analizate și apoi asamblează aceste fragmente într-o aliniere mai mare. [24] Pe baza unor măsuri precum distanța medie pătrată a rădăcinii corpului rigid, distanțele reziduurilor, structura secundară locală și caracteristicile mediului înconjurător, cum ar fi hidrofobia vecinilor reziduurilor, sunt generate și utilizate aliniamente locale numite „perechi de fragmente aliniate” pentru a construi o matrice de similaritate reprezentând toate alinierile structurale posibile în cadrul unor criterii de tăiere predefinite. O cale de la o stare a structurii proteinei la cealaltă este apoi trasată prin matrice prin extinderea alinierii în creștere câte un fragment la un moment dat. O astfel de cale optimă definește alinierea combinatorie-extensie. Un server bazat pe web care implementează metoda și oferă o bază de date cu alinieri perechi ale structurilor din Protein Data Bank se află pe site-ul web al extensiei combinatorii.

Filogenetica și alinierea secvențelor sunt câmpuri strâns legate, datorită necesității comune de a evalua relația secvenței. [25] Domeniul filogeneticii folosește pe scară largă alinierea secvențelor în construcția și interpretarea arborilor filogenetici, care sunt folosite pentru a clasifica relațiile evolutive dintre genele omoloage reprezentate în genomul speciilor divergente. Gradul în care secvențele dintr-un set de interogări diferă este calitativ legat de distanța evolutivă a secvențelor între ele. Aproximativ vorbind, identitatea de secvență înaltă sugerează că secvențele în cauză au un strămoș comun cel mai recent comparativ tânăr, în timp ce identitatea scăzută sugerează că divergența este mai veche. Această aproximare, care reflectă ipoteza „ceasului molecular” conform căreia o rată aproximativ constantă de schimbare evolutivă poate fi utilizată pentru a extrapola timpul scurs de când două gene au divergut (adică timpul de coalescență), presupune că efectele mutației și selecției sunt constantă între linii de secvență. Prin urmare, nu ia în considerare posibila diferență între organisme sau specii în ratele de reparare a ADN-ului sau posibila conservare funcțională a unor regiuni specifice într-o secvență. (În cazul secvențelor de nucleotide, ipoteza ceasului molecular în forma sa cea mai bazică scade, de asemenea, diferența în ratele de acceptare între mutațiile silențioase care nu modifică semnificația unui codon dat și alte mutații care duc la încorporarea unui aminoacid diferit în proteina). Metode mai precise din punct de vedere statistic permit variația ratei evolutive pe fiecare ramură a arborelui filogenetic, producând astfel estimări mai bune ale timpilor de coalescență pentru gene.

Tehnicile de aliniere multiplă progresivă produc un arbore filogenetic de necesitate, deoarece încorporează secvențe în alinierea în creștere, în ordinea înrudirii. Alte tehnici care asamblează mai multe alinieri de secvențe și arbori filogenetici marchează și sortează mai întâi arborii și calculează o aliniere de secvență multiplă din arborele cu cel mai mare scor. Metodele utilizate în mod obișnuit de construcție a arborelui filogenetic sunt în principal euristice, deoarece problema selectării arborelui optim, precum problema selectării alinierii optime a secvenței multiple, este NP-hard. [26]

Evaluarea semnificației Edit

Alinierile secvenței sunt utile în bioinformatică pentru identificarea similitudinii secvenței, producerea copacilor filogenetici și dezvoltarea modelelor de omologie a structurilor proteice. Cu toate acestea, relevanța biologică a alinierilor de secvență nu este întotdeauna clară. Alinierile sunt adesea presupuse a reflecta un grad de schimbare evolutivă între secvențe descendente de la un strămoș comun, cu toate acestea, este formal posibil ca evoluția convergentă să poată avea loc pentru a produce similitudini aparente între proteinele care nu au legătură evolutivă, dar îndeplinesc funcții similare și au structuri similare.

În căutările de baze de date, cum ar fi BLAST, metodele statistice pot determina probabilitatea unui anumit aliniere între secvențe sau regiuni de secvență care apare din întâmplare, având în vedere dimensiunea și compoziția bazei de date căutate. Aceste valori pot varia semnificativ în funcție de spațiul de căutare. În special, probabilitatea de a găsi o aliniere dată din întâmplare crește dacă baza de date constă numai din secvențe din același organism ca secvența de interogare. Secvențele repetitive din baza de date sau interogarea pot distorsiona atât rezultatele căutării, cât și evaluarea semnificației statistice BLAST filtrează automat astfel de secvențe repetitive în interogare pentru a evita accesările aparente care sunt artefacte statistice.

Metode de estimare a semnificației statistice pentru alinieri de secvență decalate sunt disponibile în literatura de specialitate. [25] [27] [28] [29] [30] [31] [32] [33]

Evaluarea credibilității Edit

Semnificația statistică indică probabilitatea ca o aliniere a unei calități date să poată apărea întâmplător, dar nu indică cât de superioară este o aliniere dată față de aliniamentele alternative ale acelorași secvențe. Măsurile de credibilitate a alinierii indică măsura în care cele mai bune alinieri de notare pentru o pereche dată de secvențe sunt substanțial similare. Metodele de estimare a credibilității alinierii pentru alinieri de secvențe decalate sunt disponibile în literatura de specialitate. [34]

Funcții de notare Editare

Alegerea unei funcții de notare care reflectă observații biologice sau statistice despre secvențe cunoscute este importantă pentru a produce alinieri bune. Secvențele de proteine ​​sunt frecvent aliniate folosind matrici de substituție care reflectă probabilitățile de substituții date de la caracter la caracter. O serie de matrici numite matrici PAM (matrici de mutație punct acceptată, definite inițial de Margaret Dayhoff și uneori denumite „matrici Dayhoff”) codifică în mod explicit aproximări evolutive în ceea ce privește ratele și probabilitățile anumitor mutații de aminoacizi. O altă serie obișnuită de matrice de notare, cunoscută sub numele de BLOSUM (Blocks Substitution Matrix), codifică probabilitățile de substituție derivate empiric. Variante ale ambelor tipuri de matrice sunt utilizate pentru a detecta secvențe cu niveluri diferite de divergență, permițând astfel utilizatorilor de BLAST sau FASTA să limiteze căutările la potriviri mai strâns legate sau să se extindă pentru a detecta secvențe mai divergente. Sancțiunile Gap reprezintă introducerea unei lacune - pe modelul evolutiv, o mutație de inserție sau deleție - atât în ​​secvențele nucleotidice, cât și în secvențele proteice și, prin urmare, valorile penalizării ar trebui să fie proporționale cu rata așteptată a acestor mutații. Prin urmare, calitatea alinierilor produse depinde de calitatea funcției de notare.

Poate fi foarte util și instructiv să încercați aceeași aliniere de mai multe ori cu alegeri diferite pentru punctarea valorilor matricei și / sau a penalizărilor gap și să comparați rezultatele. Regiunile în care soluția este slabă sau neunică pot fi adesea identificate observând ce regiuni ale aliniamentului sunt robuste față de variațiile parametrilor de aliniere.

ARN secvențiat, cum ar fi etichetele de secvență exprimate și ARNm de lungime completă, pot fi aliniate la un genom secvențiat pentru a găsi unde există gene și pentru a obține informații despre splicing alternativ [35] și editare ARN. [36] Alinierea secvenței este, de asemenea, o parte a ansamblului genomului, unde secvențele sunt aliniate pentru a găsi suprapuneri, astfel încât contigs (întinderi lungi de secvență) se pot forma. [37] O altă utilizare este analiza SNP, unde secvențele de la diferiți indivizi sunt aliniate pentru a găsi perechi de bază unice care sunt adesea diferite într-o populație. [38]

Metodele utilizate pentru alinierea secvenței biologice au găsit aplicații și în alte domenii, mai ales în procesarea limbajului natural și în științele sociale, unde algoritmul Needleman-Wunsch este denumit de obicei potrivire optimă. [39] Tehnicile care generează setul de elemente din care vor fi selectate cuvintele în algoritmi de generare a limbajului natural au împrumutat tehnici de aliniere a secvențelor multiple din bioinformatică pentru a produce versiuni lingvistice ale dovezilor matematice generate de computer. [40] În domeniul lingvisticii istorice și comparative, alinierea secvențelor a fost utilizată pentru a automatiza parțial metoda comparativă prin care lingviștii reconstituie în mod tradițional limbile. [41] Cercetările de afaceri și marketing au aplicat, de asemenea, tehnici de aliniere a secvențelor multiple în analiza seriilor de achiziții de-a lungul timpului. [42]

O listă mai completă a software-urilor disponibile clasificate în funcție de algoritm și tipul de aliniere este disponibilă la software-ul de aliniere a secvențelor, dar instrumentele software obișnuite utilizate pentru sarcinile generale de aliniere a secvențelor includ ClustalW2 [43] și T-coffee [44] pentru aliniere și BLAST [45] și FASTA3x [46] pentru căutarea în baze de date. Sunt disponibile și instrumente comerciale precum DNASTAR Lasergene, Geneious și PatternHunter. Instrumentele adnotate ca efectuarea alinierii secvenței sunt listate în registrul bio.tools.

Algoritmii și software-ul de aliniere pot fi comparate direct unul cu celălalt folosind un set standardizat de referințe de referință pentru mai multe alinieri de secvențe cunoscute sub numele de BAliBASE. [47] Setul de date constă din alinieri structurale, care pot fi considerate un standard cu care sunt comparate metodele pur bazate pe secvențe. Performanța relativă a multor metode comune de aliniere pentru problemele de aliniere întâlnite frecvent a fost tabelată și rezultatele selectate au fost publicate online la BAliBASE. [48] ​​[49] O listă cuprinzătoare a scorurilor BAliBASE pentru multe (în prezent 12) instrumente diferite de aliniere poate fi calculată în cadrul STRAP al bancului de lucru cu proteine. [50]


Flux de lucru bioinformatic pentru secvențierea întregului genom

Secvențierea întregului genom (WGS) are capacitatea de a spori foarte mult cunoștințele genomice și de a înțelege misterele vieții prin utilizarea celor mai avansate tehnologii de secvențiere genetică. WGS poate fi utilizat pentru apelarea variantelor, adnotarea genomului, analiza filogenetică, construcția genomului de referință și multe altele. WGS încearcă să acopere întregul genom, dar acoperă de fapt 95% din genom cu dificultăți tehnice în secvențierea regiunilor precum centromeri și telomeri. O altă provocare pentru WGS este gestionarea datelor. Pe măsură ce seturile de date mai mari devin mai accesibile și mai accesibile, analiza computațională va fi factorul limitativ al ratei, mai degrabă decât tehnologia de secvențiere. Aici vom discuta despre fluxul de lucru bioinformatic pentru detectarea variațiilor genetice în WGS pentru a vă ajuta să treceți prin el.

Fluxul de lucru bioinformatic pentru WGS este similar cu cel pentru secvențierea întregului exom. Puteți vedea articolul nostru Flux de lucru Bioinformatică pentru secvențierea întregului exom. Fluxul de lucru bioinformatic pentru WGS se încadrează în pașii următori: (1) controlul calității citirii brute (2) preprocesarea datelor (3) alinierea (4) apelarea variantelor (5) ansamblul genomului (6) adnotarea genomului (7) alte analize avansate bazate pe interesul dvs. de cercetare, cum ar fi analiza filogenetică.

Figura 1. Fluxul de lucru bioinformatic al secvențierii întregului genom.

Raw citit QC și preprocesare

Fișierele brute (fastq) trebuie eliminate din citiri / secvențe de calitate slabă și secvențe tehnice, cum ar fi secvențe adaptor. Acest proces este important pentru detectarea precisă și fiabilă a variației. FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastq) este un instrument puternic pentru citirea QC brută care generează rezultate ale datelor statistice, inclusiv statistici de bază, calitatea secvenței, scorurile de calitate, conținutul secvenței, conținutul GC, distribuția lungimii secvenței, secvențe supra-reprezentate, graficele de nivel de duplicare a secvenței, conținutul adaptorului și conținutul k-mer. Instrumente precum Fastx_trimmer și cutadapt pot fi utilizate pentru tăierea citirii.

Trebuie determinat un genom de referință. Mash ne permite să comparăm citirile secvențiale generate cu setul de referință din genomii NCBI RefSeq (https://www.ncbi.nlm.nih.gov/refseq) pentru a determina distanța genetică și relația dintre acestea. Următorul pas este să mapezi citirile controlate de calitate la genomul de referință. Burrows-Wheeler Aligner (BWA) și Bowtie2 sunt doi algoritmi populari de aliniere pe scurt. Ieșirea BWA și Bowtie2 este formatul standard de aliniere a secvenței / hartă cunoscut sub numele de SAM, care facilitează pașii următori. Alternativ, BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi) este utilizat pe scară largă pentru alinierea locală.

Tabelul 1. Programele de calcul obișnuite pentru alinierea citirii.

Program Tipul sursei Site-ul web
Bowtie2 Sursa deschisa http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
SIGILIU Sursa deschisa http://compbio.case.edu/seal/
SOAP3 Sursa deschisa http://www.cs.hku.hk/2bwt-tools/soap3/ http://soap.genomics.org.cn/soap3.html
BWA, BWA-SW Sursa deschisa http://bio-bwa.sourceforge.net/
Novoalign Disponibil comercial http://www.novocra.com/
SHRiMP / SHRiMP2 Sursa deschisa http://compbio.cs.toronto.edu/shrimp/
MAQ Sursa deschisa http://maq.sourceforget.net/
Stampy Sursa deschisa http://www.well.ox.ac.uk/project-stampy/
ELAND Disponibil comercial http://www.illumina.com/
SARUMAN Sursa deschisa http://www.cebitec.uni-bielefeld.de/brf/saruman/saruman.html

Variante de apelare

Odată ce citirile sunt aliniate la genomul de referință, variantele pot fi identificate prin compararea genomului eșantionului cu genomul de referință. Variantele detectate pot fi asociate cu boala sau pur și simplu pot fi zgomot genomic nefuncțional. Formatul de apel Variant (VCF) este formatul standard pentru stocarea variațiilor de secvență, inclusiv SNP (polimorfisme cu nucleotide unice), indels, variante structurale și adnotări. Apelarea la variante poate fi complicată datorită ratei ridicate de identificări fals pozitive și false negative a SNV-urilor și indel-urilor. Pachetele software din Tabelul 2 sunt utile pentru îmbunătățirea apelurilor variante.

Tabelul 2. Pachetele software pentru apelarea variantelor.

  • Realinierea cu mai multe secvențe
  • Recalibrarea scorului de calitate
  • Genotiparea SNP
  • Descoperire și genotipare Indel
  • Apeluri consensuale și detectarea SNP
  • Calculul probabilității fiecărui genotip
  • Detectează variante la o frecvență de 1%
  • Normalizează adâncimea secvenței la fiecare poziție
  • Apelare variantă a datelor aliniate de la diverse platforme NGS

Asamblarea genomului

De novo asamblarea este procesul de a alinia citirile suprapuse pentru a forma contigs mai lungi (secvențe contigue mai mari) și ordona contigs în schele (un cadru al genomului secvențiat). Dacă există un genom de referință de la o specie înrudită, metoda obișnuită este de a genera mai întâi contigs de novo și apoi aliniați-le la genomul de referință pentru asamblarea schelelor. O abordare alternativă este algoritmul „Align-Layout-Consensus”. Această metodă aliniază mai întâi citirile la un genom de referință strâns legat, apoi construiește contigs și schele de novo.

Tabelul 3. Asamblatorii obișnuiți pentru diverse platforme de secvențiere.

Utilizatorii pot evalua calitatea ansamblurilor de genom proiect sau pot compara ansamblurile generate de diferite metode. Există o varietate de valori care reflectă calitatea asamblării. Numai ansamblul contiguu aproape complet (aproximativ 90%) întrerupt de mici goluri va produce o adnotare cu succes a genomului.

  • Dimensiunea genomului. Atât abordările bazate pe frecvență, cât și valoarea C, pot deduce dimensiunea genomului.
  • Contiguitatea asamblării. Statistica N50 poate fi utilizată pentru a evalua contiguitatea ansamblului, care descrie un fel de mediană a lungimilor secvenței asamblate.
  • Precizie. Datele transcriptome prezintă o resursă importantă pentru validarea acurateței secvenței și corectarea schelelor. Abordările genomice comparative pot oferi, de asemenea, îndrumări în detectarea asamblărilor greșite și a contigurilor himerice.

Adnotarea genomului

Pentru a înțelege pe deplin secvența genomului, trebuie să fie adnotată cu informații relevante din punct de vedere biologic, cum ar fi termenii ontologiei genetice (GO), căile KEGG și modificările epigenetice. Adnotarea implică două faze:

(1) Faza de calcul. O fază de calcul include mascare repetată, predicția secvenței de codare (CDS) și predicția modelelor genetice.

  • Repetați mascarea. Deoarece repetițiile sunt slab conservate între specii, este recomandat să creați o bibliotecă de repetare specifică speciei utilizând instrumente precum RepeatModeler, RepeatExplorer.
  • Predicția CDS. Preziceți CDS folosind ab initio algoritmi.
  • Predicția modelelor genetice. Alinierea proteinelor, prelevarea proteinelor sintenice de la alte specii, datele EST și ARN-seq pot oferi o resursă valoroasă pentru prezicerea modelelor genetice.

(2) Faza de adnotare. Toate dovezile menționate mai sus (ab initio predicție, precum și alinierea proteinelor, EST- și ARN) este apoi sintetizată într-o adnotare genetică. În plus, sunt disponibile instrumente automate de adnotare, cum ar fi MAKER și PASA, pentru a integra și a cântări dovezile. WebApollo poate fi utilizat pentru a edita adnotarea prin interfața vizuală dacă ceva nu este în regulă cu adnotările genetice.

Odată ce adnotarea genomului este evaluată prin inspecție vizuală, puteți publica proiectul de secvențe și adnotare a genomului. Pentru a permite altora să îmbunătățească ansamblul și adnotarea genomului, ar trebui încărcate toate datele brute. Bazele de date disponibile pentru încărcarea genomului includ ENSEMBL și NCBI.

  1. Dolled-Filhart M P, Lee M, Ou-yang C, și colab. Cadrele de calcul și bioinformatică pentru următoarea generație de exom întreg și secvențierea genomului. Jurnalul Lumii Științifice, 2013, 2013.
  2. Ekblom R, Wolf J B W. Un ghid de câmp pentru secvențierea, asamblarea și adnotarea întregului genom. Aplicații evolutive, 2014, 7(9): 1026-1042.
  3. Kwong J C, McCallum N, Sintchenko V, și colab. Secvențierea întregului genom în microbiologie clinică și de sănătate publică. Patologie, 2015, 47(3): 199-210.
  4. Meena N, Mathur P, Medicherla K M, și colab. O conductă de bioinformatică pentru secvențierea întregului exom: Prezentare generală a procesării și pașilor de la datele brute la analiza din aval. bioRxiv, 2017: 201145.
  5. Oakeson K F, Wagner J M, Mendenhall M, și colab. Analize bioinformatice ale datelor secvenței genomului întreg într-un laborator de sănătate publică. Boli infecțioase emergente, 2017, 23(9): 1441.

Obțineți informații științifice de ultimă oră de la CD Genomics trimise direct în căsuța de e-mail în fiecare lună.


Informatia autorului

Adresa actuală: Adresa actuală: PubBio-Tech, Wuhan 430070, China,

Adresa actuală: Adresa actuală: Centrul de Științe al Orezului și Departamentul de Agronomie, Facultatea de Agricultură, Universitatea Kasetsart, Kamphaeng Saen, Nakhon Pathom 73140, Thailanda,

Sebastian Reyes-Chin-Wo, Zhiwen Wang și Xinhua Yang: Acești autori au contribuit în mod egal la această lucrare.

Afilieri

UC Davis Genome Center, Davis, 95616, California, SUA

Sebastian Reyes-Chin-Wo, Alexander Kozik, Lutz Froenicke, Dean O. Lavelle, María-José Truco, Huaqin Xu, Kyle Cox, Ian Korf și amplificatorul Richard W. Michelmore

BGI Shenzhen, Shenzhen, 518083, China

Zhiwen Wang, Xinhua Yang, Chi Song, Liangfeng Xia, Shilin Zhu, Chunyan Xu și amp Xun Xu

Delaware Biotechnology Institute, Universitatea din Delaware, Newark, 19711, Delaware, SUA

Siwaret Arikit & amp Blake C. Meyers

Donald Danforth Plant Science Center, 975 North Warson Road, St Louis, 63132, Missouri, SUA

Departamentul de biologie moleculară și celulară, UC Davis, 95616, California, SUA

Ian Korf și amp Richard W. Michelmore

Departamentul de Științe ale Plantelor, UC Davis, 95616, California, SUA

Departamentul de Microbiologie Medicală și Imunologie AM, UC Davis, 95616, California, SUA

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Puteți căuta acest autor și în PubMed Google Scholar

Contribuții

Echipa BGI (Z.W., X.Y., C.S., L.X., S.Z., C.X., X.X.) a fost responsabilă pentru construcția bibliotecii, secvențierea genomului și asamblarea și analizele inițiale. Echipa UC Davis (SR-C.-W., DOL, AK, LF, M.-JT, HX, KC, IK, RWM) a fost responsabilă pentru pregătirea materialului, secvențierea spațiului genetic, ADNc și RIL, validarea genetică , și analize secundare. ARN-urile mici au fost analizate de S.A. și R.X. cu intrare de B.C.M. Lucrarea a fost scrisă de S.R.-C.-W. și R.W.M. cu contribuții semnificative din partea multor autori.

Autorul corespunzator


Metode și instrumente pentru analiza datelor de secvențiere a întregului genom

Introducere în secvențierea întregului genom

Folosind cele mai sofisticate inovații de secvențiere genetică, secvențierea întregului genom (WGS) are potențialul de a îmbunătăți foarte mult înțelegerea genomică și de a debloca secretele vieții. WGS poate fi utilizat pentru o varietate de scopuri, inclusiv apelarea variantelor, adnotarea genomului, evaluarea filogenetică și dezvoltarea genomului de referință. Gestionarea datelor este o altă problemă pentru WGS. Evaluarea computațională, mai degrabă decât secvențierea inovației, va fi variabila care limitează rata, pe măsură ce seturile de date mai mari devin mai disponibile și mai rentabile.

Următoarele sunt etapele din șablonul de bioinformatică pentru WGS: (1) controlul calității citirilor brute (2) preprocesarea datelor (3) alinierea (4) apelarea variantelor (5) asamblarea genomului și (6) adnotarea genomului. În funcție de software, vor fi necesare diferite tipuri de evaluare a datelor.

Raw Citește QC și preprocesare

Citirile / secvențele de calitate slabă, precum și secvențele tehnice precum secvențele adaptor, trebuie eliminate din fișierele brute (fastq). Această procedură este esențială pentru detectarea variațiilor cu precizie și fiabilitate. FastQC este un instrument eficient de control al calității citirii brute care generează rezultate statistice de date care implică statistici de bază, calitatea secvenței, scoruri de calitate, conținutul secvenței, conținutul GC, distribuția lungimii secvenței, secvențe supra-reprezentate, proiectarea nivelului de duplicare a secvenței, compoziția adaptorului și compoziția k-mer . Instrumentele precum tunsul Fastx și cutadaptul pot fi utilizate pentru tunderea cititului.

Aliniere

Este necesar să se stabilească un genom de referință. Mash ne permite să evaluăm distanța genetică și relația prin compararea citirilor secvențiale produse cu setul de referință din genomii NCBI RefSeq. Citirile controlate de calitate trebuie acum să fie mapate la genomul de referință. Șablonul convențional de aliniere a secvenței / hartă cunoscut sub numele de SAM este produs de BWA și Bowtie2, ceea ce face următoarele procese mai ușoare. BLAST, pe de altă parte, este utilizat în mod obișnuit pentru alinierea locală.

Variante de apelare

Variantele pot fi evaluate comparând genomul specimenului cu genomul de referință după ce citirile au fost aliniate la genomul de referință. Variantele descoperite pot fi legate de boli sau pur și simplu de zgomot genomic nefuncțional. SNP (polimorfisme cu nucleotide unice), indels, variante structurale și adnotări sunt toate stocate în VCF, care este șablonul convențional pentru stocarea variațiilor secvenței. Datorită procentului ridicat de detectare fals pozitivă și fals negativă a SNV-urilor și indels, apelarea variantelor poate fi dificilă.

Asamblarea genomului

Procesul de aliniere a suprapunerii citește pentru a construi contigs mai lungi (secvențe adiacente mai mari) și ordonarea contigs în schele este cunoscut sub numele de ansamblu de novo (un șablon al genomului secvențiat). Când este disponibil un genom de referință dintr-un specimen înrudit, este o practică normală să producem contigs de la zero înainte de a le alinia la genomul de referință pentru asamblarea schelelor. Algoritmul „Align-Layout-Consensus” este o altă opțiune. Această tehnică aliniază citirile cu un genom de referință puternic legat înainte de a crea contigs și schele de la zero.

Calitatea ansamblului poate fi măsurată folosind o varietate de valori. Adnotarea eficientă a genomului necesită o asamblare contiguă aproape completă (aproximativ 90%) întreruptă de goluri mici.
- Dimensiunea genomului: poate fi estimată utilizând atât metode cu valoare C, cât și metode bazate pe frecvență k-mer.
- Contiguitatea ansamblului: statistica N50, care definește un tip de mediană a lungimilor secvenței asamblate, poate fi utilizată pentru a evalua contiguitatea ansamblului.
- Acuratețe: Datele transcriptome sunt o resursă valoroasă pentru verificarea acurateței secvenței și repararea schelelor. Asamblările greșite și contigurile himerice pot fi, de asemenea, detectate folosind metode genomice comparative.

Adnotarea genomului

Pentru a înțelege pe deplin secvența genomului, trebuie formatate detalii adecvate din punct de vedere biologic, cum ar fi termenii ontologiei genetice (GO), căile KEGG și modificările epigenetice. Adnotarea are două etape:

    Etape de calcul. Repetarea mascării, predicția secvenței de codare (CDS) și predicția modelului de gene fac parte din faza de calcul.

Repetați procesul de mascare. Deoarece repetările sunt slab conservate între organisme, este recomandat să utilizați instrumente precum RepeatModeler și RepeatExplorer pentru a dezvolta o bibliotecă de repetare specifică speciei. Sunt prezise modele genetice. Alinierea proteinelor, prelevarea proteinelor sintenice de la alte specii, datele EST și ARN-seq pot fi de ajutor în prezicerea modelelor genetice.

Despre CD Genomics Bioinformatics Analysis

Departamentul de analiză bioinformatică al CD Genomics oferă soluții noi pentru inovația bazată pe date, care vizează descoperirea potențialului ascuns în datele biologice, exploatarea noilor perspective legate de cercetarea științelor vieții și prezicerea de noi perspective.