Informație

Care sunt principalele motive pentru eșecul localizării / ancorării secvențelor în ansamblurile genomului?


Întrebarea mea se referă la încorporarea citirilor secvenței individuale în cromozomi în timpul proiectelor de secvențiere a genelor, în special a celor cu genomi mai mari, cum ar fi Drosophila melanogaster sau Homo sapiens.

Există câteva secvențe sau contiguri scurte pe care nu a fost încă posibil să le încorporăm în ansamblurile mai mari de cromozomi.

Care sunt motivele acestui eșec?


Voi reinterpreta ușor această întrebare pentru a ușura răspunsul:

"De ce ansamblurile genomului constau frecvent din numere mari de contiguri scurte, mai degrabă decât dintr-un număr relativ mic de cromozomi lungi (sau repliconi complet de alte tipuri)? Și cum aș putea face ansamblul meu mai bun?"

Ansamblurile de secvențe de novo (de obicei) constau dintr-un set de fragmente de secvență contigue („contigs”) care au fost derivate din secvențierea pușcii de către unele euristici. Dacă asamblarea secvenței a făcut o treabă perfectă, ne-am aștepta ca aceste contiguri să fie cromozomi plini. În schimb, ceea ce observăm este o mulțime de fragmente de secvențe cu relații incerte între ele. În acest caz obișnuit, credem că unele dintre contiguri ar putea fi cusute împreună („localizate”, „ancorate”, „schelate”) în mod semnificativ în cromozomi, dar nu suntem siguri cum.

Pentru asamblarea secvenței de novo, nu există niciun adevăr de bază cu care să se compare. Deci, toate informațiile pentru generarea ansamblurilor provin din secvențele de pornire (care sunt de obicei „citite”, mici bucăți de secvență care ies dintr-un instrument de secvențiere). Euristicile care generează contiguri din citiri constau în găsirea suprapunerilor între diferite citiri inițiale și în încercarea de a le extinde în cele mai mari grupuri de citiri parțial suprapuse, folosind câteva ipoteze despre ratele de eroare în secvența citirilor (și alte variabile). Consultați Wikipedia sau această lucrare (figură) pentru mai multe informații despre acest lucru.

Se pare că există un corp de teorie statistică care guvernează cât de mari vor fi aceste suprapuneri și, prin urmare, cât de mari / complete vor fi contigurile tale. Acest corp de teorie spune că dimensiunea și numărul contigurilor sunt predictibile într-o oarecare măsură de la dimensiunea genomului pe care încercați să-l asamblați, lungimea citirilor și numărul de citiri pe care le aveți.

Unele genomi, cum ar fi porumbul, grâul sau genomul uman, sunt, de asemenea, mai greu de asamblat, deoarece sunt „repetitive”. Aceasta înseamnă că există o mulțime de secvențe foarte similare în diferite locuri din genom. Deci, când citiți unul dintre aceste locuri, nu sunteți sigur din care dintre aceste regiuni foarte asemănătoare provine. Aceste regiuni repetitive sunt greu de rezolvat, cu excepția cazului în care aveți citiri foarte lungi sau unele informații paralele, astfel încât acestea conduc, de asemenea, la lacune în ordine. Astfel de regiuni vor tinde, de asemenea, să fie „prăbușite”, ceea ce înseamnă că aveți doar un contig care reprezintă o repetare care ar trebui să fie de fapt prezent ca mai multe contiguri cu locații diferite în ansamblu.

Sursele de informații paralele care sunt utile sunt ligarea de proximitate (metode precum Hi-C), hărțile genetice din încrucișări sau cartografierea optică. Aceste surse ortogonale de informații exprimă relații între contig în ceea ce privește apropierea lor de un cromozom. Iată o lucrare cu mai multe informații despre aceste subiecte. Recent, tehnologiile de citire îndelungată, cum ar fi PacBio sau secvențierea nanoporilor, încep să citească prin repetări mari, dar de obicei nu sunt suficient de fiabile pentru a asambla pe deplin chiar și genomurile mici „telomere-la-telomere”.

Deci, dacă există o rețetă pentru localizarea / ancorarea / schelarea ansamblurilor fragmentate, iată aproximativ ce se poate face:

  1. obțineți mai multe citiri
  2. citiri mai lungi
  3. obțineți informații ortogonale despre plasarea contigului (de exemplu, ligatură de proximitate, hărți genetice, un ansamblu strâns legat etc.)

Sper că asta ajută.


Asamblarea și analiza secvenței genomului nemapate citește dezvăluie o nouă secvență și variație la câini

Câinii sunt modele animale excelente pentru bolile umane. Au istorii veterinare extinse, genealogii și un sistem genetic unic datorită practicilor de reproducere. În ciuda acestor avantaje, un factor care le limitează utilitatea este referința genomului canin (CGR) care a fost asamblat folosind un singur boxer de rasă pură. Deși este o practică obișnuită, acest lucru duce la faptul că multe citiri de înaltă calitate rămân nelimitate. Pentru a aborda această secvență a întregului genom, datele de la trei rase, Border Collie (n = 26), Bearded Collie (n = 7) și Entlebucher Sennenhund (n = 8), au fost analizate pentru a identifica noi contiguri genomice non-CGR folosind pseudo- validat anteriorde novo conducta de asamblare. Am identificat 256.957 contigs noi și relații de pereche, împreună cu scorurile BLAT, oferind 126.555 (49%) contiguri de înaltă calitate cu coordonate genomice care conțin 4,6 Mb de secvență nouă absentă din CGR. Aceste contiguri închid 12.503 de goluri cunoscute, inclusiv 2,4 Mb conținând secvențe parțial lipsă pentru 11,5% din Ensembl, 16,4% din RefSeq și 12,2% din genele canFam3.1 + CGR adnotate și 1.748 de contiguri nemapate care conțin 2.366 de variante genetice noi. Exemple pentru șase gene asociate bolii (SCARF2, RD3, COL9A3, FAM161A, RASGRP1 și DLX6) care conțin goluri sau variante alternative de îmbinare lipsă din CGR sunt de asemenea prezentate. Aceste constatări de la rase fără referință susțin necesitatea îmbunătățirii actualului CGR numai pentru Boxer pentru a evita lipsa informațiilor biologice importante. Includerea secvențelor genetice lipsă în CGR va facilita identificarea mutațiilor putative ale bolii între diverse rase și fenotipuri.


Introducere

Hevea brasiliensis (Willd.) Müll.-Arg. (arborele de cauciuc Para) este o cultură perenă de foioase indigenă din pădurile tropicale din bazinul amazonian din America de Sud. Este o specie monoică, excesivă, aparținând familiei Euphorbiaceae și are un număr de cromozomi de 2n = 2X = 36. Arborele de cauciuc produce polimeri izoprenoizi de înaltă calitate (cis-1,4-poliizopren) cu proprietăți fizice unice, cum ar fi elasticitatea, rezistența și dispersia eficientă a căldurii, care sunt de neegalat de orice înlocuitori sintetici pe bază de petrol 1. Din cele 2500 de specii de plante producătoare de latex, H. brasiliensis este singura specie care produce cantități viabile din punct de vedere comercial de cauciuc natural de înaltă calitate, reprezentând peste 98% din producția totală la nivel mondial 2,3. Țările din Asia de Sud-Est domină în prezent producția și comerțul cu cauciuc, reprezentând peste 76% din cele 11,96 tone produse la nivel global, Thailanda și Indonezia fiind cei mai mari doi producători și exportatori de cauciuc natural (http://faostat3.fao.org/ Accesat în septembrie 14, 2016). În ciuda originii din bazinul amazonian, producția de cauciuc în America de Sud reprezintă doar 2% din producția totală din întreaga lume, din cauza răspândirii devastatoare a bolii frunzelor din America de Sud (SALB) cauzată de ascomicet Microcyclus ulei în anii 1930 4. Infestarea a avut ca rezultat prăbușirea majorității plantațiilor de arbori de cauciuc și încetarea producției de cauciuc la scară comercială în Brazilia și alte țări din America de Sud 5. Chiar dacă Hevea cultivarea în Asia de Sud-Est nu a fost afectată de SALB, alte ciuperci patogene native sunt încă amenințări majore pentru producția de cauciuc în această zonă. Un număr de clone cultivate comercial, cu randament ridicat, sunt susceptibile la boala anormală a căderii frunzelor cauzată de diverse Phytophthora specii și a fost observată o pierdere de randament de până la 40% la infectarea clonelor foarte sensibile 6. Un alt agent patogen răspândit, Corynespora cassiicola, este o ciupercă necrotrofică care provoacă boala căderii frunzelor Corynespora, rezultând pierderi semnificative ale randamentului cauciucului natural 7.

În ultimele două decenii, crescătorii de plante au folosit abordări convenționale ale selecțiilor recurente pentru a obține clone cu randament îmbunătățit de latex și rezistență la agenții patogeni fungici 8. Cu toate acestea, reproducerea tradițională consumă în mod inerent din cauza ciclului lung de selecție la această specie. Abilitatea de a selecta trăsături valoroase din punct de vedere comercial într-un stadiu incipient va avea un impact extraordinar asupra reducerii timpului și a resurselor necesare dezvoltării clonelor superioare. Apariția markerilor genetici pe bază de ADN a oferit o strategie alternativă care a permis crescătorilor de plante să accelereze procesul de dezvoltare a soiurilor. Progresele recente în tehnologia de secvențiere au simplificat și accelerat descoperirea variantelor de secvență, permițând trecerea de la markeri anonimi, cum ar fi microsateliții, la polimorfisme cu nucleotide unice (SNP) mai omniprezente 9,10. Disponibilitatea markerilor SNP facilitează construirea hărților de legătură genetică de înaltă densitate, care sunt esențiale pentru analizele cantitative ale trăsăturilor (QTL) și studiile de asociere cu trăsături agronomice valoroase 11.

Mai multe resurse genomice pentru H. brasiliensis au fost dezvoltate recent, incluzând secvențierea transcriptomului diferitelor țesuturi și secvențierea genomului RRIM600 cultivat comercial 10,12,13. În timp ce prima schiță a secvenței genomului 13 a furnizat o sursă excelentă de informații genomice, ansamblul este foarte fragmentat, conținând peste un milion de contiguri cu o lungime N50 de 2,9 kb. Asamblarea unui genom complex este o provocare parțială datorită prezenței unor secvențe de ADN foarte repetitive, care introduc ambiguitate în timpul reconstrucției genomului. S-a estimat că ADN-ul repetitiv reprezintă 78% din genomul arborelui de cauciuc 13, prezentând o dificultate majoră în de novo asamblare în special atunci când este construită exclusiv din date citite scurt.

Deși este posibil să se construiască un ansamblu de înaltă calitate pentru speciile de plante cu genomi mari prin secvențierea ierarhică a puștii, utilizarea unei platforme de secvențiere capabile să genereze citiri lungi care pot acoperi regiuni de repetări complexe este probabil mai rentabilă și mai puțin intensivă în muncă / consumatoare de timp. Dezvoltarea recentă și aplicațiile tehnologiilor de secvențiere cu citire lungă au arătat o îmbunătățire substanțială a ansamblurilor genomului, în principal prin alăturarea contigurilor și schelelor și întinderea golurilor în jurul regiunilor repetitive 14,15. Tehnologia de secvențiere Pacific Biosciences (PacBio) oferă citiri de dimensiune kilobază fără prejudecăți GC sau erori sistematice, cu toate acestea, datele brute generate de acest sistem sunt inerent predispuse la erori, cu o precizie medie de

82% 16. Disponibilitatea software-ului de asamblare hibrid permite biologilor să combine datele PacBio de citire lungă cu date complementare, de înaltă precizie, de citire scurtă de pe alte platforme 17. Nowak și colab. 18 a demonstrat că încorporarea unei acoperiri suplimentare de 8 × a datelor PacBio la ansamblul de citire scurtă existent existent al Primula veris genomul a dus la închiderea a 21% din lacune și la umplerea a 38% din pozițiile ambigue din lacune, în plus față de îmbunătățirea cu 40% a dimensiunii contigului N50 18. În mod similar, un set de citiri lungi de 16,5 × PacBio a fost folosit pentru a completa 68% din golurile care existau în ansamblul numai pentru Illumina al ciclidei africane 14.

Recent, secvențierea cu citire scurtă de mare randament a fost folosită pentru a explora legătura ADN până la câteva sute de kilobaze în bibliotecile de ligare de proximitate construite din in vitro cromatina reconstituită 19. Proprietatea in vitro metoda de asamblare a genomului pe termen lung bazată pe capturarea conformației cromatinei numită „Chicago” dezvoltată de Dovetail Genomics a fost utilizată în combinație cu o abordare standard de secvențiere a genomului întreg pentru a genera un de novo asamblarea genomului uman cu precizie și contiguitate comparabile cu ansamblurile construite folosind metode mai scumpe. Tehnica schelelor cu rază lungă de acțiune din Chicago a fost de asemenea utilizată pentru a îmbunătăți ansamblurile genomice existente în aligatorul american 19, broasca cu gheare africane 20 și manioca 21.

Trecerea dincolo de asamblarea fragmentată a genomului necesită o hartă de legătură de înaltă calitate și densitate mare, care poate ajuta la ordonare și orientare de novo schele asamblate în secvențe de scară pseudo-cromozomiale 22. Informații complementare într-un de novo asamblarea puștii și o hartă genetică pot fi integrate pentru a genera o secvență de referință de înaltă calitate. Hărți de legătură de densitate mare au fost folosite cu succes pentru ancorarea schelelor din ansamblurile de puști de genom întreg la specii de plante, de la o fasole comună diploidă 23 la o grâu de pâine hexaploidă 24. Integrarea unei hărți genetice și a unui ansamblu genomic ne permite să investigăm duplicările genomului întreg vechi și recent și să realizăm genomică comparativă pentru a studia arhitectura genomului și evoluția genomului între speciile 25.

Aici, am folosit tehnologii complementare pentru a genera o acoperire profundă 454 / citiri scurte Illumina și date medii de citire lungă PacBio pentru o de novo ansamblu hibrid al H. brasiliensis genomul clonei BPM24 (Bank Pertanian Malaysia 24). Ulterior, am aplicat o tehnică de asamblare Chicago cu rază lungă de acțiune 19 pentru a schela ansamblul nostru preliminar pentru a obține 1,26 Gb de secvențe de arbori de cauciuc asamblate. Aderarea la BPM24 prezintă un grad ridicat de rezistență la doi agenți patogeni fungici, Phytophthora și Corynespora, frecvent întâlnită în Asia de Sud-Est 26 și este în prezent exploatată ca surse genetice de rezistență fungică în programele de creștere a arborilor de cauciuc din Thailanda. Disponibilitatea hărții de legătură consens de înaltă densitate construită din două populații derivate din BPM24 11 ne-a permis să ancorăm și să orientăm un număr mare de schele în acest nou ansamblu. Aceste secvențe ancorate genetic au furnizat primele dovezi concrete care demonstrează prezența paleotetraploidiei în arborele de cauciuc și ne-au permis să efectuăm analize comparative între Euphorbiaceae.


II. Complexitatea genomului plantelor

Țintele timpurii pentru secvențierea genomului, în afară de genomul uman, erau genomuri relativ mici și, prin urmare, mai ușoare și mai puțin costisitoare de secvențiat, cum ar fi Arabidopsis- un cromozom cu cinci, c. Planta genomului haploid de 120 Mbp (Meinke și colab., 1998). De fapt, Arabidopsis este mult mai mic decât majoritatea genomelor plantelor, în ordine de mărime. Genomul mediu al plantelor este de + 6000 Mbp per genom haploid pentru angiosperme (Gregory și colab., 2007), aproximativ de două ori dimensiunea genomului uman. Multe genome de plante importante din punct de vedere economic sunt chiar mai mari. Grâul, de exemplu, este c. 15 Gbp per genom haploid și pin are cel puțin 26 Gbp genom (Valkonen și colab., 1993). Dimensiunea genomului contribuie la complexitatea genomului plantelor, alți factori care includ poliploidie și secvențe repetitive de ADN și, în special, elemente transpozabile. Împreună, aceste atribute ale genomului plantelor măresc costul secvențierii și au un impact negativ asupra calității secvenței rezultate, în special pe măsură ce câmpul migrează de la secvențierea bazată pe hartă (care va fi descrisă mai târziu) la secvențierea pistolului cu genom întreg (WGS) cu citire scurtă. .

Doi factori primari care contribuie la dimensiunea și complexitatea genomului plantelor sunt polipoidia și secvențele ADN repetitive (exemplele de cultură prezentate în Fig. 1). Poliploidia este acumularea unor seturi suplimentare de cromozomi fie prin autopoliploidie, dublarea aceluiași genom, fie prin alopoliploidie, doi genomi divergenți în același nucleu. Creșterea numărului de cromozomi și a conținutului de ADN sunt consecințe imediate ale poliploidiei, dar în funcție de momentul în care s-a produs evenimentul de poliploidie, numărul crescut de cromozomi poate să nu fie imediat evident, deoarece evenimentele antice de poliploidie sunt probabil împărțite de taxoni surori și / sau diploidizarea numărului de cromozomi poate avea (reducerea numărului de cromozomi prin pierderi și rearanjări). Majoritatea plantelor terestre, dacă nu chiar toate, au suferit evenimente de poliploidie în diferite momente ale evoluției lor (revizuite în Soltis și colab., 2004). De exemplu, soia (Glicină max) a suferit cel puțin trei evenimente polipoide care, ca o consecință a unei secvențe de genom de înaltă calitate (Schmutz și colab., 2010), pot fi acum examinate. Primul și cel mai dificil eveniment de detectat a fost unul timpuriu în evoluția plantelor, împărtășit de multe plante terestre (Bowers și colab., 2003). Al doilea eveniment a fost c. Acum 45–55 milioane de ani (Mya) și ar trebui să fie împărtășite cu leguminoasele care au divergut după acel eveniment, cum ar fi Medicago (Tun și colab., 2006). Cel mai recent eveniment, c. 5 Ma, a fost cel mai probabil un eveniment alopoliploid (Gill și colab., 2009) care a coincis cu apariția Glicină gen (Innes și colab., 2008). Astfel, genomul de soia de 1,1 Gbp are relicve de cel puțin trei evenimente de poliploidie care au dus la un genom care este un mozaic de segmente duplicate (Schmutz și colab., 2010). În Glicină cu toate acestea, există un eveniment alopoliploidian chiar mai recent care a avut loc la speciile perene găsite în Australia (Doyle și colab., 2002). Astfel, poliploidia este un proces recurent care formează și modelează genomul plantelor în timpul evoluției.

Diagrama relației evolutive a mai multor specii majore de culturi care prezintă evenimente de poliploidie (octogonele roșii), dimensiunile genomului relativ la orez (mărimea cercurilor) și procentul elementelor transpozabile (culoarea cercului). Timpul estimat de divergență și evenimente poliploide este prezentat pe baza literaturii (Gaut & Doebley, 1997 Huang și colab., 2002 Blanc & Wolfe, 2004 Paterson și colab., 2004, 2009 Schlueter și colab., 2004 Swigonova și colab., 2004 IRGSP, 2005 Jaillon și colab., 2007 Zhu și colab., 2008 Schnable și colab., 2009 Împletitură și colab., 2009 Abrouk și colab., 2010 Choulet și colab., 2010 Schmutz și colab., 2010). Mya, acum un milion de ani.

În plus față de poliploidie, secvențele repetitive de ADN și, în special, elementele transpozabile (TE) alcătuiesc fracțiuni mari din majoritatea genomului plantelor și sunt impedimente pentru o secvențiere eficientă a genomului. TE au fost revizuite în profunzime (Bennetzen și colab., 2005) aici ne vom concentra doar pe contribuția la obezitatea genomului la plante și organizarea în genomul plantelor, deoarece contribuie la obținerea unor secvențe de genom precise. Există mai multe cazuri de amplificare rapidă a câtorva familii de TE care au dus la creșterea dimensiunii genomului. Oryza australiensis, de exemplu, are aproximativ dublu dimensiunea celor mai apropiate rude ca urmare a amplificării a trei familii de TE (Piegu și colab., 2006). Porumbul este cel mai proeminent exemplu de obezitate genomică rezultată din amplificarea TE (SanMiguel și colab., 1996 ).

Factorul complicant al amplificării TE asupra secvențierii genomului nu este în primul rând creșterea cantității de ADN de secvențiat, ci mai degrabă efectul multor copii ale aceleiași secvențe pe tot genomul care îngreunează cartarea și asamblarea.Dacă o familie TE s-a amplificat recent, poate avea mii de copii împrăștiate pe genom, toate cu identitate de secvență foarte mare. Dacă un genom este secvențiat printr-o abordare cu pușcă, deoarece majoritatea genomurilor sunt în zilele noastre, atunci aceste TE extrem de asemănătoare vor complica asamblarea, cu excepția cazului în care există suficiente citiri de perechi care să se întindă pe repetări (Fig. 2).

Diagrama secvențierii pistolului cu genom întreg (WGS). Segmentul cromozomial este prezentat în partea de jos în negru cu elemente transpozabile (TE) în portocaliu și secvențe de citire scurtă de mai sus. Lecturile scurte sunt idealizate atât în ​​acoperire, cât și în aranjament. (a) Asamblarea lecturilor scurte rezultă în trei contiguri de secvență neordonate, deoarece citirile din TE nu pot fi plasate fără ambiguități. (b) Folosind o varietate de bucăți mai mari de ADN (2-4, 6-10 și 20 Kbp prezentate) cu secvențe de perechi mate, TE-urile pot fi extinse și rezultatul contig ordonat care poate fi apoi plasat într-un context cromozomial. , secvențe repetitive de ADN, & gt 98% identitate de secvență, secvențe de pușcă.


Prevenirea

Schimbul de coduri de bare observat pe HiSeq 4000 a fost probabil un rezultat al noului design care utilizează celule de flux modelate și, prin urmare, ar trebui să se aștepte probabil să apară și pe HiSeq 3000 și HiSeq X Ten și pe mașina-pilot NovaSeq. Utilizarea celulelor de flux modelate necesită necesitatea unui nou tip de chimie de secvențiere, numită amplificare de excludere (ExAmp), care să înlocuiască generația de cluster prin amplificarea de punte utilizată pe celula de flux convențională fără model.

Detaliile tehnice care descriu noua chimie de secvențiere nu au fost puse la dispoziția publicului, dar examinarea brevetelor asociate a făcut posibilă înțelegerea procesului general și este rezonabil să presupunem că saltul indexului are loc înainte de generarea clusterului, deoarece toți reactivii necesari pentru cluster generație sunt prezente în acel amestec de reacții. Primerii cu indici liberi din acel amestec au potențialul de a prelua fragmente de bibliotecă și de a fi extins de ADN polimerază. Aceste molecule, coduri de bare atribuite incorect, sunt libere să genereze grupuri de ADN. Acest lucru nu este cazul pentru proiectarea convențională a celulei de flux în care codurile de bare libere sunt spălate după ce ADN-ul este hibridizat cu celula de flux. Numai după această etapă se adaugă ADN polimerază și se poate iniția extinderea secvenței.

În prezent nu este clar cum să punem în aplicare o soluție de bioinformatică cu scop general pentru a elimina astfel de artefacte post-secvențierea și, într-adevăr, soluțiile experimentale pot fi posibile numai. Pentru a combate problema, atunci când lucrează cu un număr mic de eșantioane, cercetătorii ar trebui să nu mai folosească o strategie de cod de bare unică, ci în schimb ar trebui să dubleze eșantioane de coduri de bare. După secvențierea, citirile ar trebui să fie apoi filtrate pentru a permite doar acelea în care ambele coduri de bare sunt identice și au o secvență așteptată. Deoarece schimbarea codului de bare dublu ar trebui să fie un eveniment rar, luarea acestui pas ar trebui să reducă considerabil clasificarea greșită a eșantionului.

Atunci când multiplexează mai multe eșantioane (care necesită deja codificare dublă cu bare, indiferent de problema saltului cu codul de bare), cercetătorii din Stanford au recomandat utilizarea perechilor de coduri de bare în care fiecare cod de bare individual a fost utilizat o singură dată. Deși această strategie a redus numărul de combinații de coduri de bare disponibile, a permis totuși să ruleze multe eșantioane pe aceeași bandă. În plus, au propus strategii de purificare pentru a elimina grundurile gratuite din biblioteca bibliotecii.

Illumina a publicat recent o lucrare care confirmă apariția indexului. Aceștia au afirmat că, odată cu curățarea corectă a grundurilor și implementarea altor tehnici experimentale, ar trebui să fie posibil să se minimizeze schimbarea codurilor de bare la niveluri neglijabile pentru majoritatea aplicațiilor. Raportul a recomandat, de asemenea, multiplexarea condițiilor similare pe o singură bandă. A fost dat un exemplu de ARN-Seq creier vs ficat în care un transcript este prezent în ficat la un nivel ridicat, dar deloc în creier. Datorită indexării saltului, transcrierea poate părea de fapt exprimată la un nivel scăzut în creier. Illumina sugerează că, combinând doar probe similare (adică fie creierul sau ficat) într-o bandă, această problemă va fi prevenită. Cu toate acestea, aceasta este departe de a fi o soluție ideală, deoarece cercetătorii vor trebui să știe în prealabil la ce să se aștepte în ceea ce privește profilurile de exprimare ale probelor lor și, în plus, această strategie ar agrava problema efectelor de lot.


Metode

Pneumocistis organisme de la rozătoare și oameni

P. murinaprobe de plămâni infectate au fost obținute de la șoareci femele knock-out ligand CD40 26. P. cariniiprobe de plămâni infectate au fost obținute de la șobolani masculi Sprague-Dawley imunosupresați 24. P. jirovecii- probele de plămâni de autopsie infectate au fost de la un pacient cu SIDA, care a fost infectat cu unul singur P. jirovecii tulpină bazată pe genotipare la cinci loci genomici diferiți 53. În desfășurarea acestor studii au fost urmate liniile directoare de experimentare pe animale și subiecți umani ai Institutelor Naționale de Sănătate.

Pregătirea probelor de ADN genomic

Pneumocistis-țesuturile pulmonare infectate au fost tăiate în bucăți mici, omogenizate în Qiagen Tissuelyser (de 5 ori timp de 20 s la 1/30 frecvență), apoi centrifugate la 15.000g timp de 6 min. Peleta a fost resuspendată în soluție de tripsină / EDTA (Lonza), incubată la 37 ° C timp de 30 de minute și centrifugată la 15.000g timp de 6 min. Peleta a fost spălată o dată în PBS, resuspendată în tampon de liză conținând 2,9% (g / v) colagenază tip I (Gibco) și 0,1% (g / v) DNază I (Sigma), incubată la 37 ° C timp de 30 de minute și centrifugat la 15.000g timp de 6 min. Această digestie enzimatică secvențială era de așteptat să îndepărteze majoritatea celulelor gazdă și ADN, precum și potențial unele Pneumocistis forme trofice. Peleta a fost spălată de trei ori în PBS, resuspendată în 100 pl de 0,5% (greutate / volum) soluție de zimolază (Zymo Research) și incubată la 37 ° C timp de 1 oră. ADN-ul genomic a fost extras folosind trusa de purificare ADN MasterPure Yeast (Epicenter). ARN a fost îndepărtat folosind ARNază fără DNază (Epicenter).

Toate probele de ADN au fost analizate prin teste cantitative în timp real PCR (qPCR) folosind sonde de transfer de energie de rezonanță fluorescentă 54 pentru a măsura fracția de Pneumocistis ADN comparat cu ADN-ul gazdei din fiecare probă. În qPCR pentru ambele P. murina 20 și P. carinii 54, ținta a fost dihidrofolat reductaza cu o singură copie (dhfr) gena de Pneumocistis iar ținta pentru gazdă a fost o regiune foarte conservată a bolii renale polichistice cu o singură copie 1 (pkd1) gena 22. Țintele pentru P. jirovecii și qPCR uman au fost msg familia de gene 55 și respectiv gena β-globină cu o singură copie 56. Puritatea fiecărei probe de ADN a fost estimată prin raportul de Pneumocistis pentru a găzdui numărul de copii ale genomului și pe baza unei dimensiuni estimate a genomului de 8 Mb pentru Pneumocistis și 2,7–3,3 Gb pentru gazdă. Rezultatele qPCR au fost validate prin secvențierea 454 sau Illumina MiSeq a probelor selectate. Probele de ADN extrase din îmbogățit P. murina sau P. carinii preparate conținute până la 90% Pneumocistis ADN, și din îmbogățit P. jirovecii preparate, 10-25% P. jirovecii ADN, în timp ce cele extrase direct din țesuturile pulmonare puternic infectate conțineau & lt0,4-1% Pneumocistis ADN.

P. murina secvențierea și asamblarea genomului

Pentru a evalua calitatea P. murina Preparatele ADN pentru secvențierea genomului întreg, secvențierea la scară mică au fost efectuate mai întâi folosind un 454 GS FLX Titanium Sequencer (Roche Applied Science) la Leidos, Inc. (Frederick, MD) în conformitate cu protocoalele standard de secvențiere a pistolului 454. Au fost generate un total de 4 milioane de citiri (cu o lungime medie de 344 de baze), cu aproximativ 40% dintre ele având lovituri explozive cu P. carinii 7. Ulterior, secvențierea profundă a fost efectuată folosind tehnologia Illumina HiSeq la Broad Institute (Cambridge, MA). Șapte diferite P. murina Preparate ADN (fiecare cu puritate de 60-90% pentru P. murina prin qPCR) au fost utilizate pentru a construi mici biblioteci de inserții, fiecare a fost secvențiată, iar biblioteca (prepararea B123 dintr-un singur șoarece, proiectul central G11228) cu cel mai mic procent de ADN de șoarece gazdă contaminant a fost utilizată pentru asamblare. Din această bibliotecă, au fost generate un total de 34 de milioane de 101 citiri cu capăt asociat cu o dimensiune medie a inserției de 153 de baze. A fost pregătită o a doua bibliotecă de inserare mai mare (pregătirea C2 de la un alt mouse, proiectul central G11230) cu o dimensiune medie a inserării de 1.247 baze și au fost generate un total de 83 de milioane de 101 citiri de capete împerecheate. După eliminarea secvențelor mouse-ului (versiunea mm9) și P. murina secvențele mitocondriale 22, aceste citiri au fost asamblate cu Allpaths (versiunea R37380) cu parametrii impliciți 57 ansamblul rezultat a fost examinat pentru a contamina secvențe (șoareci și bacterii) și pentru a elimina P. murina secvențe mitocondriale 22 prin alinierea la baza de date nucleotidică non-redundantă de la NCBI și prin îndepărtarea schelelor cu acoperire mare care se potriveau cu organismele non-fungice. Ansamblul de schiță a 24 de schele a fost îmbunătățit în continuare folosind 454 de citiri lungi și PCR pentru a sprijini îmbinările schelelor. Ansamblul final conținea 17 schele. Toate golurile interne de contig au fost închise prin secvențierea PCR și Sanger. Capetele schelelor fără msg genele sau repetările telomerilor au fost extinse prin PCR și / sau secvențierea PacBio (metode suplimentare).

P. carinii secvențierea și asamblarea genomului

După secvențierea preliminară 454 a demonstrat o puritate de 63%, 1 P. carinii Preparat ADN (nr. B80 de la 2 șobolani puternic infectați, 80% puritate pentru P. carinii prin qPCR) a fost utilizat pentru a construi 2 biblioteci cu o dimensiune medie a inserției de 180 de baze și respectiv 793 de baze. Fiecare a fost secvențiat folosind 101 citiri de capăt pereche de bază pe platforma Illumina MiSeq de la Broad Institute și, după îndepărtarea secvențelor de șobolani gazdă și P. carinii secvențe mitocondriale 22, asamblate folosind AllPaths-LG (versiunea R47825) cu parametri impliciți, rezultând un total de 53 de schele. După alăturarea schelelor folosind citiri lungi 454 și confirmarea prin PCR, ansamblul final al genomului conținea 17 schele. Toate golurile interne de contig au fost închise prin secvențierea PCR și Sanger. Capetele a șase schele s-au suprapus cu cele șapte secvențe de telomeri raportate în altă parte 58 au fost fuzionate și confirmate de PCR și / sau alinierea schelelor fuzionate cu Illumina și 454 de lecturi brute. Capetele mai multor schele fără msg genele, genele kexin sau repetările telomerilor au fost extinse prin PCR și / sau secvențierea PacBio (metode suplimentare).

P. jirovecii secvențierea și asamblarea genomului

Trei probe de ADN îmbogățit (RU7, RU12 și RU817) dintr-o singură probă de plămâni cu autopsie RU (1,4-2 μg fiecare, cu 10-25% P. jirovecii ADN prin qPCR) au fost folosite pentru a construi trei biblioteci (156 de dimensiuni medii de inserție de bază) fiecare a fost secvențiată pe platforma Illumina HiSeq de la Broad Institute. Pentru a îmbunătăți ansamblurile inițiale cu un număr mare de contiguri, a fost generată o secvență suplimentară din probe de ADN selectate hibrid, așa cum s-a descris anterior 59 120 de sonde de oligă de bază au fost proiectate pentru a viza regiunile prezente în ansamblul genomului, precum și pentru a trage în regiuni și transcripții neacoperite. sondele au fost proiectate pentru: ansambluri existente 8, inclusiv densitate mai mare a sondei la capetele contigului, citiri neasamblate 8 care nu se potriveau cu genomul uman, transcrieri RNA-Seq asamblate 8 care nu se potriveau cu ansamblurile existente sau genomul uman și neacoperite msg secvențe 25. Secvențele gazdă au fost îndepărtate prin alinierea la ansamblul genomului uman 19 (GRCh37 / hg19) și P. jirovecii secvențele mitocondriale 22 au fost îndepărtate. Celelalte 101 de citiri de capăt de bază au fost asamblate separat cu Spades 2.5.1 (la Broad Institute), Spades 3.0 (la Leidos) și Abyss (Biowulf la NIH), care au dus la 400, 149 și respectiv 312 contigs. Toate aceste contiguri au fost combinate cu Sequencher (Gene Codes Co., Ann Arbor, MI), rezultând un total de 20 de schele. Toate lacunele interne au fost închise prin secvențierea PCR și Sanger. Schelele au fost validate prin examinarea citirilor brute aliniate de Seqman Pro (DNAStar, Madison, WI) pentru a se asigura că nu există îmbinări false. Pentru a îmbunătăți acoperirea msg în ansamblu, secvențierea PacBio a fost efectuată așa cum este descris în Metode Suplimentare.

Electroforeza cromozomială și hibridizarea sudică

Pentru a compara P. murina asamblarea cu numărul și lungimea cromozomului, am folosit electroforeza cu câmp electric omogen (CHEF) conturat, pentru a separa cromozomii. P. murina organismele au fost parțial purificate din plămâni de șoareci proaspeți prin centrifugare 60 cu gradient de densitate Ficoll-Hypaque și apoi prelucrate pentru CHEF 61 folosind CHEF Yeast Genomic DNA Plug Kit (Bio-Rad). Pe scurt, parțial purificat P. murina organismele au fost încorporate în agaroză CleanCut 0,8%, tratate cu 24 U ml -1 proteinază K peste noapte la 50 ° C, apoi spălate de patru ori în 1 × tampon de spălare și depozitate la 4 ° C. Electroforeza a fost efectuată în 1% geluri de agaroză (14 × 21 cm) folosind aparatul CHEF DR II (Bio-Rad). Gelurile au fost rulate în tampon de 0,5 × TBE timp de 144 ore la 135 V și 12,5 ° C, cu un impuls inițial de 50 s care a fost crescut treptat la 100 s. Gelul a fost colorat cu bromură de etidiu (Sigma), apoi ADN-ul a fost transferat în membranele Nytran (Schleicher & amp Schuell) în condiții neutre 61. Am folosit două bloturi preparate din același dop ADN și fiecare blotare a fost hibridizată consecutiv la sonde diferite, cu eliminarea blotului între hibridizări. Toate sondele au fost fragmente de ADN dublu catenar amplificate cu PCR marcate folosind kitul de sinteză a sondei PCR DIG (Roche Applied Science), cu excepția sondei pentru repetări telomere, care a fost o oligonucleotidă sintetizată marcată folosind kitul DIG Oligonucleotide Tailing (Roche Applied Science). Toate secvențele de grund și sondă sunt furnizate în datele suplimentare 27. Hibridizarea și detectarea semnalului au fost efectuate utilizând sistemul DIG Probe Hybridization (Roche Applied Science) așa cum a fost descris anterior 22.

ARN-Seq, niveluri de expresie și predicție genetică

Trei mostre independente de P. murina și P. carinii organismele au fost parțial purificate de plămânii puternic infectați de trei șoareci și șobolani, respectiv, prin centrifugare cu gradient de densitate Ficoll-Hypaque 60. Se aștepta ca peletele parțial purificate să conțină atât forme de chist, cât și forme trofice. ARN-ul total a fost izolat folosind RNeasy Mini Kit (Qiagen). Raportul dintre Pneumocistis pentru a găzdui ARN a fost estimat a fi de la 1: 4 la 8: 1 pe baza densității benzilor de ARN din gelurile de agaroză pentru ARN-ul gazdă 28S și Pneumocistis ARNr 26S. Bibliotecile specifice șuviței au fost construite folosind metoda 62,63 de marcare a doua șuviță DUTP, cu excepția celor menționate mai jos. Pentru toate eșantioanele, ARN poli (A) a fost purificat folosind kitul de purificare a ARNm Dynabeads (Life Technologies), cu două runde de selecție (cu regenerare a mărgelei), rezultând un ARN & lt5% măsurat de cipul Bioanalyzer RNA 6000 Pico (Agilent) program. ARNm rezultat (200 ng per probă) a fost tratat cu kitul Turbo fără ADN (Ambion), verificat de qPCR pentru absența ADN-ului genomic detectabil (Tabelul suplimentar 5) și fragmentat în 1 × tampon de fragmentare a ARN (Affymetrix) pentru 4 min la 80 ° C. După sinteza ADN-ului complementar pe prima catenă (ADNc), s-a folosit un volum de 2,0 × de margele RNAClean SPRI (Beckman Coulter Genomics), în loc de extracție fenol / cloroform / alcool izoamilic (25: 24: 1) și precipitare cu etanol. Selecția mărimii după ligarea adaptorului a fost făcută cu două pași de curățare 0,7 × Ampure (Beckman Coulter Genomics) și opt cicluri de PCR au fost utilizate pentru a genera biblioteca. Bibliotecile au fost secvențiate pe platforma HiSeq2000 generând în medie 26,1 milioane de 76 de citiri de bază pereche pentru fiecare dintre cele 6 eșantioane.

Pentru a examina nivelurile de expresie, citirile ARN-Seq din fiecare dintre cele trei probe pentru fiecare organism au fost aliniate la secvențele de ADN codificatoare extrase (CDS) folosind papion 65. Fișierele bam de aliniere au fost apoi utilizate pentru a cuantifica abundențele de transcrieri de către RSEM 66. Am selectat primele 5% din nivelurile de expresie pentru a examina îmbogățirea funcțională prin GSEA 45. Pentru fiecare organism, am examinat GSEA de seturi de gene clasificate pe baza adnotărilor funcționale Pfam, TIGRFAM, KEGG și SignalP. De asemenea, am rulat GSEA pe unele seturi de gene curate manual, cum ar fi msg gene.

Nivelul relativ de expresie pentru fiecare genă a fost exprimat ca fragmente pe kb de exon pe milion de fragmente mapate (FPKM). Pentru amandoi P. murina și P. carinii, 99% din toate genele adnotate au fost exprimate (FPKM & gt2), cu o acoperire mediană de 151 FPKM la ambele specii. Mai mult, genele exprimate au arătat o adâncime bună de aliniere pe transcript, 98% din toate genele din fiecare specie având cel puțin cinci ori adâncime ARN-Seq. Toate genele fără expresie detectabilă (26 in P. murina și 23 in P. carinii) conțin CDS scurte (dimensiuni medii de ± 250 bp, potențial pseudogene) sau incomplete.

The P. murina și P. carinii genomii au fost adnotați utilizând o combinație de date de expresie (ARN-Seq), informații de omologie și ab initio metode de găsire a genelor (Metode Suplimentare) descrise anterior 67. Aceste metode au fost folosite și pentru adnotarea ansamblului RU al P. jirovecii, cu excepția faptului că datele ARN-Seq nu au fost utilizate (metode suplimentare). Seturile genetice au fost comparate pe baza adnotării funcționale și utilizate ca bază pentru analiza sintenică și filogenetică (Metode suplimentare).

Analiza variației tulpinii în P. jirovecii

Pentru a examina polimorfismele cu un singur nucleotid (SNP) la nivelul genomului între izolatele secvențiate, ansamblul RU7 generat în acest studiu a fost utilizat ca referință în comparație cu SE8 în greutate citește 8. Citirile SE8 au fost recuperate din NCBI (ERR135854 în ERR135863) și convertite în format fastq. Fișierele fastq individuale au fost concatenate și setul complet de citire aliniat la ansamblul RU7 folosind BWA-MEM 68 și convertit în bam sortat folosind SAMtools 64. Acest lucru a dus la o adâncime de aliniere foarte mare pe toate bazele de asamblare, cu o adâncime de aliniere mediană de 1.046.

Setul de instrumente de analiză a genomului 69 (GATK) v2.7–4-g6f46d11 a fost utilizat pentru a apela atât variantele, cât și bazele de referință din aliniamente. Pe scurt, instrumentele Picard (http://picard.sourceforge.net) AddOrReplaceReadGroups, MarkDuplicates, CreateSequenceDictionary și ReorderSamwere au fost utilizate pentru preprocesarea alinierilor, urmate de GATK RealignerTargetCreator și IndelRealigner pentru rezolvarea citirilor nealiniate. Apoi, GATK UnifiedGenotyper (cu modelul de probabilitate a genotipului haploid (GLM)) a fost rulat atât cu SNP, cât și cu INDEL GLM. În plus, am rulat BaseRecalibrator și PrintReads pentru recalibrarea scorului de calitate de bază pe site-uri numite folosind GLM SNP și denumite variante cu UnifiedGenotyper care emite toate site-urile. O etapă finală de filtrare a fost utilizată pentru a elimina orice poziție care a fost apelată de ambele GLM-uri (adică indels incompatibili și SNP-uri) și pentru a elimina pozițiile cu suport de adâncime de citire redusă (& lt10). 24.902 SNP-uri au fost apoi mapate la setul de gene prezis pe ansamblul SE8, un total de 14.135 SNPs sunt localizate în regiunile CDS, cu substituții care afectează regiunile de codificare a proteinelor după cum urmează: 7.410 nonsonime, 6.690 sinonime, 26 nonsens și 9 extensii.Densitatea SNP pe ansamblul SE8 a fost calculată pentru ferestrele de 5 kb.

Detectarea chitinei prin marcare fluorescentă

Secvența ADNc care codifică CBD-ul Bacillus circulans chitinaza A1 gena 70 (2.183-2.338 bp, cod de acces GenBank M57601.1) a fost optimizată pentru expresia bacteriană (GenScript USA Inc.) și modificată prin adăugarea de etichete ATG și 3 HA. Secvența modificată a fost sintetizată (GenScript USA Inc., Fig. Suplimentară 15) și clonată în vectorul pET-28 (EMD Biosciences). Construcția ADNc a fost transformată în Escherichia coli tulpina BL21 (DE3) RIL (tehnologii Agilent) și exprimată ca proteină de fuziune His tag. Proteina exprimată a fost purificată în două etape, folosind mai întâi anticorp anti-CBD (New England Biolabs) care a fost imobilizat folosind kitul de imobilizare AminoLink Plus (Thermo Scientific), apoi kitul de purificare a cobaltului Hispur (Thermo Scientific). Proteina purificată a fost biotinilată utilizând trusa de conjugare Lightning-Link Biotin (tip A) (Innova Biosciences Ltd) și utilizată pentru marcarea fluorescenței (Histoserv, Inc., Germantown, MD) a P. murina- secțiuni de țesut pulmonar infectate fixate în Histochoice (Amresco, Inc.). Pentru detectarea CBD a fost utilizată streptavidina conjugată cu 488 Alexafluor. Pneumocistis organismele au fost detectate de un anticorp anti-Msg 26 și chisturile de o proteină recombinantă dectină-Fc (furnizate cu amabilitate de Dr. Chad Steele, Universitatea din Alabama la Birmingham, Alabama) 71. Secțiuni renale de șoarece infectate cu Candida (furnizate cu amabilitate de dr. Michail Lionakis, Institutul Național de Alergii și Boli Infecțioase, Bethesda, Maryland) 72 au fost utilizate ca un control pozitiv pentru colorarea chitinei (Fig. 5).

Analiza legării chitinei glicozil

Pentru a prepara fracția peretelui celular, P. carinii organismele au fost parțial purificate de plămânii de șobolan infectați prin centrifugare cu gradient de densitate Ficoll-Hypaque 60 S. cerevisiae organismele au fost obținute din Stratagene (tulpina YPH499) și crescute în cultură standard de drojdie. Celulele au fost resuspendate în tampon de denaturare (2% SDS, 1 mM EDTA în 50 mM Tris pH 8,0) și încălzite la 100 ° C timp de 10 min. Peleta de perete celular a fost recuperată prin centrifugare la 5.000g timp de 5 min., spălat de două ori cu PBS și uscat într-un concentrator de vid rapid.

Pentru analiza chitinei, peletele de perete celular au fost incubate cu 0,1% (greutate / volum) chitinază (Sigma) în tampon acetat de sodiu 50 mM, pH 5,6, la 37 ° C timp de 72 ore. Materialele insolubile după digestiile inițiale au fost tratate ulterior secvențial cu pronază (Roche), liticază (Sigma) și chitinază pentru a căuta chitină reziduală. Digestia proteinelor a fost efectuată folosind 0,01% (g / v) pronază în tampon Tris-HCI pH 8,2 cu CaCl 10 mM2 la 37 ° C timp de 48 de ore. Digestia cu glucan a fost efectuată cu 0,04% (greutate / volum) liticază în tampon fosfat de sodiu 50 mM, pH 7,5 la 37 ° C timp de 24 ore. Digestia chitinazei a fost efectuată ca mai sus. După fiecare digestie, enzima a fost inactivată prin încălzire la 100 ° C timp de 5 minute.

Componentele digerate ale peretelui celular au fost analizate prin ionizare cu matrice asistată cu desorbție laser timp de zbor MS (MALDI / TOF-MS) și nanospray ionizare MS (NSI-MSn). O porțiune de supernatant după fiecare digestie enzimatică a fost analizată de MS pentru a determina conținutul de oligozaharide. Înainte de analiza MS, enzimele au fost îndepărtate prin trecerea printr-un cartuș C18 Sep-PAK. Fluxul a fost colectat în acid acetic 5% și liofilizat. Probele uscate au fost permetilate utilizând metodele 73 publicate anterior și profilate de MS. MALDI / TOF-MS a fost efectuat în modul reflectorizant cu ioni pozitivi folosind DHBA (acid α-dihidroxibenzoic, 20 mg ml -1 soluție în 50% metanol / apă) ca matrice. Spectrul a fost obținut utilizând un AB SCIEX TOF / TOF 5800 (AB SCIEX). Analiza NSI-MSn a fost efectuată pe un spectrometru de masă LTQ Orbitrap XL (Thermo Fisher) echipat cu o sursă de ioni nanospray. Proba permetilată a fost dizolvată în NaOH 1 mM în metanol 50% și perfuzată direct în instrument la un debit constant de 0,5 μl min -1. Un spectru MS transformat Fourier complet a fost colectat la o rezoluție de 30.000. Temperatura capilară a fost setată la 210 ° C și analiza MS a fost efectuată în modul ion pozitiv. Pentru maparea ionică totală (analiza MS / MS automatizată), un m / z intervalul de 200-2.000 a fost scanat cu modul MS capcană de ioni în ferestre succesive de 2,8 unități de masă care s-au suprapus peste fereastra precedentă cu 2 MU.

Pentru determinarea legăturilor glicozil, s-au preparat acetați de alditol parțial metilat (PMAA) din glicani complet permetilați. Glicanii permetilați au fost hidrolizați cu HCI / apă / acid acetic (0,5: 1,5: 8, în volum) la 80 ° C timp de 18 ore, urmat de reducere cu 1% NaBD4 în NaOH 30 mM peste noapte, apoi acetilare cu anhidridă acetică / piridină (1: 1, v / v) la 100 ° C timp de 15 minute și analiză prin cromatografie gazoasă-MS (GC-MS) pe un GC Agilent 7890A G interfațat cu un 5975C MSD (detector selectiv de masă, modul de ionizare a impactului electronilor). Separarea PMAA a fost efectuată pe o coloană capilară de silice condensată SP2331 de 30 m (Supelco) pentru derivații neutri de zahăr și o coloană DB-1 (Agilent) pentru derivații amino zahăr.

Identificarea glicozilării proteinelor Msg

A purifica P. carinii Proteine ​​Msg, parțial purificate P. carinii organismele 60 au fost resuspendate în SDS 2% în tampon Tris-HCI 50 mM, pH 8,0, fierte timp de 10 min și centrifugate. Supernatantul a fost colectat. Procedura de extracție a fost repetată de încă două ori, supernatantele au fost reunite și SDS a fost îndepărtat folosind setul SDS-Out SDS Precipitation Kit (Thermo Scientific). Msg solubilizat a fost purificat prin afinitate folosind un anticorp monoclonal anti-Msg (RA-E7, dar al doctorilor Peter Walzer și Michael Linke 74, de la Universitatea din Cincinnati, Cincinnati, Ohio) imobilizat pe coloana AminoLink plus (AminoLink plus kit de imobilizare) după producătorul instrucțiuni. Extractul proteic a fost diluat cu un volum egal de soluție salină tamponată Tris și incubat cu anticorpul imobilizat în coloană prin amestecarea end-over-end peste noapte la 4 ° C. Coloana a fost apoi drenată și spălată cu tampon fosfat de sodiu 0,1 M pH 6,9. Msg-ul a fost eluat cu hidroxid de amoniu 150 mM și fracțiile au fost neutralizate cu NaH 1 M2PO4. Fracțiile care conțin Msg au fost reunite și concentrate folosind unitatea de filtrare centrifugă Microcon-30 kDa (Millipore) și tamponul a fost schimbat la 0,1 M tampon de fosfat de sodiu pH 6,9. Alicote au fost depozitate la -80 ° C.

Proteinele Msg purificate au fost supuse detectării glicopeptidelor prin LC-MS. Analiza glicoproteomică a fost efectuată așa cum s-a descris anterior 75. Pe scurt, peptidele digerate triptic ale proteinelor Msg purificate au fost separate cu o coloană Magic C18 (15 cm × 75 μm, Bruker-Michrom, CA) și analizate cu un spectrometru de masă Orbitrap Fusion (Thermo Scientific) după ce Msg a fost denaturat, redus, alchilat și desalinizat. Eluarea gradientului a fost efectuată cu un gradient liniar de 30 min de 5–35% acetonitril în acid formic 0,1% la un debit de 300 nl min -1. Datele MS au fost prelucrate automat de o conductă de scanare MS dependentă de date, care a integrat trei metode de disociere, inclusiv disocierea cu coliziune cu energie mai mare (HCD), disocierea prin transfer de electroni (ETD) și disocierea indusă de coliziune (CID). În această conductă, întregul spectru MS a fost achiziționat pentru prima dată din cei mai abundenți ioni între m / z 350 și m / z 1.550 cu un ciclu de 3 secunde la 120.000 de rezoluții în modul FT. Ulterior, datele MS obținute au fost evaluate de MS / MS cu modul ETD dependent de produs HCD sau modul ETD / CID dependent de produs HCD, cu ioni cei mai abundenți în timpul ciclului de 3 s. Pentru produsul HCD care declanșează ionii MS / MS, ionii glican oxoniu la m / z 204.0867 (HexNAc), m / z 138.0545 (fragment HexNAc) sau m / z 366.1396 (Hexose-HexNAc) din spectrele HCD au fost utilizate pentru a declanșa achiziția ETD sau CID. MS / MS au fost măsurate la o rezoluție de 15.000.

Pentru cartarea glicopeptidelor din P. carinii Digestii de mesaje, datele LC-MS au fost analizate folosind software-ul Byonic (Protein Metrics), iar adnotarea datelor de către software a fost validată manual. Parametrii bionici au fost setați pentru a permite 3,0 p.p.m. de toleranță la masa ionică precursor și 3,0 p.p.m. de toleranță la ioni de fragment cu masă monoizotopică. Peptidele digerate au fost permise cu până la trei situri de scindare interne ratate, iar modificările diferențiale ale 57.02146 și 15.9949 Da au fost permise pentru cisteina alchilată și, respectiv, oxidarea metioninei. Baza de date cu proteine ​​utilizată pentru explozia de proteine ​​a inclus setul de proteine ​​din genomul șobolanului la NCBI (versiunea 104) și din P. carinii genomul B80 generat în acest studiu. Baza de date Glycan utilizată a fost 309 bază de date N-glican mamifer (bază de date implicită în software-ul Byonic). Analiza glicanului N-legată a Msg a fost efectuată înainte de maparea glicopeptidelor.

Adnotarea datelor de către software a fost filtrată în continuare după cum urmează. Orice identificare a proteinelor cu FDR & gt1%, probabilitatea log & lt4 sau cel mai bun scor Byonic & lt500 a fost exclusă. Mai mult, au fost excluse orice adnotări ale spectrului glicopeptidic cu scor Byonic & lt400. Identificările glicopeptidelor care au rămas după aceste filtre stricte au fost validate manual prin examinarea fragmentelor de ioni potrivite cu fragmentarea teoretică a glicopeptidelor, prezența unei serii de ioni de așteptat glican oxoniu și pierderea neutră a fragmentului glican pentru datele MS / MS-HCD.


M etode

Identificarea UCE-urilor

Am identificat UCE prin screening-ul aliniilor genomului întreg al puiului (Gallus gallus) și Carolina anole (Anolis carolinensis) pregătit de grupul de bioinformatică al genomului UCSC utilizând un script Python personalizat (http://www.python.org/) pentru a identifica rulări de cel puțin 60 de baze cu identitate de secvență 100%. Apoi am aliniat fiecare regiune conservată de la aliniamentele de pui-șopârlă la genomul zebra finch (UCSC taeGut1) folosind un program Python personalizat și BLAST (Altschul și colab. 1997) și am stocat metadate pentru meciurile cu o evaluare ≤ 1 × 1 0 - 15 într-o bază de date relațională (RDB) împreună cu rezultatele inițiale de screening. Am eliminat duplicatele din grupul de potriviri care conțin date de la pui, șopârlă și ciuperci și am definit setul rămas de 5599 secvențe unice ca UCE. Am estimat distanța medie (± 95% CI) între fiecare dintre aceste UCE folosind poziții în genomul puiului (UCSC galgal3) deoarece genomul puiului este în prezent cel mai complet și cel mai bine asamblat genom aviar sau reptil.

Proiectarea sondelor de la UCE

Am proiectat sonde de îmbogățire țintă prin selectarea UCE-urilor din RDB, adăugând secvență acelor UCE-uri mai scurte de 120 bp în lungime selectând cantități egale de 5 ′ și 3 ′ secvențe flancante dintr-un ansamblu de genom de pui cu mască repetată și înregistrând lungimea flancării secvență, dacă există, adăugată la fiecare. Am mascat toate UCE-urile tamponate care conțin regiuni asemănătoare repetării folosind RepeatMasker (http://www.repeatmasker.org/) înainte de proiectarea sondei. Dacă UCE-urile ar fi & gt180 bp, am placat sonde de 120 bp în regiunile țintă la densitate de 2 × (adică sonde suprapuse cu 60 bp). Dacă UCE-urile aveau lungimea totală de & 180 lb, am selectat o singură sondă din centrul UCE. Am folosit LASTZ (disponibil la http://www.bx.psu.edu/miller_lab/) pentru a alinia sondele la ele însele și pentru a identifica și elimina duplicatele apărute ca urmare a proiectării sondei. Am inserat aceste 5561 probe în RBD și am actualizat fiecare înregistrare a sondei cu date suplimentare care indică dacă sondele conțin baze ambigue (N), conținutul Tm și GC al sondei, numărul de baze adăugate pentru a memora o anumită UCE la lungimea sondei. (120 bp), numărul bazelor mascate în sondele proiectate și tipurile de nepotriviri pe care le-am observat pentru fiecare UCE părinte al sondei atunci când SĂNĂTIM UCE-anole de pui împotriva ciupercilor zebră.

Alinierea sondelor proiectate la zece genomi amniotici

Am aliniat 5561 de sonde la zece genomi amniote folosind un program Python wrapper în jurul LASTZ pentru a facilita prelucrarea paralelă a datelor. Am păstrat doar acele meciuri cu identitate ≥92,5% din ≥100 bp din secvența sondei de 120 bp (83%). Am folosit un program Python personalizat pentru a ecraniza meciurile LASTZ pentru duplicatele reciproce și non-reciproce și am exclus, de asemenea, meciurile în care numărul de meciuri observat a fost mai mic decât numărul sondelor proiectate. De exemplu, dacă am plasat două sonde pe un locus UCE, dar LASTZ a potrivit doar o singură sondă cu secvența genomului, am scăpat locusul UCE părinte dintr-o altă analiză.

În Silico Target Enrichment of UCE Loci from Primates

Pentru a testa fluxul nostru de lucru supus in vitro, am aliniat 5561 de sonde la nouă genomi de primate și un grup de șoareci folosind LASTZ. Ca mai sus, am păstrat doar acele meciuri cu identitate ≥92,5% din ≥100 bp din secvența sondei de 120 bp (83%) și am ignorat duplicatele reciproce și non-reciproce pentru a filtra potențialii paralogi. De asemenea, am exclus locurile UCE în care numărul sondelor care se potrivesc cu genomul a fost mai mic decât se aștepta. În cadrul acestui set redus de chibrituri și a fiecărui taxon primat, am tranșat locația de aliniere a sondelor rămase din genomii de referință plus 200 bp de secvență flancantă în amonte (5 ′) și în aval (3 ′) de locația de aliniere pentru a obține o felie totală de aproximativ 520 bp. Am ales această lungime a secvenței de flancare, deoarece calculele preliminare au arătat că această lungime era probabil aproape de dimensiunea maximă a contigului pe care ne-am putea aștepta folosind tehnicile de pregătire a bibliotecii Illumina Nextera. Am asamblat sonde + flanc înapoi în UCE-urile părinte pe care le-au reprezentat folosind un program Python personalizat care a integrat LASTZ - pentru a potrivi sondele cu UCE-ul lor - și MUSCLE (Edgar 2004) pentru a asambla mai multe sonde proiectate din același UCE părinte. După asamblare, ne referim la fiecare secvență UCE plus flancare ca locus. Pentru fiecare locus, am aliniat datele între speciile de primate folosind un program Python personalizat și MUSCLE. Am folosit o medie mobilă într-o fereastră de 20 bp pentru a tăia capetele tuturor alinierilor, pentru a ne asigura că capetele conțin cel puțin 50% identitate de secvență și pentru a elimina secvența slab aliniată. Am permis inserții la capetele de aliniere atâta timp cât inserțiile au fost prezente la mai puțin de 30% din taxoni individuali într-o anumită aliniere. Am exclus locii care nu au fost găsiți în toate speciile de primate și am renunțat la aliniamentele cărora le lipsea orice specie de primate. Acest lucru a dus la o matrice de date completă fără loci lipsă.

Îmbogățirea țintei in vitro a locurilor UCE de la păsări

Din setul de 5561 de sonde, am selectat un subset de 2560 de sonde pentru sinteză în care sondele au & lt10 baze mascate și & lt50 baze adăugate (25 pe fiecare parte). Aceste sonde au reprezentat 2386 UCE conservate printre pui, șopârlă și ciuperci zebră. Am avut aceste sonde sintetizate comercial într-un kit MySelect personalizat (Mycroarray, Inc.). Am efectuat extracții de ADN fenol-cloroform pe țesut de pasăre din specimene de muzeu bon (Tabelul 1 suplimentar, disponibil de la doi: 10.5061 / dryad.64dv0tg1) și am pregătit biblioteci pentru secvențierea Illumina folosind kituri de pregătire a bibliotecii Illumina Nextera (Epicenter Biotechnologies).

Pentru a îmbogăți UCE-urile vizate, am urmat fluxul de lucru de bază pentru îmbogățirea țintă bazată pe soluție (Gnirke și colab. 2009), cu mai multe modificări pentru bibliotecile pregătite de Nextera. În primul rând, am folosit 1.8X AMPure XP în locul curățării coloanei în urma reacției de etichetare Nextera, deoarece curățarea recomandată a coloanei Zymo a dat concentrații finale de ADN mai mici decât AMPure. În al doilea rând, am amplificat bibliotecile etichetate folosind primeri PCR de lungime redusă, purificați prin HPLC complementari cu adaptorii atașați la fiecare fragment de ADN în timpul etichetării. Nu am atașat etichete de secvență bibliotecilor în acest moment pentru a reduce complicațiile potențiale în timpul îmbogățirii introduse de adaptoare mai lungi, variabile individual. Am crescut numărul de cicluri de PCR în timpul post-tagmentării PCR la 16 sau 19 pentru a produce un șablon suficient (~ 500 ng) pentru îmbogățire. După pregătirea bibliotecii, am substituit un amestec de blocare de 500 μM (fiecare) oligo compus din complementele înainte și invers ale adaptoarelor Nextera pentru mixul de blocare a adaptorului furnizat de kit (# 3) și am îmbogățit individual bibliotecile specifice speciilor folosind sonde sintetice de ARN descrise mai sus. Am incubat reacții de hibridizare la 65 ° C timp de 24 de ore pe un cicler termic. După hibridizare, am îmbogățit probele prin legarea ADN-ului hibridizat de margele acoperite cu streptavidină și am eluat ADN-ul din margele acoperite cu streptavidină folosind 50 μL de NaOH, pe care le-am neutralizat cu încă 50 μL de Tris-HCl. Am curățat ADN eluat legându-ne de margele AMPure XP 1,8X (v / v) și am resuspendat ADN curat îmbogățit în 30 μL de apă fără nuclează. Am amplificat 14 μL de ADN curat și îmbogățit într-o reacție PCR de 50 μL combinând primeri înainte, invers și indexatori fie cu Nextera Taq, fie cu Phusion DNA Polymerase (New England Biolabs) pentru a adăuga un set personalizat de 24 de adaptoare de indexare Nextera, robuste la inserții , ștergeri și înlocuiri la fiecare eșantion. După PCR, am curățat reacțiile prin legarea ampliconilor la 1.8X (v / v) AMPure XP. Am cuantificat biblioteci indexate îmbogățite folosind un Bioanalyzer și am combinat biblioteci pentru secvențierea la concentrații echimolare presupunând că toate fragmentele legate de adaptor au fost la lungimea medie în toate bibliotecile.

Am secvențiat biblioteci utilizând primerii de secvențiere Nextera și un analizor de genomic IIumum-end de 100 bp, executat de LSU Genomics Facility. În urma secvențierii, LSU Genomics Facility a demultiplexat bibliotecile utilizând software-ul furnizat de Illumina și am folosit o conductă (https://github.com/faircloth-lab/illumiprocessor) implementată în Python pentru a reduce contaminarea adaptorului din citiri folosind SCYTHE (https: / /github.com/vsbuffalo/scythe), citiri adaptate de calitate, folosind SICKLE (https://github.com/najoshi/sickle), excludeți citirile care conțin baze ambigue (N) și colectați metadate pentru fiecare grup de citiri analizate.

După citirile pre-procesate, am asamblat citirile specifice speciilor în contigs folosind VELVET (Zerbino și Birney 2008) prin VelvetOptimiser (http://bioinformatics.net.au/software.velvetoptimiser.shtml), pe care l-am folosit cu parametrii impliciți (krange = 59 –79) pentru a optimiza lungimea kmerului, acoperirea și limita pentru asamblarea datelor de la fiecare specie. Velvet rezolvă siturile potențial variabile pentru alela majoritară (Zerbino și Birney 2008). Am convertit ieșirile contigs de VELVET în formatul de bancă AMOS și am calculat acoperirea în contigs folosind codul Python personalizat pentru a analiza ieșirea din cvgStat și a analiza programelor de citire-profunzime furnizate în pachetul software AMOS 3.0.0 (http: // sourceforge. net / proiecte / amos). Am folosit un program Python personalizat care integrează LASTZ (match_contigs_to_probes.py) pentru a alinia contigurile asamblate înapoi la sonda respectivă / regiunea UCE respectivă, în timp ce eliminăm duplicatele reciproce și non-reciproce și sondele care au mai puține potriviri decât se aștepta, așa cum este descris mai sus.

Acest program (match_contigs_to_probes.py) creează o bază de date relațională de potriviri cu locurile UCE în funcție de taxon și am folosit un al doilea program (get_match_counts.py) pentru a interoga această bază de date și a produce un fișier rapid care conține doar acele contiguri construite din UCE-uri prezente în fiecare taxon .Acest program are, de asemenea, capacitatea de a include loci UCE extrase din secvențele de genom existente, în scopul primordial de a adăuga date de înaltă calitate din grupurile de taxoni cu genom activat. Am folosit această caracteristică pentru a include loci UCE identificate în Carolina anole (UCSC anoCar2) ca date de grup pentru filogenia păsărilor. Am aliniat și decupat citirile așa cum este descris mai sus. Am folosit inferența multimodelului și medierea modelului (Burnham și Anderson 2002) a modelelor liniare generalizate binomiale-familiale (Calcagno și de Mazancount 2010 R Core Development Team 2011) pentru a evalua efectul combinațiilor rezonabile ale următorilor parametri asupra îmbogățirii locurilor UCE (detectate , nedetectat): conținut UCE GC, lungime UCE, sondă TM, număr sondă, baze mascate incluse în sonde, baze adăugate sondelor tampon și taxon.

Estimarea modelelor de substituție

Am folosit programe Python personalizate (run_mraic.py) înfășurând un MrAIC 1.4.4 modificat (Nylander 2004) pentru a estima, în paralel, cele mai probabile modele de substituție a siturilor finite pentru fiecare dintre aliniamentele generate pentru primate (loci 2030) și păsări ( 854 loci). Am selectat modelul de substituție adecvat pentru toate locurile folosind AIC (Akaike 1974).

Analiza bayesiană a datelor concatenate

Am grupat gene cu același model de substituție în partiții diferite, am atribuit un model de substituție adecvat fiecărei partiții și am concatenat partiții și am analizat aceste date folosind MrBayes 3.1 (Huelsenbeck și Ronquist 2001). Am efectuat toate analizele MrBayes folosind două curse independente (câte patru lanțuri) de câte 5.000.000 de iterații fiecare, eșantionând copaci la fiecare 100 de iterații pentru a produce un total de 50.000 de arbori. Am prelevat ultimii 25.000 de arbori după verificarea rezultatelor pentru convergență prin vizualizarea jurnalului probabilității posterioare în cadrul și între rulările independente pentru fiecare analiză, asigurându-ne că deviația standard medie a frecvențelor împărțite a fost de & lt0.00001 și asigurând factorul de reducere a scalei potențiale pentru estimarea parametrii au fost de aproximativ 1,0.

Analiza arborilor genici și a arborilor speciilor

Am estimat arborii genetici cu probabilitate maximă cu PhyML 3.0 (Guindon și colab. 2010) folosind cel mai probabil model de substituție pentru fiecare copac, pe care l-am estimat așa cum s-a descris mai sus. Am estimat specii de arbori din acești arbori genetici folosind metodele STAR (Species Trees based on Average Rangs of coalescences) și STEAC (Species Trees Estimated from Average Coalescent times) metode implementate în pachetul R Phybase (Liu și Yu 2010). STAR și STEAC calculează o topologie a arborelui speciei pe baza analizei medii sau a timpilor de evenimente coalescente din colecțiile de arbori genetici (Liu și colab. 2009). STAR și STEAC funcționează în mod similar cu metodele probabilistice bazate pe coalescență (de exemplu, BEST), care nu sunt adecvate, dintr-o perspectivă practică, pentru dimensiunea seturilor de date utilizate aici. STAR, de asemenea, funcționează bine atunci când arborii genetici se abat de la rate evolutive egale, probabil că în filogenii profunde și taxonomice diverse pe care le-am investigat un beneficiu al STEAC, pe de altă parte, este că oferă o estimare a lungimilor ramurilor, deși pot fi oarecum părtinitoare (Liu și colab. 2009). După generarea unui arbore cu o singură specie, am folosit un program Python personalizat pe 250 de noduri ale unui cluster Hadoop (http://hadoop.apache.org/) (Amazon Elastic Map Reduce) pentru a efectua 1000 de replici de bootstrap neparametrice prin eșantionarea nucleotidelor din loci ca precum și resamplarea loci în cadrul setului de date (Seo 2008).


Materiale și metode

Definirea categoriilor de inversiune

În analiza noastră, definim trei clase de frecvență a populației de inversiune. Lucrări anterioare în D. melanogaster s-a referit în mod tipic la patru categorii de inversiune, „cosmopolit comun”, „cosmopolit rar”, „endemic recurent” și „endemic unic” (Mettler și colab. 1977 Krimbas și Powell 1992). A doua jumătate a fiecăruia dintre acești termeni se referă la distribuția geografică a inversiunii. Atâta timp cât o inversiune a atins frecvența ridicată în orice populație, nu a fost puternic afectată de selecția negativă. Aceste inversiuni de înaltă frecvență sunt denumite inversiuni „comune”. Folosim „rar” pentru a ne referi la inversiuni care au fost găsite în eșantioane individuale (cu excepția În (2R) Mal, care este prezent în trei probe studiate aici). Distribuția inversiunilor rare, deși poate conține inversiuni de mare capacitate fizică care s-ar putea răspândi în cele din urmă la frecvențe înalte, este probabil să reflecte în primul rând părtinirile mutaționale în distribuția lor globală a punctului de întrerupere. Pentru a rezuma, „cosmopolit comun”, „cosmopolit rar” și „endemic recurent” vor intra sub eticheta noastră „comun”, în timp ce ne referim la „endemic unic” ca inversiuni „rare”, similar analizei din Corbett-Detig (2016).

A treia clasă din cadrul nostru, inversiunile „fixe”, sunt inversiuni care au ajuns la fixare într-o singură linie în timpul divergenței dintre D. melanogaster subgrup (Ranz et al. 2007). Inițial, toate inversiunile fixe au avut loc ca evenimente unice într-un Drosophila strămoş. Ulterior s-au răspândit până când au ajuns la fixare în populațiile ancestrale speciilor contemporane din melanogaster subgrup. Aceste inversiuni fixe au fost descoperite prin compararea localizărilor secvențelor omoloage în genomurile dintre D. melanogaster și rudele sale (Lemeunier și Ashburner 1976) și au fost caracterizate molecular anterior (Ranz și colab. 2007). Este important de reținut că marea majoritate a acestor inversiuni fixe au avut loc pe Drosophila yakuba ramură și nu într-o directă D. melanogaster strămoș (Krimbas și Powell 1992 Ranz și colab. 2007). Genomul de referință al D. melanogaster ar trebui, prin urmare, să reflecte în general starea ancestrală și fundalul genetic pe care au provenit aceste inversiuni, mai degrabă decât o stare derivată evoluată după fixare. Inversiunile obișnuite și rare adnotate aici au avut loc în contemporan D. melanogaster populațiilor și astfel în absența unor modificări suplimentare care nu au legătură cu structura genomului, pe un fundal genetic similar cu cel pe care D. yakuba inversiunile au fost fixate. Adnotările funcționale utilizate aici se bazează și pe D. melanogaster aranjament standard, adică aceste adnotări ar trebui să reprezinte fundalul genetic al tuturor celor trei categorii de frecvență de inversare.

Aliniere scurtă

Am obținut date de citire scurtă ca fișiere fastq din Sequence Read Archive. Toate datele citite pe scurt sunt descrise în Lack și colab. (2016) și a fost produs inițial în Pool și colab. (2012), Lack și colab. (2015), Mackay și colab. (2012), Kao și colab. (2015) și Grenier și colab. (2015). Am aliniat datele citite scurt folosind bwa v0.7.15 folosind funcția „mem” și parametrii impliciți (Li 2013). Toate postprocesările (sortare, conversie în format BAM și filtrare) au fost efectuate în SAMtools v1.3.1 (Li și colab. 2009). Am filtrat aceste fișiere BAM pentru a include doar acele alinieri cu o calitate minimă a cartografierii de 20 sau mai mult.

Identificare rară a punctului de întrerupere

La fel ca în lucrările anterioare care au caracterizat variația structurală utilizând biblioteci Illumina cu inserții scurte (Cridland și Thornton 2010 Rogers și colab. 2014 Corbett-Detig și colab. 2019), am identificat mai întâi „clustere” citite aberant. Pe scurt, aici, un cluster este definit ca trei sau mai multe perechi de citire care se aliniază în aceeași orientare (pentru inversiuni, aceasta este atât mapare directă, fie ambele mapare inversă) și pentru care toate citirile de la o margine a hărții clusterului la la 1 kb de toate celelalte citiri din cluster. Am considerat doar grupuri aberante în care ambele capete au fost mapate pe același braț cromozomic ca marea majoritate a inversiunilor în Drosophila sunt paracentrici (Krimbas și Powell 1992). Am cerut ca toate perechile de citire să fie incluse într-o hartă cluster la o distanță de cel puțin 500 kb. Apoi am păstrat doar acele inversiuni potențiale pentru care am recuperat atât clusterele de mapare directă, cât și inversă, care se aflau la 100 kb unul de celălalt. Alegerea unei distanțe maxime între coordonatele posibile de punct de întrerupere a fost inclusă pentru a reduce ratele posibile de fals-pozitive și deoarece niciuna dintre inversiunile cunoscute ale căror puncte de întrerupere au fost caracterizate anterior nu a inclus o regiune duplicată de 100 kb sau mai mult (Ranz et al. 2007 Corbett -Detig și Hartl 2012). Când ansamblurile de puncte de întrerupere au existat în imediata apropiere sau au apărut pentru a șterge secvențe scurte, am setat dimensiunea duplicării la 1 bază. Am filtrat în continuare toate ansamblurile de puncte de întrerupere care se suprapuneau elementelor transpozabile de adnotare deoarece acestea sunt sursa principală de cartografiere aberantă a clusterelor citite în lucrările anterioare (Corbett-Detig și Hartl 2012).

Ca o verificare suplimentară pentru acuratețea punctelor noastre de întrerupere recent descoperite, am comparat distribuția punctelor de întrerupere rare cu distribuția citogenetică cunoscută și nu am găsit diferențe cromozomiale sau secundare (P = 0,7, χ 2 testează datele citogenetice de la Corbett-Detig (2016) care au rezumat Krimbas și Powell (1992)). Mărimea inserției scurte din experimentele anterioare de secvențiere a variat de la ∼200 la ∼600 bp, ceea ce ar fi putut duce la o rată fals-negativă netrivială a descoperirii punctului de întrerupere, în special dacă punctele de întrerupere conțin elemente repetitive sau alte inserții mari de ADN. Cu toate acestea, nu ne așteptăm ca aceste potențiale fals-negative să influențeze analizele noastre din aval și toate punctele de întrerupere de inversare caracterizate anterior în Melanogaster complexul de specii a apărut în secvențe unice (Ranz și colab. 2007 Corbett-Detig și Hartl 2012). Toate software-urile utilizate pentru efectuarea acestor analize sunt disponibile din depozitele github asociate acestui proiect. Mai exact, scripturile utilizate pentru detectarea și asamblarea punctelor de întrerupere sunt în https://github.com/dliang5/breakpoint-assembly (accesat ultima dată pe 26 mai 2020).

De Novo Rare Breakpoint Assembly

Pentru fiecare inversiune supusă, am extras apoi toate citirile pentru care fiecare pereche a fost mapată la 5 kb de la poziția punctului de întrerupere prezis. Am convertit toate fișierele citite fastq în fișiere fasta și qual, așa cum este cerut de Phrap și le-am asamblat folosind parametri impliciți altfel, dar incluzând opțiunile liniei de comandă „-vector_bound 0 -forcelevel 10” (Corbett-Detig și Hartl 2012 Rogers și colab. 2014). Apoi am folosit BLAST pentru a alinia contigurile asamblate de novo rezultate la D. melanogaster genom de referință pentru a identifica contigul care s-a suprapus peste punctul de întrerupere prevăzut folosind instrumentul flybase BLAST (https://flybase.org/blast/, accesat ultima dată pe 26 mai 2020). Am păstrat numai inversiuni pentru care am putut de novo asambla contigs suprapunându-se ambelor puncte de întrerupere și am aruncat în continuare orice contigs în care secvența care intervenea în două regiuni genomice îndepărtate conținea secvență cu omologie la elementele transpozabile cunoscute. Toate secvențele de puncte de întrerupere asamblate sunt disponibile în fișierul suplimentar S1, Material suplimentar online. Scripturile de asamblare sunt disponibile de pe https://github.com/dliang5/breakpoint-assembly (ultima accesare 26 mai 2020).

Inversiuni suprapuse și În (2R) Mal

De asemenea, am încercat să găsim seturi de inversiuni suprapuse. Pe scurt, pentru inversiunile suprapuse, în cazul în care o inversiune apare pe un fundal care conține o altă inversiune cu un punct de întrerupere în interiorul și unul în afara regiunii inversate, grupurile de citire care se întind pe punctul de întrerupere ar trebui să fie în mare parte aceleași cu inversiunile care au apărut pe un cromozom de aranjament standard. Cu toate acestea, diferența cheie este că, mai degrabă decât perechi de clustere citite înainte și invers, ne așteptăm să observăm două clustere citite la distanță în aranjamentele invers-înainte și înainte-invers. Am aplicat această abordare pentru cele 17 inversiuni rare pe care le-am descoperit inițial, precum și pentru toate eșantioanele care conțineau inversiuni comune care sunt cunoscute din lucrările anterioare (Corbett-Detig și Hartl 2012 Lack et al. 2015). Am găsit o singură inversiune rară care se suprapune, care este în concordanță cu inversiunea cromozomială asociată cu distorsionatorul de segregare. În (2R) Mal, care este compus din două inversiuni suprapuse (Presgraves și colab. 2009). În analiza noastră de aici, tratăm aceste inversiuni suprapuse ca fiind independente, dar rezultatele noastre nu sunt afectate calitativ dacă excludem pur și simplu a doua inversiune.

Versiunea genomului, izolatorul și adnotările genetice

Toate analizele noastre se bazează pe alinieri la D. melanogaster versiunea genomului 6.26 (Hoskins și colab. 2015). Am obținut date de adnotare a genomului, incluzând localizările genelor din flybase. Am tratat ARN-urile lungi necodificate ca gene pentru scopurile noastre, deoarece acestea îndeplinesc funcții esențiale și pot fi perturbate în același mod ca genele care codifică proteinele. Am obținut poziții de legare a izolatorului de la Nègre și colab. (2010, aderare GSE16245). După cum este necesar, am convertit coordonatele caracteristicilor genomice din versiunea genomului 5 la 6 folosind instrumentul de conversie lot coordonate flybase (https://flybase.org/convert/coordinates, accesat ultima dată pe 26 mai 2020).

Selectarea seturilor de date publice pentru domenii topologice și mărci de cromatină

Am obținut date TAD, inclusiv adnotări ale stării de cromatină de la Sexton și colab. (2012). Acest set de date este compus din domenii detectate prin secvențierea de captare a conformației cromozomului la nivelul genomului, HiC, pe embrioni în stadiu incipient și adnotat cu o stare epigenetică utilizând o metodă de grupare aplicată unei alte surse de date epigenomice liniare (Sexton și colab. 2012). Adnotările lor includ patru categorii: „activ”, „nul”, „PcG” (policomb) și „HP1” (heterocromatină centromerică). Din motive de coerență, ne referim la domeniile „nule” ale lui Sexton și colab. Ca „inactive”. Este posibil ca embrionii în stadiu incipient să fie mediul în care orice întrerupere de reglementare indusă de inversiuni este mai dăunătoare, având în vedere natura sensibilă a dezvoltării, ceea ce face din aceasta o sursă promițătoare de context pentru analiza frecvenței de inversare. Acest set de date ne permite, de asemenea, să analizăm separat apariția punctului de întrerupere în TAD și stările de cromatină în tandem, deoarece acestea sunt derivate din aceeași sursă. Trebuie menționat, totuși, că adnotările acestor TAD sunt relativ grosiere și nu pot reflecta mediul mai local al unui punct de întrerupere a inversiunii.

Prin urmare, am efectuat o a doua analiză pe scări mai fine folosind setul de date al lui Kharchenko și colab. (2011, aderare GSE25321). Acest set de date în forma sa brută constă din intervale scurte marcate cu unul dintre un set de markeri de cromatină, atât într-un model cu nouă stări, cât și într-un model cu 30 de stări. Pe măsură ce am dorit o reprezentare a mediului local de cromatină în jurul punctelor de întrerupere a inversiunii, am ales să combinăm reprezentarea cu nouă stări în numărul total de baze atribuite unei stări de tipul dat pe ferestre de 10 kb. Aproximativ 10 kb au fost selectați pe baza eterogenității medii a ferestrelor, am dorit ca dimensiunea ferestrei noastre să fie cât mai mică posibil, dar pentru majoritatea ferestrelor să conțină cel puțin o regiune cu o stare de cromatină adnotată. Acest lucru a dat o distribuție a valorilor pentru fiecare fereastră, care a reprezentat îmbogățirea generală a fiecărei stări în fiecare interval de 10 kb. Deoarece ne-a lipsit puterea statistică pentru a evalua aceste tipuri de mărci în mod individual cu seturile noastre de date de punct de întrerupere relativ mici, am atribuit în continuare fiecărei ferestre de 10 kb o stare de activitate bazată pe majoritatea notelor prezente. Ferestre în care marea majoritate a site-urilor li s-au atribuit stări de la unu la cinci, adnotate de Kharchenko și colab. (2011) ca fiind diferite componente ale genelor, inclusiv promotori, exoni și introni, au fost desemnați „activi”. Ferestrele în care stările de la șase la nouă, care includ PcG, HP1 și alte semne heterocromatice, au fost cele mai proeminente, au fost desemnate „inactive”. Ferestrele în care ambele grupuri au constituit fiecare cel puțin 5% din toate marcajele au fost desemnate „mixte”. Aceasta oferă o reprezentare alternativă a mediilor de cromatină care înconjoară punctele de întrerupere a inversiunii, care sunt mult mai fine decât adnotările lui Sexton și colab. (2012).

Am comparat această reprezentare cu stările de cromatină adnotate de Sexton și colab. Ca o verificare suplimentară pentru validitatea abordării noastre. Am constatat că ferestrele de 10 kb situate în cadrul fiecărui TAD adnotat, în general aliniate cu adnotarea acelui TAD, dar că există o eterogenitate substanțială a semnelor de cromatină în cadrul fiecărui interval TAD (fig. Suplimentară S3, Material suplimentar online). De exemplu, ∼19% din ferestrele din TAD-urile adnotate ca „active” sunt îmbogățite pentru starea de cromatină 9, care este asociată cu regiuni extinse cu tăcere, și invers 26% din ferestrele din TAD-urile adnotate ca inactive sunt îmbogățite pentru starea de cromatină 2, care este asociat cu transcrierea activă. Acest lucru indică faptul că unul nu poate fi tratat ca un substitut direct pentru celălalt.

Ca o verificare finală a validității domeniilor obținute de la Sexton și colab. (2012), am obținut date din domeniul politenului de la Eagen și colab. (2015), au repetat analiza noastră și au constatat că acestea sunt în general conforme cu concluziile noastre. Aceste rezultate pot fi găsite în textul suplimentar S1, Material suplimentar online.

Permutații și teste statistice

Pentru a compara pozițiile punctului de întrerupere a inversiunii cu o distribuție randomizată, s-au efectuat permutări pentru toate categoriile de inversiuni (rare, comune și fixe) cu 1.000 de iterații ale unui grup de puncte de întrerupere localizate aleatoriu, ținând constant numărul inversiunii, lungimile de duplicare și brațele cromozomiale. În mod specific, pentru fiecare punct de întrerupere a inversiunii, au fost alese 1.000 de poziții de pornire dintr-o distribuție uniformă între începutul brațului respectiv de cromozom și sfârșitul minus lungimea duplicării - adică din întregul set de puncte posibile pentru acea dimensiune a punctului de întrerupere. Punctele de întrerupere aleatorii au fost localizate independent pentru majoritatea testelor, deoarece majoritatea valorilor au fost calculate pentru fiecare punct de întrerupere individual, mai degrabă decât inversarea în ansamblu. Excepția este testul de amestecare a cromatinei, în care am controlat suplimentar lungimile de inversare pentru a ține cont de rolul lungimii de inversare în perechile de polarizare a mediilor de cromatină. Caracteristicile genomului la fiecare dintre aceste puncte de întrerupere au fost înregistrate ca valoare așteptată pentru distribuția aleatorie a punctelor de întrerupere.

Testele au fost împărțite în funcție de natura factorului. Pentru factorii care sunt o valoare numerică discretă pentru fiecare pauză, cum ar fi distanța față de un element sau lungimea unei duplicări, P valorile au fost calculate ca percentile ale valorilor reale într-un set mare de distribuții aleatorii. Testele între categoriile de factori bazate pe distanță și testul lungimii duplicării au fost efectuate de la distribuție la distribuție, cu teste de sumă de rang Mann-Whitney în perechi.

Pentru valorile categorice, cum ar fi întreruperea sau nu a unei gene, s-au calculat ratele de apariție a categoriei pentru 1.000 permutări. Definim întreruperile genelor și ale altor elemente ca fiind atât pauze înainte, cât și reverse cu un singur fir, care apar în cadrul unui element funcțional adnotat. Este important de menționat că metoda noastră de definire a perturbării este probabil să supraestimeze proporția punctelor de întrerupere fixe de inversiune care perturbă cu adevărat secvențele genice.Metoda lui Ranz și colab. (2007) de identificare a secvențelor duplicate de pauza originală se bazează pe omologia secvenței, iar în inversiunile fixe divergența secvențelor necodificate poate interfera cu identificarea precisă a regiunilor punctului de întrerupere. De exemplu, dacă regiunea originală duplicată include o durată de codare a genei și unele baze necodificate, va fi produsă o copie genetică completă împreună cu o duplicare parțială. În timp, regiunea necodificatoare va tinde să acumuleze mai multe mutații decât copia genică intactă. În acest caz, coordonatele obținute din aliniamentele BLAST pot să nu detecteze omologia dintre regiunile necodificate și, în schimb, să producă doar omologie aparentă din duplicarea în intervalul de gene conservat. Acest lucru ar fi considerat ca un eveniment de întrerupere a genei prin analiza noastră. Această tendință va face ca analiza noastră să fie conservatoare în ceea ce privește identificarea impactului selecției naturale, deoarece punctele de întrerupere sunt mai susceptibile de a fi identificate în regiunile de codificare și pentru că ar trebui să avem tendința de a subestima dimensiunile regiunilor duplicate adiacente punctului de întrerupere după ce omologia secvenței a scăzut. . Toate scripturile utilizate pentru a produce rezultatele testelor de permutare descrise mai sus sunt disponibile din depozitul github asociat acestui proiect https://github.com/jmcbroome/breakpoint_analysis (ultima accesare 26 mai 2020).

Analiza fenotipului letal și steril

În plus, am obținut date despre fenotip de la Flybase folosind generatorul de interogări (https://flybase.org/cgi-bin/qb.pl, accesat ultima dată la 26 mai 2020) pentru a obține ID-urile tuturor genelor care au fenotipuri letale și fenotipuri sterile. . Aceste date au fost încorporate în analiza perturbării genelor și am căutat dovezi ale diferenței în ratele de perturbare între genele adnotate cu aceste fenotipuri și setul general de gene adnotate. Tabelul suplimentar S2, Material suplimentar online, conține setul de puncte de întrerupere a inversiunii care par să perturbe aceste gene.


REZULTATE

Detectarea îmbinării alternative

Analiza noastră a îmbinării alternative se bazează strict pe date experimentale, nu pe modele teoretice. În loc să căutăm să prezicem îmbinări alternative, le detectăm direct ca inserții mari în datele EST din bazele de date dbEST (20) și UNIGENE (18) disponibile publicului. Măsurăm dovezile unei îmbinări alternative autentice printr-o serie de criterii (Fig. 1). În primul rând, un set de EST trebuie să se potrivească pe toată lungimea lor, pe ambele părți ale unei îmbinări alternative presupuse (permițând erori de secvență). O inserție mare în mijlocul unei astfel de potriviri perfecte este o alternativă candidată alternativă. Spre deosebire de multe alte tipuri de rezultate genomice, cum ar fi SNP-urile și variațiile nivelului de expresie, îmbinarea alternativă nu seamănă cu zgomotul experimental comun (cum ar fi eroarea de secvențiere).

Apoi, secvența consens EST este mapată la proiectul secvenței genomului uman prin căutare omologică. Deoarece genele umane sunt împărțite în exoni scurți, o lovitură genomică constă de obicei în multe meciuri scurte. Pentru a fi valide, aceste potriviri trebuie să fie perfecte (permițând din nou numai erorile de secvențiere), trebuie să fie toate în aceeași orientare (șuviță) și să formeze o plimbare completă, ordonată corect prin secvența consens EST. Solicităm ca fiecare regiune de potrivire genomică-EST (exon putativ) să fie delimitată de secvențe de sit donator de îmbinare consens și secvențe de sit acceptor în secvența vecină genomică (intron). Rezultatele noastre dau o dimensiune medie a exonului intern de 144 bp, cu doar 4% din exonii interni și lungimea gt300 bp, similar cu rezultatele obținute pentru genele cunoscute (21). Doar 0,2% (79/39 862) din intronii noștri au fost & lt60 bp, iar lungimea mediană a intronului a fost de 935 bp. Modelul genetic tipic al exonilor interni scurți care se termină într-un singur exon lung de 3 ′ poate fi de obicei verificat deoarece secvențele de capăt 3 ′ sunt foarte reprezentate în datele EST și deoarece 3 ′ EST pot fi identificate prin poli (A) lor vizibilă cozi, care indică direct sfârșitul exonului 3 ′.

Pentru a evalua acuratețea cartografierii genelor și a structurii exon / intron, am comparat cu datele complet independente produse de NCBI's Acembly, un efort de adnotare a genei curatat de om (date descărcate de pe ftp://ncbi.nlm.nih.gov/genomes / H_sapiens). LocusLink oferă o legătură independentă între genele individuale RefSeq și clusterele UNIGENE (22). Pentru gene mapate independent de secvența genomică prin RefSeq și procedura noastră, 97,3% mapate la același contig genomic. Mai mult, dintre aceste gene, 95% au fost mapate la aceleași nucleotide ale contigului. Deși cartografierea Acembly nu ar trebui presupusă a fi perfectă, acest nivel ridicat de acord între eforturi independente este încurajator. Detaliile despre exonii noștri (derivați în procedura noastră din detecția noastră de îmbinare) se potrivesc cu exonii NCBI Acembly în 97% din cazuri la locul de îmbinare de 5 ′ și 96% la locul de îmbinare de 3 ′ (per total, 94% dintre exoni au fost identici) . Detaliile noastre de îmbinare s-au potrivit cu intronii NCBI Acembly în 93% din cazuri la capătul 5 ′ și 92% la capătul 3 ′ (86% s-au potrivit exact la ambele capete). Din cauza îmbinării alternative, nu este de așteptat o corespondență de 100%.

Un insert alternativ candidat (de la EST) trebuie să treacă o serie de teste. În primul rând, trebuie găsit și în secvența genomică, care se potrivește cu o regiune exonică din secvența genomică ale cărei limite corespund secvențelor cunoscute ale sitului de îmbinare. Deoarece aceste secvențe ale site-ului de îmbinare sunt în mare parte intronice, aceasta oferă o validare independentă a îmbinării alternative. Trebuie subliniat faptul că diferențele în cazul în care EST-urile încep și se termină într-o genă (de exemplu, o EST mai scurtă poate da aspectul unui produs genetic trunchiat) nu vor fi niciodată interpretate ca o îmbinare alternativă prin procedura noastră. Ne concentrăm exclusiv pe detectarea splicingului, adică o regiune contiguă a transcriptului care a fost îndepărtată în timpul procesării ARNm. Detectarea unei îmbinări într-o EST necesită potriviri extinse atât cu exonii din amonte, cât și din cei din aval. Analiza noastră a identificat 39 862 de îmbinări în 8429 de clustere. Analiza noastră raportează doar îmbinări alternative, adică perechi de îmbinări validate care se exclud reciproc. Astfel, intronii neplicați sau alți contaminanți genomici nu vor fi raportați niciodată, deoarece au ca rezultat absența unei îmbinări, nu crearea unei îmbinări noi, care se exclud reciproc. Pentru a apela o îmbinare alternativă, procedura noastră necesită o pereche de îmbinări care se potrivesc exact la un loc de îmbinare și diferă la al doilea site de îmbinare. Această procedură poate detecta sărirea exonului, site-uri donatoare alternative de 5 ′ și site-uri alternative de acceptare 3 ′ (Fig. 1B). 6201 astfel de relații alternative de îmbinare au fost identificate în 2272 clustere. Aceste forme diverse de dovezi produc scoruri puternice ale cotelor jurnalului pentru fiecare îmbinare alternativă detectată. O analiză statistică detaliată a acestor dovezi va fi prezentată în altă parte (D.Miller, J.Aten, C.Grasso, B.Modrek și C.Lee, manuscris în pregătire).

Ca exemplu tipic de validare din baza noastră de date, ilustrăm gena proteinei kinazei dystrophia myotonica (DMPK) (Fig. 2), a cărei îmbinare alternativă a fost studiată anterior pe scară largă. În DMPKAm identificat trei îmbinări alternative în datele EST, toate acestea fiind verificate prin rezultate experimentale independente în literatura de specialitate existentă (23). Dintre cele trei îmbinări alternative, unul șterge ultimii 15 bp ai exonului 8, altul omite exonul 12 și exonul 13, iar ultimul șterge doar 4 bp în exonul 14. Figura 2 prezintă una dintre aceste forme alternative de îmbinare, inclusiv joncțiunea și calitatea potrivirii a dovezilor EST versus secvența genomică.

Noi forme de îmbinare alternative ale unei gene cunoscute

Figura 3 prezintă mai multe îmbinări alternative noi detectate într-o genă bine studiată, HLA-DM β. Optzeci de EST-uri din grupul UNIGENE Hs.1162 se aliniază pentru a forma o secvență consens, care, la rândul său, se potrivește cu o serie ordonată de segmente pe un fir de cromozom 6. Secvențele EST se potrivesc îndeaproape cu secvența genomică, în concordanță cu eroarea de secvențiere. Secvențele EST marchează un exon lung de 3 ′ (359 bp) plus o serie de cinci exoni scurți, ale căror dimensiuni (36–288 bp) se potrivesc cu intervalul așteptat pentru exonii interni. Aceasta se potrivește cu locația și structura genelor cunoscute pentru HLA-DM β (24, 25). Opt îmbinări sunt observate în aceste EST-uri, unde secvența care corespunde unei regiuni exonice sare direct la o regiune exonică din aval, așa cum este indicat în Figura 3A. Cele 16 limitări ale exonilor supuși implicați de EST-uri se potrivesc exact cu site-urile de acceptor și donator puternic consens în secvența genomică (Fig. 3C).

Se observă patru forme diferite de îmbinare alternativă a HLA-DM β: îmbinări 3 + 4 + 5 (inclusiv exonii IV și V în produsul ARNm) îmbinări 6 + 5 (sărind exonul IV) îmbinări 3 + 7 (cu excepția exonului V) îmbinare 8 (sărind exonii IV și V). Exonii IV și V au o lungime de 117 și 36 pb, și astfel aceste îmbinări alternative sunt toate în cadru. Regiunea de codificare a proteinelor începe în exonul I și se termină în exonul VI, astfel încât aceste îmbinări produc patru forme diferite ale lanțului HLA-DM β care diferă la capătul C-terminal.

Analiza acestor forme relevă un efect funcțional remarcabil de simplu și de interesant. HLA-DM este esențial pentru încărcarea moleculelor MHC de clasa II cu antigene peptidice exogene, un pas cheie în prezentarea antigenului și activarea răspunsului imun umoral. Se crede că acest lucru apare în compartimentele lizozomale timpurii. HLA-DM este în mod normal direcționat către lizozomi, iar lanțul său β conține un domeniu transmembranar ancorând capătul C-terminal (26, 27). Exonul IV este scurt și corespunde exact domeniului transmembranar. Exonul V este foarte scurt și codifică semnalul de țintire lizozomală YTPL, al cărui prim reziduu începe la începutul exonului. Astfel, îmbinarea alternativă reglează direcționarea HLA-DM către compartimente endosomale (prin includerea sau excluderea semnalului YTPL), precum și ancorarea acestuia la membrană. Având în vedere importanța HLA-DM în procesarea și prezentarea antigenelor de către clasa II MHC, această reglementare este interesantă din punct de vedere funcțional. Îndepărtarea semnalului său de direcționare ar redirecționa probabil HLA-DM mai întâi către membrana plasmatică, astfel încât acesta să se deplaseze către lizozomi prin căi endocitice, modificând cinetica și condițiile în care întâlnește mai întâi clasa II MHC. Se pare că structura genică a HLA-DM Gena β a fost „proiectată” cu atenție pentru a permite controlul funcției HLA-DM, prin extragerea atât a helixului transmembranar, cât și a semnalului de țintire lizozomală în exoni scurți separați (IV, V) care pot fi în mod alternativ îmbinați în cadru (surse de exon VI ultimii 4 aminoacizi ai proteinei, identici sub toate formele). Formele cu îmbinare alternativă au fost detectate în uter (două EST), placentă, limfă, stomac și colon. În ciuda faptului că HLA-DM face obiectul unor cercetări intense, nu am reușit să găsim niciun raport despre o astfel de îmbinare alternativă în literatura publicată și se crede că este nou de un expert în HLA-DM (E.Mellins , comunicare personala).

Domeniul de aplicare al îmbinării alternative la genele umane

Analiza noastră la nivel de genom a detectat mii de îmbinări alternative în datele actuale, disponibile public, ale genomului uman (Tabelul 1). Au fost detectate 6201 relații alternative de îmbinare în care două îmbinări au împărțit un donator comun sau un site acceptor, dar s-au îmbinat la un sit diferit la celălalt capăt al acestora (adică sărituri de exoni, site 5 alternativ donator de îmbinare sau alternativ 3 ’sit acceptor de îmbinare Fig. 1B) . Am găsit îmbinări alternative în 27% din gene pentru care am avut suficientă secvență exprimată pentru a acoperi mai mult decât un singur exon. Cu toate acestea, această estimare, bazată pe analiza tuturor grupurilor EST, subestimează probabil apariția reală a îmbinării alternative, deoarece datele disponibile EST acoperă de obicei doar o mică parte a genei complete. Pentru a testa această ipoteză, am analizat rata alternativă de îmbinare a genelor pentru care secvența ARNm era disponibilă (reprezentând total sau parțial gena completă). Am detectat una sau mai multe forme de îmbinare alternative la 42% din aceste gene, semnificativ mai mare decât rata observată în grupurile numai EST. Acest lucru este în strâns acord cu un studiu anterior al grupurilor de secvențe exprimate pe bază de ARNm (8). Deoarece fragmentarea secvenței genomice poate bloca, de asemenea, acoperirea completă a unei gene, am evaluat rata de detecție alternativă a îmbinării în gene mapate la cromozomul 22. Dintre acestea, 43% conținea îmbinări alternative, incluzând atât mRNA cât și clustere numai EST.

Datele actuale EST par a fi incomplete. Procedura noastră a identificat îmbinări (adică exoni multipli) în doar 18% din grupurile EST mapate. Cu toate acestea, pentru grupurile pe care le-am cartografiat la cromozomul 22 (genomic complet) care avea și o secvență de ARNm, 88% conțineau cel puțin o îmbinare. O varietate de factori, cum ar fi fragmentarea secvenței de genom uman uman, dimensiunea mare a intronilor și tendința EST-urilor de a aglomera la capătul 3 ′ setul de date curent împotriva găsirii genelor de lungime completă și, probabil, subestimează adevăratul nivel de îmbinare alternativă. Mai mult, din moment ce datele EST curente pentru fiecare genă reprezintă doar un subset de țesuturi și tipuri de celule în care se exprimă acea genă, este probabil ca apariția totală a îmbinării alternative să fie mult mai mare decât ceea ce analizele noastre pot detecta. O fracțiune mare din formele de îmbinare alternative EST au fost observate de mai multe ori (din clone diferite și biblioteci diferite), indicând faptul că acestea constituie o fracțiune relativ mare din ARNm total. Dintre îmbinările noastre alternative, 2892 (47%) au fost observate în două sau mai multe secvențe EST. Aceste date reprezintă un subset de „încredere ridicată” a îmbinărilor alternative detectate.

Analiza noastră indică faptul că marea majoritate a bazei noastre de date reprezintă descoperiri noi (Fig. 5D). Doar 13% din îmbinările noastre alternative au fost detectate în secvențe de ARNm de la GenBank, care probabil au fost studiate cu atenție. Restul de 87% ar putea fi detectat numai cu EST-uri. Procedura noastră a detectat, de asemenea, un număr mare de evenimente de îmbinare alternative în gene complet noi. Aproximativ 1200 de îmbinări alternative au fost detectate numai în clustere care conțin numai EST.

Splicing alternativ într-o nouă genă umană

Figura 4 ilustrează un exemplu de detectare alternativă a îmbinării într-o genă nouă mapată în genomul uman prin procedura noastră. Această genă are 33% identitate față de lanțul β al receptorului FCε de șobolan și 25% identitate față de CD20 și are un model de patru domenii transmembranare prezise caracteristice ambelor proteine. Sunt detectabile cel puțin șapte forme diferite, toate afectând produsul proteic. Într-un model care amintește izbitor de HLA-DM β, regiunea transmembranară C-terminală și coada citoplasmatică a formei majore (forma 1) sunt plasate pe un singur exon scurt (exonul VI), care poate fi inclus sau exclus pentru a crea forme diferite. O formă deosebit de interesantă este creată prin ignorarea îmbinării normale de la exonul V la exonul VI, extinzând regiunea de codare de la exonul Va pentru 142 bp (pe care l-am desemnat exonul Vb). Un site de poliadenilare este prevăzut la sfârșitul acestei secvențe și se observă că EST-urile se termină în poli (A) în acest moment. Această terminație alternativă înlocuiește regiunea de codificare a exonilor VI și VII cu 40 de aminoacizi codificați de exonul Vb [terminat de un codon STOP 23 bp înainte de situsul poli (A)]. În mod ciudat, această secvență C-terminal de înlocuire conține, de asemenea, o secvență transmembranară prevăzută și, prin urmare, substituie cu îngrijire un nou domeniu transmembranar C-terminal și o coadă citoplasmatică. Coada citoplasmatică în lanțuri de receptor FC echivalente joacă un rol cheie în activarea moleculelor de transducție a semnalului citoplasmatic (28, 29), astfel încât această formă alternativă probabil modulează activitatea de transducție a semnalului acestui receptor. Această formă este detectată în placentă și rinichi, în timp ce forma majoritară a fost detectată în multe biblioteci diferite.


Abstract

Secvențierea în timp real cu o singură moleculă, dezvoltată de Pacific BioSciences, oferă lungimi de citire mai mari decât tehnologiile de secvențiere a doua generație (SGS), făcându-l bine adaptat pentru probleme nerezolvate în cercetarea genomului, transcriptomului și epigeneticii. Cel extrem de contigu de novo adunări utilizarea secvențierii PacBio poate înlătura golurile din ansamblurile de referință actuale și poate caracteriza variația structurală (SV) în genomii personali. Cu citiri mai lungi, putem secvența prin regiuni repetitive extinse și detectăm mutații, dintre care multe sunt asociate cu boli. Mai mult, secvențierea transcriptomului PacBio este avantajoasă pentru identificarea izoformelor genetice și facilitează descoperirile fiabile de gene noi și izoforme noi de gene adnotate, datorită capacității sale de a secvența transcripții de lungime completă sau fragmente cu lungimi semnificative. În plus, tehnica de secvențiere a PacBio oferă informații utile pentru detectarea directă a modificărilor de bază, cum ar fi metilare. Pe lângă utilizarea secvențierii PacBio singure, multe secvențierea hibridă au fost dezvoltate strategii pentru a utiliza citiri scurte mai precise împreună cu citirile lungi PacBio. În general, secvențierea hibridă strategiile sunt mai accesibile și scalabile, în special pentru laboratoarele de dimensiuni mici, decât utilizarea PacBio Sequencing singur. Apariția secvențierii PacBio a pus la dispoziție multe informații care nu au putut fi obținute numai prin SGS.


Priveste filmarea: Top 5 motive să mergi la o facultate de informatică (Ianuarie 2022).