Informație

Provocări de construcție a bibliotecii ARN-Seq: prejudecăți ale fragmentării ARN față de fragmentarea ADNc


Am urmărit recent o prezentare pe RNA-seq care acoperea unele dintre alegerile pe care le poți face pe parcurs și nu am înțeles pe deplin una dintre alegeri în special. Aproape la începutul procesului, puteți alege o metodă de fragmentare (de exemplu, ARN: nebulizare, hidroliză; ADNc: sonicare, tratament cu Dnase I). Fiecare metodă de fragmentare este influențată în felul său, iar obiectivele studiului pot influența alegerea metodei.

Nu am înțeles pe deplin motivele prejudecăților caracteristice (cum se întâmplă?) și când să alegeți o metodă față de cealaltă (care metode funcționează cel mai bine pentru ce obiective?). Altfel spus, care sunt explicațiile mecaniciste pentru prejudecățile caracteristice care rezultă din fiecare metodă și care este semnificația în ceea ce privește procesarea în aval și provocările asociate?

Editați | ×:

Inima acestei întrebări se referă la înțelegerea deplină a alegerii specifice când și cum să se fragmenteze. Motivul pentru care nu am acceptat un răspuns, totuși, este că răspunsurile furnizate până acum abordează partea mecanismului întrebării, dar nu motivele finale pentru alegerea unuia față de celălalt.


Bună întrebare, multe dintre acestea sunt încă descoperite. Iată ce se știe până acum:

Metodele de fragmentare bazate pe enzime de restricție nu sunt aleatorii.

Transcrierea inversă efectuată cu oligomeri poli-dT, care se leagă de cozile 3 'poli-A, este puternic orientată spre capătul 3' al transcrierilor.

Transcrierea inversă cu hexameri aleatori are ca rezultat o subreprezentare a capetelor 3 '. Aceasta se datorează numărului redus de poziții de amorsare la care enzima transcriptază inversă poate începe sinteza ADNc.


ARN mesager are o coadă poli A la capătul său 5 '. astfel, atunci când poli-dT hibridizează ARNm în transcrierea inversă, ADNc va purta acest poli-dT la capătul său 3 '. Astfel, deoarece transcrierea inversă va începe întotdeauna de la 3 'și a ARNm este mai probabil ca această regiune să fie mai bună. transcris. Cu cât ARNm este mai mare, va fi această preocupare.

Nu știu despre părtinirea legată de fragmentarea ARN, pot presupune că ambele capete sunt mai pierdute din cauza fragmentării în sine

vizionați acest videoclip din tehnologiile vieții http://www.youtube.com/watch?v=0MJIbrS4fbQ


Compararea ARN-Seq prin captarea poli (A), epuizarea ribozomală a ARN și microarray de ADN pentru profilarea expresiei

Secvențierea ARN (RNA-Seq) este adesea utilizată pentru profilarea transcriptomului, precum și pentru identificarea transcrierilor noi și a evenimentelor de îmbinare alternative. De obicei, bibliotecile ARN-Seq sunt preparate din ARN total folosind îmbogățirea poli (A) a ARNm (ARNm-Seq) pentru a elimina ARN ribozomal (ARNr), cu toate acestea, această metodă nu reușește să capteze transcrieri non-poli (A) sau parțial degradate ARNm. Prin urmare, un protocol mRNA-Seq nu va fi compatibil pentru utilizare cu ARN-uri provenite din eșantioane fixate cu formalin și parafină (FFPE).

Rezultate

Pentru a aborda dorința de a efectua ARN-Seq pe materiale FFPE, am evaluat două protocoale diferite de pregătire a bibliotecii care ar putea fi compatibile pentru utilizare cu fragmente mici de ARN. Am obținut ARN-uri Fresh Frozen (FF) și FFPE asociate din mai multe tumori și le-am supus la diferite metode de profilare a expresiei genice. Am testat 11 eșantioane de tumori de sân uman folosind: (a) ARN-uri FF prin microarray, mARN-Seq, Ribo-Zero-Seq și DSN-Seq (Duplex-specific Nuclease) și (b) ARN-uri FFPE de către Ribo-Zero-Seq și DSN -Sec. De asemenea, am efectuat aceste diferite protocoale RNA-Seq folosind 10 tumori TCGA ca set de validare.

Datele din probele de ARN împerecheate au arătat o concordanță ridicată în cuantificarea transcrierilor în toate protocoalele și între ARN-urile FF și FFPE. Atât în ​​FF cât și în FFPE, Ribo-Zero-Seq a îndepărtat ARNr cu o eficiență comparabilă ca mRNA-Seq și a furnizat o acoperire echivalentă sau mai puțin părtinitoare la capetele genei 3 '. Comparativ cu mRNA-Seq unde 69% din baze au fost mapate la transcriptom, DSN-Seq și Ribo-Zero-Seq conțineau semnificativ mai puține cartografieri de citiri la transcriptom (20-30%) în aceste protocoale RNA-Seq, multe, dacă nu chiar cele mai multe citește mapate la regiuni intronice. Aproximativ 14 milioane de citiri în mRNA-Seq și 45-65 milioane de citiri în Ribo-Zero-Seq sau DSN-Seq au fost necesare pentru a atinge aceleași niveluri de detectare a genei ca un microarray de ADN Agilent standard.

Concluzii

Rezultatele noastre demonstrează că, comparativ cu mRNA-Seq și microarrays, Ribo-Zero-Seq oferă o eficiență echivalentă de îndepărtare a ARNr, uniformitate de acoperire, citiri cartografiate pe baza genomului și cuantificare constantă de înaltă calitate a transcrierilor. Mai mult, Ribo-Zero-Seq și DSN-Seq au o cuantificare a transcrierii consecventă utilizând ARN-uri FFPE, sugerând că ARN-Seq poate fi utilizat cu ARN-uri derivate din FFPE pentru profilarea expresiei genelor.


Introducere

Progresele recente în secvențierea ARN (ARN-Seq) au oferit un mijloc de caracterizare și cuantificare rapidă a transcriptomilor. ARN-Seq implică secvențierea directă a ADN-urilor complementare (ADNc) folosind tehnologii de secvențiere de generație viitoare (NGS) de mare randament, urmată de cartarea secvențierii citite la genomul de referință sau la seturile de gene pentru analiza expresiei genice și detectarea polimorfismului. Comparativ cu alte tehnologii, cum ar fi microarrays bazate pe hibridizare și metode bazate pe secvențierea Sanger, ARN-Seq oferă o înțelegere mai cuprinzătoare a complexității transcriptomului și capacitatea de a detecta un interval dinamic de niveluri de expresie (Marioni și colab., 2008 Wang și colab. , 2009 Mader și colab., 2011), permițând identificarea transcrierilor noi, ARN-urilor mici, SNP-urilor, produselor de îmbinare alternativă, transcrierilor de sens și antisens, transcrierilor de fuziune și pot identifica site-urile de inițiere a transcrierii (Ozsolak și Milos, 2011).

Platformele de secvențiere de generație următoare utilizate pentru RNA-Seq sunt disponibile comercial de la Illumina, Roche, ABI, Helicos BioSciences și multe altele, iar companiile își îmbunătățesc continuu platformele pentru a crește viteza de secvențiere, precizia și adâncimea la un cost mai mic. Reducerea costurilor și performanța ridicată a secvențierii permit proiecte precum cele 100 de milioane de dolari 100 genomi umani 1 și Arabidopsis Proiectul 1001 genomi (Weigel și Mott, 2009). Chiar dacă capacitatea de secvențiere continuă să crească, protocoalele pentru pregătirea bibliotecii de probe, fiind laborioase, consumatoare de timp și costisitoare, rămân un pas limitativ. Pregătirea secvențială a bibliotecii implică producerea unei colecții aleatorii de fragmente de ADN modificate prin adaptor, pregătite pentru secvență, cu o gamă specifică de dimensiuni ale fragmentelor. Deși au fost publicate mai multe proceduri pentru îmbunătățirea pregătirii bibliotecii Illumina RNA-Seq (Quail și colab., 2008 Nagalakshmi și colab., 2010 Wilhelm și colab., 2010), aceste protocoale au încă câteva etape laborioase, inclusiv precipitarea etanolului, purificarea coloanelor și extracția gelului pentru fracționarea mărimii. În plus față de consumul de timp, acești pași prezintă un risc ridicat de contaminare încrucișată și de amestecare a probelor inerente protocoalelor care implică manipularea extensivă a probelor individuale. Recent, Illumina a introdus o metodă cu randament ridicat (trusa de pregătire a probelor de ARN TruSeq) înlocuind aceste etape de purificare cu metodă de curățare a reacției bobinei magnetice de imobilizare reversibilă în fază solidă (SPRI) (Hawkins și colab., 1994 Lennon și colab., 2010). Folosind această metodă, un singur tehnician poate realiza 96 de biblioteci din ARN total în 3 zile. Cu toate acestea, cantitatea de multiplexare este limitată la 24 de numărul de coduri de bare disponibile. Îmbunătățiri similare pot fi observate și în protocoalele de Zhong și colab. (2011) și Wang și colab. (2011a).

Aici vă prezentăm câteva îmbunătățiri ale pregătirii eșantionului Illumina pentru protocolul RNA-Seq (Illumina Inc., San Diego, SUA, Cat. & # X00023 RS-100-0801) pe care le-am făcut pentru a genera ARN cu randament ridicat și rentabil -Seq bibliotecile într-un mod mai robust și reproductibil, comparativ cu alte protocoale actuale. Am integrat o metodă directă de extracție a ARNm folosind margele Dynabeads oligo dT (Invitrogen, Carlsbad, CA, SUA) sau margele Sera-Mag oligo dT (Thermo Scientific, Indianapolis, IN, SUA), care sunt potrivite pentru extracția ARN din diferite plante și animale șervețele. O provocare pentru extinderea protocoalelor în format cu 96 de godeuri este etapa de fragmentare a ARN-ului. Mai precis, este dificil să se controleze gradul de fragmentare chimică în ARN datorită timpului scurt de incubație, ceea ce duce la o reproductibilitate scăzută, în special în formatele cu 96 de godeuri. Pentru a depăși această problemă am folosit fragmentarea enzimatică a ADNc. De asemenea, am folosit metodologia de curățare a reacției cu margele magnetice SPRI pentru a permite manipularea probelor într-un format cu 96 de godeuri, similar protocolului TruSeq și al lui Zhong și colab. (2011). Mai mult, pentru a reduce timpul protocolului și numărul de pași de manipulare, am aplicat un protocol & # x0201Con beads & # x0201D (Fisher și colab., 2011) pentru mai multe reacții enzimatice, inclusiv repararea finală, coada A și ligarea adaptorului. Aceste modificări reduc potențialul de eroare umană introdus în timpul procesului de pregătire a probei. În cele din urmă, am dezvoltat 96 de adaptoare unice cu cod de bare pentru a oferi mai multă flexibilitate în multiplexare. Cu aceste modificări și câteva alte mici ajustări, am crescut mult eficiența și reproductibilitatea și am redus costul pregătirii bibliotecii (cu & # x0007E3 & # x0201311 & # x000D7) în comparație cu alte metode disponibile în prezent. Metoda noastră de preparare a bibliotecii de înaltă capacitate ARN-seq (HTR) permite unui singur cercetător să realizeze în mod reproductibil 96 de biblioteci ARN-Seq, începând de la țesut, în mai puțin de 3 zile. Analiza ieșirii secvențiale din bibliotecile noastre a demonstrat că protocolul nostru dă date a căror calitate se potrivește sau depășește cea a metodei standard Illumina (IL) prin compoziția secvenței, contaminarea cu ARN ribozomal și detectarea expresiei genelor.


Rezultate si discutii

Pregătirea și secvențierea bibliotecii IVT-seq

Pentru a genera biblioteci IVT-seq (pentru detalii complete, vă rugăm să consultați Materiale și metode secțiunea), am produs stocuri individuale de glicerol, fiecare adăpostind o singură plasmidă umană, complet secvențiată din Mammalian Gene Collection (MGC) [17]. Apoi, am extras ADN-ul plasmidic și l-am placat la 50 ng pe godeu în plăci de 384 de godeuri. Am amestecat conținutul a trei plăci de 384 de godeuri care conțin un total de 1.062 clone de ADNc (fișier suplimentar 1), am transformat acest amestec în bacterii și am placat bacteriile ca colonii unice. După o incubare peste noapte, am răzuit aceste plăci, am amplificat bacteriile timp de câteva ore în cultură lichidă și am purificat plasmidele din bacterii ca o piscină (Figura 1A). Apoi, am liniarizat plasmidele și am folosit polimeraza SP6 pentru a conduce in vitro transcrierea secvențelor de ADNc clonate (Figura 1B). În urma unui tratament cu DNază I pentru îndepărtarea șablonului ADN și a purificării ARN-ului, am rămas cu un grup de 1.062 ARN-uri umane diferite derivate din plasmide complet secvențiate.

Construirea de biblioteci IVT-seq. (A) Prepararea unui grup de 1.062 plasmide ADNc uman. Conținutul a trei plăci cu 384 de godeuri care conțin plasmide MGC au fost reunite. Pool-ul a fost amplificat prin transformare în Escherichia coli, și clonele rezultate au fost purificate și re-reunite. (B) Generarea transcrierilor IVT. Grupul de plasmide MGC a fost liniarizat și utilizat ca șablon pentru un in vitro reacție de transcriere. Enzimele și nucleotidele necorporate au fost purificate, lăsând o serie de transcrieri poliA. (C) Crearea de biblioteci IVT-seq. Cantitățile enumerate de ARN IVT au fost amestecate cu ARN total de ficat de șoarece pentru a crea șase bazine cu cantități finale de ARN de 1 μg. ARN ribozomal a fost epuizat din aceste bazine folosind kitul Ribo-Zero Gold. ARN IVT și ARN de șoarece sunt acum prezente în grupuri la rapoartele enumerate, după epuizarea ARNr din ARN total de șoarece. Aceste grupuri au fost folosite pentru a genera biblioteci RNA-seq folosind kitul / protocolul TruSeq de la Illumina. Întregul proces a fost realizat în duplicat. Bibliotecile replicate au fost grupate separat și secvențiate în benzi separate HiSeq 2000 (două benzi în total). IVT, in vitro transcris MGC, Mammalian Gene Collection.

Pentru a aproxima ce se întâmplă într-o reacție ARN-seq totală, am supus acest ARN IVT la epuizarea ARNr și apoi am pregătit biblioteci folosind protocolul Illumina TruSeq (Figura 1C, numai IVT). Pentru a ține seama de posibilele efecte purtătoare, am amestecat, de asemenea, ARN IVT cu diferite cantități de ARN total de șoarece derivat din ficat. Adăugarea ARN-ului de șoarece a dat acestor probe o diversitate mai mare (transcrieri de la aproximativ 10.000 de gene față de 1.062) și seamănă mai mult cu o probă biologică reală. De asemenea, prin adăugarea de ARN de fond de la o specie diferită (șoarece) decât ARN IVT (uman), am făcut mai ușoară diferențierea dintre transcrierile IVT și secvențele șoarecilor în timpul analizei din aval. Deoarece ARN-ul IVT nu conținea secvențe de ARNr, în timp ce ARN-ul de șoarece, cantitatea de ARN de șoarece ar fi redusă semnificativ prin etapa de epuizare a ARNr. Pentru a explica acest lucru, am amestecat IVT și ARN de șoarece astfel încât, după epuizarea ARN-ului, am avea rezerve finale cu raporturi IVT: șoarece de 1: 1, 1: 2 și 1:10. În cele din urmă, pentru a ține cont de ARN-urile de șoarece care pot fi mapate la genomul uman de referință și la secvențele noastre de IVT, am pregătit un grup format din ARN de șoarece singur. Am combinat cele șase biblioteci rezultate și le-am secvențiat folosind un Illumina HiSeq 2000. Am efectuat întregul proces în duplicat.

Cartografierea și acoperirea datelor IVT-seq

În urma secvențierii și de-multiplexării, am aliniat toate datele la genomul uman de referință (hg19) folosind RNA-seq Unified Mapper (RUM) [14]. Pentru toate analizele, am folosit doar date din citiri mapate în mod unic la referință, excluzând toate cartografiile multiple (datele conținute în fișierele RUM_Unique și RUM_Unique.cov). Dintre cele 1.062 de transcrieri IVT originale, am găsit 11 aliniate la mai mulți loci genomici, în timp ce 88 aliniate la loci suprapuse. Pentru a evita orice efecte confuzive în analizele noastre, am filtrat aceste transcrieri din toate analizele, lăsându-ne cu 963 transcrieri IVT care nu se suprapun, aliniate în mod unic. Am văzut o corelație excelentă în nivelurile de expresie dintre replicate (transcrierea nivelului R 2 între replicate și gt0.95 Fișier suplimentar 2: Figura S1A). În al doilea rând, cel puțin 90% din cele 963 de transcrieri IVT au fost exprimate cu fragmente pe kilobază de exon pe milion de lecturi cartografiate (FPKM) valori ≥5 în toate seturile de date IVT-seq, cu excepția mouse-ului (Tabelul 1). În eșantioanele numai pentru IVT, peste 80% din secvențele IVT au fost exprimate peste 100 FPKM (Fișier suplimentar 2: Figura S1B). Deoarece am pregătit plasmidele MGC și transcrierile IVT ca grupuri, este probabil ca transcrierile IVT care prezintă o acoperire scăzută sau zero să fie inițial prezente la concentrații scăzute de plasmide înainte de etapele de transformare și IVT. Folosind tehnica IVT-seq, am reușit să detectăm în mod specific marea majoritate a transcrierilor IVT umane cu acoperire ridicată atât în ​​absența, cât și în prezența ARN-ului de șoarece de fundal.

Deși vedem citiri aliniate la transcrierile IVT umane în datele numai la șoarece, aceste transcrieri reprezintă în mod colectiv aproximativ 2% din citiri (Tabelul 1). Aceste transcrieri cu o acoperire mai mare sunt probabil rezultatul citirii mouse-ului alinierea la secvențe umane foarte similare. Am exclus aceste secvențe din analizele noastre.

Variația în cadrul transcrierii în acoperirea ARN-seq a transcrierilor IVT

Luați în considerare mai întâi datele numai pentru IVT. Având în vedere că aceste transcrieri au fost generate dintr-o reacție IVT utilizând secvențe de ADNc, aceste date nu sunt afectate de splicing sau alte reglări post-transcripționale. Astfel, majoritatea regiunilor transcrierilor ar trebui să fie „exprimate” și prezente la niveluri similare. Excepțiile ar fi secvențe repetitive care se mapează la locații multiple ale genomului și pot fi slab reprezentate și capetele ADNc-urilor, care sunt supuse unei părtiniri de fragmentare. Pentru a explica acest lucru, am creat un set de date simulat care modelează procesul de fragmentare și se abate de la date uniforme numai prin aleatoritatea suportată de fragmentare. Am generat două astfel de seturi de date folosind Benchmarker pentru evaluarea eficienței software-ului RNA-Seq (BEERS) [14]. Primul set de date conținea toate transcrierile IVT exprimate la aproximativ același nivel de expresie (aproximativ 500 FPKM). În al doilea rând, am folosit valorile FPKM din eșantioanele numai pentru IVT ca o sămânță, creând un set de date simulat cu niveluri de expresie care se potrivesc îndeaproape cu datele reale (Fișier suplimentar 3: Figura S2). Aceste seturi de date sunt denumite simulate, respectiv simulate în funcție de cantitate (QM). Datele simulate oferă un rezultat ideal, în timp ce datele QM ne permit să controlăm orice artefact care rezultă din nivelul de expresie (de exemplu, transcrierile cu expresie mai mică pot prezenta o variabilitate mai mare). Apoi, am aliniat ambele seturi de date simulate folosind RUM, cu aceiași parametri ca și pentru datele biologice. Astfel, ambele seturi de date simulate servesc și ca controale pentru orice artefact introdus de aliniere (de exemplu, acoperire redusă în regiunile repetate). Pentru detalii complete despre crearea datelor simulate, consultați fișierul Materiale și metode secțiune.

Folosind datele IVT derivate din transcrierea BC015891 ca exemplu reprezentativ, graficul de acoperire teoretic ideal din datele simulate arată o acoperire aproape uniformă pe întreaga lungime a transcrierii, fără niciunul dintre vârfurile și văile extreme caracteristice seturilor de date biologice (Figura 2A) . Cu toate acestea, datele noastre observate au arătat un grad ridicat de variabilitate, cu vârfuri și văi într-un exon (Figura 2B). Mai mult, aceste modele au fost reproductibile în replicile noastre (fișier suplimentar 4: Figura S3). Am văzut multe alte cazuri de modificări extreme ale acoperirii: peste 50% din transcrierile IVT au arătat modificări mai mari de două ori în acoperirea transcriptului atribuibile pregătirii și secvențierii bibliotecii (Tabelul 2 și fișierul suplimentar 5: Figura S4). De exemplu, BC009037 a arătat scăderi bruște la niveluri de expresie extrem de scăzute la ambii exoni (Figura 2C). Ambele seturi de date simulate nu au prezentat astfel de modele, ceea ce indică faptul că această variabilitate de acoperire nu este rezultatul artefactelor de aliniere. Mai mult, absența acestui model în datele simulate QM indică faptul că aceste diferențe de acoperire nu au fost cauzate de zgomotul de eșantionare introdus de transcripții cu acoperire mică sau mare. În cazul BC016283, vârfurile și văile acoperite au dus la diferențe mai mari de cinci ori în nivelurile de expresie dintre exoni (Figura 2D). Încă o dată, aceste modele au fost reproductibile pe replici (fișier suplimentar 4: Figura S3). SP6 polimeraza nu se poate desprinde și apoi se poate atașa din nou într-un punct ulterior al transcrierii, lăsând o regiune netranscrisă. Prin urmare, având în vedere că aceste tipare au prezentat jgheaburi urmate de vârfuri, ele nu pot fi rezultatul artefactelor din in vitro transcriere. Mai mult, am secvențiat direct produsele IVT și am constatat că marea majoritate au fost transcrise cu părtinire mică sau deloc. Luate împreună, aceste date sugerează că aceste tipare de acoperire sunt în primul rând rezultatul prejudecăților tehnice introduse în timpul construcției bibliotecii, mai degrabă decât biologiei. Aceste rezultate sunt în concordanță cu un studiu anterior care a utilizat ARN IVT ca standarde în experimentele ARN-seq [16], sugerând că metodologia noastră IVT-seq este adecvată pentru identificarea variabilității tehnice în secvențierea datelor.

Variații în cadrul transcrierii în acoperirea ARN-seq. (A) Acoperire simulată de ARN-seq pentru un transcript IVT reprezentativ (BC015891). Graficul de acoperire ARN-seq (negru) este afișat conform modelului genei (verde), deoarece este mapat la genomul de referință. Blocurile corespund exonilor și liniile indică intronii. Chevronii din liniile intronice indică direcția transcrierii. Numerele de pe axa y se referă la profunzimea de citire a ARN-seq la o anumită poziție de nucleotidă. (B) Graficul efectiv de acoperire ARN-seq pentru BC015891 în eșantionul numai pentru IVT. Graficele de acoperire reprezentative pentru transcrierile IVT (C) BC009037 și (D) BC016283 sunt afișate conform acelorași convenții utilizate mai sus. Toate transcrierile sunt afișate în direcția 5ʹ la 3ʹ.

Variația între eșantioane în acoperirea ARN-seq a transcrierilor IVT

În plus față de această variabilitate în transcrieri, am găsit, de asemenea, multe regiuni de transcrieri care prezintă o variabilitate extremă a acoperirii între eșantioane (Figura 3). De exemplu, al șaselea exon din BC003355 a variat în mod sălbatic în raport cu restul transcrierii din toate diluțiile IVT: șoareci. Interesant este faptul că modelul general de variație în raport cu restul transcrierii din diluții a fost menținut între replici. Aproape nicio citire în harta eșantionată doar de șoarece la această transcriere, ceea ce elimină posibilitatea ca această variabilitate să se fi datorat alinierii incorecte a ARN-ului șoarecelui.

Variații între eșantioane în acoperirea ARN-seq. Acoperirea ARN-seq reprezintă graficele tuturor eșantioanelor pentru exonii 4-11 din transcrierea IVT BC003355. Dreptunghiurile negre identifică exonul șase, care arată o variabilitate extremă a acoperirii față de restul transcrierii atunci când este vizualizat pe toate eșantioanele. Raportul dintre ARN IVT și ARN de șoarece este listat în stânga graficelor de acoperire ale fiecărei probe. Graficele de acoperire (roșu pentru prima replică albastră pentru a doua replică) sunt afișate conform modelului genetic (negru), deoarece este mapat la genomul de referință. Blocurile din modelul genetic corespund exonilor și liniile indică intronii. Chevronii din liniile intronice indicau direcția transcrierii. Numerele de pe axele y se referă la profunzimea de citire a ARN-seq la o anumită poziție de nucleotidă.

Inclusiv BC003355, am găsit 86 de regiuni cu o acoperire imprevizibilă (hunc), răspândită în 65 de transcrieri (fișierul suplimentar 6). Prin urmare, peste 6% din transcrierile 963 IVT conțineau regiuni care prezintă variații sălbatice, dar reproductibile, în acoperirea ARN-seq între probe. În timp ce identificăm aceste regiuni hunc, am folosit un filtru în două etape pentru a elimina regiunile variabile rezultate din citirile mouse-ului mapate la secvențe umane foarte similare. În primul rând, am eliminat toate regiunile hunc provenite din transcrieri cu FPKM ≥5 în ambele seturi de date doar de mouse. Apoi, pentru a ține cont de alinierea greșită localizată a citirilor mouse-ului, am filtrat toate regiunile hunc cu o acoperire medie ≥10 în ambele seturi de date doar pentru mouse. Am eliminat, de asemenea, acele regiuni hunc cu acoperire numai la mouse ≥10 în cele 100 de perechi de bază flancante (bp) de ambele părți. Având în vedere criteriile stricte pe care le-am folosit pentru a identifica aceste regiuni hunc (a se vedea Materiale și metode pentru detalii complete), este probabil ca aceasta să fie o subestimare. Pentru a aborda posibilitatea ca ARN-urile de șoarece să interacționeze cu ARN-uri omoloage umane și să interfereze cu acestea în transAm analizat secvențele care înconjoară aceste regiuni folosind MEME Suite [18], dar nu am găsit motive de secvență pe care aceste regiuni să le aibă în comun. Mai mult, profunzimea acoperirii la aceste regiuni nu a urmat o relație liniară cu ARN-ul de șoarece în creștere, ceea ce sugerează că nu este pur și simplu o interacțiune directă cu ARN-ul de fond. Nu există o cauză clară pentru aceste regiuni hunc, mai ales că am pregătit toate probele din același grup de ARN IVT și singura diferență între probe a fost raportul relativ al ARN IVT față de ARN ficat de șoarece. De asemenea, am căutat regiuni hunc care erau divergente între cele două replici, dar nu am găsit niciuna. Dacă astfel de regiuni există, acestea ar putea fi identificate și depășite prin crearea de biblioteci în duplicat. Regiunile hunc pe care le-am identificat mai sus cu modele de expresie menținute între replici prezintă o provocare mai mare, deoarece acestea nu au putut fi identificate și filtrate prin crearea de biblioteci duplicate. Acest lucru este deosebit de problematic pentru utilizarea valorilor expresiei la nivel de exon pentru a identifica evenimente alternative de îmbinare sau expresie diferențială. Variația în cadrul transcrierii și între eșantioane pe care o vedem în datele noastre IVT-seq sugerează că generarea bibliotecii introduce puternice prejudecăți tehnice, ceea ce ar putea confunda încercările de a studia biologia subiacentă.

Surse de variabilitate în acoperirea ARN-seq

Există trei surse potențiale de prejudecată tehnică în pregătirea bibliotecii: biologia moleculară specifică ARN (fragmentarea ARN, transcriere inversă), metoda de selecție a ARN-ului (epuizarea ARN-ului, selecția poliA) și biologia moleculară specifică secvențierii (ligarea adaptorului, îmbogățirea bibliotecii, pod PCR). Pentru a identifica prejudecăți introduse exclusiv prin secvențierea specifică a biologiei moleculare, am creat o bibliotecă ADN-seq din aceleași plasmide MGC utilizate ca șabloane pentru bibliotecile IVT-seq (Fișier suplimentar 7: Figura S5). Făcând acest lucru, am omis pașii specifici biologiei moleculare IVT sau ARN. De asemenea, am pregătit două biblioteci IVT-seq suplimentare folosind selecția polyA sau fără selecție, în loc de epuizare a ARNr. Prin compararea datelor bibliotecii noastre de plasmide și a datelor IVT-seq folosind diferite metode de selecție, am putea identifica ce modele de acoperire au fost rezultatul biologiei moleculare specifice ARN, metoda de selecție ARN sau a unor aspecte comune ale protocolului de generare a bibliotecii.

Am secvențiat biblioteca de plasmide folosind un Illumina MiSeq și am aliniat datele rezultate la genomul uman de referință folosind aceeași metodă ca bibliotecile IVT-seq. În aceste date plasmidice, am văzut 924 din secvențele clonei de ADNc cu valori FPKM ≥5, comparativ cu aproximativ 870 în ambele probe numai pentru IVT (Tabelul 1). Această mică scădere a acoperirii a fost probabil deoarece ARN-ul IVT trece prin mai multe etape de colectare în timpul construcției bibliotecii decât plasmidele. Mai mult, plasmidele nu sunt afectate de eficiența transcripției și a transcripției inverse. În plus, datele plasmidei sunt mapate la secvențele de ADNc cu o acoperire medie normalizată de 42,08, care se încadrează în intervalul valorilor de acoperire pe care le vedem pentru probele IVT-seq. Am secvențiat bibliotecile fără selecție și selecție polyA pe un HiSeq 2500. Aceste date arată, de asemenea, valori de acoperire a clonelor ADNc similare celorlalte biblioteci IVT-seq.

Datele plasmidei reprezintă „intrarea” în reacția IVT, iar datele fără selecție reprezintă cea mai apropiată măsură a ieșirii sale directe. Măsurând raportul 3 ′ / 5 ′ în profunzimea acoperirii pentru fiecare transcript IVT, am putea evalua procesivitatea polimerazei SP6. Într-o reacție perfect procesivă, acest raport 3 '/ 5' ar fi 1, indicând că polimeraza nu a căzut de pe șablonul ADNc și a condus la formarea de produse trunchiate. Raporturile mediane 3 ′ / 5 ′ pentru plasmidă și fără date de selecție au fost 1 și, respectiv, 0,98, indicând încetarea prematură a reacției IVT nu a fost un factor în analizele noastre.

Efectul diferitelor metode de selectare a ARN asupra tiparelor de acoperire

Analiza noastră este ilustrată de o examinare a graficelor de acoperire pentru BC003355 în toate seturile noastre de date diferite. Gradul ridicat de variabilitate pe care l-am observat în graficul de acoperire al acestei gene din datele noastre de ARN-epuizate a fost absent în datele fără selecție și plasmide (Figura 4A). În timp ce datele poliA au arătat, de asemenea, mai puține vârfuri și văi decât datele totale de ARN-seq epuizate de ARNr, acestea au fost marcate de părtinirea 3 'bine documentată. Aceste date sugerează că etapa de epuizare a ARNr este probabil responsabilă pentru o cantitate mare de prejudecăți de acoperire observate.

Surse de prejudecată în acoperirea ARN-seq. (A) Graficele de acoperire ARN-seq pentru transcrierea IVT BC003355 din date simulate (negru), plasmidă (albastră), fără selecție (verde), epuizată cu ARN (roșu) și poliA (portocalie). Modelul genetic este afișat în negru, sub toate graficele de acoperire. Blocurile corespund exonilor și liniile indică intronii. Chevronii din liniile intronice indică direcția transcrierii. (B) Distribuții pentru coeficienții de variație între datele afișate mai sus, cu adăugarea datelor simulate QM (gri). Rețineți că, în timp ce graficul este tăiat la un coeficient de variație de 1,3, cozile pentru distribuțiile de ARN-epuizate și poliA se extind la 2,13 și respectiv 2,7. (C) Mărimi de efect pentru diferențele în distribuția coeficienților de variație între bibliotecile de secvențiere și datele simulate. Mărimile efectului sunt calculate ca rapoarte pe transcriere ale coeficienților de variație dintre o bibliotecă dată și setul de date simulat. QM, cantitatea potrivită.

Pentru a cuantifica variabilitatea pentru fiecare metodă de selecție, am calculat coeficientul de variație la nivelul unic de bază în acoperire pentru toate transcrierile IVT din fiecare dintre aceste seturi de date (Figura 4B). Folosind un test al sumei de rang Wilcoxon (plasmida n = 924, fără selecție n = 870, nR-epuizată n = 869), am constatat că datele epuizate cu ARN au avut o variabilitate semnificativ mai mare decât datele fără selecție și plasmide (P & lt2.2e -16). Mai mult, bibliotecile epuizate de ARNr și poliA au fost cu peste 60% mai variabile în medie decât biblioteca de plasmide (Figura 4C). Acest lucru sugerează că o porțiune semnificativă a variabilității observate în acoperirea transcrierilor din datele IVT-seq este rezultatul biologiei moleculare specifice ARN, în special etapa de selecție a ARN. Mai mult, după contabilizarea prejudecății introduse de secvențele în sine (date plasmidice) și a prejudecății introduse de reacția IVT (fără date de selecție), am constatat că 50% din transcrieri au avut două ori și 10% au avut variații de 10 ori în interiorul expresia transcrierii (Tabelul 2 și fișierul suplimentar 5: Figura S4). Deși este bine apreciat faptul că selecția polyA introduce părtinire, am constatat că datele epuizate cu ARN-ul au introdus la fel de mult, dacă nu chiar mai mult. Niciun set de date simulat nu a arătat transcrieri cu o modificare de două ori sau mai mare a expresiei în cadrul transcrierii. Din nou, acest lucru sugerează că variațiile observate în cadrul transcrierii nu sunt rezultatul artefactelor de aliniere sau al eșantionării datorate expresiei scăzute sau ridicate. O sursă de părtinire recunoscută în mod obișnuit apare din amorsarea aleatorie în timpul pregătirii bibliotecii [10]. Când am examinat diferitele biblioteci, am văzut că fragmente din toate datele ARN-seq au arătat frecvențe de nucleotide caracteristice polarizării de amorsare aleatorii (fișier suplimentar 8: Figura S6). Așa cum era de așteptat, datele plasmidei nu au arătat o astfel de prejudecată, deoarece au fost derivate direct din ADN și nu au necesitat o etapă de generare a ADNc. Cu toate acestea, diferențele semnificative dintre toate bibliotecile de ARN sugerează că părtinirea din amorsarea aleatorie nu este singurul factor. Datele de plasmidă și nici de selecție nu conțin încă o cantitate destul de variabilă atunci când sunt văzute alături de datele simulate (Figura 4A neagră). Când am examinat întregul set de date, atât datele plasmidei, cât și cele de selecție nu au avut o variație semnificativ mai mare decât oricare dintre seturile de date simulate (Wilcoxon rank-sum data simulated data n = 963, QM-simulated data n = 869, plasmid n = 924, no selection n = 870 P & lt2.2e -16). Aceste date sugerează că biologia moleculară specifică secvențierii comună tuturor bibliotecilor pe care le-am pregătit (ligatura adaptorului, amplificarea bibliotecii prin PCR) este, de asemenea, responsabilă pentru o porțiune a variabilității acoperirii observate și a polarizării secvențierii.

Biasurile asociate cu caracteristicile secvenței sunt dependente de metoda de selecție a ARN-ului

Având în vedere aceste diferențe semnificative în variabilitatea acoperirii, am căutat să identificăm caracteristicile secvenței care ar putea contribui la această prejudecată. Am considerat trei caracteristici ale secvenței cuantificabile: entropia hexamerică, conținutul GC și similitudinea secvenței cu ARNr (vezi Materiale și metode for a detailed description of these metrics). For each sequencing strategy (plasmid, no selection, rRNA-depleted, polyA), we tested if any of the three sequence characteristics had a significant effect on variability in sequencing coverage, as measured by the coefficient of variation. While we are primarily focused on coverage variability as an indicator of sequencing bias, we also looked at depth of coverage, as measured by FPKM.

For each sequencing strategy, we sorted the transcripts by coverage variability or depth. Next, we selected the 100 most and 100 least extreme transcripts from each list. We compared the values of the sequence characteristics between the 100 most and 100 least extreme transcripts using a Wilcoxon rank-sum test. Significant P-values indicate a significant association of the sequence characteristic with coverage variability and/or depth. The results of our analysis are displayed as box-plots (Figure 5 and Additional file 9: Figure S7).

Effects of sequence characteristics on coverage variability. Distributions of (A) hexamer entropy, (B) GC-content, and (C) rRNA sequence similarity for the 100 transcripts with the highest and lowest coefficients of variation for transcript coverage from the plasmid, no selection, rRNA-depleted, and polyA libraries. Asterisks indicate the significance of a Wilcoxon signed-rank test comparing values for the listed sequence characteristics between each pair of groups from the same sample. *P & lt0.05 **P <0.01 ***P & lt0.001.

To check for any confounding effects between coverage depth and variability, we tested the least and most expressed transcripts for any correlations with variability in coverage (Additional file 10: Figure S8). The polyA library showed a significant correlation (P <2.2e -16 ) between coverage variability and depth, which indicates sequence features could be affecting coverage through variability (or vice versa). The rRNA-depleted data showed a slight, significant correlation (P = 0.04933). It is possible some feature of RNA selection affects both variability and coverage, given that we saw no significant correlations for the two remaining samples. This indicates that coverage variability and depth are independent for the plasmid and no selection data.

All three sequence characteristics had a significant association with variability and depth-of-coverage in at least one of the sequencing strategies. In particular, lower hexamer entropy, a measure of sequence complexity [19–21], was strongly associated with higher variance in all of the RNA libraries (no selection P = 4.712e -05 rRNA depletion P = 3.956e -11 polyA P = 0.003921 Figure 5A). This suggests that bias associated with hexamer entropy is due partially to RNA-specific procedures in library preparation. Furthermore, an association with lower hexamer entropy indicates there are more repeat sequences in the transcripts with higher variability. This could be indicative of complex RNA secondary structures, as repeated motifs could facilitate hairpin formation. Furthermore, the absence of this association from the plasmid data suggests that this observation was not due to mapping artifacts. The plasmid data contained the same sequences as the RNA-seq data, and would be subject to the same biases introduced by our exclusion of multi-mapped reads.

Higher GC-content was strongly associated with lower coverage variability in the no selection and polyA data (P = 5.627e -13 P = 4.914e -05 Figure 5B), suggesting that the effects of GC-bias on within-transcript variability could arise, in part, due to some RNA-specific aspects of library preparation. Also, it appears that GC-bias was not a significant contributing factor to either depth of coverage or the extreme variability in the rRNA-depleted data. Meanwhile, lower GC-content was associated with higher coverage in the plasmid data (P = 3.776e -05 ), and lower coverage depth in the no selection and polyA libraries (no selection P = 8.531e -05 polyA P = 0.0009675 Additional file 9: Figure S7B). Given that this trend switched directions between the plasmid library and the RNA libraries, this also suggests that some RNA-specific aspect of library preparation is introducing GC-bias distinct from the high GC-bias associated with Illumina sequencing [22].

Interestingly, higher rRNA sequence similarity was associated with higher coverage variability in the rRNA-depleted library (P = 9.006e -05 ) and lower variability in the no selection library (P = 0.0367 Figure 5C). It is unsurprising that similarity to rRNA sequences contributed to variability in the rRNA-depleted data, given that rRNA depletion is based upon pair-binding between probes and rRNA sequences. While it is unclear why this trend was reversed in the no selection library, it is striking given the significant increase in within-transcript variability between the no selection and rRNA-depleted libraries (Figure 4B). Furthermore, we saw a slight but highly significant correlation (Pearson R 2 = 0.308452 P <2.2e -16 ) between a transcript sequence’s similarity to rRNA and the magnitude of the difference in coverage between the no selection and rRNA-depleted libraries (Additional file 11: Figure S9 and Additional file 12). While the majority of the factors contributing to the extreme bias in sequence coverage we saw in the rRNA-depleted data remain unclear, our data suggest this could be partially due to depletion of sequences homologous to rRNA.

Taken together, our data demonstrate the utility and potential of the IVT-seq method to identify sources of technical bias introduced by sequencing platforms and library preparation protocols.


Discuţie

RNA-seq has become a standard method for gene expression quantification and in most cases the sequencing library preparation involves amplification steps. Ideally, we would like to count the number of RNA molecules in the sample and thus would want to keep only one read per molecule. A common strategy applied for amplification correction in SNP-calling and ChIP-Seq protocols 23,24 is to simply remove reads based on their 5′ ends, so called read duplicates. Here, we show that this strategy is not suitable for RNA-seq data, because the majority of such SE-duplicates is likely due to sampling. For highly transcribed genes, it is simply unavoidable that multiple reads have the same 5′ end, also if they originated from different RNA-molecules. We find that only

20% (Smart-Seq) of the read duplicates cannot be explained by a simple sampling model with random fragmentation. This fraction decreases even more, if we factor in that the fragmentation of mRNA or cDNA during library preparation is clearly non-random, as evidenced by a strong correlation between the 5′ read positions of the ERCC-spike-ins across samples. Because local sequence content has little or no detectable effect on fragmentation, we cannot predict fragmentation, but we can quantify the observed effect. For example, we find that a fragmentation bias that halves the number of break points can fit the observed proportion of duplicates for TruSeq libraries well. For the Smart-Seq datasets, fragmentation biases would have to be much higher to explain the observed numbers of read duplicates. Furthermore, the fit between model estimates and the observed duplicate fractions is worse than for the TruSeq data and the model estimates for fragmentation bias are also inconsistent between the datasets (38.5 for the UHRR and 8 for the scHCT116).

Since computational methods cannot distinguish between fragmentation and PCR duplicates, the removal of read duplicates could introduce a bias rather than removing it. Using the ERCC-spike-ins, we can indeed show that removing duplicates computationally does not improve a fit to the known concentrations, but rather makes it worse, especially if only single-end reads are available (Fig. 5). This is in line with our observation that most single end duplicates are due to sampling and fragmentation. Hence, removing duplicates is similar to a saturation effect known for microarrays 25,26,27 .

Moreover, the Smart-Seq protocol, which was designed for small starting amounts, involves PCR amplification before the final fragmentation of the sequencing library. Thus in the case of Smart-Seq, computational methods cannot identify PCR duplicates that occur during the pre-amplification step. When we use unique molecular identifiers (UMIs), we find that 66% of the reads are PCR duplicates and only 34% originate from independent mRNA molecules. In contrast, when using paired-end mapping for a comparable Smart-Seq library, we identify 13% as duplicates and 87% as unique. This might in part be due to the fact that in UMI-Seq we sequence mainly 3′ ends of transcripts, thus decreasing the complexity of the library, which in turn increases the potential for PCR duplicates for a given sequencing depth (Fig. 4a, Supplementary Figure S1). However, it is unlikely that library complexity can explain the 53% difference in duplicate occurrence. This difference is more likely to be due to PCR-duplicates that are generated during pre-amplification and thus remain undetectable by computational means.

All in all, computational methods are limited when it comes to removing PCR-duplicates, but how much noise or bias do PCR duplicates introduce? In other words, we want to know how PCR-duplicates impact the power and the false discovery rate for the detection of differentially expressed genes. Both, power and FDR, are determined by the gene-wise mean expression and dispersion. Based on simulated differential expression using the empirically determined mean and dispersion distributions, we find that computational removal of duplicates has either a negligible or a negative impact on FDR and power and we therefore recommend not to remove read duplicates. In contrast, if PCR duplicates are removed using UMIs, both FDR and power improve. Even though the effects in the bulk data analysed here are relatively small: FDR is improved by 4% and the power by 2%, UMIs will become more important when using smaller amounts of starting material as it is the case for single-cell RNA-seq 6,28 .

The major differences in power are between the datasets with the TruSeq and the UMI-seq data achieving a power of around 80%, the UHRR-Smart-Seq 52% and the single cell Smart-Seq data (scHCT116) only 27%. Note that this apparently bad performance of the single cell Smart-Seq data is at least in part due to an unfair comparison. While all the other datasets were produced using commercially available mRNA and thus represent true technical replicates, the single cell data necessarily represent biological replicates and thus are expected to have a larger inherent variance and thus lower power.

However, also the UHRR Smart-Seq bulk data achieves with 52% a much lower power than the other bulk datasets. One possible explanation for the differences in power is the total number of PCR-cycles involved in the library preparation. With every PCR-cycle the power to detect a log 2-fold change of 0.5 appears to drop by 2.4% (Fig. 6c). The only exception is the UMI-seq dataset, that gives a power of 81%, even if duplicates are not removed, which is comparable to the power reached with TruSeq data despite the UMI-seq method having 12 more PCR-cycles. Technically UMI-seq is most similar to the Smart-Seq method. The biggest difference between the two methods is that all UMI-seq libraries are pooled before PCR-amplification, suggesting that the PCR-noise is due to the different PCR-reactions and not due to amplification efficiency per-se.

We conclude that computational removal of duplicates is not recommendable for differential expression analysis and if sufficient starting material is available so that only few PCR-cycles are necessary, the loss in power due to PCR duplicates is negligible. However, if more amplification is needed, power would be improved if all samples are pooled early on and for really low amounts as for single cell data also the gain in power that is achieved by removing PCR-duplicates using UMIs will become important.


The effect of methanol fixation on single-cell RNA sequencing data

Single-cell RNA sequencing (scRNA-seq) has led to remarkable progress in our understanding of tissue heterogeneity in health and disease. Recently, the need for scRNA-seq sample fixation has emerged in many scenarios, such as when samples need long-term transportation, or when experiments need to be temporally synchronized. Methanol fixation is a simple and gentle method that has been routinely applied in scRNA-seq. Yet, concerns remain that fixation may result in biases which may change the RNA-seq outcome.

Researchers from the Hong Kong University of Science and Technology adapted an existing methanol fixation protocol and performed scRNA-seq on both live and methanol fixed cells. Analyses of the results show methanol fixation can faithfully preserve biological related signals, while the discrepancy caused by fixation is subtle and relevant to library construction methods. By grouping transcripts based on their lengths and GC content, the researchers found that transcripts with different features are affected by fixation to different degrees in full-length sequencing data, while the effect is alleviated in Drop-seq result. This deep analysis reveals the effects of methanol fixation on sample RNA integrity and elucidates the potential consequences of using fixation in various scRNA-seq experiment designs.

Basic evaluation of fixation effect on sequencing data

(A) Workflow and experimental scheme. (B) Size distributions of cDNA libraries. Traces from single-cell libraries were merged to obtain a general pattern for live (top) and fixed (bottom) samples. Although the intensity of the

1500bp peak is diminished in fixed cells, there is no visible degradation. (C) Correlation matrix showing the transcriptome similarity of cells randomly chosen from live and fixed samples. The upper triangle of the matrix shows the Pearson correlation coefficient and the bottom triangle visualized correlation trend. Correlations are consistently high for both inter- and intra-treatment comparisons of live vs. fixed. There is no obvious bias revealed by measuring correlation between single-cell transcriptomes for all pairwise comparisons. (D) Correlation factors of all single cells were calculated pairwise and clustered by Euclidean distance. Correlations are consistently high for both inter- and intra-treatment comparisons of live vs. fixed (R2 >0.7). The mixed annotation bar indicates the transcriptome similarities do not distinguish cell treatments during sample preparation.


CONCLUZIE

Bias in general describes systematic errors that reflect method-related distortion from the truth. Bias might be detected easily when data generated by different methods are subjected to analytical comparison. Because it is systematic in nature, bias is not subject to variation in repeated experiments. Here, based on biochemical and deep sequencing data analyses, we have presented various steps in sRNA-seq protocols likely to cause severe distortions in the relative expression levels of individual sRNAs.

The efficacy of RNA end-modification to permit cDNA construction depends not only on differences in strategies and reagents but also on changes in, among others, buffer compositions and additives that could increase molecular crowding. Therefore, meta-analysis of data generated with non-identical methods, reagents or even buffers is likely to be error-prone ( 36, 39, 63, 78). To achieve comparable results and to evaluate relative changes in the quantification of the resulting data, experiments and analyses should be conducted under strictly identical conditions. It has to be stressed that bias in RNA-specific variation is not only restricted to inter-sample comparison, but also effects the relative ranking of intra-sample RNA expression.

In addition to the more obvious quantitative aspects of bias, there are also qualitative aspects because RNA-seq methods are also employed for RNA discovery. Individual RNAs might ‘drop out’ from detection because they are not amenable to cDNA construction under chosen conditions. Certainly, to increase the likelihood of productive RNA end-modification and increase the complexity of sRNA-seq library content, the parallel application of different strategies and reagents is required ( 33, 39, 63, 79). In particular, increased variability of adapter sequences (i.e. adapter pools) helps to increase the diversity of RNAs accessed ( 63). A recent report emphasized the need for parallel application of different RNA- and DNA-based adapter oligonucleotides ( 39).

The source of expression level distortion and the failure to detect certain RNA species at all, appear not to be limited to reactions of RNA/cDNA-end modification, but also apply to cDNA amplification by PCR ( 30–32). Differences in reaction buffers, RNA G/C-content, secondary structures, RNA length and primers might each lead to bias during PCR. Therefore, the analysis of sRNA-seq data to examine relative changes in gene expression or identification reflects both true RNA abundance and biases related to the methods applied.

The sRNA-seq approach is also attractive to medical research. Deep sequencing might permit the screening of multiple patient samples to monitor the progression of disease or treatment. Therefore, it is urgently necessary to establish rigid international standardizations to minimize distortion and to avoid misleading conclusions during RNA-seq data interpretation. In summary, qualitative and quantitative RNomics remain more challenging than anticipated.


From RNA to sequencing reads

The main goal of RNA-seq in most contexts is the accurate quantification of the original RNAs’ abundances in a sample, whether that refers to ‘bulk’ RNA from a homogenized cell population, or single cells. In practice, this amounts to correctly interpreting the number of sequencing reads that are obtained for each transcript. This problem is non-trivial due to several confounding factors preventing precise quantification, most of which are owed to the complexity of RNA-seq sample preparation.

Several steps are necessary to convert the RNAs in cell lysates into sequencing reads. Common to the vast majority of protocols are selecting which RNA is to be sequenced, the cDNA production steps of reverse transcription (RT) (often referred to as first-strand synthesis) and second-strand synthesis. The reason for selecting RNA to be sequenced is that the vast majority of RNA in cell lysates is ribosomal RNA, which is normally undesired. Removing it allows for more reads to be used towards the detection of less abundant RNA species of interest, such as mRNA. This is achieved by removing rRNA (‘ribodepletion’) or positive selection of RNAs of interest. RNA is replaced with DNA because RNA is problematic to work with it is subject to degradation through RNases and metal ion catalyzed hydrolysis at higher temperatures. It has a propensity to form secondary structures and cannot easily be amplified due to a lack of suitable enzymes and its compromised stability during thermal cycling. Synthesis of the second cDNA strand is necessary to enable adapter ligation for next generation sequencing, unless special adaptations are used [ 8]. Other protocols use the RT step to add adapter sequences directly, for instance by using a RT primer with overhanging adapter sequences. This idea is taken further in scRNA-seq protocols where the RT primer is often oligo-(dT)s (to capture polyadenylated mRNAs) with an overhang including adapter sequences, cell barcodes and unique molecular identifiers (see section UMIs e.g. 10x Chromium [ 9], Drop-seq [ 10] or InDrop [ 11]).

The only RNA-seq strategy that avoids cDNA conversion is direct RNA sequencing, as implemented by the ill-fated Helicos sequencing machine [ 12] or nanopore sequencing [ 13]. The latter is promising as a future technology producing long reads for single molecules it records the base sequence of individual nucleic acid strands as they are electrophoretically pulled through channels in a membrane. The system is plagued with high error rates, though, and most studies have exploratory character and/or use additional second generation (e.g. Illumina) sequencing to bolster sequencing quality [ 14].

RNA-seq libraries are usually fragmented by various means and size-selected in order to produce more sequencing reads at optimal length. This can occur before or after cDNA production. Direct fragmentation of RNA often uses metal-ion catalyzed hydrolysis at high temperatures (e.g. TruSeq) and cDNA fragmentation often uses physical methods (e.g. sonication) or enzymatic methods. ‘Tagmentation’ is a convenient enzymatic way to combine fragmentation and adapter ligation [ 15]. It uses transposase Tn5 to internally cleave double-stranded DNA and ligate oligonucleotides to both resulting ends in the same reaction. The material is usually further amplified by PCR. Often, an extended first PCR cycle is used to synthesize the second-strand. An alternative to PCR is linear amplification by in vitro transcription (IVT), as implemented by the CEL-seq protocol [ 16].

Each of these steps can skew the representation of original transcripts by sequencing reads. It is worth noting that there is a difference between variability and bias. Statistically, the average of a repeatedly sampled value needs to deviate from the true value to make it an actual bias random variation în sine is not enough. Biases in RNA-seq can have very different effects and it is important to understand, classify and quantify these. Two key properties that help categorize biases are their scară (local – bias is specific to one gene or individual positions, or global – bias occurs across genes in a systematic overall pattern) and their visibility (can be seen on a coverage plot, e.g. Figure 1A), which are explained in more detail below. These properties are not always independent.

(A) RNA-seq coverages by sequencing read along an example gene (Ube2s) for two biological replicates. Abrupt changes in exonic read densities (vertical dashed lines) often coincide across samples, suggesting that the local sequence environment is responsible for this type of bias. Data from GEO, accession numbers GSM710183 and GSM710184. (B) RNA-seq coverage along a typical transcript can be subject to bias at different scales the schematic illustration depicts an absence of visible bias (top left), a local bias (bottom left), a global bias (top right) and a combination of the latter two (bottom right). (C) Global bias depends on transcript lengths. Schematic illustration of the length-dependent effects compared to a short reference transcript with no visible bias (top left). Upon considering longer transcripts in the same sample, a global bias can appear (bottom left), which does not necessarily lead to a skewed overall representation of the transcripts (the dashed horizontal line indicates average coverage equal to the reference). However, different lengths often do lead to unequal representation of transcripts due to global bias that might be invisible or visible in terms of coverage (top and bottom right, respectively).

(A) RNA-seq coverages by sequencing read along an example gene (Ube2s) for two biological replicates. Abrupt changes in exonic read densities (vertical dashed lines) often coincide across samples, suggesting that the local sequence environment is responsible for this type of bias. Data from GEO, accession numbers GSM710183 and GSM710184. (B) RNA-seq coverage along a typical transcript can be subject to bias at different scales the schematic illustration depicts an absence of visible bias (top left), a local bias (bottom left), a global bias (top right) and a combination of the latter two (bottom right). (C) Global bias depends on transcript lengths. Schematic illustration of the length-dependent effects compared to a short reference transcript with no visible bias (top left). Upon considering longer transcripts in the same sample, a global bias can appear (bottom left), which does not necessarily lead to a skewed overall representation of the transcripts (the dashed horizontal line indicates average coverage equal to the reference). However, different lengths often do lead to unequal representation of transcripts due to global bias that might be invisible or visible in terms of coverage (top and bottom right, respectively).

In the next section, we introduce the two major methods for quantifying the abundance of RNA in a sample. We discuss how the sample preparation process introduces bias for coverage-based approaches, avoids these biases for UMI-based approaches, and how these approaches compare otherwise.


1. Introduction—the Importance of Transcriptional Profiling at Single Cell Resolution

Transcriptome profiling has been a popular tool in molecular biological research for more than a decade. Mostly implemented by microarray technology, it has led to numerous insights and discoveries. These range from cell type specific single factors that were identified in differential expression screens to findings based on large portions of the entire transcriptome, such as disease signatures (e.g., [1]) and the interrelations of epigenetic modifications and gene expression (e.g., [2]).

Following its recent introduction, RNA-sequencing (RNA-seq) [3,4] is rapidly replacing microarrays as the method of choice for the aforementioned endeavors. Besides superior accuracy in the quantification of expression, RNA-seq offers other advantages, such as the possibility to detect novel transcripts, splice variants or allele-specific expression [5]. mRNA-profiling was performed on single cells early [6] and RNA-seq is following suit [7].

The analysis of the transcriptome in individual cells offers a number of advantages compared to cell-averaging experiments. Tissues or other cellular assemblages are heterogeneous even if a single, “traditional” cell type is concerned. This is particularly apparent from the study of immune cell types that are often defined based on the expression of surface markers. Improving experimental technologies reveal continuous expression ranges and fairly unrestricted combinatorial expression of surface markers [8]. This means that boundaries between cell types are blurred and that every individual cell is different. A similar picture emerges with tumors. While tumors have been known to be heterogeneous mixtures of cell types for a long time [9], pioneering studies demonstrate the potential of genome sequencing in individual cells [10]. RNA-seq will thus provide a powerful means to facilitate functional characterization of the differences among the cells in a tumor.

While tumor cell heterogeneity can be attributed to accumulating mutations, even genetically identical cells, under identical conditions, display high variability in their gene and protein expression levels. This is usually referred to as “noise”, defined as variance or standard deviation over mean [11]. A number of studies have probed into the origins and mechanisms of noise and found it to be mostly due to the stochastic effects associated with the low numbers of involved molecules [12].

While standard microarray or RNA-seq experiments yield mean expression levels, distributions in single cells demonstrate that only a negligible portion of cells express mRNAs close to the actual mean levels. Depending on the skewness of the distributions, this could mean that cells that express certain mRNAs at “outlier” levels are functionally important, yet remain undetected by traditional experiments. Knowledge about the shape of the distributions can also be used to understand mechanisms that are involved in transcriptional regulation [13].


  • Edwin Antony, Ph.D.
  • Yuna Ayala, Ph.D.
  • Angel Baldan, Ph.D.
  • Tomasz Heyduk, Ph.D.
  • Michelle Pherson, Ph.D.
  • Nicola Pozzi, Ph.D.
  • Tracey Baird
  • Enrico Di Cera, M.D.
  • Joel Eissenberg, Ph.D.
  • Zachary Montague
  • Angela Spencer

Abdul Waheed, Ph.D., Emeritus Research Professor of Biochemistry, gifted $1 million to the Department of&hellip

Congratulations to Kaush Amunugama, Ph.D. Student in Dave Ford's lab, on receiving an ASBMB 2021 Graduate/Postdoctoral&hellip

Congratulations to David Ford, Ph.D., Professor of Biochemistry and Director of the Center for Cardiovascular&hellip

Congratulations to Sergey Korolev, Ph.D., whose application was the first to be funded through the&hellip

A recently published commentary by David Ford, Professor of Biochemistry, was highlighted in ASBMBToday. The&hellip


Priveste filmarea: Un selfie cu familia la biblioteca (Ianuarie 2022).