Informație

Erori frecvente pentru valoarea R scăzută în testul Bradford


Recent am început să fac teste Bradford pentru eșantioanele mele, iar curba mea standard a fost neliniară și am obținut valori R scăzute (.90-.95). Inițial am crezut că eroarea se referă la pipetare, cel mai probabil la adăugarea de BSA în timp ce stabilesc standardele, dar am repetat în îngrijire și cumva totuși obțin valori R mici. Există alte surse posibile de eroare?


  • S-ar putea să măsurați în afara intervalului dinamic al testului (puteți adăuga atât de mult / atât de puțin BSA la o anumită cantitate de reactiv).
  • Ați putea fi în afara intervalului liniar al spectrofotometrului dvs., de obicei sub 1 este bine, deși unele vechi / mizerabile s-ar putea să nu fie chiar fiabile peste 0,5.
  • Dacă ești rapid, îți măsoară diferitele concentrații și la momente diferite. Bradford depinde puțin de timp, așa că așteptarea timpului recomandat înainte de măsurarea standardelor nu este o idee rea.

Probabil că tot pipetează, încercați să pipetați cel puțin 20 uL în fiecare etapă de diluare și să vedeți dacă sunteți încă oprit.


Integritatea genomică este compromisă de erorile de replicare a ADN polimerazei, care apar într-o manieră dependentă de secvență de-a lungul genomului. Cuantificarea exactă și completă a spectrului de erori al ADN-polimerazei este dificilă, deoarece erorile sunt rare și greu de detectat. Raportăm o analiză a secvențializării cu randament ridicat pe hartă in vitro Erori de replicare a ADN la nivelul unei singure molecule. Spre deosebire de metodele anterioare, testul nostru este capabil să detecteze rapid un număr mare de erori de polimerază la rezoluția de bază pe orice substrat șablon fără prejudecăți de cuantificare. Pentru a depăși rata mare de eroare a secvențierii de mare viteză, testul nostru utilizează o strategie de codificare în bare în care fiecare produs de replicare este etichetat cu o secvență de nucleotide unică înainte de amplificare. Acest lucru permite compararea mai multor citiri de secvențiere ale aceluiași produs, astfel încât să poată fi găsite și eliminate erori de secvențiere. Demonstrăm capacitatea testului nostru de a caracteriza rata medie de eroare, punctele fierbinți de eroare și fidelitatea bypass-ului leziunii mai multor ADN polimeraze.

ADN-polimerazele acționează în timpul replicării și reparării ADN-ului pentru a cataliza sinteza unei catene de ADN complementare dintr-un șablon de ADN. Erorile făcute în timpul acestui proces de replicare sunt rare, dar pot determina boala (1, 2) sau evoluția (3, 4). Impactul erorilor ADN polimerazei depinde de tipul de eroare și de localizarea și frecvența acesteia, dar acestea sunt dificil de prezis. Acest lucru se datorează faptului că fiecare ADN polimerază are un spectru de eroare unic și fiecare organism conține un amestec divers de ADN polimeraze care sunt recrutate pe căi diferite (5). Ratele de eroare variază, de asemenea, în funcție de secvența șablon și bazele în care o ADN polimerază este deosebit de predispusă la erori („puncte fierbinți de eroare”) suferă mutageneză accelerată (6, 7). În plus, bazele ADN sunt supuse modificărilor chimice in vivo care poate compromite fidelitatea la diferite grade, în funcție de polimeraza de replicare (8, 9). În ansamblu, fidelitatea ADN polimerazei și impactul său asupra stabilității genomului au fost o provocare de înțeles.

Fidelitatea ADN polimerazei poate fi măsurată prin cuantificarea erorilor comise în timpul in vitro Replicarea ADN, dar erorile sunt rare și metodele de cuantificare existente au limitări semnificative. Metodele timpurii implicau transfectarea produselor de replicare în bacterii pentru amplificare și secvențiere clonală (10). Această metodă permite determinarea ratei medii de eroare a polimerazei, dar ratele de eroare nu pot fi cuantificate la rezoluția de bază, deoarece pot fi colectate foarte puține erori. Testele de mutație, care urmează o metodologie similară, selectează o genă țintă care provoacă o schimbare fenotipică a bacteriei transfectate dacă este reprodusă incorect, permițând selectarea coloniilor cu produse care conțin erori (11-14). Această modificare îmbunătățește randamentul, dar poate fi utilizată doar pentru a detecta erori la site-urile detectabile fenotipic pe un număr limitat de secvențe șablon și rămâne relativ redusă. Erorile care nu pot fi detectate fenotipic pot fi marcate numai dacă sunt făcute mai multe erori în timpul fiecărei runde de replicare, care apare frecvent doar pentru polimerazele foarte inexacte (15). Ca alternativă la selecția fenotipică, electroforeza de denaturare sau cromatografia în strat subțire poate fi utilizată pentru a separa produsele care conțin erori (16, 17). Separarea utilizând aceste tehnici este simplă atunci când sunt prezente doar câteva produse, cum ar fi atunci când o leziune ADN face ca majoritatea erorilor să fie făcute într-o singură poziție. Cu toate acestea, atunci când diversitatea erorilor este mai mare, obținerea unei rezoluții bune a erorilor este dificilă, deoarece sunt necesare cicluri multiple de separare, purificare și identificare a secvențierii. În lumina acestor limitări, înțelegerea noastră despre fidelitatea ADN-polimerazei ar beneficia de o nouă tehnică care are un randament mai mare și mai puține restricții practice.

Am dezvoltat o abordare mai puternică pentru a cuantifica fidelitatea ADN-polimerazei folosind secvențierea de mare viteză. Cu o secvențiere de mare viteză, un număr mare de produse de replicare poate fi secvențiat la nivelul unei singure molecule, permițând cuantificarea directă a erorilor rare fără detectarea erorilor intermediare și pașii de separare a produsului. Un obstacol semnificativ în calea acestei abordări este rata ridicată de eroare de secvențiere în instrumentele de secvențiere de mare viteză. Cu toate acestea, acest obstacol a fost depășit cu o strategie cunoscută sub numele de cod de bare (18-22), care permite identificarea și separarea erorilor de secvențiere. Tehnicile de secvențiere cu randament ridicat cu coduri de bare au fost utilizate anterior pentru a cuantifica fidelitatea ADN-polimerazei, dar aceste abordări anterioare aveau limitări. Într-o abordare, rata de eroare a ADN polimerazei Phusion a fost determinată prin cuantificarea proporției produselor PCR care conțineau erori (18). Cu toate acestea, erorile pot afecta eficiența PCR și pot provoca prejudecăți de amplificare (23). O altă abordare a avut o rată de eroare de fond ridicată, ceea ce face ca erorile ADN polimerazei să fie dificil de distins (24).

În acest raport, prezentăm o nouă abordare pentru a cuantifica fidelitatea ADN-polimerazei utilizând secvențierea cu cod de bare de mare viteză pe platforma Illumina. Metoda noastră evită prejudecățile de cuantificare PCR prin cuantificarea ratelor de eroare dintr-o singură rundă de sinteză a ADN-ului. Demonstrăm că abordarea noastră cu coduri de bare poate elimina erorile de secvențiere, rezultând un fundal de eroare scăzut. Apoi, evaluăm capacitatea sa de a cuantifica rata generală de eroare a ADN-polimerazei, de a obține spectre de eroare reproductibile, de a identifica punctele de mutație și de a evalua impactul unei leziuni ADN cu o singură bază asupra fidelității.


Introducere

Biologia în general și biologia sistemelor în special necesită din ce în ce mai mult detectarea și cuantificarea unui număr mare de analiți. Studiile proteomice sunt efectuate în mod obișnuit folosind o abordare cu pușcă, în care proteinele eșantionului sunt degradate enzimatic în peptide, care sunt apoi analizate prin spectrometrie de masă (MS). Astfel, un subset de peptide prezente în probă este selectat automat și parțial stocastic de spectrometrul de masă într-un proces denumit selecție a precursorului dependent de date. Biologia sistemelor necesită cuantificarea precisă a unui set specificat de peptide / proteine ​​pe mai multe probe derivate din celule în stări perturbate diferit (Ideker și colab, 2001). Această cerință strictă este condusă de obiectivul pe termen lung al biologiei sistemelor de a genera modele matematice care simulează sistemul și fac predicții specifice despre comportamentul său în diferite condiții. Deși analiza cantitativă cuprinzătoare a transcriptomului a devenit rutină folosind tehnologia microarray și alte tehnologii de profilare a transcrierii (Katagiri și Glazebrook, 2004), analizele proteomice cantitative la o adâncime și consistență similare nu au fost realizate de abordările proteomice actuale ale puștii. Pe lângă sensibilitatea lor limitată, un neajuns principal al acestor metode este reproductibilitatea redusă a selecției țintei, ceea ce duce la identificarea seturilor de proteine ​​doar parțial suprapuse din probe substanțial similare. Astfel de seturi de date fragmentare sunt, de asemenea, nesatisfăcătoare pentru aplicații, în afară de biologia sistemelor, în care sunt necesare profiluri de cuantificare complete pentru fiecare dintre proteinele cuantificate. Prin urmare, sunt necesare noi abordări pentru a furniza date cantitative precise din seturi definite de proteine ​​în mod fiabil, pe mai multe probe.

Monitorizarea reacțiilor selectate (SRM) are potențialul de a depăși, cel puțin parțial, neajunsurile abordărilor proteomice actuale ale puștii (a se vedea caseta I pentru o prezentare generală a metodelor de cuantificare bazate pe MS). SRM exploatează capabilitățile unice ale triple quadrupolului (QQQ) MS pentru analize cantitative. În SRM, primul și al treilea quadrupol acționează ca filtre pentru a selecta în mod specific predefinit m/z valori corespunzătoare ionului peptidic și unui ion fragment specific al peptidei, în timp ce al doilea cvadrupol servește drept celulă de coliziune (Figura 1). Mai multe astfel de tranziții (perechi de ioni precursor / fragment) sunt monitorizate în timp, producând un set de urme cromatografice cu timpul de reținere și intensitatea semnalului pentru o tranziție specifică ca coordonate. Cele două niveluri de selecție a masei cu ferestre de masă înguste au ca rezultat o selectivitate ridicată, întrucât ionii de fundal coeluând sunt filtrați foarte eficient. Spre deosebire de alte tehnici proteomice bazate pe MS, nu sunt înregistrate spectre de masă complete în analiza SRM bazată pe QQQ. Natura non-scanare a acestui mod de operare se traduce printr-o sensibilitate crescută cu unul sau două ordine de mărime comparativ cu tehnicile convenționale de „scanare completă”. În plus, rezultă un răspuns liniar pe o gamă dinamică largă de până la cinci ordine de mărime. Acest lucru permite detectarea proteinelor cu abundență redusă în amestecuri extrem de complexe, ceea ce este crucial pentru studiile cantitative sistematice.


Care este o valoare bună pentru R-pătrat?

Adesea se pune întrebarea: „care este o valoare bună pentru R-squared?” Sau „# 8220 cât de mare trebuie să fie R-squared pentru ca modelul de regresie să fie valid?” # 8221 Uneori, revendicarea este făcută chiar: util cu excepția cazului în care R-pătratul său este cel puțin x ", unde x poate fi o fracție mai mare de 50%. Răspunsul corect la această întrebare este râsul politicos urmat de: "Asta depinde!"

R-pătrat este procentul de varianță explicat & # 8220 de model. Acesta este, R-pătrat este fracția cu care varianța erorilor este mai mică decât varianța variabilei dependente. (Ultimul număr ar fi varianța de eroare pentru un model numai constant, care doar prezice că fiecare observație va fi egală cu media eșantionului.) Se numește R-pătrat deoarece într-un model de regresie simplu este doar pătratul corelației între variabilele dependente și independente, care este notată în mod obișnuit cu & # 8220r & # 8221. Într-un multiplu modelul de regresie R-pătrat este determinat de corelații perechi între toate variabilele, inclusiv corelațiile variabilelor independente între ele, precum și cu variabila dependentă. În această din urmă setare, rădăcina pătrată a R-pătrat este cunoscută sub numele de & # 8220multiple R & # 8221 și este egală cu corelația dintre variabila dependentă și modelul de regresie & # 8217s predicții pentru aceasta. (Notă: dacă modelul nu include o constantă, care este așa-numita & # 8220regression prin origine & # 8221, atunci R-squared are o definiție diferită. Consultați această pagină pentru mai multe detalii. Nu puteți compara R-pătrat între un model care include o constantă și unul care nu.)

În general, este mai bine să te uiți ajustat R-pătrat mai degrabă decât R-pătrat și să se uite la eroare standard a regresiei mai degrabă decât abaterea standard a erorilor. Acestea sunt nepărtinitor estimatori care corectează dimensiunea eșantionului și numărul de coeficienți estimate. R-pătrat ajustat este întotdeauna mai mic decât R-pătrat, dar diferența este de obicei foarte mică, cu excepția cazului în care încercați să estimați prea mulți coeficienți dintr-un eșantion prea mic în prezența unui zgomot prea mare. Specific, R-pătrat ajustat este egal cu 1 minus (n - 1) / (n & # 8211 k - 1) ori 1-minus-R-pătrat, unde n este dimensiunea eșantionului și k este numărul de variabile independente. (Este posibil ca R-pătrat ajustat să fie negativ dacă modelul este prea complex pentru dimensiunea eșantionului și / sau variabilele independente au o valoare predictivă prea mică, iar unele programe informative doar raportează că R-pătrat ajustat este zero în acest caz.) R-pătrat ajustat are aceeași relație cu standardul eroare a regresiei pe care pătratul R o are la deviația standard a erorilor: una crește în mod necesar când cealaltă coboară pentru modelele montate pe același eșantion din aceeași variabilă dependentă.

Acum, care este varianța relevantă care necesită explicații și cât de mult sau cât de puțin este necesară sau utilă explicația? Există o gamă largă de aplicații pentru analiza regresiei liniare în știință, medicină, inginerie, economie, finanțe, marketing, producție, sport etc. În unele situații, variabilele luate în considerare au relații foarte puternice și intuitiv evidente, în timp ce în alte situații poate căutați semnale foarte slabe în date foarte zgomotoase. Deciziile care depind de analiză ar putea avea marje înguste sau largi pentru eroarea de predicție, iar miza ar putea fi mică sau mare. De exemplu, în cercetarea medicală, un nou tratament medicamentos ar putea avea efecte foarte variabile asupra pacienților individuali, în comparație cu tratamentele alternative, și totuși ar avea beneficii semnificative statistic într-un studiu experimental pe mii de subiecți. Adică, cantitatea de varianță explicată la prezicerea rezultatelor individuale ar putea fi mică și, totuși, estimările coeficienților care măsoară efectele medicamentului ar putea fi semnificativ diferite de zero (măsurate prin valori P scăzute) probă. Un astfel de rezultat ar putea salva multe vieți pe termen lung și ar putea avea profituri în valoare de milioane de dolari dacă va avea ca rezultat aprobarea medicamentului pentru utilizarea pe scară largă.

Chiar și în contextul unei singure probleme de decizie statistică, pot exista multe modalități de a încadra analiza, rezultând diferite standarde și așteptări pentru cantitatea de varianță care trebuie explicată în etapa de regresie liniară. Am văzut până acum că sunt multe transformări care poate fi aplicată unei variabile înainte de a fi utilizată ca variabilă dependentă într-un model de regresie: deflație, înregistrare, ajustare sezonieră, diferențiere. Toate aceste transformări vor schimba varianța și pot modifica, de asemenea unități în care se măsoară varianța. Înregistrarea modifică complet unitățile de măsură: aproximativ vorbind, măsurile de eroare devin mai degrabă procente decât sume absolute, așa cum se explică aici. Deflația și ajustarea sezonieră schimbă, de asemenea, unitățile de măsură, iar diferențierea reduce, de obicei, varianța dramatic atunci când este aplicată datelor seriale de timp nestatiare. Prin urmare, dacă variabila dependentă din modelul de regresie a fost deja transformată într-un fel, este posibil ca o mare parte a varianței să fi fost deja & quotexplained & quot doar prin acel proces. În ceea ce privește varianța care ar trebui măsurată îmbunătățirea în astfel de cazuri: cea din seria originală, seria dezumflată, seria ajustată sezonier, seria diferențiată sau seria înregistrată? Nu puteți compara în mod semnificativ pătratul R între modelele care au folosit transformări diferite ale variabilei dependente, după cum va ilustra exemplul de mai jos.

Mai mult, varianța este o cantitate greu de gândit, deoarece este măsurată în unități pătrate (dolari pătrate, cutii de bere pătrate & # 8230.). Este mai ușor să gândești în termeni de abateri standard, deoarece sunt măsurate în aceleași unități ca variabilele și determină în mod direct lățimile intervalelor de încredere. Deci, este instructiv să luați în considerare și & # 8220 procentul abaterii standard explicat, & # 8221 adică procentul cu care abaterea standard a erorilor este mai mică decât abaterea standard a variabilei dependente. Aceasta este egală cu unul minus rădăcina pătrată a 1-minus-R-pătrat. Iată un tabel care arată conversia:

De exemplu, dacă modelul R-pătrat este de 90%, varianța erorilor sale este cu 90% mai mică decât varianța variabilei dependente, iar abaterea standard a erorilor sale este cu 68% mai mică decât abaterea standard a variabilei dependente . Adică, abaterea standard a erorilor modelului de regresie & # 8217s este de aproximativ 1/3 dimensiunea abaterii standard a erorilor pe care le-ați obține cu un model numai constant. Este foarte bun, dar nu sună la fel de impresionant ca și EXPUNEREA PROCENTULUI LA NOUĂ!

Dacă modelul R-pătrat este de 75%, abaterea standard a erorilor este exact jumătate din abaterea standard a variabilei dependente. Acum, să presupunem că adăugarea unei alte variabile sau două la acest model crește R-pătrat la 76%. Asta și mai bine, nu? Ei bine, prin formula de mai sus, acest lucru mărește procentul de deviație standard explicat de la 50% la 51%, ceea ce înseamnă că deviația standard a erorilor este redusă de la 50% din cea a modelului numai constant la 49%, o contracție de 2% în termeni relativi. Intervalele de încredere pentru prognozele produse de cel de-al doilea model ar fi, prin urmare, cu aproximativ 2% mai restrânse decât cele ale primului model, în medie, insuficiente pentru a observa pe un grafic. Ar trebui să vă întrebați: merită asta creșterea complexității modelului?

O creștere a pătratului R de la 75% la 80% ar reduce abaterea standard de eroare cu aproximativ 10% în termeni relativi. Aceasta începe să crească la nivelul unei reduceri perceptibile a lățimilor intervalelor de încredere. Dar nu uitați, intervalele de încredere sunt ghiduri realiste pentru precizia predicțiilor numai dacă ipotezele modelului și ale modelului # 8217 sunt corecte. Atunci când adăugați mai multe variabile la un model, trebuie să vă gândiți la ipotezele cauză-efect care implicit implică și ar trebui să vă uitați și la modul în care adăugarea lor modifică coeficienții estimate ai altor variabile. Devin mai ușor de explicat sau mai greu? Și statisticile și graficele reziduale indică faptul că ipotezele modelului și ale modelului # 8217 sunt OK? Dacă nu sunt, nu ar trebui să fiți obsedat de micile îmbunătățiri ale pătratului R oricum. Problemele tale se află în altă parte.

O altă regulă la îndemână: pentru valori mici (R-pătrat mai mic de 25%), procentul de deviație standard explicat este aproximativ jumătate din procentul de varianță explicat. Deci, de exemplu, un model cu un R-pătrat de 10% produce erori care sunt cu 5% mai mici decât cele ale unui model cu constantă, în medie.

Cât de mare este un R-pătrat suficient de mare și # 8221 sau motiv de sărbătoare sau disperare? Acest lucru depinde de situația de luare a deciziilor și depinde de obiectivele sau nevoile dvs. și depinde de modul în care este definită variabila dependentă. În unele situații ar putea fi rezonabil să sperăm și să ne așteptăm să explicăm 99% din varianță sau echivalent 90% din deviația standard a variabilei dependente. În alte cazuri, s-ar putea să vă considerați că mergeți foarte bine dacă ați explica 10% din varianță sau echivalent 5% din deviația standard sau poate chiar mai puțin. Următoarea secțiune oferă un exemplu care evidențiază aceste probleme. Dacă doriți să omiteți exemplul și să mergeți direct la comentariile finale, faceți clic aici.

Un exemplu în care R-pătrat este un ghid slab pentru analiză: Luați în considerare seria lunară de vânzări auto din SUA care a fost utilizată pentru ilustrare în primul capitol al acestor note, al cărui grafic este reprodus aici:

Unitățile sunt miliarde de dolari, iar intervalul de date prezentat aici este din ianuarie 1970 până în februarie 1996. Să presupunem că obiectivul analizei este de a prezice vânzările lunare de autovehicule din venitul personal total lunar. Folosesc aceste variabile (și acest interval de date vechi) din două motive: (i) acest exemplu foarte (prost) a fost folosit pentru a ilustra beneficiile analizei de regresie într-un manual pe care îl foloseam în acea epocă și (ii) I au văzut mulți studenți întreprinde proiecte de prognoză auto-proiectate în care au adaptat orbește modele de regresie utilizând indicatori macroeconomici precum venitul personal, produsul intern brut, șomajul și prețurile acțiunilor ca predictori pentru aproape orice, logica fiind că acestea reflectă starea generală economiei și, prin urmare, au implicații pentru orice tip de activitate comercială. Poate că da, dar întrebarea este dacă o fac într-un liniar, aditiv moda care iese în evidență împotriva zgomotului de fundal din variabila care urmează să fie prezisă și dacă explică în mod adecvat tiparele de timp în date și dacă cedează util predicții și inferențe în comparație cu alte moduri în care ați putea alege să vă petreceți timpul. Reveniți la începutul paginii.

Graficul corespunzător al venitului personal (de asemenea, în miliarde de dolari) arată astfel:

Nu există o caracter sezonier în datele privind veniturile. De fapt, nu există aproape niciun tipar în el, cu excepția unei tendințe care a crescut ușor în anii anteriori. (Acest lucru nu este un semn bun dacă sperăm să obținem prognoze care să aibă vreo specificitate.) Prin comparație, modelul sezonier este cea mai izbitoare caracteristică a vânzărilor auto, așa că primul lucru care trebuie făcut este să ajustează sezonier acesta din urmă. Vânzările de autovehicule ajustate sezonier (obținute independent din aceeași sursă guvernamentală) și venitul personal se aliniază astfel, atunci când sunt reprezentate pe același grafic:

Tendințele puternice și, în general, similare sugerează că vom obține o valoare foarte ridicată a R-pătrat dacă regresăm vânzările pe venit, și într-adevăr o facem. Iată tabelul rezumat pentru această regresie:

R-pătrat ajustat este de aproape 97%! Cu toate acestea, un rezultat ca acesta este de așteptat atunci când regresăm o serie puternic tendințată pe orice altă serie puternic tendințată, indiferent dacă sunt legate în mod logic. Iată graficul de potrivire a liniei și graficul reziduuri vs timp pentru model:

Diagrama rezidual vs timp indică faptul că modelul are unele probleme teribile. În primul rând, este foarte puternic autocorelare pozitivă a erorilor, adică o tendință de a face aceeași eroare de multe ori la rând. De fapt, autocorelația lag-1 este de 0,77 pentru acest model. Este clar de ce se întâmplă acest lucru: cele două curbe nu au exact aceeași formă. Tendința din seria de vânzări auto tinde să varieze în timp, în timp ce tendința veniturilor este mult mai consistentă, astfel încât cele două variabile se desconectează între ele. Acest lucru este tipic pentru datele de serie temporale nestationare. Al doilea, cele mai mari erori ale modelului au apărut în ultimii ani și în special în ultimele luni (la sfârșitul & # 8220de afaceri & # 8221 al datelor, așa cum îmi place să spun), ceea ce înseamnă că ar trebui să ne așteptăm ca și următoarele erori să fie imense, având în vedere corelația puternică pozitivă dintre erorile consecutive. Și, în cele din urmă, varianța locală a erorilor crește constant în timp. Motivul pentru aceasta este că variațiile aleatorii ale vânzărilor de autovehicule (la fel ca majoritatea celorlalte măsuri ale activității macroeconomice) tind să fie consecvente în timp în procent mai degrabă decât termeni absoluți, iar nivelul absolut al seriei a crescut dramatic datorită unei combinații de creștere inflaționistă și creștere reală. Pe măsură ce nivelul este crescut, variația fluctuațiilor aleatorii a crescut odată cu acesta. Intervalele de încredere pentru prognoze în viitorul apropiat vor fi, prin urmare, mult prea restrânse, bazându-se pe dimensiunile medii ale erorilor de-a lungul întregului istoric al seriei. Deci, în ciuda valorii ridicate a pătratului R, acesta este un foarte model prost. Reveniți la începutul paginii.

O modalitate de a încerca să îmbunătățim modelul ar fi să dezumfla ambele serii mai întâi. Acest lucru ar elimina cel puțin componenta inflaționistă a creșterii, care sperăm că va face ca varianța erorilor să fie mai consistentă în timp. Iată un grafic de serii temporale care arată vânzările de autovehicule și veniturile personale după ce acestea au fost dezumflate prin împărțirea acestora la indicele prețurilor de consum pentru toate produsele (IPC) din SUA la fiecare moment în timp, cu IPC normalizat la o valoare de 1,0 în februarie 1996 (ultimul rând al datelor). Într-adevăr, acest lucru aplatizează oarecum tendința și aduce, de asemenea, unele detalii fine în variațiile de la lună la lună, care nu erau atât de evidente în complotul original. În special, începem să vedem niște denivelări mici și zdruncinări în datele privind veniturile, care se aliniază aproximativ cu denivelări și zdruncinături mai mari în datele de vânzări auto.

Dacă potrivim un model de regresie simplu acestor două variabile, se obțin următoarele rezultate:

R-pătrat ajustat este doar 0,788 pentru acest model, ceea ce este mai rău, nu? Ei bine, nu. Am explicat o parte din varianța datelor originale, dezumflându-le înainte de a monta acest model. Deoarece variabilele dependente nu sunt aceleași, nu este potrivit să se facă o comparație cap la cap a R-pătrat. Probabil că acesta este un model mai bun, deoarece separă creșterea reală a vânzărilor de creșterea inflaționistă și, de asemenea, deoarece erorile au o variație mai consistentă în timp. (Această din urmă problemă nu este linia de jos, dar este un pas în direcția fixării ipotezelor modelului.) Cel mai interesant este faptul că datele despre venituri dezumflate arată unele detalii fine care se potrivesc cu modele similare în datele de vânzări. Cu toate acestea, varianța de eroare este încă departe de a fi constantă pe parcursul celor două decenii și jumătate complete, iar problemele erorilor necorespunzătoare autocorelate și a unei adaptări deosebit de slabe la cele mai recente date nu au fost rezolvate.

O altă statistică pe care am putea fi tentați să o comparăm între aceste două modele este eroarea standard a regresiei, care în mod normal este cea mai bună statistică de linie de jos pe care să ne concentrăm. Al doilea model și eroarea standard # 8217 este mult mai mare: 3,253 față de 2,218 pentru primul model. Dar așteptați & # 8230, nici aceste două numere nu pot fi comparate direct, deoarece nu sunt măsurate în aceleași unități. Eroarea standard a primului model este măsurată în unități de dolar curents, în timp ce eroarea standard a celui de-al doilea model este măsurată în unități de 1996 dolaris. Acestea au fost decenii de inflație ridicată, iar dolarii din 1996 nu au valorat aproape atât de mult cât au valorat dolarii în anii anteriori. (De fapt, un dolar din 1996 valora doar aproximativ un sfert din dolarul din 1970.) Reveniți la începutul paginii.

Coeficienții de pantă din cele două modele sunt de asemenea de interes. Deoarece unitățile variabilelor dependente și independente sunt aceleași în fiecare model (dolari curenți în primul model, 1996 dolari în al doilea model), coeficientul de înclinație poate fi interpretat ca creșterea anticipată a dolarilor cheltuiți pe autoturisme pe dolar de creștere a venitului. Coeficienții de înclinație din cele două modele sunt aproape identici: 0,086 și 0,087, ceea ce implică faptul că pe marjă, între 8,6% și 8,7% din venitul suplimentar este cheltuit pe autovehicule.

Să încercăm acum ceva complet diferit: montarea unui model simplu de serie temporală la datele dezumflate. În special, să se potrivească o model de mers aleator cu drift, ceea ce este în mod logic echivalent cu adaptarea unui model numai constant la prima diferență (perioada de schimbare a perioadei) în seria originală. Să se numească seria diferențiată AUTOSALES_SADJ_1996_DOLLARS_DIFF1 (care este numele care ar fi atribuit automat în RegressIt). Observați că acum suntem cu 3 niveluri adânci în transformările datelor: ajustarea sezonieră, deflația și diferențierea! Acest tip de situație este foarte frecvent în analiza seriilor temporale. Iată rezultatele potrivirii acestui model, în care AUTOSALES_SADJ_1996_DOLLARS_DIFF1 este variabila dependentă și nu există variabile independente, ci doar constanta. Acest model prezice doar că fiecare diferență lunară va fi aceeași, adică prezice o creștere constantă față de valoarea lunii anterioare și valoarea # 8217.

R-pătratul ajustat a scăzut la zero! Aceasta nu este o problemă: o regresie numai constantă are întotdeauna un R-pătrat de zero, dar asta nu înseamnă neapărat că nu este un model bun pentru variabila dependentă particulară care a fost utilizată. În schimb, ar trebui să ne uităm la eroarea standard a regresiei. Unitățile și eșantionul variabilei dependente sunt aceleași pentru acest model ca și pentru precedentul, astfel încât erorile lor de regresie standard pot fi comparate în mod legitim. (Mărimea eșantionului pentru al doilea model este de fapt cu 1 mai mică decât cea a primului model din cauza lipsei valorii perioadei zero pentru calcularea unei diferențe a perioadei 1, dar acest lucru este nesemnificativ într-un set de date atât de mare.) Standardul de regresie eroarea acestui model este de doar 2.111, comparativ cu 3.253 pentru precedent, o reducere de aproximativ o treime, ceea ce reprezintă o îmbunătățire foarte semnificativă. (Graficul rezidual vs timp pentru acest model și cel anterior au aceeași scalare verticală: uitați-vă la amândouă și comparați dimensiunea erorilor, în special cele care au apărut recent.) Motivul pentru care acest model și previziunile # 8217 sunt atât de mult mai precis este că se uită la luna trecută și valorile reale ale vânzărilor, în timp ce modelul anterior se referea doar la datele privind venitul personal. Este adesea cazul în care cele mai bune informații despre locul în care urmează să urmeze o serie de timp este locul în care au fost în ultima vreme.

Nu există un grafic de potrivire a liniei pentru acest model, deoarece nu există o variabilă independentă, dar aici este graficul rezidual versus timp:

Aceste reziduuri par destul de aleatorii cu ochiul liber, dar de fapt prezintă autocorelație negativă, adică o tendință de alternare între suprapredicție și subpredicție de la o lună la alta. (Autocorelația lag-1 aici este -0.356.) Acest lucru se întâmplă adesea atunci când sunt utilizate date diferențiate, dar în general erorile acestui model sunt mult mai aproape de a fi distribuite independent și identic decât cele din cele două precedente, deci putem avea o bună acordați mai multă încredere în orice intervale de încredere pentru prognozele care pot fi calculate din acesta. Desigur, acest model nu face lumină asupra relației dintre venitul personal și vânzările de autovehicule.

Deci, care este relația dintre vânzările auto și venitul personal? Aceasta este o întrebare complexă și nu va fi urmărită mai departe aici, cu excepția menționării faptului că există alte lucruri simple pe care le-am putea face în afară de potrivirea unui model de regresie. De exemplu, am putea calcula procentajul veniturilor cheltuite pe automobile în timp, adică, doar împărțiți seria de vânzări auto la seria veniturilor personale și vedeți cum arată modelul. Iată imaginea rezultată:

Acest grafic ilustrează frumos variațiile ciclice ale fracției de venituri cheltuite pe autovehicule, ceea ce ar fi interesant să încercăm să se potrivească cu alte variabile explicative. Intervalul este de la aproximativ 7% la aproximativ 10%, ceea ce este în general în concordanță cu coeficienții de pantă care au fost obținuți în cele două modele de regresie (8,6% și 8,7%). Cu toate acestea, acest grafic subliniază din nou ceea ce s-a văzut în graficele rezidual vs timp pentru modelele de regresie simple: fracțiunea veniturilor cheltuite pe autovehicule nu este consecventă în timp. În special, observați că fracția a crescut spre sfârșitul eșantionului, depășind 10% în ultima lună.

Concluzia aici este că R-pătrat nu a fost de nici un folos în a ne ghida prin această analiză specială către modele din ce în ce mai bune. De fapt, printre modelele luate în considerare mai sus, cel mai rău avea un R-pătrat de 97%, iar cel mai bun avea un R-pătrat de zero. În diferite etape ale analizei, s-au sugerat transformări de date: ajustare sezonieră, dezumflare, diferențiere. (Înregistrarea nu a fost încercată aici, dar ar fi fost o alternativă la deflație.) Și de fiecare dată când variabila dependentă este transformată, devine imposibil să se facă comparații semnificative înainte-și-după R-pătrat. Mai mult, regresia nu a fost probabil nici măcar cel mai bun instrument de utilizat aici pentru a studia relația dintre cele două variabile. Nu este o cheie universală & # 8220 care trebuie utilizată pentru fiecare problemă. Reveniți la începutul paginii.

Deci, ce este o valoare bună pentru R-pătrat? Depinde de variabila față de care o măsurați, depinde de unitățile în care este măsurată acea variabilă și dacă au fost aplicate transformări de date și depinde de contextul decizional. Dacă variabila dependentă este o serie temporală non-staționară (de exemplu, tendință sau mers aleator), o valoare pătrată R foarte apropiată de 1 (cum ar fi cifra de 97% obținută în primul model de mai sus) poate să nu fie foarte impresionantă. De fapt, dacă R-pătrat este foarte aproape de 1, iar datele constau în serii de timp, acesta este de obicei un semn rău mai degrabă decât unul bun: vor exista deseori modele de timp semnificative în erori, ca în exemplul de mai sus. Pe de altă parte, dacă variabila dependentă este corectă staționarizat serie (de exemplu, diferențe sau diferențe procentuale mai degrabă decât niveluri), atunci un R-pătrat de 25% poate fi destul de bun. De fapt, un R-pătrat de 10% sau chiar mai puțin ar putea avea o anumită valoare a informațiilor atunci când căutați un semnal slab în prezența multor zgomote într-un cadru în care chiar și un foarte unul slab ar fi de interes general. Uneori există o mare valoare în explicarea doar a unei fracțiuni foarte mici a varianței și, uneori, nu există. Transformările datelor, cum ar fi înregistrarea sau dezumflarea, modifică, de asemenea, interpretarea și standardele pentru R-pătrat, în măsura în care modifică varianța cu care începeți.

Cu toate acestea, fiți foarte atenți atunci când evaluați un model cu o valoare redusă a pătratului R. Într-o astfel de situație: (i) este mai bine dacă setul de variabile din model este determinat a priori (ca în cazul unui experiment proiectat sau a unui test de ipoteză bine pusă) mai degrabă prin căutarea într-o linie de suspecți selectați (ii) datele ar trebui să fie curate (să nu fie contaminate de valori aberante, măsurători inconsistente sau ambiguități în ceea ce se măsoară, ca în cazul sondajelor slab formulate date subiecților nemotivați) (iii) estimările coeficientului ar trebui să fie individuale sau cel puțin în comun semnificativ diferit de zero (măsurat prin valorile lor P și / sau valoarea P a statisticii F), care poate necesita un eșantion mare pentru a obține în prezența unor corelații scăzute și (iv) este un bun idee de făcut validare încrucișată (testarea în afara eșantionului) pentru a vedea dacă modelul funcționează cam la fel de bine pe datele care nu au fost utilizate pentru identificarea sau estimarea acestuia, în special atunci când structura modelului nu a fost cunoscută a priori. Este ușor să găsiți corelații false (accidentale) dacă mergeți într-o expediție de pescuit într-un grup mare de variabile independente candidate în timp ce utilizați standarde scăzute pentru acceptare. Am solicitat adesea studenților să utilizeze această abordare pentru a încerca să prezică rentabilitățile stocurilor folosind modele de regresie - ceea ce nu recomand - și nu este neobișnuit pentru ei să găsească modele care să dea valori R-pătrat în intervalul de la 5% la 10 %, dar practic nu supraviețuiesc niciodată testării în afara eșantionului. (În schimb, ar trebui să cumpărați fonduri indexate.)

Există o varietate de moduri prin care puteți valida încrucișat un model. O discuție a unora dintre ele poate fi găsită aici. Dacă software-ul dvs. nu oferă astfel de opțiuni, există teste simple pe care le puteți efectua pe cont propriu. Unul este să împărțiți setul de date în jumătate și să încadrați modelul separat în ambele jumătăți pentru a vedea dacă obțineți rezultate similare în ceea ce privește estimările coeficientului și R-pătrat ajustat.

Când lucrați cu date de serie temporală, dacă comparați abaterea standard a erorilor unui model de regresie care folosește predictori exogeni față de cel al unui model simplu de serie temporală (să zicem, un model de netezire autoregresivă sau exponențială sau de mers aleatoriu), este posibil să fiți dezamăgiți de ceea ce găsiți. Dacă variabila care urmează să fie prezisă este o serie de timp, se va întâmpla adesea că cea mai mare parte a puterii predictive este derivată din propria sa istorie prin întârzieri, diferențe și / sau ajustări sezoniere. Acesta este motivul pentru care am petrecut ceva timp studiind proprietățile modelelor de serii temporale înainte de a aborda modelele de regresie.

O regulă generală pentru valori mici ale R-pătrat : Dacă pătratul R este mic (să zicem 25% sau mai puțin), atunci fracția cu care abaterea standard a erorilor este mai mică decât abaterea standard a variabilei dependente este aproximativ jumătate din R-pătrat, așa cum se arată în tabelul de mai sus. Deci, de exemplu, dacă modelul dvs. are un R-pătrat de 10%, atunci erorile sale sunt cu aproximativ 5% mai mici în medie decât cele ale unui model cu constantă, care doar prezice că totul va fi egal cu media. Este suficient pentru a fi util sau nu? Un alt punct de referință la îndemână: dacă modelul are un R-pătrat de 75%, erorile sale sunt cu 50% mai mici în medie decât cele ale unui model numai constant. (Aceasta nu este o aproximare: rezultă direct din faptul că reducerea abaterii standard de eroare la & frac12 din valoarea sa anterioară este echivalentă cu reducerea varianței sale la & frac14 din valoarea sa anterioară.)

În general ar trebui uitați-vă la R-pătrat ajustat, mai degrabă decât la R-pătrat. R-pătrat ajustat este un nepărtinitor estimarea fracției de varianță explicată, luând în considerare dimensiunea eșantionului și numărul de variabile. De obicei, R-pătrat ajustat este doar puțin mai mic decât R-pătrat, dar este posibil ca R-pătrat ajustat să fie zero sau negativ dacă un model cu variabile insuficient informative este adaptat la un eșantion de date prea mic.

Ce măsură a puterii explicative a modelului dvs. ar trebui să raportați șefului, clientului sau instructorului? Dacă ați folosit analiza de regresie, atunci pentru a fi perfect sinceri, ar trebui să includeți, desigur, R-pătrat ajustat pentru modelul de regresie care a fost de fapt adaptat (fie la datele originale, fie la o transformare a acestora), împreună cu alte detalii ale rezultatului, undeva în raportul dvs. Ar trebui să subliniați mai puternic eroarea standard a regresieitotuși, deoarece măsurează acuratețea predictivă a modelului în termeni reali și scalează lățimea tuturor intervalelor de încredere calculate din model. De asemenea, vă recomandăm să raportați alte măsuri practice ale dimensiunii erorii, cum ar fi înseamnă eroare absolută sau eroare procentuală medie absolută și / sau înseamnă eroare absolută la scară.

Ce nu ar trebui să vi se întâmple niciodată: Nu vă lăsați niciodată să cădeți în capcana potrivirii (și apoi promovării!) Unui model de regresie care are un pătrat R cu aspect respectabil, dar care este de fapt foarte inferior unui model simplu de serie cronologică. Dacă variabila dependentă din modelul dvs. este o serie de timp nestatiară, asigurați-vă că faceți o comparație a măsurilor de eroare cu un model de serie de timp adecvat. Amintiți-vă că ceea ce măsoară R-pătrat este reducerea proporțională a varianței de eroare pe care o realizează modelul de regresie în comparație cu un model numai constant (adică modelul mediu) adaptat aceleiași variabile dependente, dar modelul numai constantă poate să nu fie cel mai potrivit punct de referință, iar variabila dependentă pe care ajungeți să o utilizați poate să nu fie cea cu care ați început dacă transformările de date se dovedesc a fi importante.

Și, în sfârșit: R-pătrat nu este linia de jos . Nu ești plătit proporțional cu R-pătrat. Realul rezultat al analizei dvs. este măsurat de consecințele deciziilor pe care dvs. și alții le veți lua pe baza ei. În general, criteriile importante pentru un model de regresie bun sunt (a) să facă cele mai mici erori posibile, din punct de vedere practic, la prezicerea a ceea ce se va întâmpla în viitorși (b) pentru a obține inferențe utile din structura modelului și valorile estimate ale parametrilor acestuia. Reveniți la începutul paginii.


Cuantificarea fracțiilor solubile sau insolubile de Leishmania Proteine ​​parazite în aplicații de microvolume: o simplificare la testul standard Lowry

Cuantificarea proteinelor este adesea un pas esențial în orice domeniu de cercetare care implică proteine. Deși testul standard Lowry și modificările sale sunt utilizate cel mai abundent în cuantificarea proteinelor, metodele existente sunt rigide sau deseori demonstrează neliniaritatea între concentrația proteinelor și intensitatea culorii. O metodă pentru determinarea rapidă și precisă calitativă și / sau cantitativă a proteinelor solubile / insolubile totale sau a proteinelor imobilizate pe plăci de microfon izolate din Leishmania paraziții din microvolume a fost descris în studiul actual. Sunt necesare îmbunătățiri ale tehnicilor eficiente din punct de vedere al costurilor pentru a crește rezultatele cercetării în condiții limitate de resurse. Această metodă este o modificare a testului Lowry stabilit pentru cuantificarea proteinelor. Concentrațiile probelor necunoscute au fost calculate utilizând o curbă standard pregătită utilizând o serie standard de albumină serică bovină (BSA). Reactivii optimizați au fost NaOH 2 N (hidroxid de sodiu), Na 2%2CO3 (carbonat de sodiu), 1% CuSO4 (sulfat de cupru), 2% KNaC4H4O6 (tartrat de sodiu de potasiu) și 2 N Folin și fenolul lui Ciocalteu. Această analiză proteică modificată a fost sensibilă pentru cuantificare Leishmania proteine ​​dintr-un extract brut total sau într-o fracțiune solubilă în intervalul aproximativ de 10–500 μg / ml (1-50 μg / test) și a arătat o liniaritate între intensitatea culorii și concentrația proteinei. Aceasta este o metodă mai ușoară, rapidă și precisă pentru cuantificarea proteinelor cu microvolume într-o manieră rentabilă pentru utilizarea de rutină în laboratoarele de cercetare în condiții cu resurse limitate.

1. Introducere

Leishmaniaza este o boală parazitară transmisă de vectori cu o distribuție geografică mai largă în lume. Boala este cauzată de protozoarele parazitare ale genului Leishmania [1]. Tratamentul bolii este dificil din cauza simptomelor nonpatognomonice și a toxicității semnificative a tratamentelor. Prin urmare, este necesară o mai bună gestionare a pacientului cu o distribuție mai largă a cazurilor. În astfel de situații, majoritatea oamenilor de știință din cercetare lucrează la dezvoltarea instrumentelor sau a biomarkerilor pe baza acestora Leishmania antigene proteice pentru diagnosticul, prognosticul sau aplicațiile terapeutice ale bolilor în care sunt implicate preparate antigene parazitare și este necesară cuantificarea proteinelor [2-4].

Cuantificarea proteinelor este necesară și în alte aplicații clinice sau de cercetare diferite. Prin urmare, mulți cercetători și instituții comerciale au stabilit diferite teste de proteine ​​pentru cuantificarea proteinelor. Caracterul adecvat al metodei depinde de timpul procedurii, necesitând cantitatea unei probe de proteine, precizie, reproductibilitate și cost.

Printre cele mai frecvente teste proteice raportate până în prezent, testul proteinei Lowry [5] și testul Biuret [6] sunt cele două metode stabilite și cele mai vechi utilizate pe scară largă pentru cuantificarea proteinelor. În 1972, testul Lowry a fost modificat pentru a produce o culoare mai mare, cu o relație liniară între concentrația probei și intensitatea culorii [7]. După 1972, testul standard de proteine ​​Lowry a fost modificat de mai multe ori de diferite grupuri de cercetare. Au crescut precizia cuantificării proteinelor în prezența substanțelor chimice care interferează, au îmbunătățit protocolul pentru recuperarea cantitativă rapidă a proteinelor solubile și de membrană din substanțele care interferează, adaptate pentru utilizare cu plăci cu micro-titru cu 96 de godeuri și un spectrofotometru automat cu microplacă și densitate optică îmbunătățită care atinge un maxim și rămâne constant o perioadă suficientă [8-11].

Tot în 1976, Bradford și colab. au descris o nouă metodă pentru cuantificarea proteinelor prin furnizarea unui reactiv care cuprinde colorantul Coomassie Brilliant Blue. Dar este afectat negativ de prezența detergenților în eșantion sau de o variație largă proteină-proteină [12, 13]. Există mai multe teste de proteine ​​descrise ulterior de diferite grupuri de cercetare. Acestea au inclus o analiză utilizând un reactiv de colorant Coomassie Brilliant Blue G250 în acid percloric sau acid clorhidric, o analiză utilizând reacția proteinelor cu cupru alcalin cu acid bicinconinic (BCA), o analiză care poate fi utilizată cu un element analitic multistrat, un testul modificat al protocolului BCA cu utilizarea unui cuptor cu microunde pentru iradierea probelor și un proces pentru proteine ​​imobilizate în fază solidă totală sau microparticule [14-18].

Recent, au fost dezvoltate metode mai avansate de cuantificare a peptidelor și / sau proteinelor pentru utilizarea în spectrometrie de masă și pentru cuantificarea electrochimică a proteinelor în aplicații medicale [19, 20]. De asemenea, există mai multe mărci comerciale pentru testele de proteine ​​care au fost dezvoltate de furnizori comerciali consacrați [21-23].

În studiul actual, descriem o modificare rentabilă și extrem de precisă a testului standard Lowry pentru cuantificarea atât a proteinelor solubile totale cât și a celor brute extrase din Leishmania paraziți cu un timp minim de testare. Testul este util în setări limitate de resurse.

2. Materiale și metode

2.1. Instrumentație, materiale și reactivi

Măsurătorile de absorbție au fost obținute de spectrofotometrul UV / vizibil Shimadzu UV 1601 (Shimadzu Corporation, Kyoto, Japonia), cititorul de microplăci Multiskan EX Thermo electron Corporation și spectrofotometrul de microplacă Epoch 2 (instrumente BioTek). Micropipete (0-20 μl, 20–200 μl și 100–1000 μl Micropipete Nichipet EXII de la Nichiryo), plăci cu micro-godeuri (96 godeuri) (Sterilin, Tentorio, Italia) și reactivii necesari pentru cultivarea celulelor [penicilină-streptomicină (Penstrep), ser fetal bovin inactivat termic (HI-FBS), au fost utilizate 199 săruri echilibrate Hank (M199)] (Gibco Life Technologies, Grand Island, SUA). Toate celelalte substanțe chimice și reactivi, inclusiv fosfat de sodiu dibazic (Na2HPO4), fosfat de sodiu monobazic (NaH2PO4), clorură de sodiu (NaCl), clorură de potasiu (KCl), fosfat de potasiu monobazic (KH2PO4), carbonat de sodiu (Na2CO3), sulfat de cupru (CuSO4), tartrat de sodiu și potasiu (KNaC4H4O6), hidroxid de sodiu (NaOH), reactiv fenol Folin și Ciocalteu, albumina serică bovină (BSA / fracțiunea V), proveneau de la Sigma-Aldrich (acum cunoscut sub numele de Merck, Saint Louis, Missouri, SUA).

2.2. Pregătirea standardelor

BSA a fost utilizat ca standard de referință. Probele standard BSA au fost preparate cu același reactiv utilizat pentru probele necunoscute [de exemplu, apă deionizată, 1XPBS (soluție salină tamponată cu fosfat 1X), tampon de liză cu detergent (de exemplu, 1% triton X-100) sau tampon de liză fără detergent ]. În acest studiu, concentrația soluției stoc de BSA a fost de 1 mg / ml, care a fost atinsă prin dizolvarea a 1 mg de BSA în total 1 ml de apă deionizată.

2.3. Protocol pentru testul Lowry realizat într-o placă de micro-sondă

O serie de diluție de BSA (10 până la 500 μg / ml BSA) și probă necunoscută (100 μl) au fost adăugate în godeuri separate și amestecate cu 20 μl de NaOH (2 N) într-un agitator de plăci timp de 10 minute. Un volum de 100 μl amestec de reactivi A (2% Na2CO3, 1% CuSO4și 2% KNaC4H4O6 în raport 100: 1: 1) a fost adăugat la fiecare godeu și amestecat bine timp de 5 minute urmat de incubare la temperatura camerei timp de 10 minute. Folin și reactivul fenol al Ciocalteu (2 N, 20 μl) a fost adăugat, amestecat bine imediat și incubat la temperatura camerei în condiții de întuneric timp de 30 de minute. Absorbanta a fost citita la 650 nm folosind un cititor de microplaci.

2.4. Validarea metodei și analiza datelor

Validarea metodei a fost efectuată în conformitate cu liniile directoare pentru validarea metodelor bioanalitice distribuite de Food and Drug Administration (FDA), SUA [24]. Selectivitatea testului a fost evaluată prin evaluarea efectelor matricei. În consecință, a fost evaluat paralelismul standardelor BSA diluate și a fost analizată curba standard. Legarea nespecifică a fost determinată folosind o matrice goală (fără analit). Valoarea absorbanței măsurată pentru matricea goală a fost redusă din valorile absorbanței măsurate pentru fiecare matrice cu analit (standardele BSA), evitându-se astfel orice interferență provenită de la matrice și crescând selectivitatea testului. Repetabilitatea testului a fost determinată utilizând zece determinări pentru fiecare concentrație și astfel s-a determinat acuratețea testului. Șase concentrații diferite de standarde BSA (10, 30, 100, 150, 300 și 500 μg / ml) și s-au calculat M (medie), SD (deviație standard), M + 2SD (limita superioară), M-2SD (limita inferioară) și CV (coeficientul de variație). Precizia sau repetabilitatea Intrabatch (în cadrul rulării) și interbatch (între rulări) au fost determinate în continuare folosind zece determinări la șase concentrații diferite de BSA așa cum s-a descris mai sus, rulând în aceeași zi în aceeași placă și, respectiv, efectuând la 20 de zile diferite. Dacă s-a observat o valoare a absorbanței pentru orice concentrație de BSA în orice ocazie în afara limitelor acceptate (între M + 2SD și M-2SD), valorile au fost respinse și testul a fost repetat. Precizia interbatch a fost, de asemenea, măsurată în funcție de timp diferit (20 de zile diferite), echipamente diferite (folosind cititorul de microplăci Multiskan EX Thermo electron Corporation și spectrofotometrul de microplacă Epoch 2 de la instrumentele BioTek) și reactivi diferiți (cinci loturi diferite de reactivi stoc preparați) și în două laboratoare diferite. Limita inferioară de cuantificare (LLOQ) a fost stabilită utilizând cele șase concentrații mai mici selectate de BSA (5, 10, 30, 60, 80, 100 μg / ml) cu zece determinări pentru fiecare concentrație. Limita superioară de cuantificare (ULOQ) a fost definită utilizând cel mai înalt standard cu o reproducere, precizie ridicată și precizie ridicată. Liniaritatea testului a fost determinată utilizând curba standard creată cu șase concentrații diferite de BSA, inclusiv LLOQ, concentrații scăzute, medii și ridicate în duplicat în fiecare probă. SD0 (interceptarea curbei standard la concentrația zero) a fost utilizată pentru evaluarea limitei de detecție (LOD) și a limitei de cuantificare (LOQ) a testului. Valorile 3 × SD0 și 10 × SD0 au fost calculate ca LOD și respectiv LOQ [25]. Stabilitatea chimică a soluțiilor stoc și standardul au fost determinate în continuare pentru a evalua stabilitatea noului test [24]. Testul validat a fost analizat în continuare pentru o probă de proteină BSA cu concentrație necunoscută și comparat cu testul standard Lowry descris mai jos, care a fost efectuat pe scară largă și deja stabilit în laboratorul de acasă [5, 7].

2.5. Protocol pentru testul standard Lowry efectuat în tuburi de microcentrifugă

O serie de diluție de BSA (10 până la 500 μg / ml BSA) și probă necunoscută (100 μl) s-au adăugat separat la tuburile de microcentrifugă și s-au amestecat bine cu 100 μl de NaOH (2 N). Amestecul a fost incubat la 100 ° C timp de 10 minute urmat de răcire la temperatura camerei. Un volum de 1 ml de amestec de reactivi A (2% Na2CO3, 1% CuSO4și 2% KNaC4H4O6 în raport 100: 1: 1) a fost adăugat la fiecare tub și amestecat bine. Tuburile au fost incubate timp de 10 minute la temperatura camerei. Folin și reactivul fenol al Ciocalteu (2 N, 100 μl) a fost adăugat, amestecat bine imediat și incubat la temperatura camerei în condiții de întuneric timp de 30 de minute. Volumul final al amestecului de reacție a fost de 1300 μÎn fiecare tub. Absorbanta a fost citita la 750 nm folosind un spectrofotometru UV.

2.6. Cuantificarea proteinelor parazite Leishmania folosind noul test

Leishmania promastigotele au fost cultivate în medii M199 complete, suplimentate cu 10% HI-FBS și 0,1% Penstrep [26]. Paraziții în faza târzie de log cu o densitate medie de aproximativ 1 × 107 celule / ml au fost recoltați și peletele au fost depozitate la -20 ° C până la utilizare. Brut Lizatul Leishmania a fost extras din promastigotele recoltate din Leishmania folosind metoda de îngheț-dezgheț [27]. Peleta a fost spălată de patru ori în PBS 0,01 M rece, pH 7,4 și resuspendată la o concentrație de 1,0 g de peletă celulară în 2,0 ml de PBS 0,01 M rece, pH 7,4. Ulterior, suspensia a fost înghețată-dezghețată (înghețând 30 de secunde în azot lichid și dezghețând la temperatura camerei) de trei ori. Suspensia conținea lizatul brut total și a fost centrifugată în continuare la 10.000 g timp de 10 minute și supernatantul conținând fracție solubilă de lizat brut a fost separat. Conținutul de proteine ​​din lizatul brut extras și fracția solubilă de Leishmania lizatul brut a fost estimat folosind testul validat de micro-Lowry (am folosit apă deionizată pentru pregătirea standardelor BSA doar de la 2-5 μ1 eșantion necunoscut / antigen brut a fost suficient pentru cuantificare și a fost preparat la 100 μfolosind apă deionizată).

2.7. Monitorizarea eficienței diferitelor tampoane pentru acoperirea antigenului pe plăcile cu micro-sondă utilizând noul test

Au fost analizate trei tampoane de acoperire antigen diferite în testul imunosorbent legat de enzime (ELISA) pentru selectarea celui mai bun tampon de acoperire pentru aplicațiile ulterioare ale Leishmania antigen folosind ELISA. Legarea unei proteine ​​de suprafața de polistiren a plăcii micro-godeurilor se face de obicei prin interacțiuni hidrofobe care se întâmplă în tampoane bazice, neutre și acide. PBS (1X, pH 7,4), tampon fosfat (0,02 M, pH 7,8) și tampon carbonat (0,05 M, pH 9,6) au fost utilizate ca tampoane de acoperire pentru studiu, deoarece acestea au fost utilizate pe scară largă de alți cercetători care lucrează la Leishmania [28–30]. Leishmania pregătirea și cuantificarea antigenului s-au făcut așa cum s-a descris mai sus. Cantitate egală de antigen (3 μg / godeu) a fost utilizat pentru acoperirea godeurilor. Au fost efectuate zece replici pentru fiecare tampon de acoperire. Antigenul a fost adăugat la fiecare godeu (3 μg / 100 μl / godeu) și incubat peste noapte la frigider +4 C. După incubarea peste noapte, godeurile au fost spălate de trei ori cu PBS (1X, pH 7,4) pentru a îndepărta materialele nelegate și placa a fost utilizată pentru testul de cuantificare a proteinelor. Testul proteic descris a fost efectuat pentru godeurile acoperite cu antigen. O serie standard de diluții BSA au fost efectuate în aceeași placă paralelă cu godeurile acoperite așa cum este descris mai sus. M, SD și CV au fost calculate și analizate pentru zece replici efectuate cu trei tampoane de acoperire și cel mai bun tampon de acoperire cu cea mai mare performanță a fost selectat pentru aplicațiile ELISA ulterioare ale Leishmania antigen.

3. Rezultate

Noul test a arătat o selectivitate ridicată pentru analitul măsurat. Conform curbei standard construite utilizând rezultatele obținute pentru seria de diluare a BSA (10 până la 500 μg / ml), cele două variabile ale testului, concentrația BSA și valoarea absorbanței la 650 nm, au arătat o relație liniară în care coeficientul de corelație pătrat, R2, a fost de 0,999 (Figura 1).


Erori frecvente pentru valoarea R scăzută în testul Bradford - Biologie

Descărcați un fișier ZIP care conține toate foile de calcul de mai sus (în ambele formate).

Notă: pentru a rula aceste foi de calcul, trebuie să aveți instalat fie Excel, fie OpenOffice Calc. Recomand fie Excel 2013, fie OpenOffice versiunea 4 ( descărcați din OpenOffice).

fundal

În chimia analitică, măsurarea cantitativă exactă a compoziției probelor, de exemplu prin diferite tipuri de spectroscopie, necesită de obicei ca metoda să fie calibrată folosind probe standard de compoziție cunoscută. Acest lucru se realizează cel mai frecvent, dar nu neapărat, cu probe de soluție și standarde dizolvate într-un solvent adecvat, datorită ușurinței de preparare și diluare a amestecurilor exacte și omogene de probe și standarde sub formă de soluție. În metoda curbei de calibrare, se prepară și se măsoară o serie de soluții standard externe. O linie sau o curbă se potrivește cu datele și ecuația rezultată este utilizată pentru a converti citirile probelor necunoscute în concentrație. Un avantaj al acestei metode constă în faptul că erorile aleatorii la pregătirea și citirea soluțiilor standard sunt medii față de mai multe standarde. Mai mult, neliniaritatea în curba de calibrare poate fi detectată și evitată (prin diluarea în domeniul liniar) sau compensată (prin utilizarea metodelor de montare a curbelor neliniare). Aici există fișe de lucru pentru mai multe metode de calibrare diferite:

    O potrivire de primul ordin (linie dreaptă) a semnalului măsurat A (axa y) comparativ cu concentrația C (axa x). Ecuația modelului este A = panta * C + interceptare. Aceasta este cea mai comună și simplă metodă și este cea care trebuie utilizată dacă știți că răspunsul instrumentului dvs. este liniar. Această potrivire se realizează folosind ecuațiile descrise și listate pe http://terpconnect.umd.edu/

toh / spectru / CurveFitting.html. Aveți nevoie de cel puțin două puncte pe curba de calibrare. Concentrația eșantioanelor necunoscute este dată de (A - interceptare) / panta unde A este semnalul măsurat și panta și interceptarea din potrivirea de primul ordin. Dacă doriți să utilizați această metodă de calibrare pentru propriile date, descărcați în format Excel sau OpenOffice Calc.Vizualizați ecuațiile pentru cele mai mici pătrate liniare.

toh / spectru / CurveFitting.html. Aveți nevoie de minimum trei puncte pe curba de calibrare.Concentrația probelor necunoscute este calculată prin rezolvarea acestei ecuații pentru C folosind „formula pătratică” clasică, și anume C = (- b + SQRT (b 2 -4 * a * (c - A))) / (2 * a) , unde A = semnal măsurat și a, b și c sunt cei trei coeficienți din potrivirea pătratică. Dacă doriți să utilizați această metodă de calibrare pentru propriile date, descărcați în format Excel sau OpenOffice Calc.Vizualizați ecuațiile pentru cele mai mici pătrate pătratice. Versiunea alternativă CalibrationQuadraticB.xlsx calculează deviația standard a concentrației (coloana L) și procentul abaterii standard relative (coloana M) folosind metoda bootstrap. Aveți nevoie de cel puțin 5 standarde pentru ca calculul erorii să funcționeze. Dacă primești un „#NUM!” sau # DIV / 0 "în coloane L sau M, doar apăsați tasta F9 tasta pentru a recalcula foaia de calcul. Este deasemenea o inversat șablon pătratic și exemplu, care este analog cu cubul inversat (# 5 de mai jos).

Instrucțiuni:

1. Descărcați și deschideți foaia de lucru de calibrare dorită dintre cele enumerate mai sus.

2. Introduceți concentrațiile standardelor și citirile instrumentelor acestora (de exemplu absorbanță) în tabelul albastru din stânga. Lăsați restul mesei necompletat. Trebuie să aveți cel puțin două puncte pe curba de calibrare (trei puncte pentru metoda pătratică sau patru puncte pentru metoda cubică), inclusiv golul (standard de concentrație zero). Dacă aveți mai multe citiri de instrumente pentru un standard, este mai bine să introduceți fiecare ca standard separat cu aceeași concentrație, decât să introduceți media. Foaia de calcul dă automat mai multă greutate standardelor care au mai mult de o citire.

3. Introduceți citirile instrumentului (de ex. Absorbanța) necunoscutelor în tabelul galben din dreapta. Puteți avea orice număr de necunoscute până la 20. (Dacă aveți mai multe citiri de instrumente pentru o necunoscută, este mai bine să introduceți fiecare ca o necunoscută separată, mai degrabă decât să le faceți o medie, astfel încât să puteți vedea cât variație a concentrației calculate este produsă de variația în citirea instrumentului).

4. Concentrațiile necunoscutelor sunt calculate și afișate automat în coloana K. Dacă editați curba de calibrare, ștergând, modificând sau adăugând mai multe standarde de calibrare, concentrațiile sunt recalculate automat.

Pentru ajustarea liniară (CalibrationLinear.xls), dacă aveți trei sau mai multe puncte de calibrare, deviația standard estimată a pantei și a interceptării va fi calculată și afișată în celulele G36 și G37 și abaterea standard rezultată (SD) a fiecărei concentrații va fi afișat în rândurile L (SD absolut) și M (procent SD relativ). Aceste calcule ale deviației standard sunt estimări ale variabilității pantelor și a interceptărilor pe care este probabil să le obțineți dacă repetați calibrarea de mai multe ori în aceleași condiții, presupunând că abaterile de la linia dreaptă se datorează random variabilitate și nu eroare sistematică cauzată de neliniaritate. Dacă abaterile sunt aleatorii, ele vor fi ușor diferite din când în când, provocând variația pantei și a interceptării de la măsurare la măsurare. Cu toate acestea, dacă abaterile sunt cauzate de neliniaritatea sistematică, acestea vor fi aceleași de la măsurare la măsurare, caz în care aceste predicții ale deviației standard nu vor fi relevante și ar fi mai bine să utilizați o potrivire polinomială, cum ar fi o pătratică sau cubică. Fiabilitatea acestor deviații standard depinde, de asemenea, de numărul de puncte de date în potrivirea curbei pe care le îmbunătățesc cu rădăcina pătrată a numărului de puncte.

5. Puteți elimina orice punct din potrivirea curbei ștergând valorile corespunzătoare X și Y din tabel. Pentru a șterge o valoare faceți clic dreapta pe celulă și faceți clic pe „Ștergeți conținutul” sau „Ștergeți conținutul”. Foaia de calcul recalculează automat și graficul desenează dacă nu, apăsați F9 pentru a recalcula. (Notă: foaia de calcul de calibrare cubică trebuie să aibă puncte de calibrare contigue, fără celule goale sau goale în intervalul de calibrare).

6. Foaia de calcul de calibrare liniară calculează și coeficientul de determinare, R 2, care este un indicator al „bunătății de potrivire”, în celula C37. R 2 este 1,0000 când potrivirea este perfectă, dar mai mică decât atunci când potrivirea este imperfectă. Cu cât este mai aproape de 1.0000 cu atât mai bine.

7. Un „grafic rezidual” este afișat chiar sub graficul de calibrare (cu excepția metodei de interpolare). Aceasta arată diferența dintre curba de calibrare cea mai potrivită și citirile efective ale standardelor. Cu cât aceste erori sunt mai mici, cu atât curba se potrivește mai bine standardelor de calibrare. (Abaterea standard a acestor erori este, de asemenea, calculată și afișată sub graficul rezidual cu cât această abatere standard este mai mică, cu atât mai bine).

Puteți spune multe observând forma graficului rezidual: dacă punctele sunt împrăștiate aleator deasupra și sub zero, înseamnă că potrivirea curbei este la fel de bună pe cât i se poate da zgomotul aleator din date. Dar dacă graficul rezidual are o formă netedă, să zicem, o curbă în formă de U, atunci înseamnă că există o nepotrivire între potrivirea curbei și forma reală a curbei de calibrare, sugerând că ar putea fi încercate alte tehnici de montare a curbei (să spunem , mai degrabă o potrivire pătratică sau cubică decât una liniară) sau că condițiile experimentale vor fi modificate pentru a produce o formă de curbă de calibrare experimentală mai puțin complexă.

8. Dacă utilizați foaia de calcul pentru calibrarea corectată în derivă, trebuie să măsurați două curbe de calibrare, una înainte și una după efectuarea probelor și să înregistrați data și ora la care se măsoară fiecare curbă de calibrare. Introduceți concentrațiile standardelor în coloana B. Introduceți citirile instrumentelor pentru prima (pre) calibrare în coloana C și data / ora calibrării respective în celula C5 introduceți citirile instrumentelor pentru post-calibrare în coloana D și data / ora calibrării respective în celula D5. Formatul pentru intrarea dată / oră este Lună-Zi-An Ore: Minute: Secunde, de exemplu 6-2-2011 13:30:00 pentru 2 iunie 2011, 13:30 (13:30 pe 24- ceasul orar). Notă: dacă ambele calibrări se execută în aceeași zi, puteți lăsa data și introduceți doar ora. În grafic, curba de pre-calibrare este afișată în verde, iar curba de post-calibrare este afișată în roșu. Apoi, pentru fiecare probă necunoscută măsurată, introduceți data / ora (în același format) în coloana K și citirea instrumentului pentru acea necunoscută în coloana L. Foaia de calcul calculează concentrațiile probei corectate în derivă în coloana M. Notă: Versiunea 2.1 a acestei foi de calcul (iulie 2011) permite diferite seturi de concentrații pentru pre- și post-calibrări. Doar enumerați toate concentrațiile utilizate în coloana „Concentrația standardelor” (B) și puneți citirile instrumentelor corespunzătoare în coloanele C sau D sau ambele. Dacă nu utilizați o anumită concentrație pentru una dintre calibrări, lăsați instrumentul citit necompletat.

Întrebări frecvente (preluat din interogările reale ale motorului de căutare)

1. Întrebare: Care este scopul curbei de calibrare?
Răspuns: Majoritatea instrumentelor analitice generează un semnal de ieșire electrică, cum ar fi un curent sau o tensiune. O curbă de calibrare stabilește relația dintre semnalul generat de un instrument de măsurare și concentrația substanței măsurate. Diferiti compusi chimici si elemente dau semnale diferite. Când se măsoară o probă necunoscută, semnalul din necunoscut este convertit în concentrație utilizând curba de calibrare.

2. Întrebare: Cum faceți o curbă de calibrare?
Răspuns: Pregătiți o serie de „soluții standard” ale substanței pe care intenționați să o măsurați, măsurați semnalul (de ex. Absorbanță, dacă faceți spectrofotometrie de absorbție) și trasați concentrația pe axa X și semnalul măsurat pentru fiecare standard pe axa y. Desenați o linie dreaptă cât mai aproape de punctele de pe curba de calibrare (sau o curbă lină dacă o linie dreaptă nu se potrivește), astfel încât cât mai multe puncte posibil să fie chiar pe sau aproape de curbă.

3. Întrebare: Cum utilizați o curbă de calibrare pentru a prezice concentrația unei probe necunoscute? Cum determinați concentrația dintr-un grafic de calibrare neliniar?
Răspuns: Acest lucru se poate face în două moduri, grafic și matematic. Grafic, trasați o linie orizontală de la semnalul necunoscutului pe axa y până la curba de calibrare și apoi direct în jos la axa concentrației (x) până la concentrația necunoscutului. Matematic, adaptați o ecuație la datele de calibrare și rezolvați ecuația pentru concentrație în funcție de semnal. Apoi, pentru fiecare necunoscut, conectați doar semnalul la această ecuație și calculați concentrația. De exemplu, pentru o ecuație liniară, ecuația de potrivire a curbei este Semnal = panta * Concentrație + interceptare, unde panta și interceptarea sunt determinate de o curbă liniară (primul ordin) cu cele mai mici pătrate potrivite cu datele de calibrare. Rezolvarea acestei ecuații pentru Concentrație produce Concentrație = (Semnal - interceptare) / pantă, unde Semnal este citirea semnalului (de ex. Absorbanță) a soluției necunoscute. (Faceți clic aici pentru o foaie de calcul OpenOffice completată care vă face acest lucru. Vizualizați captura de ecran).

4. Întrebare: De unde știu când să folosesc o potrivire curbată în linie dreaptă și când să folosesc o potrivire curbată liniară, cum ar fi un cadrat sau un cub?
Răspuns: Adaptați o linie dreaptă la datele de calibrare și priviți un grafic al „reziduurilor” (diferențele dintre valorile y din datele originale și valorile y calculate de ecuația de potrivire). Abaterile de la liniaritate vor fi mult mai evidente în graficul reziduurilor decât în ​​graficul curbei de calibrare. (Faceți clic aici pentru o foaie de calcul OpenOffice completată care vă face acest lucru. Vizualizați captura de ecran). Dacă reziduurile sunt împrăștiate aleatoriu de-a lungul liniei celei mai potrivite, atunci înseamnă că abaterile sunt cauzate de erori aleatorii, cum ar fi zgomotul instrumentului sau de erori volumetrice sau procedurale aleatorii, în acest caz puteți utiliza o potrivire liniară (liniară). Dacă reziduurile au o formă netedă, ca o formă „U”, aceasta înseamnă că curba de calibrare este curbată și ar trebui să utilizați o potrivire neliniară, cum ar fi o potrivire pătratică sau cubică. Dacă parcela reziduală are o formă "S", probabil că ar trebui să utilizați o potrivire cubică. (Dacă faceți spectrofotometrie de absorbție, consultațiCompararea metodelor de montare a curbelor în spectroscopie de absorbție).

5. Întrebare: Ce se întâmplă dacă curba mea de calibrare este liniară la concentrații mici, dar se curbează la cele mai mari concentrații?
Răspuns: Nu puteți utiliza o potrivire liniară a curbei în acest caz, dar dacă curbura nu este prea severă, ați putea obține o potrivire bună cu o potrivire pătratică sau cubică. Dacă nu, puteți împărți intervalul de concentrație în două regiuni și potrivi o curbă liniară la regiunea liniară inferioară și o curbă pătratică sau cubică la cea non-liniară superioară regiune.

6. Întrebare: Care este diferența dintre o curbă de calibrare și o linie de potrivire optimă? Care este diferența dintre o potrivire liniară și o curbă de calibrare.
Răspuns: Curba de calibrare este o relație măsurată experimental între concentrație și semnal. Nu știți niciodată cu adevărat curba de calibrare adevărată, o puteți estima doar în câteva puncte măsurând o serie de soluții standard. Apoi trageți o linie sau o curbă lină care trece cât mai mult posibil prin puncte, unele puncte fiind puțin mai mari decât linia și unele puncte puțin mai jos decât linia. Aceasta este ceea ce vrem să spunem prin faptul că este „cea mai potrivită” punctelor de date. Este posibil ca curba de calibrare să nu fie perfect liniară, deci o potrivire liniară nu este întotdeauna cea mai bună. O potrivire pătratică sau cubică ar putea fi mai bună dacă curba de calibrare prezintă o curbură lină treptată.

7. Întrebare: De ce linia pantei nu trece prin toate punctele unui grafic?
Răspuns: Acest lucru se va întâmpla numai dacă (1) sunteți un experimentator perfect, (2) aveți un instrument perfect și (3) alegeți ecuația perfectă pentru potrivirea curbei pentru datele dvs. Asta nu se va întâmpla. Există întotdeauna mici erori. Metoda de ajustare a curbei celor mai mici pătrate oferă o potrivire optimă, nu o potrivire perfectă, la datele de calibrare pentru o formă dată a curbei (liniară, pătratică sau cubică). Punctele care cad de pe curbă se presupune că fac acest lucru din cauza erorilor aleatorii sau pentru că forma curbei de calibrare nu se potrivește cu ecuația de potrivire a curbei.

De fapt, există un mod artificial de a face curba să treacă prin toate punctele, și anume să folosești prea puține standarde de calibrare: de exemplu, dacă folosești doar două puncte pentru o potrivire pe linie dreaptă, atunci cea mai potrivită linie va trece direct prin aceste două puncte, indiferent de ce. În mod similar, dacă utilizați doar trei puncte pentru o potrivire pătratică, atunci curba de potrivire pătratică va trece direct prin aceste trei puncte și, dacă utilizați doar patru puncte pentru o potrivire cubică, atunci curba de potrivire cubică va merge corect prin acele patru puncte. Dar acest lucru nu este cu adevărat recomandat, deoarece dacă unul dintre punctele dvs. de calibrare este într-adevăr dezactivat de o eroare uriașă, potrivirea curbei va părea în continuare perfectă și nu veți avea nici o idee că ceva nu este în regulă. Trebuie să utilizați într-adevăr mai multe standarde ca acestea, astfel încât să știți când ceva a mers prost.

8. Întrebare: Ce se întâmplă când citirea absorbanței este mai mare decât oricare dintre soluțiile standard?
Răspuns: Dacă utilizați o ecuație de potrivire a curbei, veți obține în continuare o valoare a concentrației calculate pentru orice citire de semnal pe care ați introdus-o, chiar și peste cel mai înalt standard. Cu toate acestea, este riscant să faceți acest lucru, deoarece într-adevăr nu știți sigur care este forma curbei de calibrare peste nivelul cel mai înalt. Ar putea continua drept sau ar putea curba într-un mod neașteptat - cum ați ști cu siguranță? Cel mai bine este să adăugați un alt standard la capătul înalt al curbei de calibrare.

9. Întrebare: Care este diferența dintre utilizarea unui singur standard față de mai multe standarde și a unui grafic?
Răspuns: Metoda standard unică este cea mai simplă și mai rapidă metodă, dar este precisă numai dacă se știe că curba de calibrare este liniară. Utilizarea mai multor standarde are avantajul că orice neliniaritate în curba de calibrare poate fi detectată și evitată (prin diluarea în domeniul liniar) sau compensată (prin utilizarea metodelor de montare a curbelor neliniare). De asemenea, erorile aleatorii la pregătirea și citirea soluțiilor standard sunt calculate în medie pe mai multe standarde, ceea ce este mai bine decât „a-ți pune toate ouăle într-un coș” cu un singur standard. Pe de altă parte, un dezavantaj evident al metodei standard multiple este că necesită mult mai mult timp și folosește mai mult material standard decât metoda standard unică.

10. Întrebare: Care este relația dintre sensibilitatea în analiză și panta curbei standard?
Răspuns: Sensibilitatea este definită ca panta curbei standard (calibrare).

11. Întrebare: Cum faceți o curbă de calibrare în Excel sau în OpenOffice?
Răspuns: Puneți concentrația standardelor într-o coloană și semnalele acestora (de exemplu, absorbanțele) într-o altă coloană. Apoi faceți un grafic scatter XY, punând concentrația pe axa X (orizontală) și semnalizați pe axa Y (verticală). Trasați punctele de date numai cu simboluri, nu linii între puncte. Pentru a calcula o potrivire a curbei celor mai mici pătrate, puteți introduce ecuațiile celor mai mici pătrate în foaia de calcul sau puteți utiliza funcția LINEST încorporată atât în ​​Excel, cât și în OpenOffice Calc pentru a calcula potrivirile polinomiale și alte potriviri minime-pătrate curvilinei. Pentru exemple de foi de calcul OpenOffice care graficează și se potrivesc curbelor de calibrare, consultați Fișe de lucru pentru curbe de calibrare analitice.

12. Întrebare: Care este diferența în utilizarea unei curbe de calibrare în spectrometria de absorbție față de alte metode analitice, cum ar fi fluorescența sau spectroscopia de emisie?
Răspuns: Singura diferență este unitățile semnalului. În spectroscopia de absorbție utilizați absorbanța (deoarece este cea mai aproape liniară cu concentrația) și în spectroscopia de fluorescență (sau emisie) utilizați intensitatea fluorescenței (sau emisiei), care este de obicei liniară cu concentrația (cu excepția uneori la concentrații mari). Metodele de ajustare a curbei și de calcul al concentrației sunt practic aceleași.

13. Întrebare: Dacă soluția respectă legea lui Beer, este mai bine să folosiți o curbă de calibrare mai degrabă decât un singur standard?
Răspuns: s-ar putea să nu facă prea multă diferență. Dacă soluția este cunoscută din măsurătorile anterioare pentru a respecta Legea lui Beer exact pe același spectrofotometru și în condițiile utilizate, atunci poate fi utilizat un singur standard (deși este mai bine dacă acel standard oferă un semnal apropiat de semnalul maxim eșantionat așteptat sau orice semnal oferă cel mai bun raport semnal-zgomot - o absorbanță de aproape 1,0 în spectroscopie de absorbție). Singurul avantaj real al mai multor standarde în acest caz este că erorile aleatorii la pregătirea și citirea soluțiilor standard sunt medii față de mai multe standarde, dar același efect poate fi obținut mai simplu prin realizarea mai multor copii ale aceluiași standard unic (la medie erorile volumetrice aleatorii) și citirea fiecăruia separat (pentru medierea erorilor de citire a semnalului aleatoriu). Și dacă erorile de citire a semnalului sunt mult mai mici decât erorile volumetrice, atunci o singură soluție standard poate fi măsurată în mod repetat pentru a calcula în medie erorile de măsurare aleatorii.

14. Întrebare: Care este efectul asupra măsurării concentrației dacă monocromatorul nu este perfect?
Răspuns: Dacă calibrarea lungimii de undă este dezactivată puțin, nu va avea niciun efect semnificativ atâta timp cât setarea monocromatorului este lăsată neatinsă între măsurarea standardelor și eșantionul necunoscut, panta curbei de calibrare va fi diferită, dar concentrațiile calculate vor fi BINE. (Dar dacă ceva schimbă lungimea de undă între momentul în care măsurați standardele și timpul în care măsurați probele, va rezulta o eroare). Dacă lungimea de undă are un grad slab de lumină vagabondă sau dacă rezoluția este slabă (trecerea de bandă spectrală este prea mare), curba de calibrare poate fi afectată negativ. În spectroscopia de absorbție, lumina vagabondă și rezoluția slabă pot duce la neliniaritate, ceea ce necesită o metodă de montare a curbelor neliniare. În spectroscopia de emisie, lumina vagabondă și rezoluția slabă pot duce la interferențe spectrale care pot duce la erori analitice semnificative.

15. Întrebare: Ce înseamnă dacă interceptarea curbei mele de calibrare nu este zero?
Răspuns: În mod ideal, interceptarea axei y a curbei de calibrare (semnalul la concentrație zero) ar trebui să fie zero, dar există mai multe motive pentru care acest lucru ar putea să nu fie așa. (1) Dacă există dispersii aleatorii substanțiale în punctele de calibrare de deasupra și dedesubtul liniei de potrivire optimă, atunci este probabil ca interceptarea diferită de zero să se datoreze doar unei erori aleatorii. Dacă ați pregăti un alt set separat de standarde, acea curbă standard ar avea interceptări diferite, fie pozitive, fie negative. Nu puteți face nimic în acest sens, cu excepția cazului în care puteți reduce eroarea aleatorie a standardelor și a mostrelor.(2) Dacă forma curbei de calibrare nu se potrivește cu forma curbei, atunci este foarte probabil să primiți o interceptare diferită de zero de fiecare dată. De exemplu, dacă curba de calibrare se îndoaie pe măsură ce crește concentrația și utilizați o potrivire curbă liniară (liniară), interceptarea va fi pozitivă (adică linia de potrivire a curbei va avea o interceptare pozitivă pe axa y, chiar dacă curba de calibrare efectivă trece prin zero). Acesta este un artefact al selecției slabe de potrivire a curbei dacă vedeți că se întâmplă, încercați o altă formă de curbă (pătratică sau cubică). (3) Dacă instrumentul nu este „zero” corect, cu alte cuvinte, dacă instrumentul dă o citire diferită de zero atunci când se măsoară soluția goală. În acest caz, aveți trei opțiuni: puteți zero instrumentul (dacă este posibil) puteți scădea semnalul gol din toate citirile standard și eșantion sau puteți doar să lăsați curba să scadă interceptarea pentru dvs. (dacă procedura de potrivire a curbei dvs. calculează interceptarea și o păstrați în soluția la acea ecuație, de ex. Concentrație = (Semnal - interceptare) / panta).

16. Întrebare: Cum pot reduce împrăștierea aleatorie a punctelor de calibrare deasupra și sub linia cea mai potrivită?
Răspuns: erori aleatorii ca aceasta ar putea fi cauzate fie de erori volumetrice aleatorii (mici erori în volumele utilizate pentru prepararea soluției standard prin diluarea din soluția stivei sau prin adăugarea de reactivi) sau pot fi datorate erorilor de citire a semnalului aleatorii ale instrumentului, sau la ambele. Pentru a reduce eroarea volumetrică, utilizați echipamente volumetrice mai precise și exersați tehnica dvs. pentru a o perfecționa (de exemplu, utilizați tehnica dvs. pentru a livra apă pură și a o cântări pe un balans analitic precis). Pentru a reduce eroarea de citire a semnalului, reglați condițiile instrumentului (de exemplu, lungimea de undă, lungimea căii, lățimea fantei etc.) pentru cel mai bun raport semnal-zgomot și mediați mai multe citiri ale fiecărui eșantion sau standard.

17. Întrebare: Ce sunt interferențele? Ce efect au interferențele asupra curbei de calibrare și asupra preciziei măsurării concentrației?
Răspuns: Când se aplică o metodă analitică probelor complexe din lumea reală, de exemplu determinarea medicamentelor din serul sanguin, poate apărea o eroare de măsurare din cauza interferențelor. Interferențele sunt erori de măsurare cauzate de componentele chimice din probe care influențează semnalul măsurat, de exemplu prin contribuția propriilor semnale sau prin reducerea sau creșterea semnalului de la analit. Chiar dacă metoda este bine calibrată și este capabilă să măsoare cu precizie soluțiile de analit pur, pot apărea erori de interferență atunci când metoda este aplicată probelor complexe din lumea reală. O modalitate de a corecta interferențele este de a utiliza „standarde cu matrice potrivită”, soluție standard care sunt pregătite să conțină tot ceea ce conțin probele reale, cu excepția faptului că au concentrații cunoscute de analit. Dar acest lucru este foarte dificil și costisitor de realizat exact, așa că se depune toate eforturile pentru a reduce sau a compensa interferențele în alte moduri. Pentru mai multe informații despre tipurile de interferențe și metodele de compensare a acestora, consultați Compararea metodelor de calibrare analitică.

18. Întrebare: Care sunt sursele de eroare în pregătirea unei curbe de calibrare?
Răspuns: O curbă de calibrare este un grafic al semnalului analitic (de exemplu absorbanță, în spectrofotometrie de absorbție) vs concentrația soluțiilor standard. Prin urmare, principalele surse de eroare sunt erorile din concentrațiile standard și erorile din semnalele lor măsurate. Erorile de concentrare depind în principal de acuratețea vaselor de sticlă volumetrice (baloane volumetrice, pipete, dispozitive de livrare a soluțiilor) și de precizia utilizării acestora de către persoanele care pregătesc soluțiile. În general, acuratețea și precizia de manipulare a volumelor mari de peste 10 ml este mai mare decât cea a volumelor mai mici de sub 1 ml. Sticlăria volumetrică poate fi calibrată prin cântărirea apei pe o balanță analitică precisă (puteți căuta densitatea apei la diferite temperaturi și astfel puteți calcula volumul exact de apă din greutatea sa măsurată) acest lucru vă va permite să etichetați fiecare dintre baloane etc. , cu volumul lor real. Dar precizia poate fi în continuare o problemă, în special un volum mai mic, și este foarte dependent de operator. Este nevoie de practică pentru a te descurca bine cu volumele mici. Eroarea de măsurare a semnalului depinde foarte mult de metoda instrumentală utilizată și de concentrația analitului poate varia de la aproape 0,1% în condiții ideale până la 30% aproape de limita de detecție a metodei. Medierea măsurătorilor repetate poate îmbunătăți precizia în ceea ce privește zgomotul aleatoriu. Pentru a îmbunătăți raportul semnal-zgomot la concentrații scăzute, puteți lua în considerare modificarea condițiilor, cum ar fi modificarea lățimii fantei sau a lungimii traseului sau utilizarea unei alte metode instrumentale (cum ar fi un atomizor de cuptor de grafit, mai degrabă decât absorbția atomică a flăcării).

19. Cum pot găsi eroarea într-o anumită cantitate folosind metoda de montare cu cel mai mic pătrat? Cum pot estima eroarea în panta calculată și interceptare?
Când se utilizează o linie dreaptă simplă (ordinul întâi) potrivirea celor mai mici pătrate, cea mai bună linie de potrivire este specificată doar prin două mărimi: panta și interceptarea. Eroarea aleatorie a pantei și a interceptării (în mod specific, abaterea standard a acestora) poate fi estimată matematic din măsura în care punctele de calibrare se abat de la linia cea mai potrivită. Ecuațiile pentru a face acest lucru sunt date aici și sunt implementate în "foaie de calcul pentru calibrare liniară cu calcul de eroare". Este important să ne dăm seama că aceste calcule de eroare sunt doar estimări, deoarece se bazează pe presupunerea că setul de date de calibrare este reprezentativ pentru toate seturile de calibrare care ar fi obținute dacă ați repeta calibrarea de un număr mare de ori - în alte cuvinte, presupunerea este că erorile aleatorii (erori de măsurare volumetrice și de semnal) din setul dvs. de date sunt tipice. Dacă erorile aleatoare se întâmplă să fie mici atunci când rulați curba de calibrare, veți obține o curbă de calibrare înșelătoare, cu un aspect bun , dar estimările dvs. despre eroarea aleatorie în pantă și interceptare vor fi prea mici. Dacă erorile dvs. aleatoare se întâmplă să fie mari, veți obține o curbă de calibrare înșelătoare cu aspect nepotrivit și estimările erorii aleatoare în pantă și interceptarea va fi prea mare. Aceste estimări ale erorilor pot fi deosebit de slabe atunci când numărul de puncte dintr-o curbă de calibrare este mic, precizia estimărilor crește dacă numărul de puncte de date înc scade, dar, desigur, pregătirea unui număr mare de soluții standard necesită mult timp și costă. Concluzia este că vă puteți aștepta ca aceste predicții de eroare dintr-o singură curbă de calibrare să fie foarte aspre, acestea putând fi ușor dezactivate cu un factor de doi sau mai mulți, după cum demonstrează simularea „Propagarea erorilor în metoda curbei de calibrare liniară” ( descărcați versiunea OpenOffice).


Rezultate

Datele MPRA sunt produse din două proceduri paralele: secvențierea ARN este utilizată pentru a măsura numărul de transcrieri produse din fiecare cod de bare și secvențierea ADN este utilizată pentru a măsura numărul de copii de construcție ale fiecărui cod de bare. Astfel, pentru fiecare cod de bare raportul dintre ARN și ADN poate servi drept proxy conceptual pentru rata de transcripție [7]. Cu toate acestea, atât procedurile de măsurare a ADN-ului, cât și a ARN-ului oferă o estimare aproximativă și zgomotoasă, o problemă exacerbată de natura instabilă a unui raport: diferențele minore în numărare pot duce la schimbări majore ale raportului, mai ales atunci când este vorba despre un număr mic. Această problemă poate fi rezolvată prin asocierea mai multor coduri de bare cu fiecare secvență, oferind mai multe replici într-un singur experiment și o singură bibliotecă de secvențiere. Această abordare introduce o problemă suplimentară a sumarizării numărărilor de la mai multe coduri de bare pentru a obține o singură estimare a ratei de transcripție pentru o secvență de reglare candidată, ceea ce este dificil deoarece eficiența încorporării în celule, deși este teoretic uniformă între diferitele constructe, are un grad semnificativ de variabilitate în practică (Fig. 1a). Două tehnici utilizate în mod obișnuit pentru a aborda această problemă se bazează pe statistici rezumative: raportul agregat, care este raportul dintre suma numărului de ARN între codurile de bare împărțit la suma numărului de ADN dintre codurile de bare ( left ( frac < frac < 1> sum _^ RNA_> < frac <1> sum _^ ADN_> dreapta) ) și raportul mediu, care este media raporturilor ARN / ADN observate între codurile de bare ( left ( frac <1> sum _^ frac <>><>> dreapta) ). Deși intuitive, ambele statistici rezumative au limitări inerente. Raportul agregat pierde puterea statistică pe care o furnizează mai multe coduri de bare și este adesea dominat de o minoritate de coduri de bare cu număr mare, iar raportul mediu este extrem de sensibil la zgomot, așa cum s-a demonstrat recent într-o lucrare de Myint și colegii săi [20]. Prin urmare, este necesară o metodă pentru a valorifica multitudinea codurilor de bare într-o manieră robustă pentru a îndeplini pe deplin potențialul acestor teste.

MPRAnalizează proprietățile și potrivirea modelului. A Distribuția abundențelor de construcții (coduri de bare ADN) între seturile de date, calculate ca număr de coduri de bare observat + 1 în scopul vizualizării. b O reprezentare grafică a modelului MPRAnalyze. Covariabilele externe (de exemplu, condițiile de interes, efectele de serie, efectele codurilor de bare) sunt dependente de proiectare. Construcția latentă și numărul de transcrieri sunt corelate cu rata de transcriere α. c Bunătatea graficelor potrivite atât pentru bibliotecile de ADN cât și de ARN din seturile de date. Numărurile preconizate au fost extrase din GLM-urile montate. Modelul MPRAnalyze se potrivește bine cu datele MPRA R 2 & gt0.86 pentru toate seturile de date. Deoarece datele Kwasnieski au o singură replică în biblioteca ADN, modelul ADN este capabil să ajungă la o potrivire perfectă, caz în care estimările ADN utilizate în modelul ARN sunt identice cu numărul ADN original.

Modelul MPRAnalyze

Introducem MPRAnalyze, o metodă pentru analiza datelor MPRA care utilizează un model grafic pentru a raporta numărul de ADN și ARN, explică incertitudinea din ambele biblioteci și valorifică structura unică și oportunitățile prezentate de datele MPRA. Modelul Out se bazează pe presupunerea unei relații liniare între numărul de ARN și numărul de ADN corespunzător: RNA=DNA×α, similar abordărilor bazate pe raport, cu α denotând rata de transcriere. Cadrul nostru cuprinde două modele imbricate: modelul ADN, care estimează numărul de construcții latente pentru numărul de ADN observat și modelul ARN, care folosește estimările numărului de construcții din modelul ADN și numărul ARN observat pentru a estima rata transcripției, α (Fig. 1b).

Pentru fiecare secvență de reglare candidată, modelul necesită doi vectori de observații: numărul de ADN ( vec ) și numărul de ARN ( vec ), în care fiecare observație este de câte ori a fost observat un anumit cod de bare, asociat cu această secvență, la nivelurile ADN și respectiv ARN. În plus, denotăm ( vec < hat > ) vectorul numărului de construcții latente (ADN) și ( vec < hat > ) vectorul numărului de transcripții latente (ARN). Presupunem că numărul de construcții latente, din care sunt prelevate conturile de ADN observate, sunt generate de o distribuție gamma. În al doilea rând, presupunem că distribuția condiționată a numărului de ARN urmează o distribuție Poisson. Oficial:

Acestea duc la o probabilitate binomială negativă în formă închisă pentru numărul de ARN:

Distribuția binomială negativă este o aproximare comună a secvențierii datelor datorită supra-dispersiei observate [22] și, într-adevăr, toate seturile de date pe care le-am examinat au o relație pătratică între medie și varianță, care poate fi captată de un binom negativ. Această relație este observată și pentru bibliotecile ADN, care sunt de așteptat de la datele distribuite Gamma dacă parametrul de formă al distribuției k≈1 (Fișier suplimentar 1: Figurile S1, S3 „Metode”).

Acum, presupunem că avem două condiții. În acest caz, fiecare cod de bare este măsurat de două ori (o dată în fiecare condiție), iar modelul trebuie să raporteze aceste observații și să țină cont de diferențele potențiale dintre ele. MPRAnalyze realizează acest lucru presupunând că efectele sunt log-aditive și înlocuind componentele simple ale estimării ADN ( ( vec < hat > )) și estimarea ratei de transcriere (α) cu modele liniare generalizate (GLM) care permit codificarea ușoară a diferitelor relații între factorii experimentali. Modelul devine apoi:

Aici, SD,SR sunt factori de corecție externi, utilizați pentru a explica diverse efecte tehnice, cum ar fi dimensiunea bibliotecii în datele ADN și, respectiv, ARN. XD,XR sunt matrice de proiectare pentru modelele ADN și ARN, care codifică configurarea experimentală a testului. De exemplu, în două setări de condiții, fiecare matrice va include o coloană cu un indicator 0/1 corespunzător primei sau a doua condiții. Coeficienții respectivi β și γ va capta apoi efectul asociat cu alegerea condiției. În special, matricea de proiectare a ADN-ului XD va codifica, de obicei, identitatea codului de bare, astfel încât să permită estimarea per-cod de bare a abundenței constructului. Acest lucru nu este necesar pentru matricea de proiectare ARN XR deoarece presupunem că codurile de bare sunt replici care ar trebui să aibă o singură estimare a ratei de transcriere. Un exemplu ilustrativ este furnizat în Figura S2 (fișierul suplimentar 1) și o descriere formală a modelului este furnizată în fișierul suplimentar 2.

Modelul poate fi extins în continuare pentru a codifica covariabile multiple, atât cantitative, cât și calitative, și astfel susține structura comună a experimentelor MPRA, și anume mai multe coduri de bare pe secvență, mai multe replici sau loturi și condiții multiple analizate simultan. Un aspect important al acestei flexibilități este că acceptă seturi de date „neperecheate” în care secvențierea ADN a fost efectuată pe grupul de constructe, înainte de încorporarea în celule [10-13]. În aceste cazuri, s-ar putea să nu existe estimări ADN separate pentru fiecare afecțiune testată, caz în care condițiile de interes ar fi modelate numai în matricea de proiectare a ARN și excluse din modelul ADN.

În rezumat, MPRAnalyze utilizează un model care ia în considerare efectele specifice codurilor de bare și le valorifică pentru o putere statistică sporită și robustețe de estimare. Întrucât un standard pentru proiectarea experimentală MPRA nu a fost încă format, construcția GLM imbricată oferă flexibilitate și este ușor de ajustat la modificarea proiectelor experimentale. Modelul nostru este, de asemenea, extrem de interpretabil, permițând ca estimările cantitative ale activității secvenței să fie extrase cu ușurință, precum și activitatea diferențială să fie testată direct folosind teste statistice stabilite. Acest cadru poate utiliza în mod explicit controalele negative (secvențe fără funcție de reglementare așteptată) atunci când este disponibil, fie pentru a stabili distribuția nulă în analizele de clasificare, fie pentru a corecta tendința sistemică în analizele comparative („Metode”).

Seturi de date de referință

În secțiunile următoare, investigăm performanța MPRAnalyze în cuantificarea activității transcripționale a regiunilor candidate, precum și în cele trei sarcini majore de analiză, și anume - clasificarea, analiza condițiilor încrucișate și comparațiile alelice. În cele din urmă, evaluăm MPRAnalyze într-o configurație complexă în care investigăm atât condiții multiple, cât și alele multiple. Comparăm MPRAnalyze cu setul actual de instrumente și metodologii de analiză, utilizând date simulate și o colecție de seturi de date publice. Aceste seturi de date au fost alese pentru a reprezenta o diversitate de protocoale MPRA (de exemplu, integrarea episomală sau lentivirală, secvențierea ADN pre- sau post-transducție), focusul studiului (clasificare, analize comparative, comparații alelice) și proiectarea experimentală (număr de coduri de bare pe secvență) , numărul de replici). Un rezumat al seturilor de date și al proprietăților acestora este furnizat în Tabelul 1. Aplicând MPRAnalyze la aceste date, am constatat că modelul este capabil să ofere o potrivire bună (R 2 & gt0.86 pentru toate seturile de date, Fig. 1c), care este în concordanță cu ipotezele noastre de distribuție (Fișier suplimentar 1: Figura S3).

Cuantificare

Ne-am propus să examinăm proprietățile estimării ratei de transcripție generate de MPRAnalyze, notate α (alfa) și comparați-l cu statisticile sumare bazate pe raport (adică, media raporturilor ARN-ADN pentru toate codurile de bare sau, alternativ, raportul dintre medii [denumit în continuare raport agregat]).

În mod liniștit, cele trei estimări sunt în mare parte de acord (Pearson’s r& gt0.9 din seturile de date, fișier suplimentar 1: Figura S4). Pentru a examina în continuare acuratețea estimărilor, am folosit secvențele de control negativ incluse în unele seturi de date. Se presupune că acestea au o rată de transcripție identică indusă de promotorul minim inclus în fiecare construcție fără activitate indusă de secvență. Am examinat varianța estimărilor pe aceste seturi. În setul de date Kwasnieski, numărul limitat de coduri de bare (n= 4) este atenuat de numărul mare de coduri de bare (Fig. 1a), ceea ce duce la toate estimările cu o varianță similară scăzută. În seturile de date bogate în coduri de bare (n≥90), raportul mediu este de așteptat [20] cel mai variabil, cu α fiind cel mai consistent din seturile de date Inoue-Kircher și comparabil comparativ cu raportul agregat din setul de date Inoue-Kreimer (Fig. 2a). Aceste rezultate sugerează că MPRAnalyze estimează rate de transcripție similare la controalele negative, așa cum era de așteptat din această colecție.

Comparație cu MPRAnalyze α estimarea ratei de transcriere cu estimările bazate pe raport ( left ( text frac < frac <1> sum _^ RNA_> < frac <1> sum _^ ADN_> text frac <1> sum _^ frac <>><>> dreapta) ) A Varianța măsurată printre estimările secvențelor de control negativ din fiecare set de date (se presupune că acestea au o rată de transcripție identică). b – d Codurile de bare au fost eșantionate și cuantificarea a fost recomputată pe baza datelor parțiale pentru a măsura efectul numărului de coduri de bare asupra performanței estimate [A se vedea „Metode” pentru detalii ulterioare de eșantionare]. Analizele au fost efectuate folosind estimarea datelor complete ca adevăr de bază. de exemplu Datele MPRA au fost simulate pentru a oferi un adevăr real la sol. În fiecare caz am măsurat părtinirea (esteumAtetrtuth) (fi) deviația standard ( left ( sqrt dreapta)) (c, f) și corelația Spearman între estimări și adevărul de bază (d, g)

Am explorat apoi efectul numărului de coduri de bare asupra performanței estimărilor. Folosind seturile de date bogate în coduri de bare, codurile de bare au fost eșantionate la diferite rate și estimările au fost recomputate pentru fiecare secvență (3 eșantioane independente pe secvență per rata de coduri de bare). Folosind estimările datelor complete ca adevăr de bază, am constatat că codurile de bare de eșantionare descendentă nu rezultă într-o prejudecată sistemică în niciuna dintre estimări (Fig. 2b) și toate estimările au arătat o varianță redusă cu codurile de bare crescute, cu raportul mediu subeficientarea celorlalte două estimări și α având o varianță similară sau mai mică decât raportul agregat (Fig. 2c).

În multe cazuri, scopul cuantificării activității secvenței este de a clasifica și compara diferite secvențe, ca în experimentele de mutageneză. Pentru a compara stabilitatea ordonării secvențelor, corelația Spearman a fost calculată între estimările din fiecare sub-eșantion și estimările datelor complete. Alpha are o corelație similară sau mai mare decât ambele estimări bazate pe raport între seturile de date și abundența codurilor de bare (Fig. 2d).

Deoarece aceste analize sunt limitate de lipsa adevărului la sol, datele MPRA au fost apoi simulate prin generarea de coeficienți aleatori și folosirea aceleiași construcții GLM imbricate descrise mai sus pentru a genera probe. Pentru a evita influențarea rezultatelor, probele au fost generate cu un model de zgomot normal în loc de modelul implicit Gamma-Poisson utilizat de MPRAnalyze („Metode”). Am generat 281 de secvențe cu rate de transcripție crescând treptat care acoperă o gamă de valori posibile (de la 0,2 la 3, în 0,01 pași), cu trei replici în fiecare simulare. Analizele de mai sus au fost repetate cu datele simulate. Am constatat că, deși părtinirea măsurată nu a fost într-adevăr influențată de numărul de coduri de bare, raportul mediu este mult mai mult părtinitor decât ambele α și raportul agregat (Fig. 2e). Similar cu rezultatele reale ale datelor, am găsit α are o varianță mai mică decât ambele estimări bazate pe raport și o corelație mai mare cu ratele de transcriere adevărate (Fig. 2f, g). De asemenea, am simulat date cu un număr diferit de replici și am constatat că creșterea numărului de replici are un efect similar cu creșterea numărului de coduri de bare, deoarece ambii parametri măresc dimensiunea efectivă a eșantionului. Cu orice număr dat de coduri de bare, creșterea numărului de replici a îmbunătățit performanța - gradul de îmbunătățire a scăzut atunci când au fost disponibile mai multe coduri de bare (Fișier suplimentar 1: Figura S5).

În general, am constatat că α funcționează în mod similar sau mai bun decât ambii estimatori bazați pe raport în ceea ce privește precizia, consistența și robustețea față de datele lipsă.

Clasificare

Un caz de utilizare obișnuit pentru MPRA este clasificarea secvențelor active, care induc activitate transcripțională. Acest lucru se face de obicei prin compararea estimărilor bazate pe raport ale secvențelor testate cu un set de control al secvențelor [9, 10], o abordare care suferă de sensibilitatea statisticilor sumare la zgomot și a datelor lipsă, demonstrată mai sus, care, în context, de clasificare duce la scăderea puterii și preciziei. Alte studii au efectuat această analiză utilizând DESeq2 [18], o metodă de analiză a expresiei diferențiale (DEA), prin tratarea bibliotecilor de ADN și ARN ca două condiții și căutând diferențe semnificative între cele două [11]. În cele ce urmează demonstrăm că metodele generale DEA fie nu au putere, fie nu sunt bine calibrate pentru datele MPRA. Mai important, aceste metode se bazează pe o presupunere implicită că majoritatea caracteristicilor nu prezintă un comportament diferențial, o ipoteză validă pentru ARN-seq care nu se menține pentru MPRA, în care secvențele testate sunt adesea selectate în mod explicit pentru activitatea lor potențială. Această presupunere face ca rezultatele metodelor DEA să depindă foarte mult de proiectarea experimentală și de selecția secvenței.

MPRAnalyze efectuează clasificarea secvențelor active prin compararea respectivelor α estimări față de distribuția nulă a ratei de transcriere indusă exclusiv de promotorul minim. Nul se bazează pe secvențe de control negativ atunci când sunt disponibile și, în caz contrar, MPRAnalyze se bazează pe o presupunere conservatoare că modul de distribuție a α valori este modul de distribuție nul și că valorile mai mici decât modul sunt generate în general de nul. Prin urmare, aceste valori sunt utilizate pentru a estima media și varianța distribuției nule.

În ambele scenarii, α valoarea fiecărei secvențe candidate este comparată cu distribuția nulă utilizând deviația absolută mediană (MAD) - o variantă a Z-scor care este mai puțin sensibil la valori aberante. MPRAnalyze acceptă fie un test unilateral, fie unul față, permițând identificarea secvențelor inducătoare (inducând transcripția dincolo de nivelurile minime ale promotorului) sau secvențelor represive (reprimând transcrierea sub nivelurile promotorului). Un test unilateral a fost utilizat pentru a genera toate rezultatele prezentate în această lucrare.

Compararea mPRAnalyze cu metodele existente

Pentru a evalua performanța MPRAnalyze în analizele de clasificare, am comparat șase metode: MPRAnalyze cu și fără controale negative empirice pvalorile calculate folosind cele două estimări bazate pe raport și DESeq2 fie în modul complet (fiecare cod de bare ca eșantion separat), fie în modul colapsat (fiecare replică ca eșantion, luând suma dintre codurile de bare din cadrul fiecărei replici, a se vedea „Metode”). În mod similar cu MPRAnalyze, DESeq2 a fost aplicat utilizând un mod asimetric, și anume concentrându-se pe secvențe inducătoare care au un semnal mai mare în biblioteca ARN decât în ​​biblioteca ADN.

Am examinat fracțiunea de secvențe care au fost semnificativ active (FDR & lt0.05) în fiecare set de date, stratificat în funcție de grup: controale negative, secvențe candidate și controale pozitive atunci când sunt disponibile (Fig. 3a). După cum era de așteptat, empiric p valorile din estimările bazate pe raport arată o lipsă clară de putere. Atât DESeq2-prăbușit, cât și MPRAnalyze fără controale au umflat rate de fals pozitive în seturile de date Kwasnieski (comparativ cu rata de descoperire falsă teoretic așteptată de 5% dintre seturile de controale negative). Atunci când examinăm rezultatele din toate seturile de date, constatăm că, în timp ce MPRAnalyze și DESeq2 au rezultate comparabile în ansamblu, ambele moduri de MPRAnalyze obțin un echilibru mai bun între sensibilitate (identificarea candidaților ca activi) și specificitate (nu identificarea controalelor negative ca active) decât ambele moduri de DESeq2 (Fig. 3b).

Comparații de analiză a clasificării. A fracțiune de secvențe identificate ca fiind semnificativ active (corectate cu BH P& lt0.05) după metodă și clasa secvenței. MPRAnalyze rezultă atât în ​​moduri empirice bazate pe control (roșu), cât și fără controale (portocaliu) p valorile bazate pe raportul mediu (albastru) sau raportul agregat (verde) DESeq2 rezultă în modul restrâns (codurile de bare sunt însumate în fiecare lot, violet) sau modul complet (date complete, albastru deschis). Numărul absolut de secvențe active este afișat pe bare. b Curba Precision-Recall. Precizia se bazează pe performanța pe controalele negative, Recall se bazează pe populația totală de secvențe, presupunând că toți candidații sunt activi. Barele de eroare sunt ± abaterea standard a acestor măsuri între seturile de date. c Fracțiunea secvențelor active detectată după relansarea analizelor pe 685 secvențe din setul de date Inoue-Kreimer care au fost identificate ca active prin MPRAnalyze (modul regulat) și ambele moduri DESeq2 și cele 200 de controale din același set de date. MPRAnalyze recapitulează aceleași rezultate, constatând că 100% dintre candidați sunt activi, în timp ce DESeq2 complet identifică doar 161 (23,5%) și DESeq2 prăbușit nu reușește complet să identifice orice secvență activă

Deoarece analiza de mai sus trece cu vederea comportamentul statistic general al metodelor, am examinat integral p distribuția valorii fiecărei metode în cadrul fiecărui set de date. Având în vedere mai multe seturi de date, am constatat că ambele moduri de MPRAnalyze, ambele metode bazate pe raport și DESeq2-full par bine calibrate, în timp ce DESeq2-colaps nu urmează distribuția teoretică a p valori: un amestec de valori uniforme (corespunzătoare secvențelor inactive care urmează distribuția nulă) și valori scăzute (secvențe active pentru care nulul este respins) (Fișier suplimentar 1: Figura S6). Rezultate similare s-au găsit la examinarea distribuției numai pentru controale negative (de așteptat să fie uniforme), cu MPRAnalyze în modul fără control având unele valori umflate (atribuirea mai mică p valori decât se aștepta), care subliniază importanța utilizării controalelor negative în studiile de clasificare (Fișier suplimentar 1: Figura S7). În cele din urmă, am examinat distribuția peste controale pozitive (disponibilă numai în seturile de date Inoue-Kircher) și am constatat că MPRAnalyze în ambele moduri are o putere statistică semnificativ mai mare, fiind depășit doar de colapsul DESEq2 necalibrat (Fișier suplimentar 1: Figura S8) . În general, am constatat că, în ciuda unor rate comparabile de secvențe găsite semnificative statistic, modelul MPRAnalyze este mai bine calibrat la datele MPRA.

Avertismentele utilizării metodelor concepute pentru exprimarea diferențială

DESeq2 colectează informații din toate caracteristicile incluse în setul de date (gene pentru ARN-seq, potențatori potențiali pentru MPRA), atât în ​​corecția dimensiunii bibliotecii, cât și în estimarea parametrului de dispersie. Cu toate acestea, spre deosebire de testele la nivelul genomului, cum ar fi ARN-seq, setul de caracteristici testate în experimentele MPRA este organizat în conformitate cu obiectivele specifice și contextul studiului. Am emis ipoteza că clasificarea bazată pe DESeq2 ar fi foarte dependentă de secvențele incluse în analiză. Am repetat analiza de clasificare pe setul de date Inoue-Kreimer folosind doar cele 200 de secvențe de controale negative și 685 de secvențe candidate care anterior erau clasificate ca active de MPRAnalyze și ambele moduri de DESeq2. Aceasta a simulat un scenariu în care datele au fost generate într-un experiment care a inclus mai puține secvențe. Confirmând ipoteza noastră, rezultatele MPRAnalyze rămân neschimbate, cu toate secvențele candidate active semnificativ, în timp ce DESeq2-full clasifică doar 161 (23,5%) din secvențe ca active și DESeq2-colaps nu găsește deloc secvențe active. Acest lucru relevă o limitare inerentă a utilizării metodelor de expresie diferențială, cum ar fi DESEq2 pentru analiza datelor MPRA.

Studii comparative

O altă utilizare obișnuită pentru MPRA-urile sunt studiile comparative, care caută transcrierea diferențială indusă de o secvență reglatoare putativă între diferite tipuri de celule, stimuli sau alte covariate experimentale [11, 16]. Setări experimentale mai complexe sunt, de asemenea, posibile, de exemplu, folosind MPRA pentru a evalua activitatea transcripțională în timp ca în datele Inoue-Kreimer [17], sau interacțiunea dintre activitatea alelei diferențiale și prezența unui anumit factor de transcripție, așa cum este realizat de Ulirsch și colegi [12].

Aici folosim datele Inoue-Kircher pentru a demonstra că MPRAnalyze este mai puternic din punct de vedere statistic decât stabilirea metodelor de analiză a datelor MPRA comparative și, prin urmare, permite descoperirea unor semnale biologice mai neuilibrate și că MPRAnalyze acceptă modele experimentale mai complexe care nu sunt susținute de metodele anterioare. (de exemplu, analiza temporală).

Efectuarea analizei activității diferențiale în MPRAnalyze se poate face în două moduri: în primul rând, deoarece MPRAnlyze optimizează modelul utilizând maximizarea probabilității, orice ipoteză unică care poate fi codificată într-un model liniar generalizat poate fi testată folosind un test al raportului de probabilitate. Aceasta include ipoteze complexe care pot fi surprinse de termeni de interacțiune între covariabile (de exemplu, tipul celulei și fundalul genetic [12]). În plus, în modele simple cu două condiții sau în cazurile în care contrastele multiple sunt comparate cu o singură referință (de exemplu, mai mulți stimuli diferiți în comparație cu comportamentul nestimulat), coeficienții modelului pot fi extrasați din modelul ARN și testați utilizând un test Wald . În timp ce ambele opțiuni sunt acceptate în implementarea MPRAnalyze, rezultatele din această lucrare se bazează pe testarea raportului de probabilitate.

Atunci când se efectuează analize comparative, este important să se țină seama de posibile prejudecăți, cum ar fi cele induse de diferențele generale în rata de transcripție bazală. În experimentele ARN-seq, această problemă este de obicei rezolvată prin corectarea dimensiunii bibliotecii [23], dar cu MPRA acest lucru nu este neapărat suficient. Acest lucru se datorează faptului că dimensiunea bibliotecii să corespundă corect părtinirii din date, fie marea majoritate a caracteristicilor trebuie să fie nediferențiale, fie semnalul diferențial trebuie să fie simetric. Niciuna dintre aceste ipoteze nu este valabilă în mod necesar pentru datele MPRA, deoarece acestea depind în mare măsură de selecția secvențelor candidate. De exemplu, MPRA poate fi proiectat cu cele mai multe secvențe fiind mai active într-o condiție decât în ​​cealaltă, și astfel majoritatea secvențelor sunt într-adevăr active diferențial. Pentru a rezolva această problemă, MPRAnalyze utilizează controale negative în date pentru a defini comportamentul diferențial nul. Acest lucru se face prin montarea unui model separat, comun pentru controale, în care fiecare secvență de control are un model ADN distinct, dar toate împărtășesc un singur model ARN, reflectând activitatea bazală în fiecare condiție (Metode).

Au fost dezvoltate metode alternative pentru a aborda această întrebare sau întrebări similare. QuASAR-MPRA [19] a fost conceput special pentru comparații alelice și utilizează un model beta-binomial și mpralm [20] care este un instrument general de activitate diferențială conceput pentru MPRA care se potrivește unui model liniar. Ambele metode utilizează statistici sumare și nu includ informații la nivel de cod de bare în modelul lor. Mpralm poate utiliza fie raportul agregat, fie raportul mediu ca statistică și, prin urmare, este supus limitărilor descrise mai sus. QuASAR-MPRA, similar cu MPRAnalyze, modelează ADN-ul și ARN-ul separat, dar face acest lucru folosind suma numărărilor din toate codurile de bare din fiecare condiție, prăbușind datele într-o singură măsurare.

Compararea mPRAnalyze cu metodele existente

Pentru a compara aceste diferite metode, am folosit setul de date Inoue-Kreimer și am extins subsetul de probe pe care le-am folosit pentru a include atât punctele de timp de 0 h, cât și cele de 72 h (inducția postneurală a celulelor stem embrionare umane (hESC)). Am căutat apoi secvențe a căror activitate diferă între cele două puncte de timp, folosind MPRAnalyze, mpralm (ambele moduri raport agregat și raport mediu) și QuASAR-MPRA („Metode”). Distribuția de p valorile (Fig. 4a) arată că MPRAnalyze general și ambele moduri de mpralm sunt bine calibrate, urmând amestecul așteptat de valori uniforme și valori scăzute în rândul candidaților și prezentând o inflație ușoară, dar un comportament general uniform între controalele negative. În schimb, QuASAR-MPRA este mai puțin calibrat atât pe candidați, cât și pe secvențele de control negativ, recapitulând rezultatele descrise de Myint și colab. [20]. Într-adevăr, QuASAR-MPRA a identificat doar doi candidați drept diferențiali semnificativi (corectați cu BH p valori & lt0.05).

Rezultatele analizei comparative ale comparării punctului de timp 0h la 72h în setul de date Inoue-Kreimer. Ap distribuțiile valorice ale candidaților (sus) și controalelor (jos). QuASAR-MPRA este slab calibrat, în timp ce MPRAnalyze și ambele moduri mpralm urmează comportamentul teoretic (amestec de valori uniforme și valori scăzute). b Compararea directă a MPRAnalyze cu metodele concurente. Panourile superioare arată dimensiunea efectului biologic (modificarea îndoirii jurnalului) Panourile inferioare arată semnificația statistică (corectat BH p liniile punctate sunt 0,05 prag). c Diagrama Venn pentru MPRAnalyze și mpralm (ambele moduri). Numerele din fiecare zonă sunt (sus) numărul total de secvențe din zonă și (jos) numărul de secvențe de activitate descrescătoare (stânga) + și secvențe de activitate crescătoare (dreapta). d Îmbogățirea situsurilor de legare a factorului de transcripție în secvențe active diferențiale, determinate de fiecare metodă. Linia continuă reprezintă pragul de 0,05. (a se vedea „Metode” pentru detalii suplimentare)

În ansamblu, observăm că estimările dimensiunii efectului (modificarea îndoirii jurnalului) sunt reproductibile în mare parte între metode (Pearson’s r & gt0.84 pentru toate perechile). În ceea ce privește puterea statistică (Fig. 4b), observăm că MPRAnalyze numește mai multe secvențe la fel de semnificative în comparație cu celelalte metode. Observăm în continuare că valorile FDR ale MPRAnalyze sunt în mare parte corelate cu cele ale mpralm în rândul candidaților semnificativi statistic (corelația Spearman & gt0.63 pentru secvențele MPRAnalyze apeluri diferențiale) și că estimările QuASAR-MPRA nu se corelează cu celelalte două metode (consecvente cu rezultatele din Fig. 4a). O examinare suplimentară a rezultatelor a exclus QuASAR-MPRA, deoarece nu a identificat un număr suficient de secvențe diferențiale.

Am examinat în continuare secvențele diferențiale, după filtrarea rezultatelor, pentru a include doar secvențe candidate care sunt clasificate ca active în cel puțin una dintre condiții (corectate cu BH p& lt0.05, folosind metoda de clasificare MPRAnalyze). Interesant este faptul că mpralm în modul agregat găsește un număr aproximativ echilibrat de secvențe care cresc (99) și descrescă (91) în activitate (comparând 0 h la 72 h), iar în modul mediu găsește mai mult (89) decât în ​​creștere (49) , în timp ce MPRAnalyze găsește mult mai multe secvențe în creștere (351) decât în ​​scădere (115) (Fig. 4c). Cu toate acestea, secvențele din studiul Inoue-Kreimer au fost selectate în mod explicit pentru a corespunde unei activități crescute pe parcursul diferențierii (2037 [82%] din secvențele testate sunt regiuni genomice selectate datorită celei mai apropiate gene care prezintă o expresie crescută față de diferențiere). Prin urmare, dezechilibrul în rezultatele MPRAnalyze se potrivește cu proiectarea experimentului.

Am explorat apoi setul de candidați detectați prin fiecare metodă. În acest scop, am împărțit setul de secvențe active diferențial în activitate descrescătoare și crescătoare (comparând 0 h cu punctul de timp de 72 h), apoi în cadrul fiecărui set am testat supra-reprezentarea motivelor de legare a ADN-ului (test hipergeometric, corectat BH p& lt0.05 „Metode”). Pentru a restrânge rezultatele, am examinat uniunea celor mai buni 15 motive de legare a factorului de transcripție cele mai îmbogățite prin fiecare metodă (Fig. 4d, Fișier suplimentar 1: Figura S9, Fișier suplimentar 3: Tabel S1, Fișier suplimentar 4: Tabel S2).

Dintre secvențele cu activitate descrescătoare, găsim, așa cum era de așteptat, situsuri de legare pentru doi dintre factorii pluripotenți principali (NANOG, POU5F1). În timp ce acestea sunt captate de toate metodele, observăm o semnificație mai mare cu MPRAnalyze. Dintre secvențele de activitate în creștere, în care metodele au diferențe mai profunde, constatăm că MPRAnalyze are în general scoruri mai mici de îmbogățire, dar compensează printr-o creștere substanțială a puterii statistice. Per total, mpralm în Rău modul nu detectează mulți dintre factorii de transcripție îmbogățiți găsiți de celelalte metode, cu un total de 23 (comparativ cu 106 și 195 găsiți de mpralm agregat și respectiv MPRAnalyze) și afișează o putere statistică diminuată.

Pentru a ne asigura că aceste rezultate nu sunt explicate pur și simplu de numărul mai mare de secvențe diferențiale detectate de MPRAnalyze, am examinat și un consens + zgomot opțiune, în care setul de consens (secvențe numite diferențiale prin toate metodele) a fost umflat cu secvențe alese aleatoriu (preluate din populația rămasă) pentru a se potrivi cu numărul de secvențe diferențiale numite de MPRAnalyze („Metode”). Găsim că această inflație simulată care nu reflectă adevăratul semnal biologic nu explică puterea crescută afișată de MPRAnalyze.

În special, rezultatele MPRAnalyze sunt îmbogățite pentru site-urile de legare pentru TEAD2 și NRF1, dar rezultatele conform celorlalte metode nu conțin o astfel de îmbogățire.Ambii factori au fost implicați în neurogeneză de studii anterioare [24, 25] și, la o examinare mai atentă, am constatat că siturile de legare NRF1 au o îmbogățire comparabilă în toate metodele (1,48 în MPRAnalyze, 1,39 în mpralm agregat și 1,45 în mpralm Rău), dar trece pragul statistic numai cu MPRAnalyze. În cealaltă direcție, am constatat că rezultatele mpralm sunt îmbogățite pentru siturile de legare ale MYF5 și GSX1, dar nu și rezultatele MPRAnalyze. Cu toate acestea, la examinarea nivelurilor de ARNm măsurate în punctele de timp corespunzătoare, am constatat că ambii factori au niveluri de expresie foarte scăzute în condițiile în care a fost efectuată MPRA (Fișa suplimentară 5: Tabelul S3). Aceste niveluri sunt sub nivelurile lor de expresie caracteristice în țesuturile în care se știe că sunt active [26], ceea ce le face să fie mai puțin atractive pentru conducerea transcrierii diferențiale. În general, MPRAnalyze identifică semnalul biologic care este în concordanță cu metodele concurente, cu o putere statistică crescută, care permite rezultate mai nuanțate.

Detectarea activității temporale

În cele din urmă, observăm că MPRAnalyze poate fi utilizat pe întregul set de date Inoue-Kreimer, care constă din șapte puncte de timp, pentru a identifica secvențe a căror activitate se schimbă în timp. MPRAnalyze efectuează această analiză prin compararea a două modele: modelul complet, care permite activitate dependentă de timp și modelul redus, în care sunt excluși factorii de timp, forțând astfel un comportament constant între puncte de timp (metode). Această analiză nu poate fi efectuată prin nici una dintre metodele concurente: QuASAR-MPRA acceptă doar comparații în două condiții, iar mpralm acceptă doar testarea ipotezelor bazate pe coeficienți. Am rulat MPRAnalyze în acest mod și după filtrarea secvențelor doar la cele care sunt active în cel puțin un punct de timp (FDR & lt0.05, folosind MPRAnalyze pentru a efectua analize de clasificare pe punct de timp) MPRAnalyze găsește 749 (28%) secvențe care au activitate temporală (metode, FDR & lt0.05). În mod liniștit, din cele 466 secvențe identificate ca diferențiale între primul și ultimul punct de timp, 420 (90,1%) s-au dovedit a avea activitate temporală generală.

Am constatat că secvențele temporale tind să aibă în general un model de activare asemănător impulsului în timp [27], în timp ce secvențele de control negative au modele mai puțin clare (Fișier suplimentar 1: Figura S10). Apoi am grupat secvențele temporale (K-seamnă cu K = 4 pe α valori, z-normalizat pentru fiecare secvență) pentru a grupa secvențe cu un model de comportament temporal similar și a repetat aceeași analiză de îmbogățire a sitului de legare ca mai sus (Fișier suplimentar 6: Tabel S4) pentru fiecare cluster. Ca dovadă a validității abordării noastre, am constatat că secvențele active la primele momente de timp au fost într-adevăr îmbogățite pentru siturile de legare ale factorilor pluripotenți de bază (NANOG, SOX2, POUF51) și că secvențele care sunt active mai târziu în diferențiere procesul a fost îmbogățit pentru siturile de legare a factorilor de transcripție despre care se știe că participă la diferențierea neuronală (ATF2 [28], HES1 [29], GLI1, LEF [30]).

Comparație alelică

Multe studii MPRA se referă la cuantificarea efectului variantelor de secvență asupra funcției de reglare. Aceste studii, denumite aici studii de comparație alelice, includ cele care compară variantele genetice observate pentru a investiga efectul reglator al diferitelor alele ale unei secvențe reglatoare [12], precum și studii care modifică în mod deliberat o secvență pentru a elucida gramatica reglatoare într-o moda sistemică [13]. Deși conceptual sunt similare cu analizele comparative, comparațiile alelice necesită luarea în considerare a diferiților factori. Două diferențe importante sunt: ​​(1) secvențele comparate (de exemplu, tipul sălbatic și alela mutantă) provin din același eșantion și, prin urmare, o prejudecată sistemică este mai puțin îngrijorătoare decât atunci când se compară condiții diferite și (2) diferitele alele fiind comparate sunt asociate cu diferite coduri de bare, spre deosebire de comparația condițională în care codurile de bare sunt împărțite între condiții.

Pentru a demonstra utilitatea MPRAnalyze în acest scenariu, am folosit date publicate recent de Mattioli și colegii [13], care au măsurat efectele tuturor posibilelor deleții cu un singur nucleotid au fost examinate pe 31 de promotori selectați. În acest scop, a fost efectuată o MPRA cu toate ștergerile și secvențele corespunzătoare de tip sălbatic (WT), în care fiecare ștergere a fost asociată cu 26 de coduri de bare și fiecare secvență WT a fost asociată cu 80 de coduri de bare. O singură probă de plasmide de pre-transducție a fost secvențiată pentru a produce biblioteca ADN. Probele de ARN au fost prelevate din două țesuturi diferite: opt probe din linia celulară HepG2 și patru probe din linia celulară K562. Acest design experimental asimetric exemplifică natura diversă a studiilor MPRA și necesitatea unui cadru flexibil.

Folosind acest set de date, demonstrăm că MPRAnalyze este bine calibrat și mai puternic statistic decât metodele stabilite și susține studierea interacțiunii mai multor condiții: în acest caz găsirea variantelor de secvență cu efecte funcționale specifice liniei celulare.

Compararea mPRAnalyze cu metodele existente

Similar analizei comparative descrise mai sus, am comparat fiecare secvență de ștergere cu WT corespunzător din fiecare țesut separat, cu toate cele trei metode: MPRAnalyze, mpralm (care acceptă doar agregate mod pentru comparații alelice) și QuASAR-MPRA.

La examinarea p distribuția valorii generate de fiecare metodă constatăm că MPRAnalyze și mpralm sunt ambele mai bine calibrate decât QuASAR-MPRA (Fig. 5a-b). În concordanță cu rezultatele noastre anterioare, toate metodele au estimări corelate ale efectelor biologice (Fig. 5c-f). Metodele sunt mai bine corelate în datele HepG2 în comparație cu datele K562 (corelații cu MPRAnalyze: Pearson’s r= 0,72 în K562 și 0,77 în HepG2 pentru mpralm și 0,78 în K562 și 0,96 în HepG2 pentru QuASAR), despre care am presupus că se datorează numărului mai mare de replici din datele HepG2. Când comparația a fost repetată folosind doar patru replici ale datelor HepG2, corelațiile dintre metode au scăzut (corelații cu MPRAnalyze: Pearson’s r= 0,63 pentru mpralm și 0,38 pentru QuASAR, fișier suplimentar 1: Figura S11).

Evaluarea performanței în comparație alelică. a, bp densitatea valorii celor trei metode evaluate în ambele linii celulare. c – f valorile logFC dintre metodele din fiecare tip de celulă arată că toate metodele găsesc un semnal biologic similar. g – i valori logFC între tipurile de celule pentru fiecare metodă. Se așteaptă unele diferențe, dar valorile generale sunt foarte corelate. j Schema analizei de îmbogățire, testând ștergerile funcționale specifice liniei celulare pentru îmbogățirea motivelor care au fost câștigate sau pierdute de aceste ștergeri. k, l rezultatele analizelor de îmbogățire a motivelor. Factorii de transcripție cu îmbogățire semnificativă (FDR & lt 0,05) sunt etichetați

Am comparat apoi efectele estimate de fiecare metodă de-a lungul liniilor celulare. În general, găsim un grad ridicat de similitudine în efectele perturbării secvenței între liniile celulare - o constatare susținută de toate metodele pe care le-am considerat (Fig. 5g – i). Privind mai atent, descoperim că mpralm și QuASAR-MPRA găsesc ambele o înclinație sistemică spre efecte mai puternice în K562, cu 72,6% și 63,1% de ștergeri având o valoare de extragere a jurnalului mai extremă în K562 comparativ cu HepG2 în mpralm și QuASAR- MPRA, respectiv, în timp ce rezultatele MPRAnalyze sunt mai echilibrate, cu 49,8%. Atunci când comparăm puterea statistică, găsim din nou că MPRAnalyze poate detecta mai multe ștergeri care afectează în mod semnificativ rata transcripției (FDR & lt0.05). În HepG2, MPRAnalyze găsește 2855 (72%) ștergeri cu efect semnificativ, în timp ce mpralm găsește 2710 (68,4%), cu 2071 (52,2%) secvențe semnificative în ambele în K562, MPRAnalyze găsește 1230 (31%) ștergeri semnificative comparativ cu 360 (9%) găsit de mpralm, cu 272 (6,8%) semnificativ în ambele. În ambele tipuri de celule, QuASAR-MPRA nu găsește nicio ștergere funcțională semnificativ. Așa cum era de așteptat, datorită dimensiunii mai mari a eșantionului, atât MPRAnalyze, cât și mpralm sunt mai puternice în HepG2 comparativ cu K562.

Identificarea variantelor cu efecte specifice liniei celulare

Deoarece studiul Mattioli a efectuat comparații alelice în două tipuri de celule, acesta poate fi, de asemenea, utilizat pentru identificarea ștergerilor care au un efect diferit în celulele HepG2 în comparație cu celulele K562. Cu MPRAnalyze, este posibil să abordăm această întrebare direct, testând interacțiunea dintre țesut și covariabilele alele din model. La efectuarea acestei analize, MPRAnalyze a găsit 608 (15,3%) ștergeri diferențiale care au avut un efect diferit între tipurile de celule. De exemplu, promotorul de bază al genei lncRNA DLEU1 are mai multe deleții funcționale care sunt foarte concordante între tipurile de celule și o singură deleție funcțională diferențiată în poziția 83, unde deleția are un efect semnificativ mai mare în HepG2 (logFC= -0,86) decât în ​​K562 (logFC= −0.13) (Fișier suplimentar 1: Figura S12).

Pentru a examina implicațiile biologice ale rezultatelor noastre, am urmărit analiza efectuată de Mattioli și colegii săi și am identificat motivele de legare a factorului de transcripție care sunt perturbate de delețiile nucleotidice unice. Concentrându-ne doar pe ștergerile funcționale (adică ștergerile care au avut vreun efect în una sau ambele linii celulare), am căutat motive de legare a ADN ale căror ștergeri perturbatoare sunt supra-reprezentate în setul de ștergeri funcționale condiționate (de exemplu, ștergeri cu un efect semnificativ mai mare în o linie celulară față de cealaltă) (Fig. 5j). În general, am găsit trei îmbogățite statistic (testul hipgergeometric, FDR& lt0.05, Metode) motive în ștergerile specifice tipului de celulă (Fig. 5k, l). În mod liniștit, am constatat că delețiile specifice K562 au fost îmbogățite pentru motivele factorului de transcripție eritroidian NF-E2. Aceste rezultate demonstrează utilitatea potențială a MPRAnalyze în abordarea cazurilor de proiecte experimentale complexe și, eventual, asimetrice.


Răsfoiți schița completă

Erorile aleatorii sunt cauzate de surse care nu sunt evidente imediat și poate dura mult timp încercând să descoperi sursa.

Eroarea aleatorie este, de asemenea, numită eroare statistică, deoarece poate fi eliminată într-o măsurătoare prin mijloace statistice, deoarece are o natură aleatorie.

Spre deosebire de cazul erorilor sistematice, media simplă din diferite măsurători ale aceleiași cantități poate ajuta la compensarea erorilor aleatorii. Erorile aleatorii pot fi rareori înțelese și nu sunt niciodată fixe în natură - cum ar fi proporțional cu cantitatea măsurată sau fiind constante pe mai multe măsurători.

Motivul pentru care erorile aleatorii pot fi rezolvate prin mediere este că au o valoare zero așteptată, ceea ce înseamnă că sunt cu adevărat aleatorii și împrăștiate în jurul valorii medii. Aceasta înseamnă, de asemenea, că media aritmetică a erorilor este de așteptat să fie zero.

Pot exista o serie de surse posibile de erori aleatorii, iar sursa lor depinde de tipul de experiment și de tipurile de instrumente de măsurare utilizate.

O eroare aleatorie poate apărea, de asemenea, din cauza instrumentului de măsurare și a modului în care este afectat de schimbările din împrejurimi. De exemplu, o balanță de arc poate arăta o anumită variație a măsurătorii datorită fluctuațiilor de temperatură, condițiilor de încărcare și descărcare etc. Un instrument de măsurare cu o precizie mai mare înseamnă că vor exista fluctuații mai mici în măsurarea sa.

Erori aleatorii sunt prezente în toate experimentele și, prin urmare, cercetătorul ar trebui să fie pregătit pentru ele. Spre deosebire de erorile sistematice, erorile aleatorii nu sunt previzibile, ceea ce le face dificil de detectat, dar mai ușor de îndepărtat, deoarece sunt erori statistice și pot fi eliminate prin metode statistice, cum ar fi medierea.


Lecții învățate

Prin 11 iterații ale cursului, am revizuit curriculum-ul pe baza feedbackului atât al elevilor, cât și al instructorului. Mai jos sunt câteva lecții importante pe care le-am învățat.

  1. Este util să aveți un membru al echipei cu normă întreagă care să poată lucra în perioadele în care cursul nu este oferit pentru a pregăti materiale de laborator (noi tulpini de drojdie și plasmide), introduce noi protocoale sau optimiza cele actuale și actualiza materialele scrise. De asemenea, este util să aveți o persoană (persoane) de asistență tehnică pentru a pregăti și configura materialele săptămânale de laborator.
  2. Faptul că elevii lucrează în perechi la sarcinile cursului (sarcini post-laborator și poster final) duce la îmbunătățirea performanței la aceste sarcini. Evaluarea înțelegerii individuale se poate face cu teste care se completează independent.
  3. Solicitarea ca elevii să trimită o foaie de calcul cu analiza datelor lor permite TA-urilor să evalueze mai ușor analizele cantitative împreună cu șabloanele furnizate de instructor.
  4. Codificarea culorilor tuturor materialelor studenților (rafturi, tuburi, bandă etc.) prin mutant (adică mut1 = portocaliu, mut2 = albastru, mut3 = roz, mut4 = galben, mut5 = verde) facilitează distribuția și organizarea acestora.
  5. Vor apărea greșeli (atât ale personalului, cât și ale studenților), dar este adesea posibil să le transformăm în bune oportunități de învățare.
  1. Am descoperit că proteinele p53 (în special versiunile mutante) sunt extrem de sensibile la proteoliză. Prin urmare, este esențial ca odată ce studenții să-și lizeze celulele de drojdie, să-și păstreze probele la 4 ° C și să lucreze eficient pentru a minimiza timpul înainte de a alicota și îngheța extractele de proteine.
  2. Testul de legare a ADN-ului este predispus la variabilitate ridicată. Am constatat că următoarele sfaturi ajută, dar nu elimină această variabilitate: (A) nu lăsați tamponul de spălare în puțuri și nu permiteți uscarea puțurilor, deoarece ambele au potențialul de a crește fundalul (B), nu răzuiește partea inferioară a puțurilor cu vârfuri de pipetă, deoarece aceasta poate îndepărta învelișul de avidină care ține ADN-urile biotinilate în puț (C), testul trebuie făcut la temperatura camerei, deoarece fundalul crește dramatic atunci când se efectuează la 30 ° C și (în special) 36 ° C și (D) atunci când există puțină sau deloc legare specifică a ADN-ului, scăderea de fond va produce uneori o activitate de legare „negativă”, elevilor ar trebui să li se amintească de această posibilitate.
  3. În săptămâna 3, datele testului Bradford ar trebui verificate de instructori pentru a confirma că se încadrează în domeniul liniar al curbei standard, elevii ar trebui să repete analiza dacă R 2 & lt 0,95 sau unul sau mai multe puncte de date nu se încadrează în domeniul liniar al curbei standard.
  4. Sursa principală de eroare experimentală de-a lungul cursului a fost pipetarea inexactă. Am găsit util să subliniem tehnica adecvată a pipetatorului și să stabilim criterii cantitative pentru duplicate, adică acestea nu ar trebui să difere cu & gt50%, pe care studenții trebuie să le îndeplinească pentru ca datele lor să fie incluse în analize ulterioare.

Predăm acest curs într-un format trimestrial de 10 săptămâni. Pentru instructorii care iau în considerare acest curriculum pentru un curs de laborator de un semestru, s-ar putea adăuga experimente de laborator suplimentare. De exemplu, studenții ar putea să-și facă propriile construcții mutante p53 marcate cu GFP, folosind recombinarea omologă in vivo, și confirmați prin analiza secvenței, studenții care studiază mutanții oligomerizați putativi ar putea evalua starea oligomerizării folosind electroforeza pe gel nativ. la alegere. Faptul că studenții repetă experimente ar putea fi cea mai productivă utilizare a săptămânilor suplimentare pentru a ajuta la consolidarea înțelegerii studenților despre „dezordine” inerentă a datelor și nevoia de repetări multiple, aceasta ar crește, de asemenea, probabilitatea de a obține date de calitate a publicației.


Analiza datelor

Pregătește-ți curba standard și estimează concentrațiile de proteine

Curba dvs. de proteine ​​standard va servi ca instrument pentru estimarea concentrațiilor de proteine ​​în laborator. Prin urmare, doriți să fie destul de mare și ar trebui să ocupe cea mai mare parte a lățimii paginii și să fie bine proporționat, așa cum este sugerat în tutorialul grafic pe care l-ați finalizat mai devreme în curs. Alegeți etichete informative pentru axe așa cum ați învățat anterior. Plasați datele curbei standard și apoi includeți o linie de tendință cea mai potrivită. Relația poate fi liniară sau oarecum curbiliniară. Folosiți-vă cea mai bună judecată pentru a se potrivi liniei dvs. de tendință și nu uitați că nu este o bună practică să extrapolați, fie către sau departe de origine.

Din absorbantele pentru necunoscute estimează fiecare concentrație de proteine. Amintiți-vă că concentrația necunoscutului este cantitatea de proteine ​​împărțită la volumul probei utilizate, nu volumul total în tubul de testare. Prin convenție, aproape întotdeauna raportăm concentrațiile de proteine ​​ca miligrame / mililitru (mg / ml). De asemenea, pentru fiecare necunoscut amintiți-vă să utilizați valoarea de absorbție unică care se încadrează în cea mai liniară parte a curbei standard.

Planificați să faceți diluții

Arată toate lucrările. În primul rând, vă vom solicita să diluați un volum de pornire specific la o concentrație finală dorită de proteine. Acesta este genul de diluare pe care l-ați efectua pentru a face o soluție de lucru. În al doilea rând, veți stabili cum să pregătiți fiecare dintre probele dvs. până la volumul final și concentrația dorite.

  1. Prima dvs. problemă este să determinați cum să diluați 150 și microli din fiecare dintre cele două necunoscute la o concentrație finală de 1 mg / ml. Știi v1, ai determinat c1 folosind curba standard, iar concentrația finală dorită de 1 mg / ml este c2. În notebook-ul dvs. înregistrați cele trei variabile cunoscute pentru diluarea fiecărei necunoscute. Calculați v2 , afișând toate calculele în caietul dvs. Notați ambele v2 și volumul de adăugat la v1.
  2. A doua problemă este să determinați cum să diluați fiecare necunoscut pentru a obține un volum final de 150 și microli la o concentrație finală de 1,5 mg / ml. Înregistrați din nou cele trei variabile cunoscute și determinați variabila necunoscută pentru fiecare necunoscut. Afișați toate calculele.

Estimarea randamentelor fracțiunii

O abordare obișnuită a învățării modului în care funcționează ceva este de a-l distruge. Aplicăm acest principiu țesuturilor vii atunci când conducem ceea ce numim o fracționare a țesutului. De obicei, începem prin omogenizarea țesutului, apoi separăm omogenizarea în componente, folosind adesea o metodă numită centrifugare diferențială. Centrifugarea produce o componentă solidă (peleta) pe care o resuspendăm într-un volum de lichid. De asemenea, produce un component lichid, supernatantul, pe care îl procesăm în continuare. Când efectuăm o fracționare, dorim să putem raporta cât din fiecare componentă avem, de obicei în ceea ce privește cantitatea de proteine ​​recuperată.