Informație

3: Alinierea rapidă a secvențelor și căutarea bazei de date - Biologie


3: Alinierea rapidă a secvențelor și căutarea bazei de date

Align: o bibliotecă de clase C ++ și un server web pentru prototiparea rapidă a alinierii secvenței

Autor (i): Silvio C. Tosatto, Alessandro Albiero, Alessandra Mantovan, Carlo Ferrari, Eckart Bindewald, Stefano Toppo Departamentul de Biologie și Centrul de Biotehnologie CRIBI, Universitatea din Padova, V.le G. Colombo 3, 35121 Padova, Italia., Italia

Afiliere:

Numele jurnalului: Tehnologii actuale de descoperire a drogurilor

Volumul 3, numărul 3, 2006




Abstract:

Alinierea secvenței rămâne un instrument fundamental în majoritatea sarcinilor legate de predicția secvenței și structurii proteinelor. O bibliotecă de clase C ++ a fost dezvoltată pentru a facilita implementarea rapidă a unei varietăți de tehnici de aliniere a secvențelor de două niveluri, de ultimă generație. Acestea variază de la secvență simplă la secvență până la profilul avansat până la alinierea profilurilor cu informații opționale de structură secundară. De asemenea, pot fi generate alinieri suboptimale, utilizate frecvent pentru a estima regiunile de încredere. Proiectarea orientată obiect facilitează implementarea rapidă, testarea și extinderea funcționalității existente. De asemenea, este furnizată o interfață web simplă, care poate fi utilă și în educația bioinformatică. Codul sursă, documentația online și o interfață web prototipică sunt accesibile în mod liber utilizatorilor academici de pe adresa URL: http://protein.cribi.unipd.it/align/. Un studiu de caz eșantion în modelarea citocromului uman P450 este discutat.

Tehnologii actuale de descoperire a drogurilor

Titlu: Align: o bibliotecă de clase C ++ și un server web pentru prototiparea rapidă a alinierii secvenței


3: Alinierea rapidă a secvențelor și căutarea bazei de date - Biologie

Din fericire, statisticile scorurilor alinierilor locale, spre deosebire de cele ale alinierilor globale, sunt bine înțelese. Acest lucru este valabil mai ales pentru alinierile locale lipsite de goluri, pe care le vom lua în considerare mai întâi. Astfel de alinieri erau tocmai cele căutate de programele originale de căutare a bazei de date BLAST [6].
O aliniere locală fără goluri constă pur și simplu dintr-o pereche de segmente de lungime egală, unul din fiecare dintre cele două secvențe fiind comparat. O modificare a algoritmilor Smith-Waterman [7] sau Sellers [8] va găsi toate perechile de segmente ale căror scoruri nu pot fi îmbunătățite prin extensie sau tăiere. Acestea se numesc perechi de segmente cu scor mare sau HSP-uri.
Pentru a analiza cât de mare este probabil ca un scor să apară întâmplător, este necesar un model de secvențe aleatorii. Pentru proteine, cel mai simplu model alege resturile de aminoacizi într-o secvență independent, cu probabilități de fond specifice pentru diferitele reziduuri. În plus, scorul așteptat pentru alinierea unei perechi aleatoare de aminoacizi trebuie să fie negativ. Dacă nu ar fi cazul, alinierile lungi ar avea tendința de a avea un scor mare, indiferent dacă segmentele aliniate au fost corelate, iar teoria statistică s-ar defecta.
La fel cum suma unui număr mare de variabile aleatoare independente distribuite identic (i.i.d) tinde spre o distribuție normală, maximul unui număr mare de i.i.d. variabilele aleatoare tinde spre o distribuție extremă a valorilor [9]. (Vom elimina numeroasele puncte tehnice necesare pentru a face această afirmație riguroasă.) Studiind aliniamentele secvenței locale optime, ne ocupăm, în esență, de ultimul caz [10,11]. În limita lungimilor secvenței suficient de mari m și n, statisticile scorurilor HSP sunt caracterizate de doi parametri, K și lambda. Cel mai simplu, numărul așteptat de HSP-uri cu scor cel puțin S este dat de formulă


Numim aceasta valoarea E pentru scorul S.
Această formulă are un sens eminuit intuitiv. Dublarea lungimii oricărei secvențe ar trebui să dubleze numărul de HSP-uri care ating un scor dat. De asemenea, pentru ca un HSP să atingă scorul de 2x trebuie să obțină scorul x de două ori la rând, așa că se așteaptă ca E să scadă exponențial cu scorul. Parametrii K și lambda pot fi considerați pur și simplu ca scale naturale pentru dimensiunea spațiului de căutare și, respectiv, sistemul de notare.

Scoruri de biți

Scorurile brute au o semnificație redusă, fără cunoștințe detaliate despre sistemul de notare utilizat sau mai simplu parametrii statistici K și lambda. Dacă nu se înțelege sistemul de notare, citarea unui scor brut este ca și cum ați cita o distanță fără a specifica picioare, metri sau ani lumină. Prin normalizarea unui scor brut utilizând formula


se obține un "scor de biți" S ', care are un set standard de unități. Valoarea E corespunzătoare unui scor dat de biți este pur și simplu


Scorurile de biți subsumă esența statistică a sistemului de notare utilizat, astfel încât pentru a calcula semnificația trebuie să știm în plus doar dimensiunea spațiului de căutare.

Valori P

Numărul de HSP aleatorii cu scor> = S este descris de o distribuție Poisson [10,11]. Aceasta înseamnă că probabilitatea de a găsi exact un HSP cu scor> = S este dată de


unde E este valoarea E a lui S dată de ecuația (1) de mai sus. Mai exact, șansa de a găsi zero HSP-uri cu scor> = S este e-E, deci probabilitatea de a găsi cel puțin un astfel de HSP este


Aceasta este valoarea P asociată cu scorul S. De exemplu, dacă se așteaptă să găsească trei HSP-uri cu scor> = S, probabilitatea de a găsi cel puțin unul este 0,95. Programele BLAST raportează valoarea E mai degrabă decât valorile P, deoarece este mai ușor să înțelegem diferența dintre, de exemplu, valoarea E de 5 și 10 decât valorile P de 0,993 și 0,99995. Cu toate acestea, atunci când valorile E P și valoarea E sunt aproape identice.

Căutări în baze de date

Statisticile alinierilor decalate

Efecte de margine

Alegerea scorurilor de înlocuire

Rezultatele pe care le produce un program local de aliniere depind în mare măsură de scorurile pe care le folosește. Nici o schemă de punctare unică nu este cea mai bună în toate scopurile, iar înțelegerea teoriei de bază a scorurilor de aliniere locală poate îmbunătăți sensibilitatea analizelor secvenței. La fel ca înainte, teoria este pe deplin dezvoltată doar pentru scorurile utilizate pentru a găsi aliniamentele locale neînglobate, așa că începem cu acest caz.
A fost descris un număr mare de scoruri diferite de substituție a aminoacizilor, bazate pe o varietate de rațiuni [23-36]. Cu toate acestea, scorurile oricărei matrice de substituție cu scor negativ așteptat pot fi scrise în mod unic în formă


unde q ij, numite frecvențe țintă, sunt numere pozitive care însumează 1, p i sunt frecvențe de fond pentru diferitele reziduuri, iar lambda este o constantă pozitivă [10,31]. Lambda aici este identică cu lambda ecuației (1).
Înmulțirea tuturor scorurilor într-o matrice de substituție cu o constantă pozitivă nu le modifică esența: o aliniere care a fost optimă folosind scorurile originale rămâne optimă. O astfel de multiplicare modifică parametrul lambda, dar nu și frecvențele țintă q ij. Astfel, până la un factor de scalare constant, fiecare matrice de substituție este determinată în mod unic de frecvențele sale țintă. Aceste frecvențe au o semnificație specială [10,31]:

O clasă dată de alinieri se distinge cel mai bine de șansă prin matricea de substituție ale cărei frecvențe țintă caracterizează clasa.

Pentru a elabora, se poate caracteriza un set de alinieri reprezentând regiuni proteice omoloage prin frecvența cu care este aliniată fiecare pereche posibilă de reziduuri. Dacă valina în prima secvență și leucina în a doua apar în 1% din toate pozițiile de aliniere, frecvența țintă pentru (valină, leucina) este 0,01. Cea mai directă modalitate de a construi matrici de substituție adecvate pentru compararea secvenței locale este de a estima frecvențele țintă și de fond și de a calcula scorurile log-cote corespunzătoare ale formulei (6). Aceste frecvențe în general nu pot fi derivate din primele principii, iar estimarea lor necesită intrare empirică.

Matricile de substituție a aminoacizilor PAM și BLOSUM

Matrici de substituție ADN

Scorurile Gap

Regiuni de secvență cu complexitate redusă

Referințe

[1] Fitch, W.M. (1983) „Secvențe aleatorii”. J. Mol. Biol. 163: 171-176. [PubMed]

[2] Lipman, D.J., Wilbur, W.J., Smith T.F. & Waterman, M.S. (1984) „Cu privire la semnificația statistică a asemănărilor cu acidul nucleic”. Nucl. Acizi rez. 12: 215-226. [PubMed]

[3] Altschul, S.F. & Erickson, B.W. (1985) "Semnificația alinierilor secvenței de nucleotide: o metodă pentru permutarea secvenței aleatorii care păstrează utilizarea dinucleotidelor și a codonilor." Mol. Biol. Evol. 2: 526-538. [PubMed]

[4] Deken, J. (1983) "Comportamentul probabilistic cu cea mai lungă lungime de subsecvență comună". În „Time Warps, String Edits and Macromolecules: Theory and Practice of Sequence Comparation”. D. Sankoff & J.B. Kruskal (eds.), Pp. 55-91, Addison-Wesley, Reading, MA.

[5] Reich, J.G., Drabsch, H. și Daumler, A. (1984) „Cu privire la evaluarea statistică a similitudinilor în secvențele ADN”. Nucl. Acizi rez. 12: 5529-5543. [PubMed]

[6] Altschul, S.F., Gish, W., Miller, W., Myers, E.W. și Lipman, D.J. (1990) „Instrument de căutare a alinierii locale de bază”. J. Mol. Biol. 215: 403-410. [PubMed]

[7] Smith, T.F. & Waterman, M.S. (1981) "Identificarea subsecvențelor moleculare comune." J. Mol. Biol. 147: 195-197. [PubMed]

[8] Vânzători, P.H. (1984) „Recunoașterea modelelor în secvențe genetice prin densitatea de nepotrivire”. Taur. Matematica. Biol. 46: 501-514.

[9] Gumbel, E. J. (1958) „Statistica extremelor”. Columbia University Press, New York, NY.

[10] Karlin, S. & Altschul, S.F. (1990) "Metode de evaluare a semnificației statistice a caracteristicilor secvenței moleculare prin utilizarea schemelor generale de notare." Proc. Natl. Acad. Știință. SUA 87: 2264-2268. [PubMed]

[11] Dembo, A., Karlin, S. și Zeitouni, O. (1994) "Distribuția limitată a scorului segmentar maxim neliniat cu două secvențe." Ann. Prob. 22: 2022-2039.

[12] Pearson, W.R. și Lipman, D.J. (1988) Instrumente îmbunătățite pentru compararea secvenței biologice. "Proc. Natl. Acad. Sci. USA 85: 2444-2448. (PubMed)

[13] Pearson, W.R. (1995) "Comparația metodelor de căutare a bazelor de date cu secvențe de proteine." Prot. Știință. 4: 1145-1160. [PubMed]

[14] Altschul, S.F. & Gish, W. (1996) „Statistici de aliniere locală”. Meth. Enzimol. 266: 460-480. [PubMed]

[15] Altschul, S.F., Madden, T.L., Sch & aumlffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST și PSI-BLAST: o nouă generație de programe de căutare a bazelor de date cu proteine." Acizi nucleici Res. 25: 3389-3402. [PubMed]

[16] Smith, T.F., Waterman, M.S. & Burks, C. (1985) "Distribuția statistică a asemănărilor cu acidul nucleic." Acizi nucleici Res. 13: 645-656. [PubMed]

[17] Collins, J.F., Coulson, A.F.W. & Lyall, A. (1988) „Semnificația similitudinilor secvenței proteinelor”. Calculator. Aplic. Biosci. 4: 67-71. [PubMed]

[18] Mott, R. (1992) „Estimarea maximă a probabilității distribuției statistice a scorurilor de similitudine ale secvenței locale Smith-Waterman”. Taur. Matematica. Biol. 54: 59-75.

[19] Waterman, M.S. & Vingron, M. (1994) "Estimări rapide și exacte ale semnificației statistice pentru căutările în baza de date de secvențe." Proc. Natl. Acad. Știință. SUA 91: 4625-4628. [PubMed]

[20] Waterman, M.S. & Vingron, M. (1994) „Semnificația comparării secvenței și aproximarea lui Poisson”. Stat. Știință. 9: 367-381.

[21] Pearson, W.R. (1998) „Estimări statistice empirice pentru căutările de similaritate de secvență”. J. Mol. Biol. 276: 71-84. [PubMed]

[22] Arratia, R. & Waterman, M.S. (1994) "O tranziție de fază pentru scor în potrivirea secvențelor aleatorii care permit ștergerile." Ann. Aplic. Prob. 4: 200-225.

[23] McLachlan, A.D. (1971) "Teste pentru compararea secvențelor de aminoacizi înrudite. Citocrom c și citocrom c-551." J. Mol. Biol. 61: 409-424. [PubMed]

[24] Dayhoff, M.O., Schwartz, R.M. & Orcutt, B.C. (1978) „Un model de schimbare evolutivă a proteinelor”. În „Atlasul secvenței și structurii proteinelor”, vol. 5, Supliment. 3 (ed. M.O. Dayhoff), pp. 345-352. Natl. Biomed. Rez. Găsit., Washington, DC.

[25] Schwartz, R.M. & Dayhoff, M.O. (1978) „Matrici pentru detectarea relațiilor la distanță”. În „Atlasul secvenței și structurii proteinelor”, vol. 5, Supliment. 3 (ed. M.O. Dayhoff), p. 353-358. Natl. Biomed. Rez. Găsit., Washington, DC.

[26] Feng, D.F., Johnson, M.S. & Doolittle, R.F. (1984) "Alinierea secvențelor de aminoacizi: compararea metodelor utilizate în mod obișnuit." J. Mol. Evol. 21: 112-125. [PubMed]

[27] Wilbur, W.J. (1985) „Despre modelul matricii PAM al evoluției proteinelor”. Mol. Biol. Evol. 2: 434-447. [PubMed]

[28] Taylor, W.R. (1986) „Clasificarea conservării aminoacizilor”. J. Teoretic. Biol. 119: 205-218. [PubMed]

[29] Rao, J.K.M. (1987) "Noua matrice de punctaj pentru schimbul de reziduuri de aminoacizi pe baza parametrilor fizici caracteristici ai reziduurilor." Int. J. Peptide Protein Res. 29: 276-281.

[30] Risler, J.L., Delorme, M.O., Delacroix, H. & Henaut, A. (1988) "Substituții de aminoacizi în proteine ​​înrudite structural. O abordare de recunoaștere a modelelor. Determinarea unei noi și eficiente matrice de punctare." J. Mol. Biol. 204: 1019-1029. [PubMed]

[31] Altschul, S.F. (1991) "Matrici de substituție a aminoacizilor dintr-o perspectivă teoretică a informației." J. Mol. Biol. 219: 555-565. [PubMed]

[32] State, D.J., Gish, W. & Altschul, S.F. (1991) "Sensibilitate îmbunătățită a căutărilor de baze de date cu acid nucleic folosind matrici de notare specifice aplicației." Metode 3: 66-70.

[33] Gonnet, G.H., Cohen, M.A. și Benner, S.A. (1992) „Potrivirea exhaustivă a întregii baze de date a secvenței de proteine”. Știință 256: 1443-1445. [PubMed]

[34] Henikoff, S. și Henikoff, J.G. (1992) "Matrici de substituție a aminoacizilor din blocuri de proteine." Proc. Natl. Acad. Știință. SUA 89: 10915-10919. [PubMed]

[35] Jones, D.T., Taylor, W.R. și Thornton, J.M. (1992) „Generarea rapidă de matrice de date mutaționale din secvențe de proteine”. Calculator. Aplic. Biosci. 8: 275-282. [PubMed]

[36] Overington, J., Donnelly, D., Johnson M.S., Sali, A. și Blundell, T.L. (1992) "Tabelele de substituție a aminoacizilor specifice mediului: șabloane terțiare și predicția pliurilor de proteine." Prot. Știință. 1: 216-226. [PubMed]

[37] Henikoff, S. și Henikoff, J.G. (1993) "Evaluarea performanței matricilor de substituție a aminoacizilor." Proteine ​​17: 49-61. [PubMed]

[38] Gotoh, O. (1982) „Un algoritm îmbunătățit pentru potrivirea secvențelor biologice”. J. Mol. Biol. 162: 705-708. [PubMed]


Concluzii

În multe privințe, conduita RSI în practica de urgență actuală este departe de descrierile originale ale procedurii. În ciuda acestui fapt, principiile - livrarea rapidă a unei căi respiratorii definitive și evitarea aspirației, sunt încă foarte relevante și indicațiile pentru RSI rămân relativ neschimbate. Modificările procedurii au abordat mai multe considerații mai puțin bine abordate de tehnica originală, inclusiv reducerea frecvenței și severității hipoxemiei, reducerea frecvenței intubației eșuate și eficientizarea detectării și gestionării complicațiilor. Consensul remarcabil în practica RSI care a persistat mulți ani s-a redus în ultimii ani. În ciuda acestui fapt, standardizarea este adesea în vigoare în multe sisteme. Este dificil de știut dacă sunt necesare variații în practică pentru a oferi îngrijire adaptată diferitelor grupuri de pacienți sau dacă consistența crescută are potențialul de a îmbunătăți siguranța generală a pacientului. În practica spitalicească, s-a sugerat că evitarea evenimentelor adverse și intubația cu succes a pacienților cu afecțiuni critice la prima încercare pot fi influențate pozitiv de factori legați de operator, inclusiv instruire și experiență, selecția echipamentului și alegerea medicamentelor [79]. Limitarea alegerii și furnizarea unui RSI foarte standard ar putea fi mai adecvate atunci când RSI este livrat de operatori mai puțin experimentați în medii mai austere [14]. O consecvență în sistemele performante este recunoașterea faptului că livrarea RSI de înaltă calitate nu este o activitate solo și necesită o abordare eficientă a echipei pentru a aplica tehnicile adecvate. În plus, atenția la toți factorii din livrarea RSI este importantă. Îmbunătățirea raportării sistemelor rareori introduc sau schimbă doar o componentă a procedurii. De obicei, a fost necesar un „pachet” de îmbunătățiri pentru a aborda toate aspectele procedurii și pentru a oferi o calitate îmbunătățită [34, 80].

Siguranța RSI este la fel de importantă acum ca și când a fost descrisă pentru prima dată. Se efectuează pe cei mai bolnavi și instabili pacienți din toate zonele de tratament de urgență. Alegerile de medicamente și tehnici au crescut rapid și multe dintre aceste schimbări au potențialul de a îmbunătăți siguranța. Furnizorii de RSI au acum o gamă largă de instrumente și tehnici disponibile pentru a îmbunătăți procedura de bază. Acestea pot fi încorporate într-un plan structurat pentru a oferi anestezie de urgență în siguranță la casemixul pacientului lor.


Priveste filmarea: 1. q light control plus primii pași pentru QLC +. Lămpi și funcții (Noiembrie 2021).