Informație

Este folosirea modelelor ascunse Markov pentru a găsi omologi sensibili în secvențe abstracte, scurte?


Instrumentele de aliniere HMM, cum ar fi hhpred, excelează la găsirea omologilor subtili ai proteinelor pliate, pe care tehnicile de notare mai simple (cum ar fi cele utilizate în algoritmii BLAST) le-ar lipsi.

Mă uit doar la o secvență mică (20AA) și este elicoidală pe tot parcursul.

Este probabil ca Hhpred să aducă similitudini subtile în structura secundară de bază așa cum ar fi într-o secvență proteică pliată, sau ar fi mai ușoară alinierea mai simplă?


TMHMM este un standard foarte bun în ceea ce privește prezicerea TMH-urilor, în primul rând, deci este evident că prezicerea omologilor folosind această abordare este complet viabilă.


Master Blaster: o abordare a identificării sensibile a proteinelor legate de la distanță

Secvențierea genomului proiectează descoperirea secvențelor tuturor secvențelor de proteine ​​codate într-un genom. Ca prim pas, detectarea omologiei este utilizată pentru a obține indicii asupra structurii și funcției acestor proteine. Cu toate acestea, divergența evolutivă ridicată între proteinele omoloage ne provoacă capacitatea de a detecta relații îndepărtate. În trecut, sa constatat că o abordare care implică mai multe matrice de punctare specifice pentru poziție (PSSM) este mai eficientă decât PSSM-urile tradiționale. Căutarea în cascadă este o altă abordare reușită în care accesările unei căutări sunt interogate pentru a detecta mai mulți omologi. Propunem un protocol, „Master Blaster”, care combină principiile adoptate în aceste două abordări pentru a ne îmbunătăți capacitatea de a detecta și mai mult omologii la distanță. Evaluarea abordării a fost realizată utilizând relații cunoscute disponibile în baza de date SCOP70, iar rezultatele au fost comparate cu cele ale PSI-BLAST și HHblits, o metodă ascunsă bazată pe modelul Markov. În comparație cu PSI-BLAST, Master Blaster a avut ca rezultat o îmbunătățire de 10% în ceea ce privește detectarea conexiunilor de familie încrucișată, îmbunătățirea cu aproape 35% a familiei încrucișate și îmbunătățirea cu peste 80% a conexiunilor intra-familiale. Din rezultate s-a observat că HHblits este mai sensibil la detectarea omologilor la distanță în comparație cu Master Blaster. Cu toate acestea, există adevărate accesări de la 46 de ori pentru care Master Blaster a raportat omologi care nu sunt raportați de HHblits chiar folosind parametrii optimi care indică faptul că pentru detectarea omologilor la distanță, utilizarea mai multor metode care utilizează o combinație de abordări diferite poate fi mai eficientă în detectarea omologi la distanță. Codul autonom Master Blaster este disponibil pentru descărcare în arhiva suplimentară.


Abstract

Detectarea rapidă, sensibilă și specifică a virusului este o componentă importantă a diagnosticului clinic. Secvențierea masivă paralelă permite noi oportunități de diagnostic care completează tehnicile tradiționale serologice și bazate pe PCR. În timp ce secvențierea masivă paralelă promite beneficiile de a fi mai cuprinzătoare și mai puțin părtinitoare decât abordările tradiționale, aceasta prezintă noi provocări analitice, în special în ceea ce privește detectarea secvențelor de agenți patogeni în contexte metagenomice. La o primă aproximare, detectarea inițială a virușilor poate fi realizată pur și simplu prin alinierea citirilor de secvențe sau a contigurilor asamblate la o bază de date de referință a genomilor patogeni cu instrumente precum BLAST. Cu toate acestea, recunoașterea secvențelor virale extrem de divergente este problematică și poate fi complicată și mai mult de ratele de mutație inerente ridicate ale unor tipuri virale, în special virusuri ARN. În aceste cazuri, sensibilitatea crescută poate fi obținută prin folosirea informațiilor specifice poziției în timpul procesului de aliniere. Aici, am construit modele Markov ascunse de profil compatibil HMMER3 (profil HMM) din toate proteinele adnotate viral din RefSeq într-un mod automat folosind o conductă bioinformatică personalizată. Apoi am testat capacitatea acestor HMM de profil viral („vFams”) de a clasifica cu precizie secvențele ca virale sau non-virale. Experimentele de validare încrucișată cu secvențe genetice de lungime completă au arătat că vFams au reușit să reamintească 91% din secvențele de test virale rămase fără clasificarea eronată a oricăror secvențe non-virale în clustere de proteine ​​virale. Reanaliza amănunțită a seturilor de date metagenomice publicate anterior cu un set de cele mai performante vFams a arătat că acestea sunt mai sensibile decât BLAST pentru detectarea secvențelor provenite de la rude mai îndepărtate ale virușilor cunoscuți. Pentru a facilita utilizarea vFams pentru detectarea rapidă a omologilor virali la distanță în datele metagenomice, oferim două seturi de vFams, care conțin mai mult de 4.000 vFams fiecare, în format HMMER3. De asemenea, oferim software-ul necesar pentru a crea HMM-uri de profil personalizate sau pentru a actualiza vFams pe măsură ce se descoperă mai mulți viruși (http://derisilab.ucsf.edu/software/vFam).

Citare: Skewes-Cox P, Sharpton TJ, Pollard KS, DeRisi JL (2014) Modele Markov ascunse de profil pentru detectarea virușilor în datele secvenței metagenomice. PLoS ONE 9 (8): e105067. https://doi.org/10.1371/journal.pone.0105067

Editor: Herman Tse, Universitatea din Hong Kong, Hong Kong

Primit: 16 februarie 2014 Admis: 20 iulie 2014 Publicat: 20 august 2014

Drepturi de autor: © 2014 Skewes-Cox și colab. Acesta este un articol cu ​​acces liber distribuit în condițiile Licenței de atribuire Creative Commons, care permite utilizarea, distribuirea și reproducerea fără restricții pe orice suport, cu condiția ca autorul și sursa originale să fie creditate.

Finanțarea: Această lucrare a fost susținută de Institutul Medical Howard Hughes (JLD), Fundația Gordon și Betty Moore (Granturi # 1660 și # 3300), Fundația Națională pentru Științe (Grant # DMS-1069303) și Institutele Gladstone (KSP, TJS), Scleroderma Research Foundation și PhRMA Foundation Pre-Doctoral Bioinformatics Fellowship program (PS-C). Finanțatorii nu au avut nici un rol în proiectarea studiului, colectarea și analiza datelor, decizia de publicare sau pregătirea manuscrisului.

Interese concurente: Autorii au declarat că nu există interese concurente.


Abstract

Dependențele din secvențele ADN sunt frecvent modelate folosind modelele Markov. Cu toate acestea, lanțurile Markov nu pot explica heterogenitatea care poate fi prezentă în diferite regiuni ale aceleiași secvențe ADN. Modelele ascunse Markov sunt mai realiste decât modelele Markov, deoarece permit identificarea regiunilor eterogene ale unei secvențe ADN. În acest studiu prezentăm o aplicație a modelelor ascunse Markov la o subsecvență a datelor ADN-ului Xylella fastidiosa. Am constatat că un model cu trei stări oferă o descriere bună a datelor luate în considerare.

ADN Xylella fastidiosa ascunse modele Markov

GENETICA MICROORGANISMELOR

Modele ascunse Markov aplicate la o subsecvență a Xylella fastidiosa genomului

Universidade Federal de Minas Gerais, Departmento de Estatística, Belo Horizonte, MG, Brazilia

Corespondenţă

Dependențele din secvențele ADN sunt frecvent modelate folosind modelele Markov. Cu toate acestea, lanțurile Markov nu pot explica heterogenitatea care poate fi prezentă în diferite regiuni ale aceleiași secvențe ADN. Modelele ascunse Markov sunt mai realiste decât modelele Markov, deoarece permit identificarea regiunilor eterogene ale unei secvențe ADN. În acest studiu prezentăm o aplicație a modelelor ascunse Markov la o subsecvență a Xylella fastidiosa Date ADN. Am constatat că un model cu trei stări oferă o descriere bună a datelor luate în considerare.

Cuvinte cheie: ADN, Xylella fastidiosa, modele ascunse Markov.

Rata de generare a secvențelor de date din ultimii ani a oferit numeroase oportunități nu numai pentru dezvoltarea de noi abordări ale problemelor din biologia computațională, ci și pentru explorarea tehnicilor deja cunoscute pe date care nu au fost niciodată analizate până acum.

Punctul de plecare în majoritatea analizei datelor constă în utilizarea unei metodologii bine stabilite. Pe măsură ce analiza progresează, particularitățile datelor pot necesita dezvoltarea unor instrumente specifice care sunt mai potrivite pentru a descrie și a modela mai bine datele. Crearea de noi metode necesită o înțelegere profundă a celor actuale, mai ales atunci când aceste metode sunt incredibil de puternice și nu sunt atât de cunoscute pe cât ar trebui să fie datorită complexității lor matematice și de calcul. Considerăm că modelele ascunse Markov (HMM) exemplifică foarte bine această noțiune, deoarece, deși aceste modele nu sunt noi, credem că biologii moleculari nu sunt conștienți de posibilitățile pe care aceste modele le oferă.

Scopul nostru în acest studiu este să discutăm dependențele și eterogenitatea datelor ADN și modul în care acestea pot fi explicate în mod adecvat prin utilizarea HMM. Am aplicat acest tip de model la o subsecvență a Xylella fastidiosa (Xf) genomul ca modalitate de a sugera analiza posibilă pentru întregul genom.

Potrivit lui Lambais și colab. (2000), Xylella fastidiosa este o bacterie asociată cu boli care provoacă pierderi uriașe la multe plante importante din punct de vedere economic, inclusiv la citrice. Xylella fastidiosa este agentul cauzal al clorozei variate de citrice (CVC), o boală care afectează toate soiurile de portocale dulci din comerț și care reprezintă o preocupare majoră pentru industria de citrice din Brazilia. Agentul patogen al plantei atacă citricele, rezultând fructe fără suc fără valoare comercială. Xylella fastidiosa este primul agent patogen al plantei care are genomul său (informația genetică totală stocată în cromozomii unui organism) complet secvențiat. În plus, este probabil cel mai puțin studiat anterior din orice organism pentru care este disponibilă secvența completă a genomului.

Seturi de date generate prin secvențierea întregului Xylella fastidiosa genomul reprezintă noi provocări, deoarece acum biologii au nevoie de instrumente cantitative și metode statistice pentru a-i ajuta să analizeze secvențele. Câteva publicații recente despre Xylella fastidiosa semnalează necesitatea nu numai pentru aplicarea metodelor statistice actuale disponibile pentru a analiza datele sale secvențiate, ci și pentru cercetarea statistică pentru a ataca particularitățile sale. Chen și colab. (2000) au analizat date secvențiate de la 16 tulpini de Xylella fastidiosa provenind de la nouă gazde diferite. Au studiat aspecte precum heterogenitatea secvenței în clasificarea X. fastidiosa la nivelul subspeciei. Studiile realizate de Qin și colab. (2000) și Mehta și colab. (2001) sunt preocupați de evaluarea Xylella fastidiosa diversitate genetică izolată de citrice și cafea bolnave în Brazilia.

Datorită dimensiunii uriașe a seturilor de date, analizele statistice pentru întregul genom al multor organisme necesită utilizarea computerelor de ultimă generație de înaltă putere. Aceasta poate reprezenta o problemă majoră, deoarece nu avem suficientă disponibilitate în acest scop.

În acest studiu am adaptat modelele ascunse Markov la un set de date al bacteriilor Xylella fastidiosa genomului. Selecția modelului se realizează folosind criteriul Bayesian Information Criterion (BIC) și criteriile de informații Akaike (AIC). În secțiunea 2 vorbim despre dependențe în datele ADN. În secțiunea 3 discutăm heterogenitatea în secvențele ADN. Modelele ascunse Markov sunt introduse în secțiunea 4. În secțiunea 5 introducem pe scurt AIC și BIC pentru selectarea modelului. Fag lambda și Xylella fastidiosa seturile de date sunt analizate în secțiunea 6.

Un prim rezumat evident al unei secvențe de ADN este doar distribuția celor patru tipuri de bază. Deși ar fi convenabil pentru modelarea matematică dacă cele patru baze ar fi la fel de frecvente, aproape toate studiile empirice arată o distribuție inegală. Asta înseamnă că un model simplu de independență pentru secvențele ADN își are utilizările, dar merg doar puțin.

Trebuie să luăm în considerare într-un model faptul că bazele vecine din secvențele ADN nu sunt independente. Potrivit lui Tavaré și Giddings (1989), asocierile între bazele adiacente vor duce la asocieri între baze mai îndepărtate și o estimare a cât de departe se extind relațiile poate fi găsită din teoria lanțului Markov.

Conform Weir (1996), analizele lanțului Markov sunt utile la nivelul genomului, mai degrabă decât la nivelul unei gene individuale, deoarece ultima poate implica secvențe foarte scurte care nu sunt suficiente pentru a demonstra prezența lanțurilor de ordin superior. Același autor observă că este puțin probabil ca același lanț Markov să poată descrie întregul genom și, dacă un lanț Markov a fost montat pe un genom, nu este implicat niciun mecanism biologic, dar la întrebări utile se poate răspunde. De exemplu, poate fi prezisă frecvența anumitor subsecvențe (cuvinte).

Potrivit site-ului http://www.accessexcellence.org/AE/AEC/, în ingineria genetică este obișnuit să se utilizeze numeroasele enzime care sunt capabile să modifice sau să se alăture moleculelor de ADN existente sau să ajute la sinteza ADN-ului nou. molecule. De exemplu, enzima ADN polimerază face posibilă atașarea a două sau mai multe molecule de ADN una la cealaltă. Enzima ADN ligază rupe moleculele ADN în fragmente, în timp ce așa-numita enzimă de restricție endonuclează (REE) funcționează prin „scanarea” lungimii unei molecule de ADN. Odată ce REE își întâlnește secvența de recunoaștere specifică (cuvântul), se va lega de molecula de ADN și o va tăia într-un mod previzibil și reproductibil. Este important să utilizați lanțuri Markov pentru a ajuta un biolog să estimeze numărul preconizat de fragmente produse atunci când o enzimă de restricție specifică este aplicată genomului.

Lanțurile Markov ar putea descrie secvențele ADN în ceea ce privește compoziția lor nucleotidică, adică, ca un șir de litere dintr-un alfabet format din patru litere, <A, C, G, T>. Să notăm fiecare dintre cele patru tipuri de bază ca stări. Vom introduce câteva terminologii și notații utile pentru lanțurile Markov.

În general, pentru un subiect dat, să fie Xt denotați răspunsul unei variabile categorice la momentul t, t = 0, 1,. T. Secvența (X0, X1, X2,. ) este un exemplu de proces stochastic, o familie indexată de variabile aleatorii. În această lucrare Xt indică nucleotida în poziție t în secvență.

Fără a invoca niciun mecanism biologic, un lanț de ordine Markov r implică faptul că baza prezentă la o anumită poziție într-o succesiune depinde doar de bazele prezente la precedent r poziții. În motive mai formale, un proces stochastic este un rth-comandă lanțul Markov dacă, pentru toate t, distribuția condiționată a lui Xt + 1, dat X0,. Xt, este identic cu distribuția condiționată a lui Xt + 1, dat Xt,. Xt - r + 1. Având în vedere stările din precedent r ori, comportamentul viitor al lanțului este independent de comportamentul trecut dinaintea acestora r ori. Pentru un lanț Markov de prim ordin cu Eu stări posibile, probabilitățile condiționate

cu i, j = 1,. Sunt chemat tranziție probabilități. Extensia pentru comenzi mai mari este imediată. Dacă hij(t) nu depinde de t, lanțul Markov este numit omogen.

Inferența statistică pentru lanțul Markov utilizează metode standard de analiză categorică a datelor, cum ar fi modelele log-liniare. Unele referințe utile sunt Anderson și Goodman (1957), Birch (1963), Bishop și colab. (1975), McCullagh și Nelder (1989), Agresti (1990) și Avery și colab. (1999).

Heterogenitate în secvențele ADN

Lanțurile Markov și modelele log-liniare sunt instrumente importante pentru a ne ajuta să descriem proprietățile locale ale secvențelor ADN. Cu toate acestea, lanțurile Markov nu pot explica heterogenitatea care poate fi prezentă în diferite regiuni ale aceleiași secvențe ADN. Ipoteza de bază a acestui tip de model este că lanțul este omogen, ceea ce înseamnă că aceeași matrice de probabilitate de tranziție este presupusă adevărată pentru întreaga secvență analizată. Cu toate acestea, biologii știu că regiunile de codificare și necodificare ale ADN prezintă frecvențe de nucleotide diferite. Astfel, un model Markov ar prezice un comportament care nu este observat în date. Prin urmare, acest tip de model poate fi de puțin folos practic într-o varietate de probleme.

Un exemplu de ADN eterogen este prezentat de Bernardi și Bernardi (1986). Lucrând cu aspecte biochimice ale ADN-ului, aceștia explică faptul că genomul nuclear al vertebratelor cu sânge cald prezintă o compartimentare compozițională, în sensul că acesta constă în principal dintr-un mozaic de segmente de ADN foarte lungi, izocorii. Potrivit autorilor, izochorele sunt caracterizate de regiuni destul de omogene în C + G conținut și izocoarele distincte prezintă proporții distincte ale C + G. Autorii afirmă, de asemenea, că genomul nu prezintă foarte mulți izocori și că eterogenitatea într-un izocor este foarte scăzută, dar este mare între izocori. Heterogenitatea se poate datora diferențelor de tipare ale compoziției bazelor și dependenței între bazele vecine și ar putea reflecta diferențe funcționale și structurale între regiuni.

Este posibil să se descrie acele regiuni eterogene neobservate ale genomului unui anumit organism folosind instrumente statistice în locul celor biochimice care ar fi apoi utilizate mai parsimonios. Instrumentele menționate sunt modele statistice care pot explica heterogenitatea prezentă în secvențe. Acesta este subiectul următoarei noastre discuții.

Un model ascuns Markov pentru secvențe ADN

În această secțiune vom prezenta câteva modele ascunse Markov dezvoltate de Churchill (1989). Aceste modele sunt încă foarte populare (vezi Băieți și colab., 2000). Vom face o scurtă descriere care reafirmă unele aspecte ale secțiunii 4 din Churchill (1989). Pentru detalii majore despre această problemă, trebuie consultată lucrarea menționată.

În timp ce bazele A, C, G, T reprezinta rezultatele observate iar pe scurt vor fi notate rezultate, se vor numi regiunile omogene neobservate pe care le căutăm stări ascunse iar pentru scurtitate se va nota stări. Sarcina noastră este de a estima câte stări ascunse există și de a prezenta o hartă care descrie unde sunt situate. Numărul de stări este considerat a fi finit și fix și corespunde diferitelor regiuni ale ADN-ului. Introducem acum câteva notații și definiții necesare pentru descrierea modelelor ascunse Markov pentru secvențe ADN.

Luați în considerare o secvență de variabilă aleatorie <>eu: i = 1,. n> cu distribuție determinată de o secvență corespunzătoare de stări neobservate <>eu>. Indicați secvența rezultatelor și stărilor observate până la timp t de, respectiv, y t = <>1,. yt> și s t = <>1,. st>.

Admiterea unui număr fix de state și rezultate multinomiale, să fie yt = (yt, 0,. yt, m-1) să fie un vector ale cărui componente sunt zero, cu excepția unuia egal cu unitatea, indicând care dintre m rezultatele posibile este observat. Fiecare observație este asociată cu una dintre stările r indicate de vectorul st = (st, 0,. st, r-1). Există un vector p0 a probabilităților inițiale asociate s1, astfel încât Seup0i = 1. Astfel, pentru p0iExistă parametri r - 1 de estimat.

Distribuția lui yt dat fiind că statul la momentul t este k este multinomial, adică yt | st, k Multinomial (1, p0, k,. pm-1, k). Parametrul pi, k este probabilitatea de a observa rezultatul i când starea actuală este k, supusă constrângerii


Discuţie

Redefinirea subgrupurilor RIFIN și STEVOR

Studiile anterioare descriu secvențele RIFIN și STEVOR ca un grup mare de proteine ​​înrudite, unice pentru P. falciparum. Analiza ulterioară a familiei de proteine ​​RIFIN, pe baza genomului de referință, a arătat că familia RIFIN poate fi sub-grupată în continuare în secvențe A- și B-RIFIN și aceasta din urmă împărțită în B1-, B2- și B3-RIFIN [12] .

Analiza noastră actuală, care include mult mai multe secvențe, confirmă subdivizarea secvențelor RIFIN în grupuri A-, B1- și B2-RIFIN, care au toate caracteristici definite. Cu toate acestea, este o exagerare să creăm un grup definit pentru secvențele B-RIFIN rămase. Aceste secvențe reprezintă un grup eterogen (10 gene în tulpina de referință 3D7) de secvențe care sunt definite de faptul că nu sunt secvențe A-RIFIN și au relativ puține asemănări cu proteinele B1 și B2-RIFIN. Prin urmare, am decis să retrogradăm secvențele B3-RIFIN la rangul de B-RIFIN.

Un studiu recent a definit potențialele subgrupuri din secvențele A-RIFIN, rifA1 și rifA3. Aceste grupări se bazează pe similitudinea secvenței de 71% și 84% și, pentru o mare majoritate, locația lor genomică într-o orientare cap-la-cap cu gene A var grup [21]. Nu am instruit HMM-urile să recunoască aceste grupuri din cauza numărului redus de secvențe disponibile din seturile de date curate. De asemenea, descoperim că există mai mulți astfel de candidați la acest subgrup, dar numărul mic de secvențe dintr-un singur genom face dificilă distincția între de bună credință sub-grupuri și gene extinse recent.

Acești autori au definit, de asemenea, un subgrup, rifA2, care este compus dintr-o secvență RIFIN divergentă care este prezentă, cu o conservare de 78%, în toate genomurile investigate [21]. Cazul genelor cu o singură copie, care sunt foarte conservate între genomi, este posibil mai bine clasificat ca gene conservate, mai degrabă decât subgrupuri. De asemenea, am observat că proteinele care alcătuiesc grupul rifA2 înregistrează cel mai mic dintre toate secvențele RIFIN, una dintre ele fiind prezisă ca fiind „falsă”. Faptul că secvențele parțiale de proteine ​​A-RIFIN au scor mai mare decât rifA2 de lungime completă și divergența acestor secvențe de proteinele tipice RIFIN sugerează că acestea sunt legate de proteinele RIFIN, dar au o funcție diferită, care nu necesită mai multe copii pentru supraviețuirea parazitului. .

În acest studiu, ne-am concentrat doar asupra celor trei genomi (3D7, HB3 și DD2) pentru care sunt disponibile adnotări, precum și baza de date Uniprot care conține date din studii de teren. Confirmăm constatarea, de Wang și colab.[21], că mai multe secvențe RIFIN sunt relativ conservate între tulpini, cu toate acestea este dificil de evaluat dacă aceasta reprezintă o măsură a divergenței populațiilor de paraziți sau dacă au fost selectate evolutiv pentru funcții specifice.

De asemenea, am ales să adoptăm o abordare conservatoare a desemnării STEVOR. Toate secvențele care sunt în mod clar legate de secvențele STEVOR, dar care nu au un scor suficient de mare vor fi etichetate ca STEVOR de programul RSpred.

Secvențe ambigue

Patru secvențe prezise ca proteine ​​A-RIFIN au avut, de asemenea, scoruri relativ ridicate (& gt 300) fie cu B1-, fie cu B2-RIFIN HMM. La o inspecție mai atentă a acestor secvențe, aplicând analiza filogenetică la aliniamentele fiecărei jumătăți a acestor proteine, se pare că jumătatea lor N-terminală corespunde bine cu secvențele A-RIFIN în timp ce jumătatea lor C-terminală este caracteristică proteinelor B1- sau B2-RIFIN (datele nu sunt afișate). Aceste secvențe sunt hibrizi între proteinele A- și B1 / 2-RIFIN și confirmă rapoartele anterioare de recombinare ca mijloc pentru diversificarea acestor familii de gene VSA [29].

Avantajele, limitele și utilitatea RSpred

Am numit setul nostru de HMM-uri și programul de evaluare RSpred, pentru RIFIN și STEVOR predictor. Am arătat că detectează eficient proteinele RIFIN și STEVOR și le clasifică în funcție de subgrupul lor. Deși nu există detecții fals pozitive, RSpred este conservator, cu secvențe trunchiate și legate de la distanță. Cu toate acestea, majoritatea acestor secvențe sunt cel puțin recunoscute și prezise ca proteine ​​RIFIN sau STEVOR. În cele din urmă, RSpred se dovedește a fi mai sensibil decât HMM-urile Pfam și TIGRFAM existente [18, 19], care sunt, de asemenea, limitate în domeniul de aplicare al clasificării lor, deoarece nu recunosc subgrupurile RIFIN sau STEVOR.

Am aplicat RSpred pe proteomi întregi extrasați din ansambluri noi de genom. Deși aceste genomi sunt în mare parte secvențiate la o acoperire foarte scăzută (1,25 ×), am fost capabili să detectăm toate subgrupurile din cadrul acestor genomi. Această resursă va fi din ce în ce mai utilă pe măsură ce sunt secvențiate mai multe genomi: în special, există o mare Plasmodium proiect de secvențiere a genomului [30] care este programat să secvențeze peste 100 Plasmodium genomi parazitari, care vor permite analiza meta-genomică a familiilor de proteine ​​RIFIN și STEVOR.


Disponibilitatea datelor

Date subiacente

UniProtKB - Q3B820 (F161A_HUMAN), numărul de acces Q3B820: https://www.uniprot.org/uniprot/Q3B820

UniProtKB - Q9ULW0 (TPX2_HUMAN), număr de acces Q9ULW0: https://www.uniprot.org/uniprot/Q9ULW0

Date extinse

Acest proiect conține fișierul „Cifre suplimentare.pdf”, care conține următoarele date extinse:

Figura suplimentară S1: A. Lovit la titină în a doua iterație a PSI-BLAST în baza de date nr50 B. Regiuni de complexitate scăzută în FAM161A.

Figura suplimentară S2: A. Rezultatul HHpred al alinierii simetrice în perechi a Fam161A și Tpx2 B. Căutarea HHpred cu alinierea realiniată cu algoritmul de precizie maximă

Figura suplimentară S3: Elica de pană a Tpx2 este îngropată adânc în buzunarul format din patru monomeri tubulinici

Figura suplimentară S4: Proprietățile elicoidelor care urmează secvențelor de creastă în Tpx2 și FAM161A

Figura suplimentară S5: Secvențe în helice amfipatice din familia FAM161

Figura suplimentară S6: Variația secvențelor de creastă și pană Tpx2 între specii.

Datele sunt disponibile în condițiile renunțării la datele „Fără drepturi rezervate” Creative Commons Zero (Dedicarea domeniului public CC0 1.0).


2. Modelul Markov de timp discret Modul de stare-spațiu probabilistic

Pentru a deduce stările neuronale SUS și JOS, în această secțiune dezvoltăm un model de stare-spațiu modulat Markov, în timp discret, care poate fi privit ca o variantă a HMM standard aplicată analizei trenului vârf. Structura probabilistică de bază este markoviană și omogenă, iar algoritmul de inferență este eficient în identificarea statisticilor procesului de stare ascunsă. Pe baza acestui fapt, în secțiunea următoare dezvoltăm un model probabilistic în timp continuu pentru a depăși unele dintre limitările impuse de acest model probabilistic în timp discret.

2.1. Modelul Markov ascuns.

Probabilitatea inițială de stare este notată cu un vector π = <>eu>, unde πeu = Pr (S0 = eu) (eu = 0, 1). Fără pierderea generalității, presupunem că amplitudinea stării ascunse este predefinită și variabila discretă Sk ∈ <0, 1> indică fie o stare JOS (0), fie SUS (1).

ecO1yAIjyZRZvGMRW9R-SM8T4A __ & ampKey-Pair-Id = APKAIE5G5CRDK6RD3PGA "/> ⁠, este derivat ca (prin ignorarea constantei)


2. ABORDAREA ABC MLE PENTRU ESTIMAREA PARAMETRILOR

Filtrul de particule aproximează secvențial secvența densităților posterioare

t ≥ 1 din HMM <Xt, Dat>t ⩾ 1 folosind o distribuție discretă ponderată cu N puncte de sprijin pentru X1: t care se numesc particule. De fiecare dată t, particulele sunt resamplate în funcție de greutățile lor actuale, iar apoi particulele resamplate sunt propagate independent unul de celălalt folosind o densitate de tranziție propusă rθ(Xt + 1|Xt). Particulele sunt apoi cântărite pentru a corecta discrepanța dintre p θ (x 1: t + 1 | Y 1: t + 1 = y ^ 1: t + 1) și legea particulelor propuse care este p θ (x 1 : t | Y 1: t = y ^ 1: t) r θ (xt + 1 | xt). Aceasta este o eșantionare standard de importanță și presupunerea în etapa de corectare a greutății este că legea fiecărei particule resamplate la un moment dat t este p θ (x 1: t | Y 1: t = y ^ 1: t), care este o eroare, dar progresiv corectă ca N este crescut (Chopin 2002 Crisan și Doucet 2002 Del Moral 2004). În implementarea filtrului de particule, nu sunt necesare constante de normalizare a secvenței de posteriori țintă, dar calcularea noilor greutăți necesită g θ (y ^ | x) pentru a fi tratabile. Del Moral (2004) a arătat că greutățile aproximării particulelor

t ≥ 1 pot fi utilizate pentru a obține o estimare imparțială a probabilităților < p (Y 1: t = y ^ 1: t)> t ≥ 1. Consultați Anexa pentru un exemplu de cod pentru un filtru de particule.

Jasra și colab. (2012) au considerat problema construirii unei aproximări SMC a filtru p θ (xt | Y 1: t = y ^ 1: t), care este marginalul aproximării particulelor pentru p θ (x 1: t | Y 1: t = y ^ 1: t), pentru un HMM cu o densitate de observare intratabilă gθ(y|X). Deoarece nu este posibil să se calculeze greutățile filtrului de particule pentru un astfel de HMM unde gθ(y|X) este intratabil, au propus o aproximare a filtrului de particule pentru HMM extins <(Xt, Dat), Da ε t>t ⩾ 1 unde procesul comun <Xt, Dat>t ⩾ 1, care este acum procesul latent al HMM extins, este definit de (1) și (2) și de noua secvență <Da ε t>t ⩾ 1 este (5) Y t ϵ = Y t + ϵ V t, V t ∼ iid Unif B 0 1, t ≥ 1, (5) unde B r y denotă bila de rază r & gt 0 centrat la y ∈ R d y și Unif (B) este distribuția uniformă peste set B. Apoi, densitatea p θ * x t | Y 1: t ϵ = y ^ 1: t al HMM extins este considerat ca o aproximare pentru p θ * (xt | Y 1: t = y ^ 1: t) unde ε & gt 0 reflectă eroarea de aproximare și aceasta eroarea se diminuează pe măsură ce ε → 0 vezi și Calvet și Czellar (2012) Martin și colab. (2014) pentru rezultate teoretice despre această aproximare. Rețineți că p θ * (xt | Y 1: t ϵ = y ^ 1: t) nu coincide cu p θ * (xt | Y 1: t = y ^ 1: t) deoarece y ^ 1: t respectă legea (1) - (2) și nu (5). Jasra și colab. (2012) au remarcat faptul că p θ * (x t | Y 1: t ϵ = y ^ 1: t) este aproximarea ABC pentru filtrul unui HMM. Mai mult, au arătat că este simplu să aproximăm p θ * (x t | Y 1: t ϵ = y ^ 1: t) cu un filtru de particule bootstrap.

Luați în considerare acum HMM extins <(Xt, Dat), Da ε t>t ⩾ 1 specificate de (1), (2) și (5) și lit. pθ(Da ε 1: n = y1: n) denotă densitatea de probabilitate (sau funcția de probabilitate) a procesului <Da ε t>t ⩾ 1 evaluat la unele y 1: n ∈ (R d y) n. (A se vedea (12) pentru expresia exactă a acestei densități.) Dean și colab. (2014) au studiat proprietățile teoretice ale următoarei estimări de probabilitate maximă de θ *: (6) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y ^ 1: n. (6) (Observăm că (4) este p θ (Y 1: n ϵ = y ^ 1: n) când volumele Lebesgue ale bilelor B y ^ 1 ϵ,., B y ^ n ϵ sunt omise din din urmă.) Dean și colab. (2014) a denumit procedura (6) ABC MLE. (Utilizarea acronimului ABC este pentru a sublinia că este aceeași probabilitate aproximativă care este maximizată aici.) Filtrul de particule bootstrap al lui Jasra și colab. (2012) oferă o aproximare imparțială SMC a probabilității p θ (Y 1: n ϵ = y ^ 1: n) și această probabilitate poate fi maximizată prin evaluarea aproximării pe o grilă de valori pentru θ. Totuși, acest lucru nu este clar practic deoarece dimensiunea lui θ crește, nu are o extensie simplă pentru estimarea recursivă și nu este o metodă convergentă precisă.

Dean și colab. (2014) au arătat că ABC MLE (6) conduce la o estimare părtinitoare a vectorului de parametru θ * în sensul că n → ∞, θ ε n va converge la un moment dat θ *, ε ≠ θ * ∈ Θ și că această prejudecată poate fi făcută în mod arbitrar mică, adică θ *, ε → θ * ca ε → 0. Dean și colab. (2014) au arătat că părtinirea este O (ϵ) Dean și Singh (2011) au rafinat acest lucru la O (ϵ 2). Particularitatea ABC MLE se datorează faptului că secvența observată y ^ 1, y ^ 2,. este rezultatul legii (2) pentru θ = θ * și nu (5). Dean și colab. (2014) au sugerat eliminarea prejudecății lui θ ε n în (6) prin adăugarea de zgomot la datele reale și apoi calcularea estimării probabilității maxime, adică let v1, …, vn să fie o realizare a eșantioanelor iid de la Unif (B 0 1) și să fie (7) y t ϵ = y ^ t + ϵ v t, 1 ≤ t ≤ n. (7) Rețineți că datele zgomotoase y ε 1: n acum ascultați legea <Da ε t>t ⩾ 1 când θ = θ *. Prin urmare, procedura (8) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y 1: n ϵ, (8) care se va numi de acum zgomotos ABC MLE, poate produce acum un estimator consistent a parametrului vector θ * ca n → ∞. Acest rezultat dovedit de Dean și colab. (2014) poate fi interpretat ca echivalența frecventistă a observației lui Wilkinson că distribuția posterioară ABC este exactă în ipoteza erorii de model (Wilkinson 2013).

În cele din urmă, Dean și colab. (2014) au remarcat, de asemenea, că utilizarea altor tipuri de zgomot în (5) este posibilă fără a compromite asimptoticele ABC MLE zgomotoase, adică (9) Y t ϵ = Y t + ϵ V t, V t ∼ iid κ , t ≥ 1, (9) unde κ este o densitate netedă centrată. (În consecință, ABC MLE zgomotos în (8) se efectuează cu observațiile corupte de zgomot (7) unde acum veu sunt realizări de eșantioane din κ.) După cum arătăm, un different continuu diferențiat este important pentru dezvoltarea tehnicilor practice MLE bazate pe gradient. In this work we choose κ to be the probability density of zero-mean unit-variance Gaussian random variable. Other choices are possible (but not investigated) and our framework would still be applicable.

We remark that although the theoretical basis for ABC MLE was established in Dean et al. ( 2014 ), the authors do not propose a practical methodology for implementing ABC MLE in their work this is indeed an important void to be filled. In this article we demonstrate how, by using ideas from Poyiadjis, Doucet, and Singh ( 2011 ), both batch and online versions of noisy ABC MLE can be implemented with SMC.


Opțiuni de acces

Obțineți acces complet la jurnal timp de 1 an

Toate prețurile sunt prețuri NET.
TVA va fi adăugat mai târziu în casă.
Calculul impozitului va fi finalizat în timpul plății.

Obțineți acces limitat la timp sau la articol complet pe ReadCube.

Toate prețurile sunt prețuri NET.


[47] Recall that the hidden state heu = (Xeu, yeu, teu, Jeu, Ceu, Aeu), recording the longitude and the latitude of the epicenter, the occurrence time, the index of the most recent mother earthquake up to eu, the indicator of whether or not the earthquake eu is a cluster earthquake, and the indicator of whether or not a cluster is active.

[48] Five parameters are introduced in our model: γ is the intensity of the point process for single earthquakes, λ is the extra intensity when a cluster is active, ε is the intensity of the initiation of a new cluster, d is the variance parameter of the bivariate Gaussian distribution, p is the probability that the mother earthquake becomes sterile after giving birth to one more offspring. Note that the mother earthquake is born reproductive, which guarantees that each cluster contains at least two earthquakes. In the data set, the earthquakes occurred in the rectangular area 33°–39°N and 131°–140°E. The area of the rectangle is 54 square degrees.


Priveste filmarea: Orasul Secret Ascuns In Subteranul Romaniei Cine L-a Construit? (Ianuarie 2022).