Informație

3.2.9: Revizuire - Biologie


Rezumat

După finalizarea acestui capitol, ar trebui să puteți ...

  • Descrieți biodiversitatea ca fiind echilibrul ratelor fluctuațiilor naturale de dispariție și speciație.
  • Rezumați potențialele cauze ale extincțiilor în masă și ale pierderii de biodiversitate asociate.
  • Comparați rata actuală de dispariție cu rata de dispariție de fond.
  • Descrieți cauzele și consecințele celei de-a șasea extincții în masă.
  • Descrieți cum este măsurată pierderea biodiversității.
  • Distingeți între categoriile din Lista Roșie.
  • Numiți, definiți și oferiți exemple ale celor cinci amenințări majore la adresa biodiversității.
  • Oferiți exemple de reușite și eșecuri ale controlului biologic în reglarea speciilor invazive.

Cinci extincții în masă cu pierderi de peste 50% din speciile existente sunt observabile în dosarul fosilelor. The a șasea extincție în masă este în prezent în curs cu rate de dispariție actuale mult mai mari decât rata de extincție a fondului.

Principalele amenințări la adresa biodiversității sunt creșterea populației umane și utilizarea nesustenabilă a resurselor. Acestea sunt pierderea habitatului, supraexploatarea, poluarea, speciile invazive și schimbările climatice. Pierderea habitatului are loc prin defrișări, diguri de râuri și alte activități. Apă și aer poluare introduce substanțe toxice în mediu care dăunează plantelor și animalelor. Supraexploatare reprezintă o amenințare în special pentru speciile acvatice, dar braconajul animalelor terestre și colecția excesivă de plante și ciuperci pune, de asemenea, în pericol speciile. Specii invazive au fost cauza mai multor extincții și sunt deosebit de dăunătoare pentru insule și lacuri. Schimbarea climei forțează modificări de rază de acțiune care pot duce la dispariție. De asemenea, afectează adaptările la momentul disponibilității resurselor care afectează negativ speciile în medii sezoniere. Schimbările climatice vor crește, de asemenea, nivelul mării, eliminând unele insule și reducând suprafața tuturor celorlalte.


3.2.9: Revizuire - Biologie

Instructor: profesorul Junping Shi

Capitolul 1: Derivarea ecuațiilor de reacție-difuzie (18 pagini)
Capitolul 2: Ecuația difuziei pe un domeniu delimitat (22 pagini)
Capitolul 3: Difuzare cu sursă punctuală
Capitolul 4: Ecuații neliniare de reacție-difuzie scalară
Capitolul 5: Sisteme de difuzie a reacției

1/19 Introducere Curs 1
1/24 Revizuirea calculului, revizuirea modelelor de bază ale populației Lectura 2
1/26 Nedimensionalizare, derivarea modelelor de reacție-difuzie
Prelegerea 3
2/9 Mișcarea și difuziunea browniană (Paul Dunlap)
2/16 lucrarea lui Fisher din 1937 (Ryan Carpenter)
2/21 Ecuația de difuzie neliniară (Daniel Grady)
2/23 lucrarea lui Skellam din 1953 (Patrick Lucey)
2/28 O soluție aproximativă pentru ecuația Fisher în dimensiune înaltă (Fumie Hirata)
2/28 Soluție exactă de undă călătoare pentru ecuația difuziei cu efect Allee (Tina Little)
3/21 Evoluția și dispersia genelor, ecuația Fisher Lectura 4 (powerpoint)
3/30 Stabilitate în sisteme dinamice și instabilitate Turing Curs 5
4/4 Instabilitate și bifurcație Turing Curs 6 Modele Turing în haine de animale
4/6 Modelul de chimiotaxie și mucegai
Lectura 7
4/11
O ecuație de reacție-advecție-difuzie din amestecul chimic haotic Lectura 8
4/13 Soluții periodice de sisteme Lectura 9

Repartizarea temelor
([S] este notele prelegerii lui Shi, [B] este cartea lui Britton)

Tema 1 (data limită 1/31, marți): [B] pagina 15 (1.6, 1.8), [S] Capitolul 1 (1,2,3,4,10)
Tema 2 (data de 2/8, miercuri): [B] pagina 153 (5.5,5.7) [S] Capitolul 1 (8,9,13) Capitolul 2 (2,4,5)
Tema 3 (scadentă miercuri 15/2): [S] Capitolul 2 (7 (puteți folosi rezultatul 6), 12,14)
Howework 4 (data de 2/22, miercuri): [B] pagina 158 (5.9, 5.11) și următoarele probleme:
(1) Găsiți un val de călătorie exact al ecuației u_t = D u_+ ku (1-u ^ m), unde D & gt0, k & gt0 și m & gt0.
(Sugestie: utilizați Maple, iar forma soluției este u (x, t) = v (x-ct), v (z) = 1 / (1 + exp (az)) ^ <2 / m>
(2) (opțional, nu știu răspunsul sau dacă există un răspuns)
Găsiți un val de călătorie exact al ecuației u_t = D u_+ ku ^ m (1-u), unde D & gt0, k & gt0 și m & gt1.
(Sugestie: utilizați Maple și poate, de asemenea, aceeași formă ca mai sus, dar nu am soluție pentru aceasta)
Tema 5 (scadenta miercuri 3/29)
(1) [S] Capitolul 4 (5) Nu este necesar să scrieți codul actual Maple, ci să scrieți „codul psedo” care reflectă condițiile la limita Robin.
(2) [S] Capitolul 4 (11) (Sugestie: utilizați Maple pentru a rezolva u_2)

Proiecte / Prezentări

  1. Ecuația de difuzie din mișcarea browniană (lucrare originală de Robert Brown în 1827, lucrare (și traducere în limba engleză) de Albert Einstein în 1905, o notă de curs din cursul deschis al MIT, vezi Lectura 1 acolo)
  2. Transformată Fourier în ecuația de difuzie și muzică (http://www.mathreference.com/la-xf-four,intro.html)
  3. Fisher, RA 1937 Valul avansului genelor avantajoase. Analele Eugeniei, 7: 355-369 (hârtie)
  4. Derivați modelul de agregare animală (lucrarea lui Turchin: Consecințele populației mișcării agregative. Journal of Animal Ecology 58, (1989), 75-100.)
  5. Soluția ecuației media poroase (pagina 339-343, Elements of Mathematical Ecology. De Mark Kot, Cambridge University Press, (2001) pagina 402-405, Mathematical Biology, Vol. 1: An Introduction. De James Dickson Murray, Springer-Verlag , New York, (2002).)
  6. Skellam, JG, 1951 Dispersarea aleatorie în populațiile teoretice, Biometrika (hârtie)
  7. Funcțiile proprii ale lui Laplacian pentru bile în 2-d și 3-d
  8. Derivați soluția analitică a ecuației logistice difuzive cu sursă punctuală (S. Puri, K. R. Elder și R. C. Desai, Soluții asimptotice aproximative la ecuația Fisher d-dimensională, Phys. Lett. A, 142, 357 (1989).) Lucrare din biblioteca de fizică
  9. Soluție analitică derivată a soluției de undă călătoare a ecuației logistice difuzive (ecuația Fisher cu difuzie dependentă de densitate: soluții speciale, S Harris 2004 J. Phys. A 37 6267-6268 lucrare)
  10. Derivați soluția exactă a unui model de populație cu migrație dependentă de densitate și efect Allee (Petrovskii, Sergei Li, Bai-Lian, Un model exact rezolvabil al dinamicii populației cu migrații dependente de densitate și efectul Allee. Matematica. Biosci.186 (2003), nr. 1, 79-91. hârtie)
  11. Janet Raloff, Pescuitul pentru răspunsuri: traulele adânci lasă distrugerea în urma lor - dar pentru cât timp? Science News, 150 (1996) 268-271. (Secțiunea 16 din Taubes, Modelarea ecuațiilor diferențiale în biologie, 2000, pagina 246-257)
  1. Derivați și rezolvați Black-ScholesPDE în finanțe. ( P. Dunlap)
  2. Modelarea tumorilor ([B] Capitolul 8) (M. Zuk)
  3. Chimiotaxie ([B] 5.3 și 7.6 și altele)
  4. Derivați și analizați ecuația FitzHugh-Nagumo ([B] 6.4 și altele) . (P. Lucey)
  5. Val călător în modele epidemice ([B] Capitolul 3 și 5.7 și altele)
  6. Unda călătoare în mediu periodic
  7. Reacție-difuzie în mediu eterogen (viteză de difuzie diferită corespunzătoare calității habitatului)
  8. Invazia și evoluția vitezei la broaștele de trestie australiene (articolul din 16 februarie 2006) (D. Bigelow)
  9. Modele regulate și neregulate în vegetația semiaridă (lucrare de Klausmeier, Știință, Vol. 284, 1826-1828, 1999) (D. LaMontagne)
  10. Diversitatea modelelor de vegetație și deșertificare (lucrare de von Hardenberg, et.al. Phys. Rev. Let, 198101, 2001) (T. Little)
  11. O ecuație de reacție-advecție-difuzie din amestecul chimic haotic (hârtie de Neufeld și colab., Chaos, Vol 12, 426-438, 2002, hârtie de Menon și colab., Rev. Phys. E. Vol. 71, 066201, 2005, și preimprimare de prof. Shi)
  12. Bifurcația și soluția periodc în sistemele de reacție-difuzie ale interacțiunii prădător-pradă
  13. Reacții chimice autocatalitice (lucrare de Rovinsky și colab. Phys Rev A, Vol. 46, 6315-6322, 1992 lucrare de Horvath, et.al, 1997) (R. Carpenter)
  14. Ecuație integro-diferențială cu creștere logistică din creșterea populației
  15. Ecuație logistică non-locală (lucrare de Schnerb, Phys. Rev. E Vol 69, 061917 (2004), lucrare de Fuentes și colab. Phys. Rev. Lett. 91, 158104 (2003))
  16. Sincronizarea în modele de reacție-difuzie a conducției neuronale. (L. Osborne)
  17. Soluții de tip val pentru ecuația Fisher în dimensiuni superioare. (F. Hirata)
  18. Metode numerice de ecuații și sisteme de reacție-difuzie

Programe Maple și Matlab

Graficarea 3-d: demonstrați comenzile Maple pentru graficarea 3-d
Tema 1: răspunde la Tema 1 (prob 1-3) și rezolvă ecuațiile diferențiale
Seria Fourier a unei soluții de ecuație de difuzie: Demonstrați efectul sufocant al difuziei
Ecuații diferențiale: demonstrați cum să rezolvați problema valorii inițiale, problema valorii limită a ODE și PDE
Condiții limită și efect de netezire Demonstrați efectul diferitelor condiții la limită și efect de netezire al difuziei
Problemă chimică: arată cum să rezolvi problema amestecului chimic
Condiția la limita Robin: calcularea valorilor proprii la limita Robin și dimensiunea critică a patch-urilor
Model difuziv Malthus: arată efectul unei rate de creștere diferite asupra soartei populației care trăiește într-o regiune mărginită
Modele ale funcției proprii în 2-d: modele spațiale ale funcțiilor proprii ale Laplacianului pe un pătrat
Difuzarea cu o sursă punctuală: simularea soluțiilor fundamentale în 1-d și 2-d
Difuzie cu o sursă continuă: simularea soluției ecuației de difuzie pe o jumătate de linie cu valoare fixă ​​la x = 0
Problema deversării de combustibil: rezolvați problema deversării de combustibil în secțiunea 3.3
Răspândirea muscatului: utilizați funcția de adaptare a datelor pentru a se potrivi cu creșterea populației de muscat
Valul călător al ecuației Fisher: arată o soluție exactă a valului călător al ecuației Fisher
Valul călător al ecuației Fisher generalizate:
calculați o soluție exactă de undă călătoare a ecuației Fisher generalizate
u_t = D u_+ ku (1-u ^ m), unde D & gt0, k & gt0 și m & gt0.

Soluție auto-similară a ecuației de difuzie: calculați soluțiile auto-similare ale ecuațiilor de difuzie liniare și neliniare
Problema moliei țigănești: calculați viteza de invazie a moliei țiganilor din estul Statelor Unite

Ecuații de diferență pentru evoluția genei prog1 prog2

Programe Matlab care simulează ecuații și sisteme R-D:
Programe de Marcus Garvie (Florida State University)
Programe de
Julijana Gjorgjieva (Harvey Mudd College)

Cărți de referință în biologie matematică

    • Biologie matematică, vol. 1: O introducere. De James Dickson Murray, Springer-Verlag, New York, (2002).
    • Biologie matematică, vol. 2: Modele spațiale și aplicații biomedicale. De James Dickson Murray, Springer-Verlag, New York, (2002).
    • Modele matematice în biologie. De Leah Edelstein-Keshet, McGraw-Hill, Boston, (1988). SIAM, (2005).
    • Elemente de ecologie matematică. De Mark Kot, Cambridge University Press, (2001).
    • Difuzare și probleme ecologice: perspective moderne. De Akira Okubo, Simon A. Levin, Springer-Verlag, New York, (2001).
    • Analiza cantitativă a mișcării: măsurarea și modelarea redistribuirii populației la animale și plante. De Peter Turchin, Sinauer Associates, Inc, (1998).

    Modelarea sistemelor biologice, Un atelier la National Science Foundation în 1996

    De ce este atât de grea biologia matematică? Michael C. Reed, Notificări ale Societății Americane de Matematică, martie 2004.

    Provocări matematice în ecologia spațială Claudia Neuhauser, Notificări ale American Mathematical Society, decembrie 2001.

    We Got Rhythm: Sisteme dinamice ale sistemului nervos Nancy Kopell, Notificări ale American Mathematical Society, ianuarie 2000.

    Noțiuni introductive în biologia matematică Frank Hoppensteadt, Notificări ale Societății Americane de Matematică, septembrie 1995.

    Câteva sfaturi pentru tinerii biologi matematici Kenneth Lange, (de pe internet), data necunoscută.

    Cum își face leopardul petele? James Murray, Scientific American, 258 (3): 80-87, 1988.


    2. Lungimea manuscrisului

    Articole de cercetare și Articole Instrumente și Resurse: lungimea totală a articolului nu trebuie să depășească 8000 de cuvinte, inclusiv textul principal și legendele figurii, dar nu pagina de titlu, rezumatul, secțiunea de materiale și metode sau lista de referințe (citările de referință din text contează pentru limita cuvintelor). Numărul total de elemente afișate (figuri și tabele) nu trebuie să depășească opt (8).

    Rapoarte scurte: lungimea totală a articolului nu trebuie să depășească 3000 de cuvinte, inclusiv textul principal și legendele figurii, dar nu pagina de titlu, rezumatul, secțiunea de materiale și metode sau referințele (citările de referință din text contează pentru limita cuvintelor). Numărul total de elemente afișate (figuri și tabele) nu trebuie să depășească patru (4).

    Rețineți că limitele cuvintelor finale vor depinde de lucrarea trimisă și sunt la latitudinea editorilor.


    Rezultate si discutii

    În secțiunile următoare, am demonstrat EVM ca un instrument automat de adnotare a structurii genelor folosind secvențe de genom de orez și umane și dovezi conexe. În primul rând, folosind genomul orezului, dezvoltăm conceptele care stau la baza algoritmului EVM ca instrument care încorporează dovezi ponderate în predicțiile consensuale ale structurii genelor. Ne îndreptăm apoi atenția asupra genomului uman, în care examinăm rolul EVM în colaborare cu PASA pentru a adnota genele care codifică proteinele și alternativ izoformele îmbinate. În fiecare scenariu, includem comparații cu metode alternative de adnotare.

    Evaluare a ab initiopredicția genelor în orez

    Precizia de predicție pentru fiecare dintre cele trei programe Fgenesh [5], GlimmerHMM [4] și GeneMark.hmm [6] a fost evaluată utilizând un set de 1.058 structuri genetice de referință verificate de ADNc. Toate cele trei au fost aproape echivalente atât în ​​ceea ce privește acuratețea predicției exonului (aproximativ 78% sensibilitate exon [eSn] și 72% până la 79% specificitate exon [eSp]), cât și precizia completă a predicției genelor (22% până la 25% sensibilitate genică [gSn] și 15 % la 21% specificitatea genei [gSp] Figura 1). Defalcarea preciziei de predicție pentru fiecare dintre cele patru tipuri de exoni indică faptul că toți predictorii genelor excelează la prezicerea corectă a exonilor interni (aproximativ 85% eSn) în timp ce prezicerea exonilor inițiali, terminali și singuri mai puțin exactă (44% până la 68% eSn Figura 2) .

    Orez Ab initio precizia predicției genelor. Precizia predicției genelor este prezentată pentru GeneMark.hmm, Fgenesh și GlimmerHMM ab initio predicții genetice pe baza unei evaluări a structurilor genetice de orez de referință verificate de ADNc 1058. Acuratețea predicțiilor consensuale EVidenceModeler (EVM) din combinarea tuturor celor trei ab initio sunt furnizate și predicții folosind ponderări egale (greutate = 1 pentru fiecare).

    Ab initio sensibilitatea de predicție după tipul exonului. Individual ab initio sensibilitățile de predicție a exonului bazate pe comparații cu 1.058 structuri genetice de orez de referință sunt prezentate pentru fiecare dintre cele patru tipuri de exoni: inițial, intern, terminal și unic. Rezultatele sunt prezentate suplimentar pentru predicțiile consensuale EVidenceModeler (EVM) acolo unde ab initio predicțiile au fost combinate folosind greutăți egale.

    Deși fiecare predictor de genă prezintă un nivel similar de precizie, acestea diferă foarte mult în structurile genice individuale pe care fiecare le prezice corect. Diagramele Venn furnizate în Figura 3 relevă variabilitatea între gene și exoni prezise corect de cele trei programe. Deși fiecare program prezice perfect până la 25% din genele de referință, doar aproximativ un sfert dintre acestea (6,2%) au fost identificate simultan de toate cele trei programe. De asemenea, este remarcabil faptul că mai mult de jumătate (54%) din genele verificate de ADNc nu sunt prezise corect de niciunul dintre predictorii genici evaluați. La nivelul exonului individual, există mult mai mult acord între predicții, cu 60,5% din exoni corect prezise de toate cele trei programe. Doar 7,1% dintre exoni nu sunt prezise corect de niciunul dintre cele trei programe. Diagramele Venn indică o consistență generală mult mai mare între predicțiile exonului intern, corelate cu precizia inerentă a predicției exonului intern, în comparație cu variabilitatea mai mare și precizia scăzută a predicției printre alte tipuri de exoni. O proporție relativ mai mare de tipuri de exoni simpli (22,1%), inițiali (14,4%) și terminali (13,9%), găsiți în genele noastre de referință, sunt complet absenți din setul exonilor preziși.

    Diagramele Venn care contrastează componentele structurii genei orezului prezise corect de ab initio căutători de gene. Procentele sunt prezentate pentru fracțiunea de 1.058 gene de orez verificate de ADNc și componente ale structurii genei care au fost prezise corect de fiecare ab initio predictor de gene. Componentele structurii genei verificate prin ADNc sunt formate din 7.438 exoni total: 86 singuri, 5408 interni, 972 inițiali și 972 terminali.

    Consens ab initioprecizia predicției exonului

    Deși există un dezacord considerabil între apelurile de exoni între diferiții predictori genetici, atunci când mai multe programe apelează exoni în mod identic, acestea tind să fie mai frecvent corecte. Figura 4 arată că, prin restrângerea analizei la acei exoni care sunt preziți identic de două programe, specificitatea predicției exonului sare la 94% corectă, indiferent de cele două programe alese. Specificitatea predicției exonului se îmbunătățește la 97% dacă luăm în considerare numai acei exoni care sunt preziți identic de către toate cele trei programe. Rețineți că, deși specificitatea se îmbunătățește până la o precizie aproape perfectă, sensibilitatea de predicție scade de la 78% la 60%. Deși nu ne putem baza pe exonii împărtășiți pentru a prezice corect toate genele, în această circumstanță putem avea încredere în cei care sunt împărtășiți cu o mai mare încredere. EVM folosește această specificitate sporită oferită prin acord de consens între dovezile pentru componentele structurii genei și raportează aceste componente specifice ca parte a structurilor genetice complete mai mari, în același timp, EVM folosește alte linii de dovezi pentru a păstra un nivel ridicat de sensibilitate.

    Precizia de predicție a exonului se limitează la apeluri exon complete de consens. Sensibilitatea exonului (eSn) și specificitatea exonului (eSp) au fost determinate prin comparare ab initio exonii prezisi. Exonii au fost restrânși la cele perfect convenite de doi sau trei predictori genici diferiți. Pentru calculele de specificitate au fost luate în considerare numai acei exoni preziși, găsiți în 500 de perechi de baze care înconjoară cele 1.058 structuri genetice de referință.

    Predicția genetică consensuală de către EVM

    Spre deosebire de convențional ab initio predictori genetici care folosesc doar compoziția secvenței genomului, EVM construiește structuri genetice prin combinarea dovezilor derivate din surse secundare, inclusiv multiple ab initio predictori genetici și diverse forme de omologii de secvență. Pe scurt, EVM descompune mai multe predicții genetice, și protejează și aliniază transcripția într-un set de componente ale structurii genei non-redundante: exoni și introni. Fiecare exon și intron este punctat pe baza greutății (valoarea numerică asociată) și a abundenței dovezilor de sprijin regiunile genomice corespunzătoare localizărilor intergenice prezise sunt, de asemenea, punctate în consecință. Exonul și intronii sunt folosiți pentru a forma un grafic, iar calea cea mai înaltă a punctajului prin grafic este utilizată pentru a crea un set de structuri genetice și regiuni intergenice corespunzătoare (Figura 5 vezi Materiale și metode, mai jos, pentru detalii complete). Datorită sistemului de notare utilizat de EVM, structurile genetice cu diferențe minore, cum ar fi mici variații la limitele intronului, pot produce scoruri foarte diferite. De exemplu, un intron susținut de ADNc care este doar trei nucleotide compensate de un ab initio intronul prevăzut ar putea fi punctat extraordinar de mare în comparație cu intronul prezis, deși diferă doar ușor în ceea ce privește conținutul. În mod similar, un intron care este complet susținut de mai multe alinieri proteice îmbinate va fi punctat mai mare decât un intron alternativ de lungime similară obținut doar printr-o singură aliniere proteică similară. În acest fel, EVM folosește abundența și greutatea diferitelor dovezi pentru a înscrie în mod corespunzător componentele structurii genei pentru a promova selecția acestora în cadrul adnotării genomului consens ponderat rezultat.

    Consensul predicției structurii genei de către EVM. Principalele aspecte ale algoritmului ponderat de predicție EVidenceModeler (EVM) sunt prezentate aici, exemplificate cu o regiune de 7 kilobaze a genomului orezului. Vizualizarea de sus ilustrează o vizualizare în genom browser-style, afișând ab initio predicții genetice GlimmerHMM, Fgenesh și GeneMark.hmm, AAT-gap2 aliniere spliced ​​de alte etichete de secvență exprimate de plante (EST), Program pentru a asambla ansambluri de aliniere splicate (PASA) de orez EST și alinieri cDNA (FL-cDNA) pe toată lungimea, AAT-nap spliced ​​alinieri de proteine ​​nonrice, și GeneWise proteine ​​predicții bazate pe omologie. Testația de sus și cea de jos sunt separate prin bifatorul secvenței. Dovezile sunt dezmembrate în introni candidați, iar exonii exoni candidați sunt afișați în contextul celor șase cadre de citire posibile din partea de jos a figurii. Un vector de scor, intron și scor scor intergenic sunt prezentate scoruri specifice caracteristicii (a se vedea Materiale și metode) au fost adăugate la vectorii corespunzători aici doar în scop ilustrativ și rețineți că toți intronii au scoruri specifice caracteristicii. Selecția exonilor, intronilor și regiunilor intergenice care definesc calea cea mai înaltă a punctajului este arătată de conexiunile dintre caracteristicile exonului din partiția de caracteristici cu șase cadre. Această cale de scor mai înaltă produce două structuri genetice complete, prezentate ca un nivel EVM în partea de sus, corespunzătoare genelor de orez cunoscute (stânga) LOC_Os03g15860 (proteina purtătoare a membranei peroxizomale) și (dreapta) LOC_Os03g15870 (proteina ribosomală 50S L4, precursor al cloroplastului).

    Pentru a demonstra cea mai simplă aplicare a EVM, combinăm doar cele trei ab initio predicțiile genei și ponderea fiecărui tip de predicție în mod egal. Figurile 1 și 2 afișează rezultatele în comparație cu ab initio precizii de predicție demonstrăm că, prin încorporarea exonilor și a intronilor comuni în structurile genei consensuale, precizia completă a predicției genelor este îmbunătățită cu cel puțin 10%. Precizia de predicție a exonului este crescută cu aproximativ 6%, iar preciziunile de predicție a exonului pentru fiecare tip de exon sunt în mare parte îmbunătățite, cu excepția tipului inițial de exon, pentru care doar GeneMark.hmm este ușor superior.

    Exacțiunea de predicție a genei de consens folosind diferite tipuri de dovezi și ponderile asociate

    Un consens privind structura genei, calculat de EVM, se bazează pe tipurile de dovezi disponibile și valorile lor de greutate corespunzătoare. În exemplul de mai sus, fiecare tip de dovadă furnizat sub forma ab initio predicțiile genetice au fost ponderate identic. În cazul în care fiecare tip de predicție este echivalent în ceea ce privește precizia, acest lucru poate fi suficient, dar atunci când un tip de probe este mai precis, se așteaptă o greutate mai mare aplicată acelor dovezi care să conducă la consens spre o precizie mai mare a predicției. Figura 6 ilustrează impactul combinațiilor variate de greutate și a surselor de dovezi asupra exonului și a sensibilității complete de predicție a structurii genelor. În primul set (iterațiile 1-10), doar cele trei ab initio predicțiile genetice sunt combinate folosind ponderări aleatorii. Precizia predicției variază de la 22% la 38% gSn și de la 77% la 84% eSn. În cel de-al doilea set (iterațiile 11-20), omologiile secvenței sunt incluse suplimentar sub formă de aliniere proteică spliced ​​(folosind pui de AAT), aliniere spliced ​​de EST derivate de la alte plante (folosind gap2 de AAT) și ome proteine ​​GeneWise -predicții genetice bazate pe. Acolo, precizia completă a predicției variază de la 44% la 62% gSn și 88% la 92% eSn. În al treilea și ultimul set (iterațiile 21-30), au fost incluse ansambluri de aliniere PASA derivate din aliniamentele transcriptului orezului, din care un subset definește structura corectă a genei. În prezența celor mai bune dovezi și a greutăților stabilite aleatoriu, precizia predicției variază de la 75% la 96% gSn și de la 95% la 99% eSn.

    Răspunsul preciziei predicției EVM la diferite tipuri de probe și greutăți. Ierațiile (30) ale tipurilor de dovezi ponderate aleatoriu au fost evaluate de EVidenceModeler (EVM). Ierațiile de la 1 la 10 au inclus numai ab initio predictori GlimmerHMM, Fgenesh și GeneMark.hmm. Ierațiile 11 la 20 au inclus în plus alinieri AAT-nap de proteine ​​nonrice, predicții GeneWise bazate pe omologii de proteine ​​nonrice și alinieri AAT-gap2 ale altor etichete de secvență exprimate de plante. Ierațiile 21-30 au inclus ansambluri de aliniere a programului de asamblare a aliniamentelor îmbinate (PASA) și supliment corespunzător al exonilor terminali pe bază de cadru de lectură deschisă lungă (ORF) PASA. Valorile sensibilității exonice și a predicției genei complete rezultate din EVM utilizând combinațiile de greutate corespunzătoare sunt reprezentate grafic mai jos.

    Deși aceasta reprezintă doar un număr mic de posibile combinații aleatorii de greutate, aceasta demonstrează efectul setărilor de greutate și includerea diferitelor tipuri de dovezi asupra preciziei noastre de predicție consensuală. Prin includerea dovezilor bazate pe omologia secvenței, precizia predicției noastre se îmbunătățește foarte mult, dublându-se până la triplarea preciziei complete de predicție a genei ab initio programe singur sau în combinație. De asemenea, setări de greutate foarte diferite pot duce în continuare la niveluri similare de performanță, în special în prezența datelor de omologie a secvenței.

    Acuratețea predicției consensului EVM utilizând greutăți de dovezi instruite

    Având în vedere variabilitatea în precizia de predicție a genei consens observată utilizând diferite combinații de valori ale greutății, găsirea combinației unice de greutăți care oferă cea mai bună precizie de predicție consens este un obiectiv important. Căutarea tuturor combinațiilor de greutate posibile pentru a găsi cea mai bună combinație de scoruri nu este rezolvabilă, având în vedere efortul de calcul necesar pentru a explora un spațiu de căutare atât de vast. Pentru a estima un set de greutăți mari, am folosit un set de euristici care utilizează combinații de greutate aleatorii, urmate de ascensiunea în gradient (a se vedea Materiale și metode, mai jos). În scopul alegerii greutăților performante și a evaluării acurateței acestora, am selectat 1.000 din structurile noastre genetice verificate prin ADNc și am folosit jumătate pentru estimarea greutăților și cealaltă jumătate pentru evaluarea acurateței folosind aceste greutăți (denumite în continuare „greutăți antrenate”). Atât în ​​procesul de instruire, cât și în cel de evaluare, statisticile de precizie au fost limitate la fiecare genă de referință și au însoțit 500 de perechi de baze (bp). Cu toate acestea, EVM a fost aplicat regiunilor genomului orezului incluzând regiunea de 30 kilobază (kb) care flancează fiecare genă de referință, pentru a emula predicția genei de către EVM într-un context genomic mai mare.

    Deoarece instruirea EVM nu este deterministă și fiecare încercare de antrenament poate avea ca rezultat un set diferit de greutăți mari, am efectuat procesul de antrenament și evaluare EVM pe seturile de date de orez de trei ori separat. Valorile de greutate antrenate calculate de fiecare proces de antrenament sunt furnizate în fișierul de date suplimentare 2 (Tabelul S1), iar precizia de predicție a genei consens obținută în timpul fiecărei evaluări este furnizată în fișierul de date suplimentare 2 (Tabelul S2). Precizia medie de predicție genică este furnizată în Figura 7. Pe acest set de 500 de gene de referință, exonul mediu și precizia completă a predicției genelor pentru ab initio predictorii sunt similari cu cei calculați anterior pentru setul complet mai mare de 1.058 gene verificate de ADNc. EVM aplicat la ab initio numai predicțiile folosind greutăți optimizate au generat 38% gSn și 34% gSp, cu aproximativ 10% mai bune decât cele mai bune ab initio precizie. Prin includerea tipurilor de dovezi suplimentare sub formă de omologii proteice sau EST în mod independent, sensibilitatea completă de predicție genică crește la 49% la 56% gSn și 44% la 50% gSp. Folosind toate dovezile minus datele PASA, sensibilitatea genetică completă atinge 62% gSn și 56% gSp. Rețineți că fiecare câștig de sensibilitate este însoțit de un câștig de specificitate, indicând îmbunătățiri generale ale preciziei predicției genelor.

    Precizia predicției genei consensului orezului utilizând greutăți optimizate ale dovezilor. Precizia de predicție genică pentru EVidenceModeler (EVM) a fost calculată la nivelul nucleotidei, exonului și la nivelul complet al genei utilizând greutăți antrenate și seturi specifice de dovezi, aplicate la 500 dintre structurile genei de orez de referință. Dovezile evaluate sunt descrise după cum urmează: EVM: GF include ab initio predicții genetice (GF) singure EVM: GF + gap2 include GF plus aliniamentele AAT-gap2 ale altor etichete de secvență exprimate de plante (gap2) EVM: GF + nap include alinieri GF plus AAT-nap ale proteinelor nonrice (nap) EVM: GF + GeneWise include GF plus predicțiile GeneWise bazate pe omologii de proteine ​​nonrice (GeneWise) EVM: ALL (-PASA) include GF, pui de somn, gap2 și GeneWise EVM: ALL (+ PASA) include în plus programul de asamblare a alinierilor aliate (PASA) ansambluri și supliment de exon terminal bazat pe cadru de lectură deschis deschis (ORF). Sn, sensibilitate Sp, specificitate.

    Greutăți intuitive versus greutăți antrenate

    Deși putem aborda din punct de vedere computerizat problema găsirii unui set de greutăți care să ofere performanțe optime, este clar din analiza noastră asupra greutăților selectate aleatoriu că ar putea exista numeroase combinații de greutate care să ofere o precizie rezonabilă. În general, constatăm că combinațiile de ponderări atribuite în următoarea formă oferă o precizie de predicție consensuală adecvată:

    (ab initio predicții) ≤ (alinieri proteine, alinieri EST) & lt (GeneWise) & lt (PASA)

    Folosind o astfel de combinație de greutate (predicții genetice = 0,3, proteine ​​și alte EST ale plantelor = 1, GeneWise = 5, PASA = 10), descoperim că exonul nostru consens și precizia completă a predicției genelor sunt destul de comparabile, cu greutățile noastre intuitive care oferă niveluri de performanță. care în majoritatea cazurilor sunt ușor mai mici decât cele ale greutăților noastre antrenate (fișierul de date suplimentare 1 [Figura S1]). În fiecare caz, măsurătorile de precizie cu setări intuitive ale greutății au fost în limita a 3% din rezultatele obținute din greutăți antrenate. Capacitatea de a regla ponderile dovezilor EVM oferă în mod intuitiv o flexibilitate care nu este la fel de ușor de oferită de sistemele software actuale bazate pe un cadru probabilistic strict.

    EVM versus instrumente de adnotare alternative: Glean și JIGSAW

    Precizia EVM a fost comparată cu cea a instrumentelor de adnotare automată de tip combinator concurente folosind atât Glean, cât și JIGSAW. Distribuțiile software Glean și JIGSAW disponibile public au fost descărcate și rulate folosind setările implicite ale parametrilor. Am instruit JIGSAW folosind seturi de date identice cu cele furnizate EVM, folosind cele 500 de gene de referință și dovezi asociate pentru antrenament și cele 500 de gene separate și dovezi pentru evaluare. Antrenamentul nesupravegheat al lui Glean este strâns legat de algoritmul de predicție, astfel încât Glean a fost executat pe întregul set de 1.000 de gene și dovezi asociate, cu jumătatea adecvată folosită în scopuri de evaluare. Exon și precizia completă a predicției genelor sunt prezentate în Figura 8. Fiecare combinator de dovezi demonstrează îmbunătățiri substanțiale ale acurateței în prezența dovezilor de omologie a secvenței. EVM se descurcă bine în această confruntare a combinatorului și, în majoritatea cazurilor, oferă cea mai mare precizie de predicție a celor trei instrumente analizate.

    Precizia EVM în comparație cu Glean și JIGSAW. Atât JIGSAW, cât și Glean au fost instruiți și evaluați pe baza datelor genomului orezului, iar acuratețile au fost comparate cu cele ale EVidenceModeler (EVM). Ponderile instruite utilizate de EVM sunt furnizate în fișierul suplimentar 2 (Tabelul S3). PASA, Program de asamblare a alinierilor îmbinate Sn, sensibilitate Sp, specificitate.

    Precizia de predicție între JIGSAW și EVM este izbitor de similară pentru două dintre probele de combinare a scenariilor examinate: combinarea predicțiilor genetice cu alte aliniamente EST ale plantei (gap2) și când toate datele de aliniere sunt incluse minus dovezile PASA de orez (toate). Am examinat în continuare ultimul caz, în care atât JIGSAW, cât și EVM au prezis cu precizie mai mult de 60% din genele complete, pentru a determina similaritatea predicțiilor genice. Dintre cele 500 de gene de referință testate, există 310 predicții generate identic între EVM și JIGSAW, dintre care 260 au fost corecte. Prin urmare, deși preciziunile lor de predicție pot fi izbitor de similare, în general structurile genetice prezise sunt destul de diferite.

    Un punct forte al EVM este abilitatea sa de a folosi forme de dovezi puternic de încredere, cum ar fi structurile genetice deduse din aliniamentele FL-cDNA-urilor și EST-urilor. Fiecare dintre cele trei programe au fost instruiți în prezența structurilor genetice susținute de ADNc, așa cum este furnizat de PASA (structuri cu cadru de lectură deschisă lungă [ORF] în cadrul ansamblurilor de aliniere PASA), un subset al acestuia care definește o structură genetică corectă (vezi Materiale și metode, de mai jos). Toate cele trei instrumente au demonstrat cea mai mare precizie în prezența dovezilor PASA. Although each tool is effectively provided with evidence containing all complete introns and exons that define the correct gene structure, only EVM is found to be capable of nearly perfect prediction accuracy. Of the 500 evaluated reference genes, EVM predicted only six incorrectly when supplied with PASA evidence along with the competing evidence types (ab initio predictions, and protein and other plant EST alignments). These six incorrect predictions involved three cases in which neighboring genes were merged into single predictions, two cases in which improper gene termini were chosen, and a single case that was confounded by a large degenerate retrotransposon insertion within an intron of a gene, an element that was not masked and excluded from the gene prediction effort.

    Comparison with manual annotation

    It is expected and reassuring that EVM provides nearly perfect complete gene accuracy in the presence of high quality and reliable complete gene structure data, as provided in the form of the PASA alignment assemblies. The importance of such ESTs and FL-cDNAs for gene structure annotation is well known [42–45], and software such as PASA can annotate gene structures based solely on these data in absence of pre-existing gene annotations or ab initio gene predictions [33]. A greater challenge is to achieve maximal consensus gene prediction accuracy in the absence of these data, which is the typical scenario with newly sequenced genomes that lack extensive EST or FL-cDNA sequences as companion resources. In such cases we must rely on the accuracy of ab initio gene predictors and homologies to sequences from other organisms, and it is here that, in lieu of an equivalent automated annotation method, we expect to have the greatest gains from expert scientists directly evaluating and modeling complete gene structures based on these sources of evidence.

    In our application of EVM thus far, the relevant set of input evidence is that which contains the ab initio gene predictions, protein alignments, GeneWise predictions based on protein homology, and the alignments to ESTs derived from other plants (Figure 7 entry 'EVM:All(-PASA)', read as EVM with all evidence minus PASA evidence). Using trained weights, EVM correctly predicted 92% of the known exons and 62% of the 500 cDNA-verified genes correctly, on average. If the subset of the native cDNA data that defines the correct gene structure is not supplied as evidence, and if components of such known gene structures are not available as candidate introns and exons, then EVM will be unable to predict the gene correctly. In an effort to establish the upper limit of gene prediction accuracy in the absence of cDNA evidence, we propose use of the accuracy of manual annotation on the same dataset. The accuracy of human annotation has never been adequately measured, although it is widely assumed that human annotation is the 'gold standard' for genome projects. For our study, a set of human annotators was asked to evaluate these data in absence of cognate rice cDNA alignments, and were instructed to model a gene structure manually that best reflected the available evidence. In absence of the rice cDNAs, manual annotation accuracy resulted in 96% eSn and 96% eSp, and 81% gSN and 81% gSP (Figure 7). In light of these statistics, we consider the accuracy provided by EVM on the identical dataset to be demonstrably effective as an automated annotation system, and approaching the better accuracy obtained through manual curation efforts, particularly when compared with the accuracy of individual ab initio gene predictors on the same dataset.

    Application of EVM and PASA to the ENCODE regions of the human genome

    The ENCyclopedia of DNA Elements (ENCODE) project was initiated shortly after the sequencing of the human genome with the aim being to identify all functional elements, including all protein-coding genes, in the human genome sequence [46]. The pilot phase of the project focused on only 1% (about 30 megabases spread across 44 regions) of the genome, termed the ENCODE regions. The GENCODE (encyclopedia of genes and genes variants) consortium was formed to provide high quality manual annotation and experimental verification of protein coding genes in these regions [47]. The human ENCODE Genome Annotation Assessment Project (EGASP) was established to evaluate the accuracy of automated genome annotation methods by comparing automated annotations of the ENCODE regions with the GENCODE annotations [10]. Participants in the EGASP competition were allowed access to 13 ENCODE regions along with their corresponding GENCODE annotations, which could be used for training purposes. Groups submitted their automated annotations for the remaining 31 regions, after which time the corresponding GENCODE annotations were released and the automated annotation methods were evaluated based on a rigorous comparison with the GENCODE annotations [48].

    The sequences, gene predictions, and annotations involved in EGASP additionally serve as a resource for evaluating current and future annotation methods. Similarly to our application of EVM to the rice genome using cDNA-verified gene structures for training and evaluation purposes, we applied EVM to the ENCODE regions using the GENCODE annotations for training and evaluation purposes, analogous to the original EGASP competition. Evidence used by EVM included the evidence tracks provided by University of California at Santa Cruz: TWINSCAN, SGP2, GENEID, GENSCAN, CCDSGene, KNOWNGene, ENSEMBL (ENSGene), and MGCGene. Additional evidence generated in our study included AAT alignments of nonhuman proteins, GeneWise predictions based on the nonhuman protein homologies, AAT nucleotide alignments of select animal gene indices, and PASA alignment assemblies generated from GMAP alignments of human ESTs and FL-cDNAs. The GlimmerHMM predictions used by EVM were those generated as part of the EGASP competition, and were obtained separately.

    There are several notable differences between the training and evaluation of EVM on the ENCODE regions as compared with the earlier application to rice. The cDNA-verified rice genes used for training and evaluation were restricted to a single splicing isoform. In addition, each gene was complete, containing the protein-coding region from start to stop codon. The GENCODE protein-coding annotations, in contrast, include alternative splicing isoforms and several partial gene structures. Accuracy measurements computed for rice genes included each cDNA-verified gene and the flanking 500 bases, whereas accuracy measurements on the ENCODE regions included these sequence regions in their entirety and all corresponding protein-coding gene annotations.

    EVM was trained on the 11 ENCODE test regions and then evaluated on the remaining 33 regions. Training and evaluation were performed under two independent trials. The trained weights and corresponding accuracy values are provided in Additional data file 2 (Tables S4 and S5). Our initial analysis of EVM on this dataset utilized the ab initio gene predictions, and the EST and protein homologies, similar to our earlier analysis with rice. The average gene prediction accuracy for the source predictions and EVM with varied additional evidences is illustrated in Figure 9. The ab initio gene predictions used as evidence by EVM individually predict genes with accuracies mostly less than 20% gSn the best individual performer was TWINSCAN, with 22% gSn and 20% gSp. By combining these predictions alone, EVM improves complete gene prediction accuracy to 31% gSn and 27% gSp, which is significantly better performance than any of the individual ab initio predictors. By including spliced alignments to dog, pig, mouse, or rat assembled EST databases, gene prediction sensitivity further improves to 38% to 45% gSn and 34% to 40% gSp. EST alignments from the more distantly related chicken yield slight improvement from using the predictions alone, but not to the extent of mammals. Alignments to the more distantly related sea squirt and frog gene indexes offer little to no improvement in prediction accuracy. Overall, the improvements in EVM prediction accuracy afforded by alignments to the nonhuman gene indexes correlate well with their phylogenetic distance from human, with mouse and rat being found most useful. By including human EST and FL-cDNA alignments in the form of PASA alignment assemblies along with the ab initio predictions, gene prediction sensitivity improves to 63%. Protein homologies included with ab initio predictions, in the form of AAT (nap) alignments or GeneWise predictions, also demonstrated an improvement in gene prediction accuracy, with 36% to 56% gSn and 30% to 44% gSp as compared with the 31% gSn and 27% gSp from combining the predictions alone.

    Human consensus gene prediction accuracy by EVM. The consensus gene prediction accuracy by EVidenceModeler (EVM) is shown based on trained evidence weights and the corresponding combination of evidence, as applied to the GENCODE test regions of the human genome. The accuracies for the inputted gene predictions obtained from the ENCODE Genome Annotation Assessment Project (EGASP) dataset are provided for reference sake, including GENSCAN, TWINSCAN, GlimmerHMM, GeneMark.hmm on the repeat-masked genome, GeneID, and SGPgene. EVM-GF corresponds to EVM applied to these gene prediction tiers alone (GF), and serves as the baseline evidence for the subsequent entries. EVM-GeneWise includes GeneWise predictions based on nonhuman protein homologies EVM-nap includes AAT-nap spliced alignments of nonhuman proteins the EVM:gap2_* series includes AAT-gap2 alignments of corresponding transcripts from the Dana Farber Gene Indices (CINGI, Ciona intestinal [sea squirt] XGI, Xenopus tropicalis [frog] GGGI, Gallus gallus [chicken] DOGGI, Canis familiaris [dog] SSGI, Sus scrofa [pig] RGI, rat MGI, mouse) EVM-alignAsm includes Program to Assemble Spliced Alignments (PASA) alignment assemblies and corresponding terminal exon supplement and EVM:All includes all evidence described (GF, gap2, nap, GeneWise, and PASA). Sn, sensitivity Sp, specificity.

    Post-EVM application of PASA to annotate alternatively spliced isoforms

    EVM is not designed to model alternative splicing isoforms directly. This is, however, a primary function of our companion annotation tool PASA, which contributes to the automated annotation of gene structures in several ways. PASA, like EVM, is made freely available as open source from the PASA website [49]. Above, PASA alignment assemblies were used as one source of gene structure components by EVM. Alternatively, PASA can generate complete gene structures based on full-length alignment assemblies (alignment assemblies containing at least one FL-cDNA) by locating the longest ORF within each alignment assembly, and annotate gene structures and alternatively spliced isoforms restricted to the transcriptome. A third application of PASA is to perform a retroactive processing of a set of pre-existing gene structure annotations, whereby alignment assemblies are incorporated into untranslated region annotations, exon modifications, correctly splitting or merging predicted gene structures, and used to model alternative splicing isoforms [33].

    To demonstrate the effect of applying PASA as a postprocess to integrate transcript data into an existing set of gene structure annotations (which we refer to as 'PASAu', for PASA updates), we applied PASA separately to the ab initio predictions, the various University of California at Santa Cruz gene prediction tracks (which we refer to as 'other predictions'), and to the EVM-generated datasets that either utilized or excluded the other predictions. The change in prediction accuracy as a result of applying PASA's annotation updates is illustrated in Additional data file 1 (Figure S2). PASAu can yield relatively large improvements (increases from 23% to 33% in gSn and from 7% to 32% in gSp) to the accuracy of the various ab initio predictions by incorporating transcript alignment assembly-based updates. PASAu-resulting changes to the accuracies of the other original predictions were more variable, mostly involving small increases in transcript sensitivity and larger decreases in transcript specificity more GENCODE transcripts predicted correctly, but additional PASA-based transcripts not represented in the GENCODE dataset were also identified. The EVM gene sets were affected similarly.

    The small change in gSn and gSp resulting from the annotation update functions of PASA to the EVM predictions is not surprising, given that the PASA alignment assemblies were included here as inputs during the generation of the consensus gene structures by EVM. The most notable consequence of the PASA updates was the modeling of alternative splicing isoforms. Although the number of genes annotated as alternatively spliced was variable across the different annotation gene sets, the ratio of transcripts per alternatively spliced gene was fairly uniform, and largely consistent with the prevalence of alternatively spliced genes described in the GENCODE annotations (Figure 10). The reason for the variability in the number of alternatively spliced genes is because of PASAu's stringent validation tests, forsaking automated gene structure updates in favor of targeted manual evaluation in those cases in which the tentative gene structure updates or candidate splicing isoforms vary greatly from the originally annotated gene structures [49].

    Addition of alternatively spliced isoforms using PASAu. By applying Program to Assemble Spliced Alignments (PASA) to the various annotation datasets, PASA can automatically annotate alternative splicing isoforms. The number of alternatively spliced genes and the number of transcripts per alternatively spliced gene are shown, including the pre-PASAu and post-PASAu values. Only the EnsEMBL dataset includes models for alternatively spliced isoforms before the application of PASA. Dotted lines indicate the corresponding values based on the GENCODE reference annotation dataset: 147 alternatively spliced genes and 3.42 transcripts per alternatively spliced gene. Transcript isoforms alternatively spliced only in untranslated regions were ignored. Here, EVM:All(+OP) refers to the inclusion of the EVM:All evidence plus the 'other predictions' from ENCODE Genome Annotation Assessment Project (EGASP), including EnsEMBL, ENSgene, KnownGene, and CCDSgene, used by EVidenceModeler (EVM) as the OTHER_PREDICTION evidence class (Table 1).

    The gene prediction accuracy of EVM, PASA alone, and PASA applied as a postprocess to update EVM predictions is provided along with the accuracies of methods evaluated as part of the EGASP competition in Figure 11. PASA, when used in isolation to annotate gene structures automatically based on transcript alignments alone, yields an impressive 60% gSN and 87% gSP these values reflect the abundance and utility of the human ESTs and FL-cDNAs available. EVM, with its greatest accuracy throughout the various surveys of the EGASP dataset presented, yielded prediction accuracies of between 63% and 76% gSn and of between 47% to 54% gSp.

    EVM and PASA automated annotation accuracies compared to alternatives. The gene prediction accuracy of both EVidenceModeler (EVM) and Program to Assemble Spliced Alignments (PASA) are shown in the context of the other methods evaluated as part of the ENCODE Genome Annotation Assessment Project (EGASP) competition. Although PASA alone performs quite well, the benefits from applying PASA as a postprocess to the EVM consensus predictions are not immediately apparent, except in the enumeration of alternatively spliced isoforms as shown in Figure 10. PASA and EVM are shown to perform similarly to the best performing methods in the EGASP competition.

    Although it is useful to compare accuracies of these various tools based on their ability to recreate the GENCODE annotation for the ENCODE regions, direct comparisons between each method based on these data may be generally useful but not exactly valid. În cazul în care ab initio gene prediction tools that require only the genome sequence as input, direct comparisons between the results of the gene predictors are fully justified, because the inputs are exactly identical. The focus of EGASP was to examine the accuracy of diverse automated annotation methods and not necessarily to perform head-to-head comparisons between each method. Therefore, groups were allowed to use any evidence available to them to assist in their annotation efforts, and so, for example, the additional evidence used by JIGSAW was not exactly the same inputs utilized by Exogean, or EVM as described here. The analogous experiments we directed in rice were more tightly controlled, given that each software tool was trained and executed using identical inputs. Even so, although alternative methods examined as part of the EGASP competition are shown to exceed EVM's accuracy, even if only slightly, EVM does fare well as an automated annotation system, especially when it is compared with the individual ab initio predictions.


    Rezultate si discutii

    130,000 long terminal repeat (LTR) retrotransposons in the 48 recently sequenced bird genomes [4] and obtained 2,118 presence/absence patterns of insertions that occurred within the neoavian radiation and are distributed genome-wide (S1 Table, S1 Fig, S1 Data). These RE markers were obtained after visual inspection under strict criteria for coding of character states at orthologous RE loci (see Materials and Methods), because we aimed to minimize the two sources of potential homoplasy independent RE insertion and precise excision.

    Two Thousand RE Markers with Minimal Homoplasy

    Homoplasy via independent RE insertion requires the retrotransposition of the same RE subtype into precisely the same genomic location, in the same orientation, and featuring an identical target site duplication. In addition to these factors that make independent insertions very rare, the LTR retrotransposons studied here have a low copy number (e.g., 3,138 copies in the zebra finch genome), were active only for a short time period around the neoavian radiation [10], and show no target site preference among thousands of reconstructed ancestral target sequences of inserted elements (S2 Fig). We therefore propose that the probability of homoplasy caused by independent insertions among our RE markers is extremely low. Homoplasy via precise excision is the deletion of the RE insertion and one copy of the duplicated target site, but not a single bp more or less than that. These requirements make the occurrence of precise excisions very rare and we therefore visually inspected all of our markers for precise boundaries of presence/absence states and coded imprecise or poorly aligned boundaries as missing data. Altogether, we suggest that our 2,118 RE markers contain negligible homoplasy, and conflicts are instead due to ILS-derived hemiplasy.

    To verify that incongruences constitute ILS-derived hemiplasy, Hormozdiari et al. [14] proposed to test for topological consistence between each RE marker and a sequence tree derived from its flanking nucleotides. However, we note that failure of this test for some of their RE markers does not equal homoplasy of RE markers. Alternative and more plausible causes for inconsistencies are homoplasy or tree reconstruction uncertainties in the flanking sequence trees and the fact that recombination may cause different topologies between adjacent loci [15]. Unfortunately, single-locus sequence trees of Neoaves have an average topological distance of 63% for introns and 66% for ultraconserved elements (UCEs) from the main Jarvis et al. tree [4]. This means that the average nonexonic locus fails to congruently resolve most of the neoavian internodes. We note that it is therefore not possible to independently verify hemiplasy in neoavian RE markers by comparison to flanking sequence trees. Nevertheless, if homoplasy was prevalent in our RE markers, we would expect to see an equal distribution of RE incongruences across all of the sampled clades of Neoaves. While we find dozens of presence/absence markers with incongruences affecting the short branches within the neoavian radiation (S1 Table e.g., the core landbirds and core waterbirds clades), there is not a single RE incongruence in our presence/absence matrix (S1 Table) affecting well-accepted internal relationships within postradiation taxa, such as passerines, parrots, eagles, penguins, the woodpecker/bee-eater clade, the hummingbird/swift clade, and the flamingo/grebe clade. Such an imbalance of RE incongruences strongly implies that homoplasy is indeed negligible among our 2,118 RE markers.

    Genome-Scale RE-Based Phylogeny of Neoaves

    We analyzed the RE presence/absence matrix using Felsenstein’s polymorphism parsimony [16] and obtained a single most parsimonious RE (MPRE) tree, whose branches are supported by a total of 1,373 conflict-free insertion events across the neoavian radiation (Fig 1B). The topology is very similar to previous phylogenomic estimates using mostly noncoding nucleotide data [4,10,17–21], including relationships previously strongly supported in whole-genome sequence analyses [4] (Fig 1A), such as the sunbittern/tropicbird, bustard/turaco, and mesite/sandgrouse clades. From these three groups, only the sunbittern/tropic clade was previously recovered in some multilocus analyses [19–21].

    (A) The main whole-genome sequence tree from Jarvis et al. [4] mapped with our 2,118 retrotransposon markers (745 incongruent markers tree length = 5,579 consistency index = 0.40 retention index = 0.64). (B) The same markers mapped on the single MPRE tree (S2 Data) resulting from analysis of their 2,118 presence/absence patterns (720 incongruent markers tree length = 5,377 consistency index = 0.41 retention index = 0.66) under Felsenstein’s polymorphism parsimony [16]. Black branches indicate topological concordances between the MPRE tree and the main Jarvis et al. tree [4], and discordances are limited to the deepest neoavian internodes (grey dashed branches) and the conflicting position of the mousebird (grey branches). The amount of ILS-free, conflict-free insertion events (blue bold numbers) was identified for each internode, and numbers within doughnut plots indicate counts of ILS-affected RE insertion events leading to the persistence of insertion polymorphisms across two (green), three (orange), or more (red parts of doughnut plots) speciation events. (C–E) Schematic illustration of the different genealogical fates of segregating presence (colored lines) or absence (black lines) alleles following RE insertion (colored circles) in an exemplary five-taxon species tree. We show one respective example for the different degrees of gene tree–species tree conflict that can be caused by incomplete lineage sorting (ILS) across two (C), three (D), or more than three (E) successive speciation events. Incongruence of RE presence/absence patterns (dashed boxes) is illustrated with REs as colored ovals, target site duplications as white squares, and orthologous genomic flanks as black lines. The bird paintings were generated by Jon Fjeldså (used with permission).


    3 Răspunsuri 3

    There are three reasonable responses here:

    • yes, your recursion code can be improved for performance.
    • yes, part of that improvement can come from sorting the data.
    • yes, there's a way to refactor the code to not use recursion, and it may even be faster.

    Bearing that in mind, this answer becomes 'complicated'.

    Basic performance improvements for current code:

    I dislike any recursive function which rely on external (outside-the-method) values. In your case, the sumInStack is external. This makes the target hard to 'see'.

    Additionally, if we do sort the data, there are some benefits we can have, and a way to restructure the recursion to make it do less work (since we can guarantee that all values after a point have certain properties. ):

    consider the method (assuming sorted data ):

    You would call this function with:

    So, that is 'can the code be improved?' and 'will sorting help'

    As for the 'unrolled' (no recursion) version of the system, it can be done. It would require three int[] arrays:

    The sum gives and indices act like a stack, and the depth is how deep the stack is (again, assume sorted data):

    Another way to do problems like this &mdash investigating properties of all subsets (that is, members of the "power set") &mdash is to think of the main set as a list of cells, and each cell as a binary digit position. A member of the power set can therefore be described by a binary number, such that the subset contains only those elements of the set corresponding to a 1 in the binary value.

    By doing that, you can generate the power set just by counting. Of course this gets a little complicated when the original set has more values in it that can be comfortably dealt with by the native integer type in a given programming language, but Java has BigInteger . (Enumerating a power set for orice purpose is going to be a little painful for original sets that big anyway.)

    I have not fully worked it out, but the best algorithm here is probably dynamic programming. Basically, I would order the values and at each one keep all possible sums, considering earlier sums.

    Note that there is some efficiency above because some combinations are repeated many times. For example, at item 3, the output value 3 can be obtained from either (1 * 3_from_previous_sum + 0 * 3) or (0 * 3_from_previous_sum + 1 * 3). The further you go, the more such redundant values happen.

    I have not worked out is if this would clearly be more efficient than using brute force search, but I am pretty sure it would. Dynamic programming should increase the memory requirement of the algorithm, but decrease the compute time.

    The example table I made would be useful to answer whether a given sum can be attained or not, but not to give all combinations that can produce a sum, if it exists. To answer that second question, the table would have to be modified to also associate with each output sum value all the combinations which can produce it.


    ​Dividing Exponents in Mixed Bases​

    When you do algebra with exponents, in many situations there are different bases in the equation. For example, you might encounter ​X​ 2 ​y​ 3 ÷ ​X​ 3 ​y​ 2 . You can only work with exponents if they have the same base, so you work with the ​X​ parts and the ​y​ parts separately:

    In reality, ​y​ 1 is just ​y​, but it’s shown here for clarity. Note that it’s possible to have negative exponents as well as positive ones. În acest caz,

    You can’t simplify the expressions more than this, so this is all you need to do.


    Priveste filmarea: Что делать? Решите уравнение: x2-5x+4=0 (Ianuarie 2022).