Informație

Confirmarea exonului care se amestecă într-o genă


Încerc să confirm că secvența unei gene noi este derivată prin amestecarea exonului între mai multe gene diferite. Am secvența promotor, secvența genică și ARNm (cu limite definite pentru exon / intro). Am încercat să efectuez mai multe căutări în baze de date cu secvențele, dar fiecare căutare produce un set de accesări diferite fără legătură. Cum s-ar putea folosi aceste informații pentru a confirma ipoteza amestecării exonului? Orice sfaturi sunt apreciate. Mulțumiri!


Nu este clar ce înseamnă „mai multe căutări în baze de date cu secvențe”. Cea mai evidentă soluție este sablarea secvenței, astfel încât să puteți vedea care parte nu poate fi aliniată și apoi sablarea restului. Puteți alege diferite implementări (megablast of blastn) și vă puteți juca cu parametrii algoritmului, deoarece este posibil să nu funcționeze așa cum este. Dar va funcționa așa cum este dacă aruncați exoni separat. În acest fel puteți identifica genele de origine.


Studii recente asupra genomului protiștilor, plantelor, ciupercilor și animalelor confirmă faptul că creșterea dimensiunii genomului și a numărului de gene în diferite linii eucariote este paralelă cu o scădere generală a compactității genomului și o creștere a numărului și dimensiunii intronilor. Se poate prezice astfel că amestecarea exonilor a devenit din ce în ce mai semnificativă odată cu evoluția genomilor mai mari, mai puțin compacți. Pentru a testa validitatea acestei predicții, am analizat distribuția evolutivă a proteinelor modulare care au evoluat clar prin recombinare intronică. Rezultatele acestei analize indică faptul că proteinele modulare multidominiale produse prin amestecarea exonilor sunt restrânse în distribuția lor evolutivă. Deși astfel de proteine ​​sunt prezente în toate grupurile majore de metazoa, de la bureți la cordate, practic nu există dovezi ale prezenței proteinelor modulare înrudite în alte grupuri de eucariote. Semnificația biologică a acestei diferențe în compoziția proteinelor animalelor, ciupercilor, plantelor și protiștilor este cel mai bine apreciată atunci când aceste proteine ​​modulare sunt clasificate în funcție de funcția lor biologică. Majoritatea acestor proteine ​​pot fi atribuite unor categorii funcționale care sunt indisolubil legate de multicelularitatea animalelor și sunt de o importanță absolută pentru a permite animalelor să funcționeze într-un mod integrat: constituenții matricei extracelulare, proteaze implicate în procesele de remodelare a țesuturilor, diverse proteine de fluide corporale, proteine ​​asociate membranei care mediază interacțiunile celulă-celulă și celulă-matrice, proteinele receptorilor asociate membranei care reglementează comunicațiile celulă-celulă, etc. de asemenea grupuri de proteine ​​modulare care par a fi limitate la anumite linii evolutive.

Pe scurt, rezultatele sugerează că amestecarea exonului a căpătat o semnificație majoră în momentul radiației metazoane. Este interesant de observat că creșterea amestecării exonilor coincide cu o explozie spectaculoasă de creativitate evolutivă: Big Bang-ul radiațiilor metazoice. Se pare probabil că evoluția modulară a proteinelor prin amestecarea exonilor a contribuit în mod semnificativ la această evoluție accelerată a metazoarelor, deoarece a facilitat construirea rapidă a proteinelor extracelulare și a suprafeței celulare multidominale care sunt indispensabile multicelularității.


Rezumat structurat

INTRODUCERE

Modul în care evoluează noile arhitecturi proteice rămâne slab înțeles. Rearanjarea domeniilor cu funcții preexistente în noi arhitecturi compozite prin amestecarea exonului este o cale puternică de a forma gene care codifică proteine ​​cu funcționalități noi. Deși se crede că amestecarea exonilor explică evoluția multor structuri proteice, sursa noilor exoni și situri de îmbinare, precum și mecanismele prin care acestea devin asimilate au fost abia caracterizate. În această lucrare, investigăm contribuția transpozonilor ADN la formarea de gene noi care codifică proteinele prin amestecarea exonului în timpul evoluției vertebratelor.

RATIONALE

Transpozonii ADN sunt elemente mobile răspândite care codifică proteinele transpozazei care promovează replicarea lor egoistă în genomii gazdă. Transpozazele conțin în mod tipic domenii de legare a ADN-ului și nuclează catalitică, care pot fi refăcute pentru funcții celulare. Prin inserarea domeniilor funcționale în contexte genomice noi, secvențele de transpozază pot genera gene de fuziune gazdă-transpozază (HTF) prin splicing alternativ. Mai multe gene cu funcții critice de dezvoltare, cum ar fi Pax factori de transcripție, se crede că s-au născut prin acest proces. Cu toate acestea, mecanismul prin care domeniile de transpozază sunt capturate pentru a genera HTF, cât de comun este acest proces și funcțiile celor mai cunoscute gene HTF rămân neclare.

REZULTATE

Am folosit genomica comparativă pentru a studia toate genomurile tetrapodelor cu modele genetice disponibile (596) pentru HTF putative. Am identificat 106 HTF distincte derivate din 94 de evenimente de fuziune independente pe parcursul anului

300 de milioane de ani de evoluție. Am constatat că majoritatea HTF-urilor au evoluat prin îmbinarea alternativă a domeniilor gazdă la proteinele transposazei folosind site-uri de îmbinare furnizate de transposon. Domeniile de transpozază ale tuturor HTF-urilor analizate (81) evoluează sub selecție purificatoare, ceea ce sugerează că acestea au fost menținute pentru funcția organismului. Compoziția domeniului proteinelor HTF indică faptul că cele mai multe dintre ele constau din domenii de legare a ADN-ului transpozazei fuzionate cu domenii gazdă care se prezic funcționează în reglarea transcripțională și / sau a cromatinei, în special domeniul represiv al cutiei asociate Krüppel (KRAB) (implicat în

30% din totalul HTF), ceea ce sugerează că multe HTF funcționează ca regulatori de transcripție. Susținând această ipoteză, arătăm că patru proteine ​​de fuziune KRAB-transposază evoluate independent reprimă expresia genelor într-o manieră specifică secvenței în testele reporterului. Mai mult, pierderea funcției, salvarea și experimentele genomice de reglare în celulele liliecilor au arătat că proteina de fuziune KRABINER specifică liliecului leagă sute de transpozoni înrudite la nivelul genomului și controlează o rețea mare de gene și elemente de reglementare cis.

CONCLUZIE

Descoperirile noastre confirmă faptul că amestecarea exonilor este o forță evolutivă majoră care generează noutate genetică. Furnizăm dovezi că transpozonii ADN promovează amestecarea exonului prin inserarea domeniilor de transpozază în contexte genomice noi. Acest proces oferă o cale plauzibilă pentru apariția mai multor factori antici de transcripție cu funcții importante de dezvoltare. Prin ilustrarea modului în care un factor de transcripție și site-urile sale de legare dispersate pot apărea simultan dintr-o singură familie de transpozoni, rezultatele noastre susțin opinia că transpozonii sunt actori cheie în evoluția rețelelor de reglare a genelor.

(A) Model pentru modul în care are loc captarea transpozazei. (B) Abundența și caracteristicile HTF identificate. (C) Rezumatul rolului KRABINER ca factor de transcripție (TF) în celulele lilieci. TE, transpozabil element tpase, transposază DBD, domenii de legare ADN KO, knockout ChIP-seq, cromatină imunoprecipitare secvențiere PRO-seq, precizie run-on secvențiere TRE, element de reglare transcris.


Referințe

Kapitonov, V.V. & amp Jurka, J. Transpozoni cu cerc rotativ în eucariote. Proc. Natl. Acad. Știință. Statele Unite ale Americii 98, 8714–8719 (2001).

Poulter, R.T., Goodwin, T.J. & amp Butler, M.I. Helentroni de vertebrate și alte romane Helitroni . Gene 313, 201–212 (2003).

Lal, S.K., Giroux, M.J., Brendel, V., Vallejos, C.E. & amp Hannah, L.C. Genomul porumbului conține o helitron inserție. Celula plantei 15, 381–391 (2003).

Fu, H. & amp Dooner, H.K. Încălcarea intraspecifică a colinearității genetice și a implicațiilor acesteia asupra porumbului. Proc. Natl. Acad. Știință. Statele Unite ale Americii 99, 9573–9578 (2002).

Song, R. & amp Messing, J. Expresia genică a unei familii de gene în porumb pe baza haplotipurilor necoliniare. Proc. Natl. Acad. Știință. Statele Unite ale Americii 100, 9055–9060 (2003).

Brunner, S., Fengler, K., Morgante, M., Tingey, S. & amp Rafalski, A. Evoluția nonhomologiilor secvenței ADN printre consangvinele de porumb. Celula plantei 17, 343–360 (2005).

Meyers, B.C., Scalabrin, S. & amp Morgante, M. Cartografierea și secvențierea genomilor complecși: hai să devenim fizici! Nat. Pr. Genet. 5, 578–588 (2004).

Gardiner, J. și colab. Ancorarea a 9.371 de porumb exprimate în secvență etichetează unigenele pe harta contigă a cromozomului artificial bacterian prin hibridizare bidimensională. Fiziol vegetal. 134, 1317–1326 (2004).

Bennetzen, J.L., Coleman, C., Liu, R., Ma, J. & amp Ramakrishna, W. Supraestimarea consecventă a numărului de gene în genomii de plante complexe. Curr. Opin. Biol de plante. 7, 732–736 (2004).

Palmer, L.E. și colab. Secvențierea genomului porumbului prin filtrare prin metilare. Ştiinţă 302, 2115–2117 (2003).

Messing, J. și colab. Compoziția secvenței și organizarea genomului porumbului. Proc. Natl Acad. Știință. Statele Unite ale Americii 101, 14349–14354 (2004).

Ramakrishna, W., Emberton, J., Ogden, M., SanMiguel, P. & amp Bennetzen, J.L. Analiza structurală a complexului porumb rp1 relevă numeroase situri și mecanisme neașteptate de rearanjare locală. Celula plantei 14, 3213–3223 (2002).

Craig, N.L., Craigie, R., Gellert, M. & amp Lambowitz, A.M. ADN mobil II (American Society of Microbiology Press, Washington, DC, 2002).

Gupta, S., Gallavotti, A., Stryker, G.A., Schmidt, R.J. & amp Lal, S.K. O clasă nouă de Helitron-elementele transpozabile legate de porumb conțin porțiuni de pseudogene multiple. Plant Mol. Biol. 57, 115–127 (2005).

Feschotte, C. & amp Wessler, S.R. Comori în mansardă: transpozoni cu cerc rotativ descoperiți în genomurile eucariote. Proc. Natl. Acad. Știință. Statele Unite ale Americii 98, 8923–8924 (2001).

Kynast, R.G. și colab. Un set complet de adăugări de cromozomi individuali din porumb la genomul ovăzului. Fiziol vegetal. 125, 1216–1227 (2001).

Okagaki, R.J. și colab. Cartarea secvențelor de porumb la cromozomi folosind materiale de adăugare a cromozomilor de ovăz-porumb. Fiziol vegetal. 125, 1228–1235 (2001).

Song, R., Llaca, V. & amp Messing, J. Organizarea mozaică a secvențelor ortoloage în genomurile ierbii. Genom Res. 12, 1549–1555 (2002).

Lai, J. și colab. Pierderea și mișcarea genelor în genomul porumbului. Genom Res. 14, 1924–1931 (2004).

Swigonova, Z., Bennetzen, J.L. & amp Messing, J. Structura și evoluția regiunilor cromozomiale r / b în orez, porumb și sorg. Genetica 169, 891–906 (2005).

Ilic, K., SanMiguel, P.J. & amp Bennetzen, J.L. O istorie complexă a rearanjării într-o regiune ortologă a genomului porumbului, sorgului și orezului. Proc. Natl. Acad. Știință. Statele Unite ale Americii 100, 12265–12270 (2003).

Hamilton, A.J. & amp Baulcombe, D.C. O specie de ARN antisens mic în mutarea genelor posttranscripționale la plante. Ştiinţă 286, 950–952 (1999).

van der Krol, A.R., Mur, L.A., Beld, M., Mol, J.N. & amp Stuitje, A.R. Gene flavonoide în petunie: adăugarea unui număr limitat de copii genetice poate duce la suprimarea expresiei genice. Celula plantei 2, 291–299 (1990).

Duvick, D. N. Biotehnologia în anii 1930: dezvoltarea porumbului hibrid. Nat. Pr. Genet. 2, 69–74 (2001).

Birchler, J.A., Auger, D.L. & amp Riddle, N.C. În căutarea bazei moleculare a heterozei. Celula plantei 15, 2236–2239 (2003).

Jiang, N., Bao, Z., Zhang, X., Eddy, S.R. & amp Wessler, S.R. Elementele transpozabile Pack-MULE mediază evoluția genelor la plante. Natură 431, 569–573 (2004).

Yu, Z., Wright, S.I. & amp Bureau, T.E. Elemente asemănătoare mutatorului în Arabidopsis thaliana. Structura, diversitatea și evoluția. Genetica 156, 2019–2031 (2000).

Le, Q.H., Wright, S., Yu, Z. & amp Bureau, T. Transposon diversitate în Arabidopsis thaliana . Proc. Natl. Acad. Știință. Statele Unite ale Americii 97, 7376–7381 (2000).

Lai, J., Li, Y., Messing, J. & amp Dooner, H.K. Mișcarea genelor prin Helitron transpozonii contribuie la variabilitatea haplotipului porumbului. Proc. Natl. Acad. Știință. Statele Unite ale Americii 102, 9068–9073 (2005).

Meyers, B.C., Tingey, S.V. & amp Morgante, M. Abundența, distribuția și activitatea transcripțională a elementelor repetitive în genomul porumbului. Genom Res. 11, 1660–1676 (2001).


Evoluția genelor Olig și rolurile lor în mielinizare

Unul dintre atributele speciale ale vertebratelor este sistemul lor nervos mielinizat. Prin creșterea vitezei de conducere a axonilor, mielina permite creșterea dimensiunii corpului, mișcarea rapidă și creierul mare și complex. În sistemul nervos central (SNC), oligodendrocitele (OL) sunt celulele care formează mielina. Factorii de transcripție OLIG1 și OLIG2, regulatori principali ai dezvoltării OL, probabil au jucat, de asemenea, un rol seminal pe parcursul evoluției programului genetic care a condus la mielinizare în SNC. Din datele ontogenetice și filogenetice disponibile încercăm să reconstituim evenimentele evolutive care au condus la apariția familiei genelor Olig și speculăm despre legăturile dintre genele Olig, elementele lor specifice de reglementare cis și evoluția mielinei. În plus, raportăm un strămoș al proteinei bazice de mielină (MBP) în branciostoma floridae, care nu are mielină compactă. Genei lancelet „Mbp” îi lipsește site-urile de legare OLIG1 / 2 și SOX10 care caracterizează omologii Mbp vertebrate, ridicând posibilitatea ca inserția elementelor de reglare cis să fi fost implicată în evoluția programului mielinizant.


Rezultate

Evenimente de inserare Exon în montium Staționar P-Neogen

Într-un studiu anterior am clonat și secvențiat total sau parțial 12 din 18 montiumP-neogenes. La șapte specii (D. bicornuta, D. davidi, D. jambulina, D. nikananu, D. seguyi, D. serrata, D. tsacasi), dimensiunea P-neogene este în concordanță cu dimensiunea așteptată de la a P-neogen similar cu cel descris în D. tsacasi (fig. 1B) (Nouaud și colab. 1999). La celelalte cinci specii (D. bakoue, D. bocqueti, D. burlai, D. malagassya, D. vulcana), dimensiunea P-neogenes este mai mare decât se aștepta, sugerând prezența inserțiilor de ADN. The P-neogenes din D. bocqueti (P-boc) și D. vulkana (P-vul) au fost complet secvențiate (numerele de acces AF169142 și AY116625).

Inserarea unui nou exon de codificare în aval de exonul 0 al P-neogenului Drosophila bocqueti

O comparație a structurilor din D. tsacasi și D. bocquetiP-neogenes (fig. 1B și C) arată că un dispozitiv imobilizat și intern șters P-elementul este inserat în interiorul intronului (0, 1) separând exonul 0 și exonul 1 în D. bocquetiP-neogen. Acest P-inserția de secvență este lungă de 556 pb (numărul de acces AF169142 de la nucleotidele 1049 până la 1604). Este flancat de o duplicare directă de 8 bp corespunzătoare duplicării site-ului țintă, cu o nepotrivire. Cei 31 bp ai repetării inversate terminale 3 ′ (TIR) ​​sunt identice 87% cu secvența D. melanogasterP-element mobil TIR. Primii 13 puncte de bază ale TIR 5 ′ lipsesc. Această inserție internă păstrează un cadru de lectură deschis intact (ORF) care corespunde exonului 0 al canonicii P-element. În continuare, această inserție va fi numită InsPboc iar exonul său, exonul 0 ′. Identitatea dintre exonul 0 ′ și primul exon de codare (exonul 0) al P-boc neogenul este de 54,4% și 43,3% la nivelurile de nucleotide și respectiv de aminoacizi. Analiza Northern blot a fost efectuată pe ARN poli (A) + adult cu o riboprobă obținută din regiunea subclonată a exonilor 1 și 2 din P-tsa neogen. Sonda a fost sintetizată utilizând ARN polimerază T7 și marcată cu [32 P] UTP. Așa cum se arată în figura 1C, au fost detectate o transcriere de 2,5 kb și o transcriere de 2,1 kb. Diferența dintre dimensiunile celor două transcripții corespunde cu cea așteptată dacă are loc o îmbinare alternativă, care unește fie exonul 0 cu exonul 0 ′, cât și exonul 0 ′ cu exonul 1 sau exonul 0 cu exonul 1. Procesarea completă a ARN-ului are ca rezultat două ARNm: unul care include exonii –1, 0, 0 ′, 1 și 2 (2,5 kb) și al doilea inclusiv exonii –1, 0, 1 și 2 (2,1 kb) (fig. 1C). Deoarece sonda utilizată pentru Northern blot acoperă aceeași parte a celor două transcrieri, diferența de intensitate dintre ele rezultă probabil din diferențe cantitative la adulți. Această îmbinare alternativă a fost confirmată de RT-PCR. Transcrierile au fost extrase de la adulți și ADNc a fost sintetizat așa cum este descris în Materiale și metode. Primerii proiectați pentru amplificarea ADNc sunt prezentați în figura 1C. Secvențele produselor amplificate confirmă faptul că îmbinarea alternativă folosește site-urile de îmbinare donator și acceptor corespunzătoare celor din canonic P-element transpozabil (Laski et al. 1986).

Secvența transcriptului de 2,1 kb are capacitatea de codificare pentru o proteină lungă de 574 de aminoacizi. În continuare, această proteină va fi numită repressor-like 1 (RL1). Transcrierea de 2,5 kb ar putea fi, de asemenea, tradusă de la începutul convențional al traducerii prezente în exonul 0 sau în exonul 0 ′. Translația inițiată de la exonul 0 încetează la începutul exonului 0 ′ din cauza prezenței unui codon stop (îmbinarea dintre exonul 0 și exonul 0 ′ nu conservă faza din exonul 0 ′). În schimb, traducerea inițiată din AUG convențional a exonului 0 ′ conduce la o proteină de 570 AA, care va fi numită în continuare proteină 2 asemănătoare represorului (RL2).

O structură similară se găsește în D. burlai. (numărul de acces AY116626), o specie de frate din bocqueti complex de specii (Lemeunier și colab. 1986). La această specie, P-neogene conține o inserție de 501 bp, inserată în același loc ca în D. bocqueti, indicând faptul că evenimentul de inserție primară a avut loc la un strămoș comun al celor două specii. Această inserție, denumită în continuare InsPbur, prezintă TIR-uri care au aceleași caracteristici ca și InsPboc, cu excepția unei inserții de 7 bp în interiorul TIR 3 ′. Astfel, nu poate fi trans-mobilizat. InsPbur prezintă un ORF cu 93 de aminoacizi care prezintă 92,5% identitate cu exonul 0 ′ de InsPboc Identitățile dintre exonul 0 ′ pentru InsPbur și exonul 0 din P-bur neogenele sunt 51,5% și respectiv 42,2% la nivelurile de nucleotide și respectiv de aminoacizi. Mai mult, analiza secvenței arată conservarea acelorași situri de îmbinare determinate experimental în P-boc neogen. În consecință, P-bur neogene ar oferi două proteine ​​cu 96,5% și 95,3% identitate cu proteinele RL1 și respectiv RL2 corespunzătoare din P-boc neogen.

Un alt exemplu de exon Shuffling: inserarea unui nou exon în amonte de exonul 0 al D. vulcana P-neogen

O comparație a structurii D. tsacasiP-neogen cu cel de D. vulkana (fig. 1B și D) arată că un șters intern P-elementul este inserat în interiorul exonului –1 al D. vulcanaP-neogen. Această inserție, denumită în continuare InsPvul, are o lungime de 350 bp și a conservat un ORF intact corespunzător exonului 0 ′ descris mai sus. Un schelet P-elementul 5 ′ TIR poate fi încă identificat în secvența din amonte de acest ORF, dar nu este detectabilă nicio identitate semnificativă cu un TIR de 3 ′ în regiunea din aval. Comparația nucleotidică dintre InsPvul secvența de codare și exonul 0 al P-vul neogenul prezintă o identitate de 51,1%. Asemănarea structurală dintre InsPboc și InsPvul și identitatea lor ridicată a secvenței de nucleotide (83,9%) fac posibilă deducerea transcrierilor putative ale P-vul neogen din siturile de îmbinare identificate experimental pentru P-boc neogen (vezi Discuţie).

The P-neogenes din D. bakoue și D. malagassya au fost parțial secvențiate în amonte de exonul 0, prezintă aceeași inserție ca P-vul neogen, situat pe același site țintă (datele nu sunt afișate). Aceste două specii aparțin aceluiași complex de specii ca și D. vulkana ( bakoue complex de specii, Lemeunier și colab. 1986). Acest lucru indică faptul că acest eveniment de inserție a avut loc în strămoșul lor comun. Adăugările exonilor în P-neogenele descrise mai sus nu sunt însoțite de alte modificări structurale. Este remarcabil faptul că, așa cum se arată în figura 2, secvența din amonte de exonul -1 este foarte conservată în comparație cu regiunea promotorului din P-neogen de D. tsacasi (Nouaud și colab. 1999).

Identificarea Exon 0 ′ Master Copy

Divergențele nucleotidice între inserții InsPboc sau InsPvul și numeroasele P-secvențele înregistrate în băncile de date sunt toate mai mari de 35%, ceea ce implică faptul că nu aparțin unei descrieri anterioare P-subfamilie de elemente (Clark și Kidwell 1997 Pinsker și colab. 2001). Mai mult, fiecare dintre ele ar putea rezulta din inserarea unui complet P-element, urmat de ștergeri mari, lăsând regiunea (inclusiv regiunea de codare completă a primului exon) inserată. Datorită identității lor (83,9%), aceste inserții ar trebui să provină din aceeași P-subfamilie de elemente. Aceste rezultate susțin ipoteza că genomul speciei D. bocqueti și D. vulcana iar speciile lor înrudite găzduiesc un activ P-familia de elemente care se află la originea exonilor 0 ′ identificate în mai multe montiumP-neogenes.

Experimentele Southern blot au fost efectuate cu ADN genomic de la șase specii aparținând montium subgrup (D. bocqueti, D. burlaï, D. kikkawai, D. nikananu, D. tsacasi, și D. vulkana). Probele de ADN au fost digerate cu Pst I endonuclează și, după electroforeză, fragmentele de restricție au fost bi-transferate pe o membrană de nitroceluloză. Un filtru a fost hibridizat cu fragmentul specific exon 0 ′ amplificat cu primerii 1359 și 1632 din clona care conține P-boc neogen ca șablon (vezi Materiale și metode). Un număr de semnale de hibridizare sunt prezente în D. bocqueti, precum și la alte specii (fig. 3A), arătând că inserțiile InsPboc și InsPvul aparțin unei dispersate repetate P-familia de elemente. În încercarea de a izola P-elemente la originea exonului 0 ′, s-a efectuat o amplificare PCR cu rază lungă de acțiune D. bocqueti ADN ca șablon cu un primer (5′CATAATGGAATAACTATAAGGTGG3 ′) corespunzător primelor 24 pb din secvența TIR 3 ′ a Insboc. Integral și șters P-elementele au fost clonate prin metoda TA-clonare (Invitrogen) din produsele PCR. Unele au fost secvențiate. Secvența unui complet P-elementul (numărul de acces AY116624), descris în figura 4, are capacitatea de codare a unui autonom P-element. Acest element se numește K-bok-P-element (Kenya-bocquetiP-element, pentru D. bocqueti tulpina originară din Kenya). Alți șase K-boc secvențele sunt parțial secvențiate. Divergența dintre ele este mai mică de 5%. Acestea sunt disponibile la cerere. The K-boc-P-elementul are o lungime de 3300 bp și capetele sale sunt formate din repetiții inversate de 31 bp. Diferența de lungime între K-boc-P iar canonicul P-element (fig. 1A) rezultă din două caracteristici: (1) intronul dintre exonul 0 și exonul 1 este neobișnuit de lung în K-boc-P (264 pb spre deosebire de doar aproximativ 50 pb în cealaltă P-elemente) și (2) exonul 3 este întrerupt de un intron suplimentar de 172bp. Însă K-boc-P-elementul împarte o serie de trăsături structurale cu cei autonomi P-element din alte specii de Drosophila (D. melanogaster, D. bifasciata, S. pallida). Repetările inversate subterminale (SIR) de 10 bp (pozițiile 33–42 și 3259–3268) și 11 bp cu o nepotrivire (pozițiile 127–137 și 3161–3171) se găsesc în regiunile necodificate 5 ′ și 3 ′. Aceste locații corespund cu cele ale SIR-urilor din P-elemente ale celorlalte specii, implicând astfel o echivalență funcțională. Mai mult, exonul 1, ca și D. melanogaster și Scaptomyza pallidaP-elemente (Simonelig și Anxolabéhère 1991), prezintă repetări inversate de 17 bp separate de 29 bp (pozițiile 942–958 și 988–1004). Siturile de îmbinare consens 5 ′ și 3 ′ ale exonilor sunt conservate și intronul suplimentar din interiorul exonului păstrează capacitatea de codare a K-boc-P-element. Proteina presupusă are o lungime de 721 aminoacizi și are o greutate moleculară de 83 kDa (fig. 4). Este remarcabil faptul că Cys, His, Arg, Lys și Trp sunt supra-reprezentați în primii 70 de aminoacizi ai secțiunii N-terminale (35,7% față de 17,5% în restul proteinei). Mai mult, site-ul CCHC putativ de legare a metalelor prezent în canonical P-element (Miller și colab. 1995 Lee, Mul și Rio 1996 Miller și colab. 1999) pot fi recunoscute în aceeași poziție în K-bok-P proteină. Aceste rezultate sugerează că caracteristicile domeniilor de legare a ADN-ului sunt prezente în secțiunile N-terminale ale transpozazei putative a K-boc-P-element. În plus, prin comparație cu D. melanogasterP-element, alte secțiuni importante din punct de vedere funcțional sunt, de asemenea, conservate: cele trei motive leucină-fermoar se găsesc în aceleași locații ca și motivul helix-turn-helix, care prezintă doar patru nepotriviri din 19 reziduuri (fig. 4).

Al doilea filtru din probele de ADN bi-transferate descrise mai sus a fost hibridizat cu un produs PCR sintetizat din exonul 3 specific transposazei clonate K-boc-P-element. Așa cum se arată în figura 3B, un număr de semnale de hibridizare sunt detectate în D. bocqueti, D. burlai, D. nikananu, D. tsacasi, și D. vulkana (dar nu în D. kikkawai), indicând prezența a numeroase P-elemente care conțin exonul 3 specific secvenței de codificare a transpozazei.

Pentru a defini relația dintre K-boc-P-element și major P-subfamilii de elemente așa cum au fost caracterizate anterior în D. ambigua (Tip T), D. bifasciata (Tip M și tip O), D. helvetica (Tip M), D. melanogaster (De tip M) și Scaptomyza pallida (De tip M) (pentru revizuire, vezi Hagemann, Miller și Pinsker 1996), alinierea nucleotidică și a aminoacizilor acestor elemente împreună cu K-boc-P-elementul a fost efectuat folosind programul Pileup al pachetului GCG (Madison, Wis.) și îmbunătățit manual. Distanțele perechi sunt prezentate în tabelul 2. K-boc-P-elementul este foarte îndepărtat de toate celelalte P-elemente (& gt0.45): acest nou full-length P-elementul aparține unei până acum neidentificate P-subfamilie. Definim această subfamilie ca fiind de tip K.

O analiză Neighbor-Joining efectuată pe proteinele supuse acestora P-secvențe și două suplimentare P- consecințe de la specii mai îndepărtate, Lucilia cupina (Calliphoridae) (Perkins și Howells 1992) și Musca domestica (Muscidae) (Lee, Clark și Kidwell 1999), produce o dendrogramă în care K-boc-P-grupuri de elemente cu elementele din Drosophilidae (fig. 5). Clark și Kidwell (1997) au efectuat o analiză filogenetică extinsă a P-consecință cu 40 de specii în Drosophilidae folosind un parțial P-secvență (449 pb de la exonul 2). Această analiză a furnizat o cladogramă în care 16 clade sunt bine susținute. Pentru a defini poziția K-boc element relativ la acestea Psubfamilii -element, a fost efectuată o analiză Neighbor-Joining folosind această secvență internă parțială. Doar unul sau doi P- secvențele reprezentative ale fiecărei clade definite de lucrările lui Clark și Kidwell au fost incluse în analiză. În noua cladogramă (fig. 6) K-boc-P-elementul nu se grupează în interiorul nici unei clade identificate anterior, confirmând că K-boc-P-elementul nu aparține uneia dintre subfamilii descrise deja.

Poziția și capacitatea de codare a exonilor 0 ′ sugerează că rearanjarea P-neogenes se află sub selecție la nivel de gazdă. Dovezile directe sunt furnizate de un test de selecție la nivelul secvenței. Comparațiile perechi ale ratelor de substituție între exonul 0 al K-boc lungime totală P-elementul și exonul 0 ′ al P-neogenes în D. bocqueti, D. burlai, și D. vulkana, sunt prezentate în tabelul 3 (nu au fost disponibile suficiente date de secvență pentru neogenele din D. malagassia și D. bakoue). Toate rezultatele semnificative (P & lt 0,05) se datorează dN/dS Adică au arătat dovezi ale selecției conservatoare. Aceste rezultate sunt în conformitate cu cele ale Witherspoon (1999), obținute folosind secvențe parțiale ale P-neogenes din D. davidi, D. tsacasi, și D. kikkawai. Deoarece apar foarte puține modificări între exonul 0 ′ al RL2bur și exonul 0 ′ al RL2boc, testul are mai puțină putere decât în ​​celelalte comparații, oferind o statistică nesemnificativă.


Kapitonov, V. V. & amp Jurka, J. Helitrons on a roll: eucaryotic rolling-circle transposons. Trends Genet. 23, 521–529 (2007).

Thomas, J. & amp Pritham, E. J. Helitrons, elementele transpozabile ale cercului rulant eucariot. Microbiol. Spectr. 3, 893–926 (2015).

Dyda, F. și colab. Structura cristalină a domeniului catalitic al integrazei HIV-1: similaritate cu alte polinucleotidil transferaze. Ştiinţă 266, 1981–1986 (1994).

Kapitonov, V. V. & amp Jurka, J. Transpozoni cu cerc rotativ în eucariote. Proc. Natl Acad. Știință. Statele Unite ale Americii 98, 8714–8719 (2001).

Ilyina, T. V. & amp Koonin, E. V. Motive secvențiale conservate în proteinele inițiatorului pentru replicarea ADN-ului cercului rulant codificat de diverse repliconi din eubacterii, eucariote și arhaebacterii. Acizi nucleici Res. 20, 3279–3285 (1992).

Koonin, E. V. & amp Ilyina, T. V. Disecția asistată de computer a replicării ADN-ului în cerc rulant. Biosisteme 30, 241–268 (1993).

van Mansfeld, A. D., van Teeffelen, H. A., Baas, P. D. și amp Jansz, H. S. Două grupuri de tirosil-OH juxtapuse participă la clivarea și ligarea ADN a genei phi X174. Acizi nucleici Res. 14, 4229–4238 (1986).

Chandler, M. și colab. Ruperea și unirea ADN monocatenar: superfamilia endonuclează HUH. Nat. Pr. Microbiol.y 11, 525–538 (2013).

del Pilar Garcillan-Barcia, M., Bernales, I., Mendiola, M. V. & amp de la Cruz, F. ADN monocatenar intermediari în transpunerea în cercul rulant IS91. Mol. Microbiol. 39, 494–501 (2001).

Garcillan-Barcia, M. P. & amp de la Cruz, F. Distribuția secvențelor de inserție a familiei IS91 în genomii bacterieni: implicații evolutive. FEMS Microbiol. Ecol. 42, 303–313 (2002).

Mendiola, M. V., Bernales, I. & amp de la Cruz, F. Roluri diferențiale ale transpozonului terminal în transpunerea IS91. Proc. Natl Acad. Știință. Statele Unite ale Americii 91, 1922–1926 (1994).

Mendiola, M. V. & amp de la Cruz, F. Transpozaza IS91 este legată de proteinele de replicare de tip cerc rotativ din familia de plasmide pUB110. Acizi nucleici Res. 20, 3521 (1992).

Pritham, E. J. & amp Feschotte, C. Amplificarea masivă a transpozonilor cu cerc de rulare în descendența liliecului Myotis lucifugus. Proc. Natl Acad. Știință. Statele Unite ale Americii 104, 1895–1900 (2007).

Thomas, J., Phillips, C. D., Baker, R. J. & amp Pritham, E. J. Transpozitele cu cerc rotativ catalizează inovația genomică într-o descendență de mamifere. Genomul Biol. Evol. 6, 2595–2610 (2014).

Thomas, J., Sorourian, M., Ray, D., Baker, R. J. & amp Pritham, E. J. Distribuția limitată a Helitrons la lilieci vesper susține transferul orizontal. Gene 474, 52–58 (2011).

Coates, B. S., Hellmich, R. L., Grant, D. M. & amp Abel, C. A. Mobilizarea genomului Lepidoptera prin noi câștiguri de secvențe și crearea finală de helitroni Lep1 neautonimi. ADN Res. 19, 11–21 (2012).

Du, C., Fefelova, N., Caronna, J., He, L. & amp Dooner, H. K. Peisajul policromatic Helitron al genomului porumbului. Proc. Natl Acad. Știință. Statele Unite ale Americii 106, 19916–19921 (2009).

Lal, S. K., Giroux, M. J., Brendel, V., Vallejos, C. E. & amp Hannah, L. C. Genomul porumbului conține o inserție de helitron. Celula plantei 15, 381–391 (2003).

Xiong, W., He, L., Lai, J., Dooner, H. K. & amp Du, C. HelitronScanner descoperă o mare cache neglijată a transposonilor Helitron în multe genome de plante. Proc. Natl Acad. Știință. Statele Unite ale Americii 111, 10263–10268 (2014).

Morgante, M. și colab. Duplicarea genelor și amestecarea exonului de către transpozonii de tip helitron generează diversitate intraspecifică la porumb. Nat. Genet. 37, 997–1002 (2005).

Dong, Y. și colab. Caracterizarea structurală a helitronilor și captarea lor treptată a fragmentelor genetice din genomul porumbului. BMC Genomics 12, 609 (2011).

Toleman, M. A., Bennett, P. M. & amp Walsh, T. R. Elementele ISCR: sisteme noi de captare a genelor din secolul XXI? Microbiol. Mol. Biol. Rev. 70, 296–316 (2006).

Yassine, H. și colab. Dovezi experimentale pentru transpunerea mediată IS1294b a genei blaCMY-2 cefalosporinazei în Enterobacteriaceae. J. Antimicrob. Chemother. 70, 697–700 (2015).

Brunner, S., Pea, G. & amp Rafalski, A. Origini, organizare genetică și transcriere a unei familii de elemente helitron neautonome în porumb. Planta J. 43, 799–810 (2005).

Feschotte, C. & amp Wessler, S. R. Comori în pod: transpozoni cu cerc rotativ descoperiți în genomurile eucariote. Proc. Natl Acad. Știință. Statele Unite ale Americii 98, 8923–8924 (2001).

Tempel, S., Nicolas, J., El Amrani, A. & amp Couee, I. Identificarea bazată pe model a Helitrons are ca rezultat o nouă clasificare a familiilor lor în Arabidopsis thaliana. Gene 403, 18–28 (2007).

Mates, L. și colab. Evoluția moleculară a unei noi transpozaze hiperactive Sleeping Beauty permite transferul robust și stabil de gene la vertebrate. Nat. Genet. 41, 753–761 (2009).

Bird, L. E., Subramanya, H. S. & amp Wigley, D. B. Helicases: o temă structurală unificatoare? Curr. Opin. Struct. Biol. 8, 14–18 (1998).

Han, M. J. și colab. Identificarea și evoluția helitronilor de viermi de mătase și contribuția lor la transcrieri. ADN Res. 20, 471–484 (2013).

Yang, L. & amp Bennetzen, J. L. Descoperirea și descrierea pe bază de structură a helitronilor de plante și animale. Proc. Natl Acad. Știință. Statele Unite ale Americii 106, 12832–12837 (2009).

Yang, L. & amp Bennetzen, J. L. Distribuția, diversitatea, evoluția și supraviețuirea helitronilor în genomul porumbului. Proc. Natl Acad. Știință. Statele Unite ale Americii 106, 19922–19927 (2009).

Harrow, J. și colab. GENCODE: adnotarea de referință a genomului uman pentru proiectul ENCODE. Genom Res. 22, 1760–1774 (2012).

Andersson, R. și colab. Un atlas de potențatori activi în tipurile și țesuturile de celule umane. Natură 507, 455–461 (2014).

Guelen, L. și colab. Organizarea domeniului cromozomilor umani dezvăluită prin cartarea interacțiunilor dintre lamina nucleară. Natură 453, 948–951 (2008).

Carlson, C. M. și colab. Mutageneza transposonică a liniei germinale a șoarecilor. Genetica 165, 243–256 (2003).

Fischer, S. E., Wienholds, E. & amp Plasterk, R. H. Transpunerea reglementată a unui transpozon de pește în linia germinativă a șoarecelui. Proc. Natl Acad. Știință. Statele Unite ale Americii 98, 6759–6764 (2001).

Luo, G., Ivics, Z., Izsvak, Z. & amp Bradley, A. Transpunerea cromozomială a unui element asemănător Tc1 / mariner în celulele stem embrionare de șoarece. Proc. Natl Acad. Știință. Statele Unite ale Americii 95, 10769–10773 (1998).

Tower, J., Karpen, G. H., Craig, N. & amp Spradling, A. C. Transpunere preferențială a elementelor Drosophila P către siturile cromozomiale din apropiere. Genetica 133, 347–359 (1993).

Ton-Hoang, B. și colab. Transpunerea ISHp608, membru al unei familii neobișnuite de secvențe de inserție bacteriană. EMBO J. 24, 3325–3338 (2005).

Ton-Hoang, B. și colab. Single-stranded DNA transposition is coupled to host replication. Celula 142, 398–408 (2010).

Dayn, A., Malkhosyan, S. & Mirkin, S. M. Transcriptionally driven cruciform formation in vivo. Acizi nucleici Res. 20, 5991–5997 (1992).

Krasilnikov, A. S., Podtelezhnikov, A., Vologodskii, A. & Mirkin, S. M. Large-scale effects of transcriptional DNA supercoiling in vivo. J. Mol. Biol. 292, 1149–1160 (1999).

Strick, T. R., Allemand, J. F., Bensimon, D. & Croquette, V. Behavior of supercoiled DNA. Biofizi. J. 74, 2016–2028 (1998).

Liu, L. F. & Wang, J. C. Supercoiling of the DNA template during transcription. Proc.Natl Acad. Știință. Statele Unite ale Americii 84, 7024–7027 (1987).

Rahmouni, A. R. & Wells, R. D. Direct evidence for the effect of transcription on local DNA supercoiling in vivo. J. Mol. Biol. 223, 131–144 (1992).

Parsa, J. Y. et al. Negative supercoiling creates single-stranded patches of DNA that are substrates for AID-mediated mutagenesis. PLoS Genet. 8, e1002518 (2012).

Faurez, F., Dory, D., Grasland, B. & Jestin, A. Replication of porcine circoviruses. Virol. J. 6, 60 (2009).

Feschotte, C. Transposable elements and the evolution of regulatory networks. Nat. Rev. Genet. 9, 397–405 (2008).

Jiang, N., Bao, Z., Zhang, X., Eddy, S. R. & Wessler, S. R. Pack-MULE transposable elements mediate gene evolution in plants. Natură 431, 569–573 (2004).

Langmead, B., Trapnell, C., Pop, M. & Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genomul Biol. 10, R25 (2009).

Zuker, M. Mfold web server for nucleic acid folding and hybridization prediction. Acizi nucleici Res. 31, 3406–3415 (2003).


Rezultate

We analyzed 105 cases of alternative DNA processing identified in the O. trifallax micronuclear genome ( Chen et al. 2014 ). We excluded cases that do not involve new genes, including noncoding chromosomes, multigene chromosomes that share exactly one gene, and chromosomes that only share noncoding regions (see Methods). The remaining 69 cases involve 69 germline loci that encode MDS segments for 153 MAC chromosomes with shared 5′ or 3′ terminal regions, or both ( table 1 ). figura 1B shows the distribution of the fraction of shared coding regions relative to the total length of the coding region. This portion ranges from just a few percent to over 90%. There is no strong bias for sharing of 5′ versus 3′ end regions. Most loci contain two genes that share single-copy MDSs. There are six loci that each contain a set of three genes with shared MDSs. Three loci contain four genes that share MDSs, and there exists one locus that gives rise to five such genes.

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Alternative MDS Processing Creates New Genes

We investigated the emergence of these 69 cases of alternative DNA splicing by examining their orthologs in related species. We sequenced and assembled the macronuclear genomes of six stichotrich ciliates Urostyla sp., Paraurostyla sp., Laurentiella sp., Stylonychia lemnae , Sterkiella histriomuscorum , și Tetmemena sp., whose ribosomal DNA has a closest hit (98%) to Tetmemena pustulata ribosomal DNA (GenBank accession AF508775). We also used the preliminary macronuclear genome assembly of Euplotes crassus , an earlier diverging Spirotrich ciliate, described in Swart et al. (2013) . The assembled stichotrich genomes contain a large percentage of completely assembled somatic chromosomes ( table 2 ). Analyses of CEGs and tRNA complement suggest that our assemblies are complete (see Methods). Aeschlimann et al. (2014) previously reported a Stylonychia lemnae macronuclear genome assembly for a different strain 130c, whose assembly size (50.2 Mb) and total number of contigs (19,851) and two telomere contigs (16,059) are similar to our Stylonychia asamblare.

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

For two genes A and B that share MDSs in Oxytricha , we queried the presence of their orthologs in other species and assessed whether their orthologs also share sequences, which would suggest that they are also products of alternative MDS processing. Our query in any species X yielded three possible scenarios ( fig. 2A ). First, the presence of both orthologs that shared sequences could suggest the conservation of alternative DNA processing. Second, the presence of only the ortholog of A would suggest the creation of novel gene B via the reuse of a subset of existing segments for gene A after the divergence of species X. Another possibility in this case is that B was created before the divergence of species X but later lost from species X. Third, the absence of either ortholog would suggest that both genes were created after the divergence of species X. If no other species contains either ortholog, this would suggest that both genes were new to the Oxytricha lineage and that an intermediate species with just one gene should exist but was not included in our survey.

The presence of alternative DNA processing is associated with the emergence of new genes. ( A ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

The presence of alternative DNA processing is associated with the emergence of new genes. ( A ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

Because we never observed a case where both orthologs are present but they do not share MDSs, we conclude that the emergence of alternative MDS processing is associated with the creation of new genes (gene B) from an existing gene (gene A), by reuse of some of gene A’s germline precursor segments. We mapped the number of new genes created in each lineage onto a phylogeny ( fig. 2B ). All examples appear to have originated in the stichotrich lineages (i.e., none are conserved in Euplote ) and a large number (28) appear specific to the Oxytricha lineage and thus probably emerged fairly recently. This is a parsimonious estimate, given the possibility that some genes could have emerged earlier but been lost in some species. Corrections are discussed in the next section. In cases where two orthologs share MDSs, the length of the shared regions is usually conserved relative to that in Oxytricha (all but 4 are similar within 50 bp or 10%, whichever is larger, of the length of the shared gene segments in Oxytricha ).

Most Alternative MDSs Derived from Segmental Duplications

For each group of Oxytricha genes that share MDSs with each other, we compared the unique alternative MDS sequences, that is, the regions (often the 5′ or 3′ ends) that differ from each other in the mature chromosomes, with each other. The majority of these (54 out of 69 cases) are more than 40% similar at the protein level (BLASTP, alignment length >80% of the unique regions and e -value <1e-10 Camacho et al. 2009 ), suggesting that the new, alternative segments arose by duplication of ancestral MDSs. Duplication of partial gene loci most likely occurred, instead of entire genes. It is also possible that duplication of complete gene loci was followed by partial loss of gene regions, resulting in the requirement for sharing of the missing segments (similar to a proposed model for the origin of scrambled genes Gao et al. 2015 ), although careful examination of neighboring MIC sequences did not reveal traces of degenerate or lost duplicate copies of the constitutive MDSs. Figura 3A shows the germline MDS–IES map for two paralogous genes with shared MDSs. Their germline precursor loci overlap, with the alternatively spliced MDSs downstream of the shared, constitutive MDSs. Figura 3B shows a translated alignment of the somatic versions of both sequences. The boundaries between segments 6 and 7 in the duplicated, alternative regions are precisely conserved in location between the two genes, including short regions of microhomology at recombination junctions (marked by the overlap between consecutive MDSs). The boundaries between segments 8 and 9 in the pink gene and segments 7 and 8 in the gray gene differ in location by just 1 bp, and the boundaries between segments 9 and 10 in the pink gene and 8 and 9 in the gray gene differ by just 3 bp. This suggests that the germline duplication preserved MDS junctions and then two new IESs were inserted into the pink gene after duplication.

Duplication is the major mechanism for creation of alternative gene segments. ( A ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Duplication is the major mechanism for creation of alternative gene segments. ( A ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Phylogenetic tree reconstruction using just the alternative MDSs permits visualization and inference of the duplication events. Figura 3C shows a phylogeny based on the unique regions of two paralogous genes with shared MDSs. The phylogeny suggests that duplication of the alternative MDS region occurred after the divergence of Paraurostyla , and that gene B evolved faster than gene A post duplication. There are 11 cases where the phylogenetic analysis suggests that the duplication occurred earlier than would be inferred based on ortholog presence and that one copy was lost in some lineages. The numbers in parenthesis in figure 2B show the corrected numbers of inferred origins after examining individual phylogenetic trees.

There are 15 cases where the alternative MDSs show no similarity at the protein level (BLASTP, e-value cutoff 1 e-6), suggesting that they did not arise through duplication. These alternative MDSs could be derived from MIC-limited mobile elements, although their sequences do not correspond to any known transposons in Oxytricha . The lower GC content of some of these segments suggests that they could even be derived from retention of MIC-limited noncoding sequences in the MAC (as demonstrated between strains in Möllenbeck et al. 2006 , and experimentally in Fang et al. 2012 ). For 9 of the 15 cases, no stichotrich species contains just one ortholog (precluding our ability to distinguish ancestral from novel genes) however, we could unambiguously assign the novel gene in the other 6 examples (i.e., gene B in fig. 2A ). Among these, the GC content of the alternative regions in five genes (0.261, 0.305, 0.306, 0.310, 0.310) falls below the lower quartile among all genes in the MAC genome (0.313), suggesting that they may have been acquired from MIC-limited noncoding sequences, which typically have a lower GC content (average 0.284) than the MAC genome.

Evolution of Alternative and Constitutive MDSs

We compared the substitution rates between alternative and constitutive MDSs by using amino acid divergence and the ratio of nonsynonymous to synonymous substitution rates (d N / d S ). Because the divergence levels among the ciliate species are so high that the rate of synonymous substitutions per synonymous site (d S ) is highly saturated, we used the comparison between two O. trifallax laboratory strains, JRB310 and JRB510, to infer the d N / d S ratio. We sequenced and assembled the macronuclear genome of the O. trifallax strain JRB510 and compared it with the MAC genome of strain JRB310 reported by Swart et al. (2013) . The distance between these strains is suitable for calculating d N / d S ratios (median dN: 0.0097 median dS: 0.15 median d N / d S : 0.066). The d N / d S ratios between JRB310 and JRB510 orthologs only represent evolutionary rates after divergence of the two strains, but not immediately after the formation of new genes. We find that alternative MDSs evolve faster than shared MDSs, with higher amino acid substitution rates ( fig. 4A , Wilcoxon signed-rank test, P = 6.21e-09). There is no significant difference between synonymous substitution rates ( fig. 4B , P = 0.173), but the nonsynonymous substitution rates of alternative MDSs are significantly higher ( fig. 4C , P = 3.3e-6), as well as the d N / d S ratios ( fig. 4D , P = 3.89e-8). This faster substitution rate is consistent with either stronger functional constraints on the shared regions or, conversely, either weaker selective constraints on the alternative MDSs or greater functional divergence. Shared, constitutive MDSs are intrinsically more constrained because they are translated in more than one gene product, whereas alternative MDSs should have more opportunity to diverge.

Substitution rates for alternative versus shared gene segments. ( A ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d N ) of alternative versus constitutive MDSs. ( D ) d N / d S values of alternative versus constitutive MDSs.

Substitution rates for alternative versus shared gene segments. ( A ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d N ) of alternative versus constitutive MDSs. ( D ) d N / d S values of alternative versus constitutive MDSs.

Potential Functional Divergence of Genes with Shared MDSs

Newly created genes sometimes undergo functional divergence (neofunctionalization or subfunctionalization) to acquire different cellular roles, especially genes that arise through duplication ( Zhang 2003 Conant and Wolfe 2008 ). Similarly, functional divergence could be possible for genes with alternative MDSs that arise through duplication or other mechanisms. We investigated whether the new genes that emerged from alternative MDS processing have evolved either different domain organization or expression patterns. Protein domain analysis did not identify any novel combinations of protein domains in our data set of 69 cases. Instead, the unique MDSs for each group either do not contain any recognizable protein domains or encode the same protein domains.

Although the DNA copy number for genes with shared MDSs is usually similar to each other (only four show a difference above 3-fold fig. 5A ), their overall RNA expression levels differ greatly across all time points during macronuclear development ( Swart et al. 2013 ) (only nine show a difference below 2-fold fig. 5B ), suggesting the possibility of distinct or specialized roles. We also compared the expression profiles for genes with shared MDSs by assessing whether their gene expression levels peak at the same time point. We excluded genes that have total normalized expression levels below ten (i.e., ten normalized RNA-seq reads per kb, represented by the dashed dotted vertical line in fig. 5B ), because low expression may affect the accuracy of the peak analysis. This filter excluded 1 out of 32 cases of genes with shared 5′ DNA regions, 15 out of 31 groups of genes with shared 3′ regions (a higher percentage because RNA-seq is biased toward the 3′ end of a transcript due to poly(A) enrichment during Oligo(dT) priming, but only RNA-seq reads mapping to 5′ ends were scored for these genes), and 2 out of 6 cases of genes that share both 5′ and 3′ regions. For these excluded genes, we verified that their expression is higher than ten normalized RNA-seq reads per kb at other nondevelopmental time points, to exclude the possibility that they are nonfunctional pseudogenes. Among the remaining 31 cases with shared 5′ regions, only 9 show expression peaks at the same time point, and the other 71% have different peaks of expression, consistent with possible functional divergence of the latter cases. Among the remaining 16 cases with shared 3′ regions, only 3 cases have gene expression peaks at the same time point, also suggesting the opportunity for functional divergence among the other 13 cases (81%). Two of the remaining four groups of genes that share both 5′ and 3′ regions have gene expression peaks at the same time point (50%). Figura 5CE show distinct expression profiles of genes with shared 5′ or 3′ regions, or both, and that passed the expression filter, suggesting that some new genes created by alternative DNA processing may have undergone functional divergence.

Divergent expression profiles of genes that share precursor segments. ( A ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the X -axis and the highest copy number on the y -axă. The solid, dashed, and dotted lines represent y = X , y = 2 X , și y = 3 X , respectiv. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines y = X , y = 2 X , și y = 3 X are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( D ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( E ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.

Divergent expression profiles of genes that share precursor segments. ( A ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the X -axis and the highest copy number on the y -axă. The solid, dashed, and dotted lines represent y = X , y = 2 X , și y = 3 X , respectiv. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines y = X , y = 2 X , și y = 3 X are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( D ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( E ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.


We acknowledge funding of this research project by the Research Council of Norway (RCN) and the University of Hamburg (Hamburg, Germany). We are grateful to Prof. C. Benning (Michigan State University, East Lansing, United States) for providing the expression vector pNoc ox Venus. We also would like to thank Elke Wölken (Department of Aquatic Ecophysiology and Phycology, University of Hamburg) for analyses of immunogold-labeled N. oceanica transformants by transmission electron microscopy.

aa, amino acid ALNS, allantoin synthase ASW, artificial sea water At, Arabidopsis thaliana CaMV, cauliflower mosaic virus DC, decarboxylase DECR, 2,4-dienoyl-CoA reductase DHNS, 1,4-dihydroxy-2-naphthoyl-CoA synthase dpt, days post transformation EMB8, embryogenesis-associated protein 8 EPA, eicosapentaenoic acid EYFP/GFP, enhanced yellow/green fluorescent protein HIT, histidine triad family protein HIUase, 5-hydroxyisourate hydrolase IndA, indigoidine synthase A MDH, malate dehydrogenase MLS, malate synthase Ng, Nannochloropsis gaditana OHCU, 2-oxo-4-hydroxy-4-carboxy-5-ureidoimidazoline PEX, peroxin PfkB, 6-phosphofructokinase PGL3, 6-phosphogluconolactonase 3 PKT, peroxisomal 3-ketoacyl thiolase PTS1/2, peroxisomal targeting signal type 1/2 PUFA, polyunsaturated fatty acid PUKI, pseudouridine kinase PUMY, pseudouridine monophosphate glycosylase TEM, transmission electron microscopy.


Abstract

β-defensins (BD) are the largest family of vertebrate defensins with potent antimicrobial, chemotactic and immune-regulatory activities. Four BD genes (BD1-4) have been cloned previously in rainbow trout but none have been reported in other salmonids. In this study seven BD genes (BD1a-b, 2–4, 5a-b) are characterised in Atlantic salmon and additional BD genes (BD1b and BD5) in rainbow trout. Bioinformatic analysis revealed up to seven BD genes in the genomes of other salmonids that belong to five subfamilies (BD1-5) due to whole genome duplications. BD1-2 and BD4-5 are also present in basal teleosts but only BD1 and/or BD5 are present in advanced teleosts due to loss of one chromosomal locus. BD3 is salmonid specific. Fish BD have a unique three-coding exon structure. Fish BD are highly divergent between subfamilies but conserved within each subfamily. Atlantic salmon BD genes are differentially expressed in tissues, often with low level expression in systemic immune organs (head kidney and spleen) yet with at least one BD gene highly expressed in mucosal tissues, heart, blood and liver. This suggests an important role of these BD genes in innate immunity in mucosa, liver and blood in Atlantic salmon.


Priveste filmarea: how to find exons and introns in a gene -NCBI- ucsc genome browser (Ianuarie 2022).