Informație

Cum se descarcă selectiv 3 câmpuri din fiecare înregistrare din UniProtKB?


Vreau să descarc un tabel cuprinzător de nume de proteine ​​de pe uniprot.org.

Mai precis, doresc să generez un tabel delimitat de tab-uri, format dinid(aderare),numele intrării, șinume de proteine„coloane” din baza de date UniProtKB.

Vreau să obțin aceste trei coloane / câmpuri pentru toate înregistrările de 80 de milioane din UniProtKB și nu vreau să specific toate acele ID-uri Uniprot prin, de exemplu, un bazilion de interogări codate URL. De asemenea, trebuie să fac asta de la o gazdă pe care o pot accesa doar printr-o interfață text, care practic exclude soluțiile bazate pe browser.

Tocmai am petrecut câteva ore mergând înainte și înapoi peste documentele site-ului Uniprot și nu găsesc nimic util. Exemplul Perl dat acolo1 arată cum se descarcă înregistrări complete, dar descărcarea fiecărei înregistrări complete de pe UniProtKB ar fi prea lentă și oneroasă pentru a fi luată în considerare2.

Știe cineva cum să modifice exemplul Perl (sau în orice alt mod) pentru a descărca doar cele trei coloane dorite din UniProtKB?


1 Trebuie să faceți clic pe expresia „Exemplu Perl” pentru a vedea codul.
2 Am descărcat un mic eșantion de testare de 1000 de înregistrări complete, am constatat că dimensiunea informațiilor pe care le doresc de fapt din aceste înregistrări este doar 0,2% din total. IOW, descărcarea înregistrărilor complete ar dura aproximativ 500x, atâta timp cât descărcarea doar a informațiilor dorite.


Utilizați BioMart. Acesta preia informațiile UniProt și puteți selecta caracteristicile dorite. Aceste fișiere nu vor fi atât de uriașe. Așadar, îl puteți descărca în PC și SFTP oriunde ați face analiza. O modalitate mai bună este să instalați BioMart în stația de lucru. Consultați documentația BioMart.


Cum se combină și se analizează date din mai multe seturi de date folosind Excel Power Pivot

Dacă aveți multe date și multe analize de făcut, dar puțin timp sau abilități, aveți nevoie de caracteristica Excel Power Pivot. Iată cum să începeți cu el.

Excel Power Pivot este o caracteristică de analiză a datelor ușor de utilizat, cu o curbă scurtă de învățare și, cel mai important, este suficient de flexibil și versatil pentru a gestiona o mulțime de date și nevoi personalizate. Cu puține cunoștințe și planificare, puteți transforma datele în informații semnificative fără să vă adresați dezvoltatorilor de baze de date calificați. Nu înlocuiește tehnologia bazei de date în niciun fel, dar oferă un instrument puternic pentru utilizator fără acele resurse. În plus, este rapid - obțineți rezultate rapid!

Dacă utilizați Excel 2010, trebuie să descărcați și să instalați Power Pivot. Dacă utilizați Excel 2013 sau 2016, face parte din pachet! Folosesc Excel 2016 (desktop) pe un sistem Windows 10 pe 64 de biți. Instrucțiunile vor fi similare pentru versiunile anterioare. Pentru comoditate, puteți descărca fișierul demonstrativ .xlsx.

Mai multe despre Office

Poate doriți să începeți citind Cum să utilizați modelul de date Excel pentru a transforma datele conexe în informații semnificative. Acest articol oferă o revizuire de bază a funcției, oferindu-vă un proces de creare a unei relații între două seturi de date. În acest articol, vom merge mai departe prin crearea mai multor relații și adăugarea unei coloane calculate.


Introducere

În timpul evoluției enzimei, duplicarea genelor și acumularea de mutații care afectează reziduurile implicate în cataliză au dat naștere unui grup de proteine ​​legate de enzime care și-au pierdut capacitatea de a cataliza reacțiile biochimice [1, 2] (Thornton și colab., această problemă). În ciuda pierderii funcției lor catalitice originale, aceste proteine, cunoscute sub numele de pseudoenzime, sunt remarcabil de bine conservate. Ele se găsesc în aproape toate familiile de enzime, unde reprezintă între 10% și 15% din membri și sunt distribuite în întregul copac al vieții. Ultimii ani au fost martori la o creștere a cercetării pseudoenzimei, descoperindu-și rolurile biologice, în special cele aparținând celor mai abundente grupe de enzime, și anume kinazele [3-5], fosfatazele [4] și proteazele [6, 7]. Aceste studii au arătat că, în ciuda lipsei activității enzimatice, aceste proteine ​​au dezvoltat funcții esențiale catalitice independente, explicând de ce a existat o presiune selectivă pentru a le reține. Aceste roluri, care sunt descrise mai detaliat în Ref. [8, 9] includ: (a) activarea alosterică a unei enzime active, de exemplu, pseudofosfataza asociată cu miotubularina MTMR9 [baza de cunoaștere a proteinelor universale (UniProtKB) Q96QG7] se leagă de MTMR6 și crește activitatea fosfatazei lipidice MTMR6 [10] (b) controlul localizării și / sau asamblării complexelor macromoleculare, de exemplu, pseudofosfatază STYX (proteină care interacționează serină / treonină / tirozină, UniProtKB Q8WUJ0) ancorează proteinele kinazice MAPK1 și MAPK3 activate de mitogen în ansamblul nucleului [11] (c) de cascade de semnalizare, de exemplu, supresorul kinazei Ras 1 (KSR1 UniProtKB Q8IVT5) recrutează diferite componente ale cascadei de semnalizare MAPK / Erk [12] și (d) competiție pentru legarea substratului sau asamblarea complexă, de exemplu, Caenorhabditis elegans pseudofosfataza oul-4 (UniProtKB O01767) sechestrează și inhibă kinaza fosforilată mbk-2 [13].

Din aceste studii a devenit evident că unele pseudoenzime sunt, de asemenea, legate de boli [4, 14]. Un caz bine caracterizat este boala Charcot-Marie-Tooth, o tulburare neurodegenerativă cauzată de mutații care afectează pseudofosfatazele SBF2 / MTMR13 (UniProtKB Q86WG5) și SBF1 / MTMR5 (UniProtKB O95248) [15, 16]. În parte datorită capacității lor de a regla enzimele, pseudoenzimele au atras și interesul ca potențiale ținte pentru tratamentele terapeutice [14].

Interesul tot mai mare pentru pseudoenzime a condus la două întâlniri internaționale de succes în 2016 și 2018 în care au fost discutate diverse subiecte, inclusiv modul în care instrumentele bioinformatice ar putea avansa studiul pseudoenzimelor. Printre aceste instrumente, bazele de date cu proteine ​​joacă un rol instrumental prin furnizarea de depozite pentru date legate de proteine, unde informațiile funcționale și secvențele de proteine ​​sunt reunite. De exemplu, resursa ontologiei protein kinazei [17] a stabilit o listă a tuturor pseudokinazelor cunoscute și prezise în toate regatele vieții [18]. În mod similar, baza de date a peptidazelor MEROPS include pseudoproteazele unde sunt definite ca omologi nonpeptidazici [19]. În timp ce aceste resurse oferă date de neprețuit, ele se concentrează doar pe o anumită familie de enzime.

Baza de cunoștințe UniProt (UniProtKB) oferă comunității științifice acces gratuit la peste 150 de milioane de secvențe de proteine ​​(versiunea 2019_05) adnotate cu informații funcționale de înaltă calitate [20]. Intrările revizuite (cunoscute și ca intrări UniProtKB / Swiss-Prot) au fost îmbogățite cu informații extrase din literatura de specialitate de către curatori experți. Intrările fără revizuire (cunoscute și ca intrări UniProtKB / TrEMBL) au informații funcționale adăugate automat prin transferarea adnotării de la ortologi bine studiați, strâns înrudiți.

Înregistrările UniProtKB sunt evaluate și revizuite în mod regulat pentru a integra noi progrese în domeniul biologiei proteinelor. Acest lucru ne asigură că oferim utilizatorilor informații exacte și actualizate. Progresele recente realizate în domeniul pseudoenzimei ne-au determinat să revizuim acele înregistrări din UniProtKB care descriu pseudoenzimele și să le actualizăm conținutul.

În acest studiu, prezentăm o schiță a procesului și a provocărilor cu care se confruntă revizuirea pseudoenzimelor, inclusiv modul în care sunt identificate, modul în care informațiile legate de pierderea lor de activitate sunt captate și prezentate într-o manieră concisă și, în final, modul în care le îmbunătățim descoperibilitatea. Îmbunătățirile continue ale adnotării pseudoenzimei vor oferi comunității științifice o resursă valoroasă pentru a facilita biologia pseudoenzimelor și studiul evoluției pseudoenzimei și enzimelor.


Introducere

Curarea manuală este un proces care necesită mult timp și costă, dar, fără îndoială, adaugă o mare valoare resurselor precum UniProt Knowledgebase (UniProtKB). UniProtKB cuprinde două secțiuni, UniProtKB / Swiss-Prot, secțiunea revizuită care conține înregistrări curate manual cu informații extrase din literatură și analiza de calcul evaluată de curator și UniProtKB / TrEMBL, secțiunea neevaluată cu înregistrări adnotate automat (1).

Bazele de cunoștințe joacă un rol din ce în ce mai important în sprijinirea cercetării științifice și a descoperirii prin furnizarea de date în formate ușor accesibile. O serie de rapoarte recente au ridicat problema fiabilității acestor resurse și au evidențiat prezența erorilor și / sau a informațiilor incomplete conținute în bazele de date și a consecințelor acestora. De exemplu, o lucrare publicată de grupul Babbitt a investigat nivelurile de anotare greșită pentru funcția moleculară în patru baze de date publice de secvențe de proteine ​​pentru un set de 37 de familii de enzime pentru care sunt disponibile informații experimentale extinse și a concluzionat că nivelul de adnotare eronată a fost mult mai mare în mod automat. baze de date adnotate decât în ​​resursele curate manual (2). Calitatea adnotărilor electronice a genologiei ontologice (GO) și limitările acestora au fost, de asemenea, evaluate (3), demonstrând o variabilitate semnificativă între metodele de inferență, tipurile de adnotări și specii, în timp ce arată o îmbunătățire continuă a acestor adnotări. Un articol recent a raportat cum o eroare de adnotare într-o intrare UniProtKB / Swiss-Prot, datorită interpretării unei lucrări incomplete de caracterizare funcțională, a persistat timp de 20 de ani și a fost diseminată către alte baze de date (4).

În timp ce aceste lucrări descriu erori de curatare, ele nu examinează procesul de curatare în diferite baze de cunoștințe. Pentru o utilizare corectă este necesară o bună înțelegere a conținutului adnotării unei baze de date și a modului în care este generată. Acest lucru este exemplificat de o lucrare publicată în PLoS Computional Biology care a concluzionat că genele paralogice din șoareci sau genomul uman sunt mai similare din punct de vedere funcțional în medie decât genele ortologe dintre aceste genomi (5). Această analiză, bazată pe adnotări GO experimentale, a suferit de o înțelegere incompletă a adnotărilor GO care a influențat rezultatele. După cum a demonstrat mai târziu un alt grup (6), diferențele în adnotări între perechile de gene ortoloage reflectă complementaritatea în abordările experimentale, mai degrabă decât diferențele în funcția biologică, unele tipuri de experimente fiind efectuate într-un organism și nu în celălalt. Mai mult, adnotările GO sunt frecvent incomplete, rezultând diferențe de adnotare chiar și în absența diferențelor funcționale.

Este clar că bazele de cunoștințe conțin o proporție mică de erori, iar unele dintre ele se datorează interpretării greșite a datelor de către curatori, dar rezultatele contradictorii sau incorecte din literatura științifică complică foarte mult sarcina curatorului, iar curatorii trebuie adesea să încerce să reconcilieze conflictele date din diferite publicații. Un articol recent publicat în Economistul (Probleme la laborator www.economist.com/news/briefing/21588057-scientists-think-science-self-correcting-alarming-degree-it-not-trouble) au arătat cum este numărul tot mai mare de erori găsite în literatura științifică atingând un nivel atât de alarmant încât autocorecția științifică nu mai este posibilă. Articolul citează o serie de studii care au încercat să reproducă fără succes rezultatele găsite în literatura de specialitate. Într-un articol din Natură , de exemplu, oamenii de știință de la Amgen au raportat că ar putea reproduce doar 6 din 53 de studii considerate repere în domeniul cercetării cancerului (7). O altă publicație, de la cercetătorii de la Bayer HealthCare, a raportat că ar putea reproduce cu succes rezultatele în doar 25% din cazuri (8).

Luând exemplul sirtuinei-5 (SIRT5), un caz de adnotare complex în cadrul a ceea ce a fost considerat a fi o familie de proteine ​​bine caracterizată, vom descrie cum se realizează curarea expertă în UniProtKB / Swiss-Prot. SIRT5 aparține subfamiliei de clasa III a sirtuinelor, o subfamilie conservată de la om la bacterie. Deși activitatea proteinei deacetilază a fost raportată inițial pentru SIRT5 la oameni și șoareci, datele recente au arătat o nouă lumină asupra activității sale, arătând că acționează în schimb ca o proteină deacilază. Vom detalia modul în care raportăm rezultatele conflictuale găsite în literatură și descriem colaborările cu alte resurse. Vom arăta, de asemenea, cum curatarea informațiilor facilitează diseminarea acestora, precum și utilizarea ulterioară a acestora în sisteme automate de adnotare și predicție de funcții, prin stabilirea unei conducte în care sunt legate procesele de adnotare manuală și automată. Credem că o mai bună înțelegere a procesului de curatare manuală este o condiție prealabilă pentru interpretarea și utilizarea corectă a conținutului bazelor de cunoștințe.


2. Materiale și metode

2.1 PubTator

PubTator (http://www.ncbi.nlm.nih.gov/bionlp/pubtator) este o aplicație bazată pe web care adnotează automat toate articolele din PubMed cu concepte biologice cheie prin intermediul instrumentelor software avansate de extragere a textului (Wei și colab., 2013). Pentru a satisface nevoile specifice ale curățării UniProt, au fost făcute o serie de personalizări atât pentru rezultatele adnotării, cât și pentru interfața cu utilizatorul. În primul rând, toate adnotările de gene / proteine ​​extrase de text cu identificatorii de gene NCBI corespunzători au fost convertite în accesiuni UniProt. Apoi, am dezvoltat o abordare bazată pe frecvență pentru clasarea articolelor cu informații bogate în proteine. Am adăugat mai întâi o a treia categorie pentru curatorii UniProt pentru a clasifica un articol - Fără prioritate - pe lângă „Curatable” și „Not curatable”. Mai mult, cinci subcategorii au fost inserate în categoria existentă „Nu se poate vindeca”: „În afara domeniului de aplicare”, „Redundant”, „Debit ridicat”, „Dovezi insuficiente” și „Revizuire / comentariu” (Fig. 1).

Captură de ecran a instrumentului PubTator. Unele dintre funcționalitățile PubTator includ: (1) exportul de identificatori și adnotări PubMed pentru diferitele seturi (de exemplu, curabile și care nu pot fi vindecate) aderări

Captură de ecran a instrumentului PubTator. Unele dintre funcționalitățile PubTator includ: (1) exportul de identificatori și adnotări PubMed pentru diferitele seturi (de exemplu, curabile și care nu pot fi vindecate) aderări

2.2 Pregătirea seturilor de date

2.2.1 Eșantionarea aleatorie a 500 de articole PubMed

Pentru a evalua proporția articolelor PubMed care sunt relevante pentru îngrijirea UniProt, am generat mai întâi un set de 500 de articole PubMed publicate din 2013 până în 2015 (166 articole în 2013 și 167 atât în ​​2014, cât și în 2015) prin eșantionare aleatorie.

2.2.2 Colecție săptămânală din jurnale selectate

În fiecare săptămână, PubTator generează o actualizare pentru articolele noi publicate într-un set selectat de reviste relevante pentru cercetarea proteinelor (Cell, Developmental Cell, Elife, Genes and Development, Molecular Cell, Nature Cell Biology, Nature Genetics, Nature, PLoS Biology, PLoS Genetics , Știință, Jurnalul EMBO, The Cell Cell). Toate articolele noi sunt mai întâi exploatate pentru informații despre proteine ​​și specii și apoi clasificate pe baza frecvenței mențiunilor de proteine.

2.2.3 Fluxul de lucru de curatare centrat pe proteine

Curatorii UniProt selectați pentru această analiză lucrează în diferite programe de adnotare. E.B. este specializată în curarea proteinelor vegetale H.B.-A.-J. este specializată în îngrijirea Caenorhabditis elegans proteine ​​M.L.F. este specializată în curarea proteinelor asociate bolilor genetice la B.R. este specializată în curarea proteinelor vertebrate S.P. curează proteinele dintr-o varietate de organisme.

Cei cinci curatori UniProt caută mai întâi în PubTator articole relevante pentru o anumită proteină (de exemplu, APC13 și Arabidopsis). PubTator afișează exact aceleași rezultate de căutare ca și PubMed. După ce se face clic pe titlul articolului în rezultatele căutării, PubTator direcționează utilizatorii către pagina sa de curățenie (aka pagină abstractă) unde pre-adnotările automate ale computerului pot fi examinate (și revizuite). Toate modificările și comentariile sunt înregistrate în PubTator și pot fi descărcate, fie în bloc, fie cu un singur articol, pentru o analiză ulterioară.


INTRODUCERE

Suntem într-un moment critic în dezvoltarea bazelor de date cu secvențe de proteine. Progresele continue în secvențierea următoarei generații înseamnă că, pentru fiecare proteină caracterizată experimental, există acum multe sute de proteine ​​care nu vor fi niciodată caracterizate experimental în laborator. În plus, există noi tipuri de date introduse prin dezvoltarea de tehnologii de mare viteză în proteomică și genomică. Combinația ambelor oferă noi oportunități pentru științele vieții și domeniul biomedical. Prin urmare, este crucial să identificăm caracteristicile experimentale ale proteinelor în literatura de specialitate și să capturăm și să integrăm aceste cunoștințe într-un cadru în combinație cu date de mare randament și abordări automate de adnotare pentru a permite exploatarea completă a acestora. UniProt facilitează descoperirea științifică organizând cunoștințe biologice și permitând cercetătorilor să înțeleagă rapid domenii complexe ale biologiei.

Pe scurt, UniProt este compus din mai multe părți componente importante. Secțiunea UniProt care conține intrări curate și revizuite manual este cunoscută sub numele de UniProtKB / Swiss-Prot și conține în prezent aproximativ jumătate de milion de secvențe. Această secțiune crește pe măsură ce proteinele noi sunt caracterizate experimental (1). Toate celelalte secvențe sunt colectate în secțiunea neevaluată a UniProt cunoscută sub numele de UniProtKB / TrEMBL. Această porțiune a UniProt conține în prezent aproximativ 80 de milioane de secvențe și crește exponențial. Deși intrările în UniProtKB / TrEMBL nu sunt curate manual, acestea sunt completate de adnotări generate automat. UniProt pune la dispoziție, de asemenea, trei seturi de secvențe care au fost redundante la diferite niveluri de identitate a secvențelor: UniRef100, UniRef90 și UniRef50 (2). Baza de date UniParc este un set cuprinzător de secvențe cunoscute indexate de sumele lor unice de verificare a secvenței și conține în prezent peste 70 de milioane de intrări de secvențe (3). Baza de date UniProt are referințe încrucișate la peste 150 de baze de date și acționează ca un centru central pentru organizarea informațiilor despre proteine. Numerele sale de aderare sunt un mecanism primar pentru etichetarea precisă și durabilă a proteinelor în aplicațiile informatice.

În acest manuscris descriem ultimele progrese în dezvoltarea UniProt. Există numeroase provocări cu care se confruntă obiectivul UniProt de a organiza și adnota universul secvențelor de proteine. În special, marea creștere a secvențelor de tulpini microbiene ne-a motivat să creăm un nou identificator proteom, care este descris mai detaliat mai jos. O activitate centrală a UniProt este de a organiza informații despre proteine ​​din literatura primară. În această lucrare ne uităm la adnotarea enzimelor, cu accent pe activitățile enzimei orfane. Baza de date UniProt este utilizată în fiecare zi de mii de oameni de știință din întreaga lume, iar site-ul său web a fost vizitat de peste 400 000 de vizitatori unici în 2013. Descriem mai jos o reamenajare completă a site-ului pe baza unui proces de proiectare a experienței utilizatorului.


Variații umane în UniProtKB / Swiss-Prot

Deși este esențial să descriem un proteom uman de referință la care curățăm cunoștințe funcționale, este la fel de important să surprindem diversitatea acelui proteom în populația umană. Variabilitatea este ridicată între genomii a doi indivizi fără legătură cu o diferență estimată la fiecare mie de perechi de baze și un total de ∼3,3 milioane polimorfisme cu nucleotide unice (SNP). Deși majoritatea acestor SNP sunt neutre, adică nu modifică funcția proteinei, unele modifică dramatic proteinele și sunt responsabile de fenotipuri și boli (24).

În UniProtKB / Swiss-Prot, se acordă prioritate curării polimorfismelor de aminoacizi unici asociate bolilor și fenotipurilor descrise în literatura de specialitate. În prezent, 72 960 de variante genetice sunt adnotate în intrările UniProtKB / Swiss-Prot. 40% dintre aceștia sunt asociați cu o boală genetică și 12% conțin informații despre consecința funcțională a acestora asupra proteinelor. Acest lucru indică faptul că o mare parte din variante sunt de o semnificație necunoscută în ceea ce privește funcția proteinelor și că cunoștințele noastre biochimice și celulare sunt încă rare. Toate variantele UniProtKB / Swiss-Prot pot fi găsite în tabelul humsavar.txt (http://www.uniprot.org/docs/humsavar) și pentru fiecare proteină, în secțiunea „Secvențe” (http: //www.uniprot .org / help / sequences_section).

Informațiile legate de boală se găsesc în secțiunea „Patologie și biotehnologie” din intrări (http://www.uniprot.org/help/pathology_and_biotech_section). De exemplu, în această secțiune a intrării care descrie pseudokinaza FAM20A (UniProtKB Q96MK3), menționăm că gena este asociată cu o formă de amelogeneză imperfectă, o tulburare care afectează smalțul dentar (Figura 2). Boala este descrisă într-un format structurat bazat pe nomenclatura bolii OMIM, dacă este disponibilă, și conține referințe încrucișate la baza de date OMIM și termenii MeSH [informații detaliate despre variațiile și bolile umane în UniProtKB / Swiss-Prot sunt descrise în (25)] . O valoare adăugată puternică provine de la îngrijirea expertă a caracterizării moleculare detaliate a variantelor de proteine. În mod specific, captăm efectul acestora asupra proprietăților proteinelor în termeni de funcție, localizare, interacțiune și PTM, printre altele. Adnotăm aceste efecte ținând cont de ceea ce este deja descris în întreaga intrare, în principal în secțiunile „Funcție”, „Locație subcelulară”, „Interacțiune” sau „PTM / Procesare”. Pentru FAM20A, există șase variante naturale adnotate în intrare. Patru dintre ele, asociate cu amelogenesis imperfecta, sunt raportate în secțiunea „Patologie și biotehnologie”, împreună cu caracterizarea lor, atunci când sunt disponibile. Acestea afectează capacitatea FAM20A de a activa Golgi serină / treonină protein kinază FAM20C, care este descrisă în secțiunea „Funcție” a intrării (Figura 2). Prin urmare, se poate face în mod clar o legătură între patologia și funcția proteinei. Cu toate acestea, descrierea textului liber a variantelor care sunt caracterizate funcțional nu poate fi citită de un computer și lucrăm la îmbunătățirea reprezentării acestora. Pentru a facilita căutarea și recuperarea acestor variante, adnotările de text liber vor fi restructurate folosind o combinație de vocabulare controlate pentru a descrie efectele variantei ( Famiglietti și colab. , in pregatire).

Captură de ecran a secțiunilor „Funcție” și „Patologie și biotehnologie” din intrarea umană FAM20A (UniProtKB Q96MK3, http://www.uniprot.org/uniprot/Q96MK3).

Captură de ecran a secțiunilor „Funcție” și „Patologie și biotehnologie” ale intrării umane FAM20A (UniProtKB Q96MK3, http://www.uniprot.org/uniprot/Q96MK3).

Progresele recente în tehnologia secvențierii generează seturi de date mari de variante care oferă o imagine cuprinzătoare a variației genetice umane (1). Prin urmare, este important să se completeze curățarea expertă în curs a variantelor din literatura de specialitate cu încorporarea variantelor din proiecte la scară largă în UniProtKB. Variantele din 1000 Genomes Project și COSMIC lansează v71 sunt mapate automat la UniProtKB și pot fi găsite pe serverul FTP UniProt, în fișierul homo_sapiens_variation.txt.gz care conține un catalog de SNP-uri noi atât pentru UniProtKB / Swiss-Prot, cât și pentru UniProtKB / Secvențe TrEMBL (http: // ftp: //ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/variants /).


Utilizarea datelor proteomice pentru a confirma complexitatea proteomei umane

Rezultatele din experimentele de proteomică bazate pe spectrometrie de masă constituie, de asemenea, o sursă valoroasă de informații pentru curarea proteomei umane. Le folosim pentru a confirma existența proteinelor și PTM-urilor proteice. Cu toate acestea, există o serie de provocări pentru integrarea datelor proteomice de mare viteză în UniProtKB. Publicațiile și rapoartele de date din experimentele proteomice prezintă niveluri foarte variabile de calitate și fiabilitate. Acest lucru se datorează eterogenității protocoalelor experimentale de proteomică pe o parte și stringenței computaționale și interpretative a rezultatelor pe cealaltă parte. Deoarece numărul total de identificări false crește odată cu numărul de seturi de date încorporate, integrarea identificărilor peptidice care pot tolera până la 1% din falsurile pozitive poate duce la acumularea și propagarea adnotărilor eronate. Acest lucru ar putea avea un cost potențial ridicat în timp și resurse dacă identificarea proteinelor fals pozitive este la originea unor studii biologice ulterioare și poate submina valoarea bazelor de date, cum ar fi UniProtKB (26).

Pentru a limita numărul de pozitive false și pentru a integra doar date fiabile, am dezvoltat o conductă de analiză bazată pe experți pentru integrarea datelor proteomice în UniProtKB / Swiss-Prot (Figura 3). Conducta constă în evaluarea publicațiilor de către curatori cu expertiză în proteomică. Mai întâi confirmăm că publicațiile sunt conforme cu standardul MIAPE (Informații minime despre un experiment de proteomică) pentru raportarea experimentelor de proteomică, oferind acces la datele brute și la metadatele asociate (27). Se analizează, de asemenea, relevanța articolelor științifice și a metodelor utilizate, precum precizia instrumentelor, software-ul de identificare a peptidelor utilizat, valorile limită de selecție și metodele de post-procesare.

Schema de adnotări pentru integrarea datelor proteomice în UniProtKB.

Schema de adnotări pentru integrarea datelor proteomice în UniProtKB.

După acest prim pas de evaluare, reprocesăm complet datele peptidice identificate din publicații. Extragerea datelor din publicații poate fi dificilă, deoarece rezultatele sunt furnizate în formate eterogene (cum ar fi fișiere PDF, foi de calcul Excel, materiale suplimentare și linkuri către paginile web ale autorilor). Am implementat un sistem robust de extracție și filtrare pentru a păstra doar informații fiabile și consistente. Datele spectrometriei de masă nu sunt re-analizate, dar sunt aplicate limite stricte pe scorurile peptidice furnizate în publicații pentru a elimina identificările dubioase (28, 29). De asemenea, verificăm relevanța biologică a PTM-urilor (un site de fosforilare nu ar trebui să fie situat într-o regiune transmembranară, de exemplu). În cele din urmă, identificarea proteinei trebuie să fie neambiguă. Majoritatea software-ului de identificare utilizează o abordare parsimonie, adică se utilizează o listă minimă de proteine ​​care pot produce peptidele identificate. Aceasta nu înseamnă că proteina raportată este cu siguranță în probă sau că alte proteine ​​nu sunt prezente și, în general, acest lucru nu permite atribuirea fără echivoc a unei peptide la o proteină. Pentru a aborda aceste probleme, fiecare peptidă este comparată cu un tabel „Unicity”, care conține toate peptidele teoretice unice din proteomul uman complet. Acest tabel ia în considerare, de asemenea, adnotările de secvență experimentale și prezise de la UniProtKB / Swiss-Prot, inclusiv diferențele de izoformă, evenimentele de procesare a secvenței și variantele naturale.

De exemplu, Bian și colab. (30) au analizat recent fosfoproteomul hepatic și au raportat identificarea a 55 061 peptide pentru 22 446 de situri de fosforilare în 6526 de proteine ​​diferite. După reprocesare și evaluarea rezultatelor acestora în conformitate cu reguli stricte de filtrare [cum ar fi un scor minim Mascot de 40 sau o probabilitate de eroare posterioară (PEP) de (lt) 1% sau un scor minim de localizare PTM (Ascore) de 19], doar 26 497 peptide unice sunt validate, iar 5197 situri de fosforilare sunt adnotate în 4118 intrări UniProtKB / Swiss-Prot (28, 29, 31).

Astfel de reguli stricte permit limitarea eterogenității între diferite publicații, reducând numărul de falsi pozitivi pentru a extrage doar cunoștințele standard de aur. Până în prezent, am evaluat 65 de articole proteomice de mare capacitate care se ocupă de probe umane. 39 au fost integrate în UniProtKB / Swiss-Prot în timp ce 26 nu au fost luate în considerare deoarece metodologia nu corespundea criteriilor noastre de calitate sau pentru că datele nu erau pe deplin accesibile. Din aceste 39 de publicații, 90 889 peptide au trecut etapele de filtrare, îmbogățind proteomul uman de 23 092 PTM prin 5822 intrări UniProtKB / Swiss-Prot.

În plus față de abordarea de mai sus, care oferă date proteomice de înaltă calitate din literatura publicată, am dezvoltat, de asemenea, o conductă automată pentru a furniza mapări ale peptidelor umane identificate din depozitele publice de proteomică de spectrometrie de masă către secvențele UniProtKB. Acestea sunt disponibile într-un director dedicat „proteomics_mapping” de pe site-ul UniProt FTP (http: // ftp: //ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/proteomics_mapping /) împreună cu o descriere a modului în care sunt generate mapări. Aceasta include peptide din PeptideAtlas (32) și MaxQB (33) pentru proteomul uman, precum și pentru o serie de alte specii. În viitoarele versiuni UniProt, intenționăm să adăugăm date din mai multe depozite. Pentru a asigura calitatea datelor, identificările sunt filtrate pe baza pragurilor stabilite de noi în funcție de indicatorii de calitate globali furnizați de fiecare resursă proteomică. Aceste mapări peptidice măresc foarte mult proporția de proteine ​​umane în UniProtKB a căror existență este susținută de date experimentale de proteomică cu conducta furnizând dovezi de spectrometrie de masă pentru 69 639 de secvențe de proteomi umani.


Puteți să aruncați o privire în schema information_schema. Are o listă cu toate tabelele și toate câmpurile care se află într-un tabel. Apoi puteți rula interogări folosind informațiile pe care le-ați obținut din acest tabel.

Tabelele implicate sunt SCHEMA, TABELE și CULOANE. Există chei străine astfel încât să puteți construi exact modul în care sunt create tabelele într-o schemă.

Puteți face un SQLDump al bazei de date (și a datelor sale), apoi să căutați fișierul respectiv.

Dacă aveți instalat phpMyAdmin, utilizați funcția „Căutare”.

  • Selectați DB-ul
  • Asigurați-vă că ați selectat un DB (adică nu un tabel, altfel veți primi un dialog de căutare complet diferit)
  • Faceți clic pe fila „Căutare”
  • Alegeți termenul de căutare dorit
  • Alegeți tabelele de căutat

Am folosit acest lucru pe baze de date de până la 250 de mese / 10 GB (pe un server rapid), iar timpul de răspuns nu este nimic uimitor.

Dacă evitați procedurile stocate, cum ar fi ciuma, sau dacă nu puteți face un mysql_dump din cauza permisiunilor sau aveți alte motive.

Aș sugera o abordare în trei pași ca aceasta:

1) În cazul în care această interogare creează o grămadă de interogări ca set de rezultate.

Rezultatele ar trebui să arate astfel:

2) Puteți apoi să faceți clic dreapta și să utilizați Copierea rândului (separată de tab)

3) Inserați rezultatele într-o nouă fereastră de interogare și rulați la conținutul inimii.

Detaliu: Exclud schemele de sistem pe care este posibil să nu le vedeți în bancul dvs. de lucru decât dacă aveți bifată opțiunea Afișare metadate și scheme interne.

Am făcut acest lucru pentru a oferi o modalitate rapidă de ANALIZARE a unui întreg HOST sau DB dacă este necesar sau pentru a rula declarații OPTIMIZE pentru a sprijini îmbunătățirile de performanță.

Sunt sigur că există diferit modalități prin care puteți face acest lucru, dar iată ce funcționează pentru mine:


Priveste filmarea: UniProtKb Database Protein Database (Ianuarie 2022).