Informație

Harta ID-urile genelor la Ensembl gene ID


Iartă-mă dacă această întrebare este prea banală.

Am identificarea genelor de tipul următor

EOG6STSR2 EOG60ZRJB EOG6SBFJ2 EOG6P5KX3 EOG6B5PRW

din primul fișier suplimentar din Validarea comparativă a adnotării transcriptomului D.EN melanogaster modENCODE.

Nu sunt sigur cu privire la tipul ID-urilor. Am aflat că ID-urile încep cu EOG sunt Grupul ortolog eucariot ID-uri, dar nu le-am putut găsi în nicio bază de date.

Este posibil să le mapezi Ensemble ID-uri sau oricare dintre celelalte utilizate în mod obișnuit?


Acestea nu sunt identificatori genetici, ci grupuri de gene ortologe - încercați să căutați identificatorii pe Google, pot găsi această pagină http://cegg.unige.ch/orthodb6/fasta.fasta?ogs=EOG6STSR2&swaptree= și astfel dvs. ar trebui să poată descărca secvențele și ID-urile din OrthoDB.

Rețineți că, strict vorbind, nu sunt ID-uri Ensembl pentru Drosophila, ci doar ID-urile FlyBase care sunt utilizate și de Ensembl.


Cartografierea identificatorilor

Acest protocol vă va arăta cum să mapați sau să traduceți identificatorii dintr-o bază de date (de exemplu, Ensembl) în alta (de exemplu, Entrez Gene). Aceasta este o cerință comună pentru analiza datelor. În contextul Cytoscape, de exemplu, maparea identificatorilor este necesară atunci când doriți să importați date pentru a suprapune într-o rețea, dar cheile din date nu se potrivesc cu cele din rețea. Acest protocol include două exemple distincte care evidențiază lecții diferite care se pot aplica cazului dvs. de utilizare cartografiere specifică speciei și proteină la cartografierea genelor.

Informații detaliate despre instrumentul Cytoscape ID Mapper sunt disponibile în Identificarea mapării în Cytoscape: idmapper (F1000 Research)


PyEnsembl permite, de asemenea, genomuri arbitrare prin specificarea căilor de fișiere locale sau a adreselor URL de la distanță atât pentru fișierele Ensembl, cât și pentru cele non-Ensembl GTF și FASTA. (Atenție: formatele GTF pot varia, iar manipularea datelor care nu sunt Ensembl este încă în curs de dezvoltare.)

Obiectul EnsemblRelease are metode care vă permit să accesați toate combinațiile posibile ale caracteristicilor de adnotare gene_name, gene_id, transcript_name, transcript_id, exon_id precum și localizarea acestor elemente genomice (contig, poziția de început, poziția finală, șuvița).


Cartografierea genului ID folosind R

Interconversia genelor ID este cel mai important aspect care permite analiza datelor genomice și proteomice. Există mai multe instrumente disponibile, fiecare cu propriile sale dezavantaje. În timp ce efectuați analize de îmbogățire pe seturile de date de spectrometrie de masă, m-am străduit întotdeauna să pregătesc fișierele de intrare necesare pentru fiecare dintre pachetele din R. Este nevoie de unele modificări și curățare a datelor pentru a permite instrumentelor sau pachetelor R să le accepte ca intrare. Lupta este mai mare în cazul ID-urilor UniProt, deoarece foarte puține aplicații le acceptă ca intrare. Deși UniProt oferă funcția de extragere a mapării id, aceasta nu ține cont de numărul de rânduri, ceea ce înseamnă că orice proteină sau genă id care nu poate fi mapată este pur și simplu omisă din fișierul de ieșire. Acest lucru face dificilă combinarea seturilor de date.

Există numeroase instrumente disponibile pentru un astfel de tip de mapare ID. Aici prezint câteva pachete R pe care le-am folosit și am lucrat fără probleme.

The org.Hs.eg.db pachet sau org.Mm.eg.db pachetul trebuie utilizat pentru om și, respectiv, pentru șoareci. mapIds poate lua orice formă de intrare precum UniProt id, simbol HGNC, Ensembl id și Entrez id și le poate converti.

mapIds () returnează un vector numit de id-uri.

Ieșirea poate fi îmbinată cu setul de date original folosind `cbind` pentru analize ulterioare în aval. Singurul avantaj pe care l-am observat cu mapIds este că se potrivește genului rând rând cu rând și inserează NA atunci când nu poate găsi nume de gene sau simboluri pentru anumite identificatoare UniProt. Acesta este un salvator imens atunci când lucrați cu seturi de date uriașe.

Pentru om hgnc_symbol si pentru mouse mgi_symbol trebuie folosit.

În general, cu biomaRt, este necesară o muncă suplimentară după efectuarea mapării inițiale. Veți observa că biomaRt nici măcar nu returnează genele în aceeași ordine în care au fost prezentate.

The ClusterProfiler pachetul a fost dezvoltat de Guangchuang Yu pentru analiza statistică și vizualizarea profilurilor funcționale pentru gene și grupuri de gene. The org.Hs.eg.db sau org.Mm.eg.db pachetul trebuie utilizat pentru om și, respectiv, pentru șoareci. Tipurile de chei pot fi obținute prin tastarea tipurilor de chei (org.Mm.eg.db).

În afară de funcțiile R enumerate mai sus, există diverse instrumente pentru conversia ID genei, cum ar fi DAVID, UCSC converter ID gen etc. pentru non-programatori.


Este specifică platformei Ensembl ID to Gene Symbol mapping?

Am un set de date GEO RNA-Seq, dar datele sale de adnotare a platformei lipsesc. Vreau să mapez ID-urile sale ENSG la simbolurile genetice, de ex. & quotENSG00000223972.5 & quot și & quotENSG00000078808.16 & quot. Este posibil să le mapezi pe simbolurile genelor într-o manieră exactă, fără adnotări specifice platformei?

FWIW, platforma este GPL11154 și setul de date este GSE107011

Ce mediu software veți folosi? În R, puteți utiliza AnnotationDbi cuplat cu org.Hs.eg.db pentru a mapa ID-urile Ensembl înapoi la simbolurile genetice. Mai întâi ar trebui să eliminați. [0-5] la sfârșitul fiecărui ID Ensembl, care reprezintă versiunea genei (sursă). Apoi, puteți asocia ID-urile de la Ensembl la simbolurile genetice.

Presupunând că lucrați în R și că ați efectuat analiza DE și ați stocat rezultatele într-un obiect numit degs, codul meu ar arăta astfel:

Rețineți că unele ID-uri Ensembl pot avea mai multe simboluri genetice (motiv pentru care nu este recomandabil să folosiți simboluri genetice ca identificatori genetici înainte de a rula analiza). Codul de mai sus îl mapează înapoi doar la primul.

Destul de sigur că ceva similar ar fi posibil în Python sau în alte limbi. Singurul lucru de care ai avea nevoie este o bază de date care conține atât simbolul genei, cât și ID-urile Ensembl (Biomart este de obicei o alegere bună).


Harta ID-urilor genetice la Ensembl gene ID - Biologie

8 ore din cauza întreținerii în centrul nostru de date. Acest interval ar putea fi mai scurt în funcție de progresul lucrării. Ne cerem scuze pentru inconveniențe, ne cerem iertare pentru orice inconveniență. *** --> *** DAVID va fi scăzut de la ora 17:00 EST vineri 24/06/2011 până la ora 15:00 EST duminică 26/06/2011 din cauza lucrărilor de întreținere în centrul nostru de date. Acest interval ar putea fi potențial mai scurt, în funcție de progresul lucrării. Ne cerem scuze pentru inconveniențe, ne cerem iertare pentru orice inconveniență. *** --> *** În prezent acceptăm utilizatorii beta pentru noul nostru serviciu web DAVID, care permite accesul la DAVID din diferite limbaje de programare. Vă rugăm să ne contactați pentru acces. *** --> *** Cartografierea simbolului genei pentru încărcarea listei și conversia sa schimbat. Vă rugăm să consultați anunțul forumului DAVID pentru detalii. --> *** Anunțarea noului serviciu web DAVID care permite accesul la DAVID din diferite limbaje de programare. Mai multe informatii. *** --> *** DAVID 6.8 va fi oprit pentru întreținere joi, 23.02.2016, între orele 09:00 - 13:00 EST *** -->
*** Bine ați venit la DAVID 6.8 ***
*** Dacă sunteți în căutarea pentru DAVID 6.7, vă rugăm să vizitați site-ul nostru de dezvoltare. ***
-->
*** Bine ați venit la DAVID 6.8 cu baza de cunoștințe actualizată (mai multe informații). ***
*** Dacă sunteți în căutarea pentru DAVID 6.7, vă rugăm să vizitați site-ul nostru de dezvoltare. ***
-->
*** Bine ați venit la DAVID 6.8 cu baza de cunoștințe actualizată (mai multe informații). ***
*** Serverul DAVID 6.7 este în prezent oprit pentru întreținere. ***
--> *** Vă rugăm să citiți: Datorită întreținerii centrului de date, DAVID va fi offline de vineri, 17 iunie @ 16:00 EST până duminică, 19 iunie, cu posibilitatea de a reveni online mai devreme. *** -->


Instrumente pentru conversia ID-urilor sondei

Indiferent de instrumentul pe care îl utilizați, nu uitați să luați notă de cartografierea subiacentă a sondelor la bioentități (adică transcrieri / gene / proteine) care este utilizată. În timp ce secvențele sondei nu se schimbă, ansamblurile genomului (de exemplu, secvențele cromozomiale) și adnotarea bioentităților sunt ambele supuse modificării în timp. S-ar putea să descoperiți că o anumită sondă care a fost mapată la gena X acum șase luni este acum mapată la gena Y deoarece gena X a devenit învechită sau structura sa exon-intron s-a schimbat în lumina noilor dovezi de susținere.

Dacă aveți un o mică listă de ID-uri de sondă, puteți utiliza instrumentul de conversie din Ensembl Genome Browser. Pentru unele platforme comune de microarray (Affymetrix, Agilent și Illumina), Ensembl mapează în mod regulat sondele / seturile de sonde în raport cu ultimul set de transcriere modele. Pentru a căuta, pur și simplu utilizați identificatori individuali de sondă ca termeni de căutare în Ensembl (de exemplu, ID-ul sondei Agilent A_14_P109686). Alternativ, diferite instrumente web oferă conversia sondelor, cum ar fi DAVID.

Dacă aveți un lungă listă de ID-uri de sondă, R / Bioconductor oferă o serie de pachete de adnotări care pot fi utilizate pentru a converti ID-urile sondei în timpul fluxului de lucru pentru analiza microarray-urilor.


Harta ID-urilor genetice la Ensembl gene ID - Biologie

GeneWalk determină pentru gene individuale funcțiile relevante într-un anumit context biologic și o stare experimentală. GeneWalk cuantifică similitudinea dintre reprezentările vectoriale ale unei gene și termenii GO adnotați prin învățarea reprezentării cu plimbări aleatorii pe o rețea de reglare a genei specifică condiției. Semnificația similarității este determinată prin compararea cu similitudinile nodurilor din rețelele randomizate.

Pentru a instala cea mai recentă versiune de GeneWalk (preferată):

Pentru a instala cel mai recent cod de la Github (de obicei înainte de lansări):

GeneWalk folosește o serie de fișiere de resurse pe care le descarcă după cum este necesar în timpul rulării. Pentru a pre-descărca opțional aceste fișiere de resurse în folderul de resurse implicit, comanda

GeneWalk necesită întotdeauna ca intrare un fișier text care conține o listă cu gene de interes relevante pentru contextul biologic. De exemplu, genele exprimate diferențial dintr-un experiment de secvențiere care compară o condiție experimentală cu o condiție de control. GeneWalk acceptă fișierele cu lista genelor care conțin simboluri genice umane HGNC, ID-uri HGNC, ID-uri genetice Ensembl umane, ID-uri genei șoarecilor MGI, ID-urile genei șobolanilor RGD sau ID-urilor de întreținere umană sau de șoarece. GeneWalk mapează intern aceste ID-uri la genele umane.

Pentru alte organisme decât omul, șoarecele sau șobolanul, există două opțiuni. Primul este să mapați genele la ortologii umani și apoi să introduceți lista de ortologi umani așa cum este descris mai sus. Utilizați această strategie dacă considerați că organismul este suficient de legat de om. A doua opțiune este de a furniza un fișier de genă de intrare cu ID-uri de genă personalizate. Acestea nu sunt mapate la genele umane. Utilizați identificatori genetici personalizați pentru organisme mai divergente, cum ar fi drosophila, vierme, drojdie, plante sau bacterii. În acest caz, utilizatorul trebuie să furnizeze, de asemenea, o rețea genetică personalizată cu adnotări GO ca intrare. Consultați secțiunea Rețele de intrare personalizate pentru mai multe detalii.

Fiecare linie din fișierul de introducere a genei conține un identificator genic al unuia dintre tipurile de mai sus.

Interfața liniei de comandă GeneWalk

Odată instalat, GeneWalk poate fi rulat din linia de comandă ca genewalk, cu un set de argumente necesare și opționale. Argumentele necesare includ numele proiectului, o cale către un fișier text care conține o listă de gene și un argument care specifică tipul de identificatori genici din fișier.

Mai jos este documentația completă a interfeței liniei de comandă:

GeneWalk creează automat un folder genewalk în folderul de acasă al utilizatorului (sau dosarul de bază specificat de utilizator). Când rulați GeneWalk, una dintre intrările necesare este numele proiectului. Este creat un sub-folder pentru numele proiectului dat, unde sunt stocate toate rezultatele intermediare și finale. Fișierele stocate în folderul proiectului sunt:

  • genewalk_results.csv - Tabelul principal de rezultate, un fișier text cu valori separate prin virgulă. Vedeți mai jos pentru o descriere detaliată.
  • genes.pkl - O reprezentare procesată a listei de gene date, în format de fișier binar Python pickle (.pkl).
  • multi_graph.pkl - Un networkx MultiGraph asemănător rețelei GeneWalk care a fost asamblat pe baza listei date de gene, o rețea de interacțiune, adnotări GO și ontologia GO.
  • deepwalk_node_vectors _ *. pkl - Un set de vectori de nod învățați pentru fiecare repetare a analizei pentru grafic.
  • deepwalk_node_vectors_rand _ *. pkl - Un set de vectori de nod învățați pentru fiecare analiză repetată pentru un grafic aleatoriu.
  • genewalk_rand_simdists.pkl - Distribuții construite din repetări.
  • deepwalk _ *. pkl - Un obiect DeepWalk pentru fiecare analiză repetată pe grafic (prezent doar dacă argumentul save_dw este setat la True).
  • deepwalk_rand _ *. pkl - Un obiect DeepWalk pentru fiecare analiză repetată pe un grafic aleatoriu (prezent doar dacă argumentul save_dw este setat la True).

GeneWalk generează automat cifre pentru a-și vizualiza rezultatele în sub-dosarul proiect / figuri:

  • index.html : o pagină HTML care include toate cifrele generate, așa cum este descris mai jos.
  • grafice cu adnotări GO clasificate după relevanță pentru fiecare genă de intrare pentru care GeneWalk a reușit să genereze rezultate. Numele de fișier conțin simbolul genei umane corespunzător și codul genei de intrare: barplot_ [simbol] _ [genă id] _x_mlog10global_padj_y_GO.png.
  • regulators_x_gene_con_y_frac_rel_go (.png și .pdf): diagramă de împrăștiere pentru a identifica genele regulatoare de interes. Acestea au o conectivitate genică mare și o fracțiune mare de adnotări GO relevante. Pentru mai multe informații, consultați publicația noastră.
  • genewalk_regulators.csv: listă cu gene regulatoare care sunt denumite în diagrama dispersoare a regulatorilor.
  • moonlighters_x_go_con_y_frac_rel_go (.png și .pdf): grafic de împrăștiere pentru a identifica genele de lună: gene cu multe adnotări GO, ale căror fracțiuni mici sunt relevante. Pentru mai multe informații, consultați publicația noastră.
  • genewalk_moonlighters.csv: listă cu gene care luminează luna care sunt denumite în diagrama de împrăștiere a lunii.
  • genewalk_scatterplots.csv: date corespunzătoare graficelor de dispersie a regulatorului și a luminatorului de lună. Acest fișier poate fi utilizat pentru analize suplimentare de prioritizare a genelor.

Descrierea fișierului cu rezultatele GeneWalk

genewalk_results.csv este tabelul principal de ieșire GeneWalk, un fișier text cu valori separate prin virgule, cu următoarele anteturi de coloană:

  • hgnc_id - identificator HGNC al genei umane.
  • hgnc_symbol - simbolul genei umane.
  • go_name - numele termenului GO.
  • go_id - identificator de termen GO.
  • go_domain - Domeniul ontologiei căruia îi aparține termenul GO (proces biologic, componentă celulară sau funcție moleculară).
  • ncon_gene - numărul de conexiuni la gene din rețeaua GeneWalk.
  • ncon_go - numărul de conexiuni la termenul GO din rețeaua GeneWalk.
  • global_padj - valoarea de p ajustată a ratei de descoperire falsă (FDR) a similitudinii dintre genă și termenul GO, atunci când se corectează pentru testare pe toate perechile de termeni gene-GO prezente în fișierul de ieșire. Aceasta este statistica cheie care indică cât de relevantă este termenul pereche genă-GO (funcția genei) în contextul biologic particular sau în starea testată. Global_padj trebuie utilizat pentru analize globale care iau în considerare simultan toate ieșirile GeneWalk, cum ar fi procedurile de prioritizare a genelor. GeneWalk determină o valoare p ajustată cu corecția Benjamini Hochberg FDR pentru testarea multiplă a tuturor termenilor GO conectați pentru fiecare analiză repetată nreps_graph. Valoarea prezentată aici este media (estimarea medie) asupra tuturor valorilor p-ajustare din toate analizele repetate nreps_graph.
  • gene_padj - Valoarea p ajustată de FDR a similarității dintre genă și termenul GO, atunci când se corectează testarea multiplă pentru toate adnotările GO ale acelei gene. Aceasta este statistica cheie atunci când investigați funcțiile uneia (sau a câtorva) gene predefinite de interes. Gene_padj determină semnificația statistică a fiecărei adnotări GO (funcție) și gene_padj poate fi utilizată pentru a clasifica sensibil adnotările GO pentru a reflecta relevanța pentru gena de interes în contextul biologic particular sau starea testată. Când luați în considerare toate (sau multe) gene de intrare simultan, utilizați în schimb global_padj. Media peste repetarea nreps_graph rulează ca pentru global_padj.
  • pval - valoarea p a genei - similitudinea termenului GO, nu a fost corectată pentru testarea ipotezelor multiple. Media peste repetări nreps_graph.
  • sim - genă - similitudinea termenului (cosinusul), medie peste repetări nreps_graph.
  • sem_sim - eroare standard pe sim (estimare medie).
  • cilow_global_padj - limita inferioară a intervalului de încredere de 95% pe global_padj (estimare medie) din analizele repetate nreps_graph.
  • ciupp_global_padj - limita superioară a intervalului de încredere de 95% pe global_padj.
  • cilow_gene_padj - limita inferioară a intervalului de încredere de 95% pe gene_padj (estimare medie) din analizele repetate nreps_graph.
  • ciupp_gene_padj - limita superioară a intervalului de încredere de 95% pe gene_padj.
  • cilow_pval - limita inferioară a intervalului de încredere de 95% pe pval (estimare medie) din analizele repetate nreps_graph.
  • ciupp_pval - limita superioară a intervalului de încredere de 95% pe pval.
  • mgi_id, rgd_id, ensembl_id, entrez_human sau entrez_mouse - în cazul în care unul dintre acești identificatori genetici a fost furnizat ca intrare, tabelul cu rezultatele GeneWalk începe cu o coloană suplimentară pentru a indica identificatorii genei. În cazul genelor șoarecilor, hgnc_id și hgnc_symbol corespunzătoare seamănă cu gena sa ortologă umană utilizată pentru analiza GeneWalk.

Timpul de rulare și etapele algoritmului GeneWalk

Numărul recomandat de procesoare (argument opțional: nproc) pentru un timp de rulare scurt (1-2 ore) este 4:

În mod implicit, GeneWalk va rula cu 1 procesor, rezultând un timp de rulare general mai lung: 6-12h. Având în vedere o listă de gene, GeneWalk rulează trei etape de analiză:

  1. Asamblarea unei rețele GeneWalk și reprezentarea vectorilor de noduri de învățare prin rularea DeepWalk pe această rețea, pentru un număr specificat de repetări. Durată tipică de funcționare: de la una la câteva ore.
  2. Învățarea reprezentărilor vectorului de nod aleatoriu rulând DeepWalk pe un set de versiuni randomizate ale rețelei GeneWalk, pentru un număr specificat de repetări. Durată tipică de funcționare: de la una la câteva ore.
  3. Calculul statisticilor asemănărilor dintre gene și termenii GO și transmiterea rezultatelor GeneWalk într-un tabel. Durată tipică de funcționare: câteva minute.
  4. Vizualizarea rezultatelor GeneWalk generate în subfolderul proiect / figuri. Timp de rulare tipic: 1-10 minute, în funcție de numărul de gene de intrare.

GeneWalk poate fi rulat o singură dată pentru a finaliza toate aceste etape (implicit), sau apelat separat pentru fiecare etapă (argument opțional: stage). Disponibilitatea recomandată a memoriei pe sistemul dvs. de operare: 16 GB sau 32 GB RAM. GeneWalk generează incertitudinea (95% intervale de încredere) a semnificației asemănării (ajustare globală și genetică p). În funcție de topologia rețelei specifice contextului, această incertitudine poate fi mare pentru asociațiile individuale de genă-funcție. Cu toate acestea, dacă în general incertitudinile se dovedesc foarte mari, se pot seta argumentele opționale nreps_graph la 10 (sau mai multe) și nreps_null la 10 pentru a crește precizia algoritmului. Aceasta costă un timp de rulare crescut.

În mod implicit, GeneWalk folosește resursa PathwayCommons (--network_source pc) pentru a crea o rețea de gene umane. Apoi adaugă automat margini reprezentând adnotări GO pentru gene de intrare și relații ontologice între termenii GO. Cu toate acestea, există opțiuni pentru a rula GeneWalk cu o rețea personalizată ca intrare.

Mai întâi, specificați argumentul --network_source ca una dintre sursele alternative: .

Dacă sunt utilizate ID-uri de genă personalizate (--id_type custom) în lista genelor de intrare, de exemplu dintr-un organism model: alegeți ca sursă de rețea sif_annot sau sif_full.

Apoi, includeți argumentul --network_file cu calea către fișierul de intrare de rețea personalizat. Formatul fișierului de rețea trebuie să corespundă cu --network_source ales, după cum urmează.

Opțiunile sif / sif_annot / sif_full necesită fișierul de rețea într-un format de fișier de interacțiune simplu (SIF). Fiecare rând al fișierului text SIF constă din trei intrări separate prin virgulă reprezentând sursă, tip de relație și țintă. Tipul de relație nu este utilizat în mod explicit de GeneWalk și poate fi setat la o etichetă arbitrară.

Diferența dintre opțiunile sif, sif_annot și sif_full:

  • sif: SIF-ul de intrare poate conține numai uman relațiile genă-genă. Genele trebuie codificate ca simboluri genetice HGNC umane (de exemplu KRAS). Adnotările GO pentru gene, precum și relațiile ontologice dintre termenii GO sunt adăugate automat de GeneWalk.
  • sif_annot: SIF-ul de intrare trebuie să conțină atât relații genă-genă, cât și adnotări GO pentru gene: rânduri în care sursa este o genă, iar ținta este un termen GO. Utilizați ID-uri GO cu prefix (de exemplu GO: 0000186) pentru a codifica termenii GO. Genele trebuie codificate la fel ca în lista de intrare a genelor și nu trebuie să corespundă genelor umane. Relațiile de ontologie dintre termenii GO sunt apoi adăugate automat de GeneWalk.
  • sif_full: SIF-ul de intrare trebuie să conțină toate marginile rețelei GeneWalk: relații genă-genă, adnotări GO pentru gene și relații ontologice între termenii GO. GeneWalk nu mai adaugă margini rețelei. Codificați genele și termenii GO în același mod ca și pentru sif_annot.

Opțiunea edge_list este o versiune simplificată a opțiunii sif. Necesită un fișier text de rețea care conține rânduri cu două coloane fiecare, o sursă și o țintă. Cu alte cuvinte, omite coloana tip relație din formatul SIF. Cerințele suplimentare de pregătire a fișierelor sunt aceleași ca și pentru opțiunea sif.

Opțiunea indra necesită ca fișier personalizat de intrare în rețea un fișier de murare Python care conține o listă de instrucțiuni INDRA. Aceste afirmații pot reprezenta gena-genă umană, precum și relațiile genă-GO din care derivă marginile rețelei. Adnotările GO umane și relațiile ontologice dintre termenii GO sunt apoi adăugate automat de GeneWalk în timpul construcției rețelei.

Pentru un tutorial și informații mai generale, consultați site-ul web GeneWalk.
Pentru documentații suplimentare despre cod, consultați pagina noastră readthedocs.

Robert Ietswaart, Benjamin M. Gyori, John A. Bachman, Peter K. Sorger și L. Stirling Churchman
GeneWalk identifică funcțiile genei relevante pentru un context biologic folosind învățarea reprezentării în rețea,
Biologia genomului 22, 55 (2021). https://doi.org/10.1186/s13059-021-02264-8

Această lucrare a fost susținută de grantul Institutelor Naționale de Sănătate 5R01HG007173-07 (L.S.C.), bursa EMBO ALTF 2016-422 (R.I.) și granturile DARPA W911NF-15-1-0544 și W911NF018-1-0124 (P.K.S.).


Utilizare

Un vector de caractere al denumirilor latine ale speciilor prezente în acest set de date scRNA-seq. Aceasta este utilizată pentru a prelua informații Ensembl din biomart.

Vector de caractere al căilor către fișierele FASTA transcriptom utilizate pentru a construi indexul kalisto. Exact una dintre specii și fasta_file pot lipsi.

Calea către directorul de ieșire al magistralei kalisto.

Un vector de caractere care indică tipul fiecărei specii. Fiecare element trebuie să fie unul dintre „vertebrate”, „metazoa”, „plantă”, „ciupercă” și „protist”. Dacă lungimea este 1, atunci acest tip va fi utilizat pentru toate speciile specificate aici. Poate lipsi dacă este specificat fasta_file.

Alte argumente transmise către tr2g_ensembl, cum ar fi other_attrs, ensembl_version și argumente transmise către useMart. Dacă fasta_files este furnizat în locul speciilor, atunci acesta va fi un argument suplimentar pentru tr2g_fasta, cum ar fi use_transcript_version și use_gene_version.


Și pentru a face acest lucru folosind transcrieri, o faceți astfel:

Diferența cheie este că TXSTART se referă la începutul unei transcrieri și provine din obiectul TxDb din pachetul TxDb.Hsapiens.UCSC.hg19.knownGene, în timp ce CHRLOC se referă la același lucru, dar provine din obiectul OrgDb de la org .Hs.eg.db pachet. Punctul de origine este semnificativ, deoarece obiectul TxDb reprezintă un transcriptom din UCSC, iar OrgDb este în primul rând date centrate pe gene care provin de la NCBI. Rezultatul este că CHRLOC nu va avea atât de multe regiuni reprezentate ca TXSTART, deoarece trebuie să existe o genă oficială pentru a exista chiar și o înregistrare. Datele CHRLOC sunt, de asemenea, blocate pentru org.Hs.eg.db ca date pentru hg19, în timp ce puteți schimba un alt obiect TxDb pentru a se potrivi cu genomul pe care îl utilizați pentru a-l face hg18 etc. Din aceste motive, vă recomandăm să utilizați TXSTART în loc de CHRLOC. Cu toate acestea, CHRLOC rămâne încă în pachetele org din motive istorice.


Priveste filmarea: Clip: Gene ID conversion with BioMart (Ianuarie 2022).