Informație

Utilizarea Analizei de corespondență canonică pe matrici cu date lipsă


Am o matrice de site-uri în care nu au fost eșantionate toate variabilele de mediu pe care vreau să le evaluez. Cu alte cuvinte, există site-uri cu întregul set de variabile eșantionate și există alte site-uri în care au fost eșantionate doar unele variabile. Funcționează Analiza Canonicală a Corespondenței cu datele lipsă pentru variabilele de mediu? În caz contrar, care ar fi efectul de a nu include valorile lipsă?


În primul rând, nu puteți analiza pe deplin corelațiile între perechi între variabilele dvs. de mediu cu valorile NA și, prin urmare, nu puteți descărca pe deplin inclusiv variabilele variabile. În acest caz, nu veți putea ști care dintre variabilele variabile este responsabilă pentru orice tendință a datelor dvs.

În al doilea rând, nu cred că CCA va funcționa cu valori NA - fie va trebui să eliminați observațiile care conțin acele valori lipsă, fie să le completați cu medii de coloană. Cu toate acestea, ambele metode vor avea un impact asupra rezultatelor dvs., așa că avansați cu prudență.

În al treilea rând, mă întreb dacă CCA este chiar așa cum vrei să mergi. nMDS (scalarea multidimensională nemetrică) este mult mai puțin constrânsă decât CCA. În plus, nu suferă de la fel de multe ipoteze / limitări ca CCA.

De la McCune & Grace (2002):

Următoarele două întrebări pot fi utilizate pentru a decide dacă CCA este adecvat: (1) Sunteți interesat doar de structura comunității care este legată de variabilele dvs. de mediu măsurate? (2) Este rezonabil un model unimodal de răspunsuri ale speciilor la mediu? Dacă, pentru o problemă specifică, răspundeți da la ambele, CCA ar putea fi adecvat

Cu toate acestea, lipsa datelor de mediu este încă o problemă în nMDS.


Scoruri biplot din analiza canonică a corespondenței

Folosesc pachetul R vegan pentru a efectua o analiză a corespondenței canonice (CCA). Ca intrare avem două matrice, una fiind (site-uri) x (specie) și cealaltă fiind (site-uri) x (condiții).

Exemplele de date (și sursa complotului) sunt aici.

Încărcările de specii sunt ușor accesibile cu sumar (cca_model) $ specie. Ceea ce încerc să găsesc este încărcările variabilelor explicative, condițiile. Singurul rezumat pe care îl pot găsi sunt scorurile biplot. Căutând documentația pentru vegan, nu găsesc nicio descriere a modului în care sunt calculate. Îi pot însuma pe componente CCA pentru a-mi face o idee despre cât de mult influențează datele?

Acesta este un biplot de două componente CCA. Scorurile sunt utilizate ca coordonate pentru săgeți.

Care sunt scorurile biplot în contextul CCA?

Pot fi utilizate scorurile biplot pentru a determina cât de mult au un efect al condițiilor asupra variabilelor de răspuns?


Instrumente filogenetice pentru biologie comparată

Tocmai am postat o nouă funcție de analiză a corelației canonice filogenetice. Corelația canonică este o procedură prin care, date două seturi de variabile (să zicem, un set de Xs și un set de Da), identificăm combinațiile liniare ortogonale ale fiecăruia care maximizează corelațiile dintre mulțimi. Acest tip de analiză este cel mai natural utilizat într-un studiu evolutiv pentru a analiza, să zicem, un set de variabile morfologice și un set de variabile de mediu sau ecologice.

Versiunea filogenetică a acestei analize ia în considerare filogenia și un model de evoluție (explicit sau implicit) pentru a găsi combinația liniară a Xs și Dacare maximizează corelații evolutive (adică corelația dedusă a schimbărilor evolutive) între cele două seturi (Revell & Harrison 2008).

Programul este foarte simplu. Link-ul direct către cod este aici. Pentru a utiliza funcția, încărcați mai întâi sursa:

Aici, arborele este un arbore filogenetic, iar X și Y sunt două matrice de date care conțin valori pentru unul sau mai multe caractere în coloane și specii în rânduri. Rândurile trebuie denumite după specii.

Rezultatele sunt returnate ca o listă cu următoarele elemente:

> rezultat
$ cor
[1] 0.3764753 0.1852836 0.1054606
$ xcoef
CA1 CA2 CA3
[1,] 0.04497549 -0.09956576 -0.45926364
[2,] -0.18997199 0.46065246 -0.07810429
[3,] -0.42425815 -0.16063677 -0.18791902
[4,] 0.25374826 0.29822455 -0.06176255
$ ycoef
CA1 CA2 CA3
[1,] -0.2704762 -0.3841450 0.1029158
[2,] -0.1048448 0.2502089 0.5860655
[3,] 0.3736474 -0.2580132 0.2743137
$ xscores
CA1 CA2 CA3
1 0.27821077 -0.33344726 0.94985154
2 -0.23088044 0.78905936 0.26050453
3 -1.44525534 -0.22803129 -0.64071476
.
$ yscores
CA1 CA2 CA3
1 0.55710619 -0.850905958 0.300282830
2 1.41482268 1.237829442 -0.446763906
3 -1.40453596 0.227361557 -0.964307876
.
$ chisq
[1] 8.9531203 2.0752824 0.5032912
$ p
[1] 0.7069293 0.9126462 0.7775202

Aici, $ cor este setul de corelație canonică $ xcoef & $ ycoef sunt coeficienții canonici $ xscores & $ yscores sunt scorurile canonice, în ceea ce privește specia originală și $ chisq & $ p sunt & Chi 2 cu valorile p corespunzătoare. Valorile p sunt corect interpretate ca probabilitatea ca eua și toate corelațiile ulterioare sunt zero.

Acum câțiva ani am lansat un program C care face mai mult sau mai puțin același lucru, totuși există câteva diferențe.

1) Programul meu C optimizează global parametrul & lambda. Voi adăuga acest lucru la funcția actuală cu promptitudine.

2) Programul meu C transformă mai întâi datele într-un spațiu liber de filogenie și apoi calculează corelațiile canonice. Aceasta înseamnă că, deși corelațiile sunt aceleași în ambele metode, scorurile nu mai sunt din punct de vedere al speciilor și vor fi diferite decât în ​​această funcție.


Descrierea datelor

Pentru exemplul nostru de analiză, vom extinde exemplul 1 despre investigarea asocierilor dintre măsurile psihologice și măsurile de realizare academică.

Avem un fișier de date, mmreg.dta, cu 600 de observații pe opt variabile. Variabilele psihologice sunt locus_of_control, self_concept și motivație. Variabilele academice sunt teste standardizate la citire (citire), scriere (scriere), matematică (matematică) și știință (știință). În plus, variabila feminină este o variabilă indicator zero-unu cu cea care indică o studentă.


Vezi si

Această pagină de ajutor descrie două funcții de ordonare constrânse, cca și rda. O metodă conexă, analiza de redundanță bazată pe distanță (dbRDA) este descrisă separat (capscale). Toate aceste funcții returnează obiecte similare (descrise în cca.object). Există numeroase funcții de asistență care pot fi utilizate pentru a accesa obiectul rezultat. În lista de mai jos, funcțiile de tip cca vor gestiona toate cele trei obiecte de ordonare constrânse, iar funcțiile rda gestionează doar rezultatele rda și capscale.

Principalele funcții de trasare sunt plot.cca pentru toate metodele și biplot.rda pentru RDA și dbRDA. Cu toate acestea, funcțiile generice de complot vegan pot gestiona și rezultatele. Scorurile pot fi accesate și scalate cu scores.cca și rezumate cu summary.cca. Valorile proprii pot fi accesate cu eigenvals.cca și coeficienții de regresie pentru constrângeri cu coef.cca. Valorile proprii pot fi reprezentate grafic cu screeplot.cca, iar (ajustat) R-pătrat poate fi găsit cu RsquareAdj.rda. Scorurile pot fi calculate și pentru seturile de date noi cu predict.cca care permite adăugarea de puncte la ordonații. Valorile constrângerilor pot fi deduse din ordonare și compoziția comunității cu calibrate.cca.

Statisticile de diagnostic pot fi găsite cu goodness.cca, inertcomp, spenvcor, intersetcor, tolerance.cca și vif.cca. Funcția ca.mlm.cca refit obiectul rezultat ca un obiect lm multiplu, iar acest lucru permite găsirea statisticilor de influență (influență lm, distanțe de gătit etc.).

Semnificația bazată pe permutare pentru modelul general, variabile sau axe de constrângere unice poate fi găsită cu anova.cca. Construcție automată de modele cu R funcția pas este posibilă cu deviance.cca, add1.cca și drop1.cca. Funcțiile ordistep și ordiR2step (pentru RDA) sunt funcții speciale pentru ordonarea constrânsă. Seturile de date aleatorii pot fi generate cu simulate.cca.

Metodele separate bazate pe modelul de ordonare constrâns sunt curbele de răspuns principale (prc) și partiționarea varianței între mai multe componente (varpart).

Deciziile de proiectare sunt explicate în vinietă pe „Deciziile de proiectare”, care pot fi accesate cu browseVignettes („vegan”).

Pachetul ade4 oferă funcția de ordonare constrânsă alternativă pcaiv.


Scalare: Analiza corespondenței

5 Extensii

Deși aplicația principală a CA este pentru un tabel de urgență bidirecțional, metoda este aplicată în mod regulat pentru a analiza tabele cu mai multe căi, tabele de preferințe, evaluări, precum și date de măsurare pe scări la nivel de raport sau interval. Pentru mesele cu mai multe căi există două abordări. Prima abordare este de a converti tabelul într-un tabel plat cu două căi, care este adecvat problemei în cauză. Astfel, dacă o a treia variabilă este introdusă în exemplul de mai sus, spuneți „sexul respondentului”, atunci o modalitate adecvată de a aplatiza tabelul cu trei căi ar fi codarea interactivă „țară” și „sex” ca o nouă variabilă de rând, cu 23 × 2 = 46 de categorii, încrucișate împotriva răspunsurilor la întrebări. Pentru fiecare țară ar exista acum un punct masculin și unul feminin și s-ar putea compara sexele și țările din această hartă mai bogată. Acest proces de codare interactivă a variabilelor poate continua atâta timp cât datele nu devin prea fragmentate în categorii interactive de frecvență foarte mică.

O altă abordare a datelor cu mai multe căi, numită analiza corespondenței multiple (MCA), se aplică atunci când există mai multe variabile categorice care înconjoară aceeași problemă, adesea numite „itemi”. MCA este de obicei definit ca algoritmul CA aplicat unei matrice de indicatori Z rândurile fiind respondenții sau alte unități de eșantionare, iar coloanele fiind variabile fictive pentru fiecare dintre categoriile tuturor variabilelor. Datele sunt zerouri și unii, cu cele care indică categoriile alese pentru fiecare respondent. Harta rezultată arată fiecare categorie ca punct și, în principiu, poziția fiecărui respondent. Alternativ, se poate configura ceea ce se numește matricea Burt), B=ZZ, tabelul simetric pătrat al tuturor încrucișărilor bidirecționale ale variabilelor, inclusiv a încrucișărilor fiecărei variabile cu ea însăși (numit după psihologul Sir Cyril Burt). Matricea Burt amintește de o matrice de covarianță și CA matricea Burt poate fi asemănată cu un PCA al unei matrice de covarianță. Analiza matricei indicatorului Z și matricea Burt B da coordonate standard echivalente punctelor categoriei, dar scalări ușor diferite în coordonatele principale de la inerțiile principale ale B sunt pătratele celor din Z.

O variantă a MCA numită analiză de corespondență comună (JCA) evită montarea tabelelor pe diagonala matricei Burt, care este analogă cu analiza factorului celor mai mici pătrate.

În ceea ce privește alte tipuri de date, și anume clasificări, evaluări, comparații perechi, măsurări de proporții și scale de intervale, ideea cheie este recodarea datelor într-o formă care să justifice structurile de bază ale CA, și anume profilul, masă și distanța chi-pătrat. De exemplu, în analiza clasamentelor sau preferințelor, aplicarea algoritmului CA clasamentelor inițiale ale unui set de obiecte de către un eșantion de subiecți este dificil de justificat, deoarece nu există niciun motiv pentru care greutatea ar trebui acordată unui obiect în proporție la clasamentul său mediu. O practică numită dublare rezolvă problema adăugând fie un „anti-obiect” pentru fiecare obiect clasat, fie un „anti-subiect” pentru fiecare subiect care răspunde, în ambele cazuri cu clasamente în ordine inversă. Această adăugare de date aparent redundante duce la efectuarea efectivă de CA a diferitelor variante de analiză a componentelor principale pe clasamentele inițiale.

O descoperire recentă a lui Carroll și colab. (1997) este că CA poate fi aplicat la o matrice simetrică pătrată de distanțe pătrate, transformată prin scăderea fiecărei distanțe pătrate dintr-o constantă care este substanțial mai mare decât cea mai mare distanță pătrată din tabel. Aceasta produce o soluție care aproximează soluția clasică de scalare a matricei de distanță.

Toate aceste extensii ale CA sunt îndeaproape cu concepția inițială Benzécri & # x27 a CA ca o tehnică universală pentru explorarea multor tipuri diferite de date prin operațiuni precum dublarea sau alte transformări judicioase ale datelor.

Cele mai recente evoluții pe această temă, inclusiv discuții privind proprietățile de eșantionare ale soluțiilor CA și o listă cuprinzătoare de referință, pot fi găsite în volumele editate de Greenacre și Blasius (1994) și Blasius și Greenacre (1998).


Statistici de calitate în analiza corespondenței canonice

Analiza canonică a corespondenței este un instrument important multivariat în ecologie. Un aspect cheie al analizei este reprezentarea specimelor optime, unde aceste optime sunt estimate prin mediile ponderate ale speciei în raport cu variabilele de mediu. Acest articol arată că, strict vorbind, analiza corespondenței canonice nu optimizează reprezentarea speciei optime, ci inerția matricei abundenței sub constrângeri liniare. Se susține că valorile proprii obținute în analiză, raportate de obicei în studiile aplicate, reprezintă o măsură a calității afișării matricei abundenței și indică calitatea reprezentării speciilor optime numai atunci când variabilele de mediu sunt necorelate. În practică, variabilele de mediu sunt adesea corelate. Astfel, sunt necesare statistici suplimentare de calitate pentru a exprima cât de bine sunt reprezentate speciile optime. În acest articol obținem statistici de calitate pentru reprezentarea speciilor optime și a variabilelor de mediu și folosim date artificiale și empirice pentru a ilustra utilizarea lor. Copyright © 2001 John Wiley & Sons, Ltd.


Utilizarea analizei de corespondență canonică pe matrici cu date lipsă - Biologie

O alternativă ar fi utilizarea unei abordări similare, dar înlocuirea calculului matricei de corelație cu ceva mai potrivit și apoi proiectarea matricei la dimensiuni mai mici. Această idee a condus la una dintre cele mai productive și mai utilizate metode din istoria analizei multivariate în ecologie --- analiza corespondenței canonice sau CCA. Așa cum RDA se referă la PCA, CCA se referă la CA. Adică, (1) începeți cu o matrice de vegetație Chi-pătrat [(real - previzionat) / sqrt (previzionat)], (2) regresați diferențele de la așteptarea variabilelor de mediu pentru a obține valori potrivite, utilizând o regresie ponderată unde abundența totală pe parcele se folosește ca greutăți și (3) se calculează distanța euclidiană a matricei de vegetație potrivite și se proiectează prin analiza proprie. Importanța variabilelor de mediu specifice este apoi evaluată prin corelarea lor cu diagrama de dispersie proiectată.

La fel ca CA, există mai mulți algoritmi disponibili pentru a calcula CCA. Abordarea prezentată mai sus urmează abordarea Legendre și Legendre (1988). Ter Braak (19xx) descrie un algoritm bazat pe medierea reciprocă care este utilizat de popularul program CANOCO. Rezultatul este același în ambele sensuri.

În plus, există, de asemenea, mai mult de un algoritm S-Plus / R pentru a calcula CCA. Stephane Dray a contribuit cu CAIV, în timp ce Jari Oksanen a contribuit cu o funcție cca () ca parte a pachetului său vegan (versiunea 1-3.9 sau ulterioară). Cele două diferă ușor în convențiile pentru scalarea rezultatelor. Deoarece funcția vegană cca () returnează rezultate identice cu CANOCO și pentru că încărcăm deja biblioteca vegană, vom folosi funcția vegană cca (). Cu toate acestea, pentru a păstra parcelele produse de cca () mai comparabile cu cele pe care le-am produs din alte programe, vom înlocui rutinele de trasare furnizate cu funcția vegană cca () cu altele.

Rularea cca ()

Pentru a calcula un CCA, selectați acele variabile de mediu despre care aveți motive să credeți că sunt importante și introduceți-le în cca () funcționează în notația formulă, la fel cum am făcut pentru GLM-uri și GAMS. Matricea completă a taxonului merge pe partea stângă a ecuației, cu variabile de mediu selectate în dreapta.

În acest exemplu particular, CCA nu a avut prea mult succes. Doar 0,6975 / 10,8656 sau 0,064 din variabilitatea totală au fost capturate în CCA. În mod clar, etapa de regresie ponderată nu a avut prea mult succes în a surprinde variabilitatea în compoziția vegetației, dar după glm () și gam () nu ar trebui să fim prea surprinși.

Următorul set de linii oferă valorile proprii asociate cu proiecția. Linia de sus dă valorile proprii „constrânse”. Deoarece am avut doar trei variabile în cadrul nostru de date de mediu, putem avea doar trei valori proprii constrânse. Cele trei valori însumează 0,69755. asa de

Complotarea CCA

În ceea ce privește CA, speciile sunt prezentate ca cruci roșii și mostre ca cercuri negre. În această analiză, prima axă este asociată cu creșterea înălțimii, în timp ce a doua axă este asociată cu înclinarea descrescătoare și creșterea valorii aspectului (av).

După cum puteți vedea, speciile sunt destul de bine condensate în centrul hirotoniei. Pentru a obține un aspect mai bun, putem specifica „scalare = 1” pentru a însemna „eșantioane ca medii ponderate ale speciei”.

Pachetul vegan furnizează o serie de funcții grafice pentru ordiplots, inclusiv puncte () și identifica(). Putem folosi identifica() funcția de identificare a eșantioanelor sau speciilor specifice. În funcție de dacă doriți o imagine mai clară a eșantioanelor de specii, puteți face grafic utilizând scalarea corespunzătoare și apoi utilizați funcțiile de identificare cu aceeași scalare.

Adăugarea de variabile categorice la analiză

Observați cât de diferit este acest complot față de primul. În timp ce variabilitatea totală explicată nu a crescut foarte mult (și nu poate coborî cu o creștere a gradelor de libertate), regresarea vegetației împotriva poziției topografice în plus față de celelalte variabile are ca rezultat o perspectivă destul de diferită asupra variabilității. Fiecare poziție topografică posibilă este reprezentată grafic la centroidul eșantioanelor de acel tip, prezentat ca un "X". Pentru a afla care este care, uitați-vă la ultimul element al rezumatului obiectului cca.

Discuţie

Funcții auxiliare

„Funcțiile găsesc statistici care seamănă cu„ devianță ”și„ AIC ”în ordonarea constrânsă. De fapt, metodele de ordonare constrânsă nu au log-Probabilitate, ceea ce înseamnă că nu pot avea AIC și devianță. Prin urmare, nu ar trebui să utilizați aceste funcții și dacă le utilizați, nu ar trebui să aveți încredere în ele. Dacă utilizați aceste funcții, rămâne responsabilitatea dvs. să verificați adecvarea rezultatului. "

Funcția de mai jos nu folosește direct log-probabilitatea, ci folosește mai degrabă o abordare de permutare destul de brutală și testează dacă adăugarea unei variabile explică mai multă inerție decât se aștepta la întâmplare. Cu toate acestea, sunt sigur că Jari dezaprobă și îl includ aici pentru orice bun ar putea servi.


Analiza canonică a corespondenței este o tehnică dezvoltată, cred, de oamenii de ecologie comunitară. O hârtie fondatoare este Analiza corespondenței canonice: o nouă tehnică vectorială proprie pentru analiza gradientului direct multivariat de Cajo J.F. Ter Braak (1986). Metoda implică o analiză de corelație canonică și o analiză de gradient direct. Ideea este de a relaționa prevalențele unui set de specii cu o colecție de variabile de mediu.

În mod tradițional, CCA (corelația) caută să găsească acea combinație liniară a variabilelor X și acea combinație liniară a variabilelor Y care au cea mai mare corelație între ele. Se bazează pe descompunerea proprie a $ Sigma_ <12> Sigma_ <22> ^ <-1> Sigma_ <21> $, unde matricile Sigma sunt matrici de corelație ale variabilelor. Vezi Mardia, Kent și Bibby (Analiza multivariantă).

CCA presupune astfel o relație liniară între cele două seturi de variabile. Analiza corespondenței presupune o relație diferită: speciile au o distribuție gaussiană de-a lungul unei direcții determinate de factorii de mediu.

Rețineți că CCA este simetrică în variabilele X și variabilele Y. Analiza corespondenței nu presupune nicio simetrie, deoarece vrem să explicăm speciile în termeni de mediu - nu invers.


Analiza integrativă a două seturi de date

Metodele de reducere a dimensiunii cu o singură masă au fost extinse la EDA a două matrice și pot descompune și integra simultan o pereche de matrice care măsoară variabile diferite pe aceleași observații (Tabelul 3). Metodele includ SVD generalizat [42], analiza co-inerțială (CIA) [43, 44], extensii rare sau penalizate ale pătratelor parțiale minime (PLS), analiza de corespondență canonică (CCA) și analiza de corelație canonică (CCA) [36, 45 –47]. Rețineți că atât analiza corespondenței canonice, cât și analiza corelației canonice sunt menționate de acronimul CCA. Analiza canonică a corespondenței este o formă constrânsă de CA care este utilizată pe scară largă în statisticile ecologice [46], totuși, aceasta trebuie încă adoptată de comunitatea de genomică în analiza perechilor de date omice. În schimb, mai multe grupuri au aplicat extensii ale analizei corelației canonice la integrarea datelor omice. Prin urmare, în această revizuire, folosim CCA pentru a descrie analiza corelației canonice.


Priveste filmarea: Parte 1 - Análise Multivariada - CCA Análise de Correspondência Canônica (Decembrie 2021).