Q1
Các nhà sinh thái học nói về độ dốc mọi lúc. Có rất nhiều loại độ dốc, nhưng tốt nhất nên nghĩ về chúng như một sự kết hợp của bất kỳ biến nào bạn muốn hoặc quan trọng cho phản hồi. Vì vậy, một gradient có thể là thời gian, hoặc không gian, hoặc độ chua của đất, hoặc chất dinh dưỡng, hoặc thứ gì đó phức tạp hơn, chẳng hạn như sự kết hợp tuyến tính của một loạt các biến được yêu cầu theo cách nào đó.
Chúng ta nói về độ dốc bởi vì chúng ta quan sát các loài trong không gian hoặc thời gian và một loạt các thứ khác nhau với không gian hoặc thời gian đó.
Quý 2
Tôi đã đi đến kết luận rằng trong nhiều trường hợp, móng ngựa trong PCA không phải là vấn đề nghiêm trọng nếu bạn hiểu nó phát sinh như thế nào và đừng làm những điều ngớ ngẩn như lấy PC1 khi "độ dốc" thực sự được đại diện bởi PC1 và PC2 (cũng vậy cũng được chia thành các PC cao hơn, nhưng hy vọng đại diện 2 chiều là ổn).
Trong CA tôi đoán tôi cũng nghĩ như vậy (bây giờ đã bị buộc phải suy nghĩ một chút về nó). Giải pháp có thể tạo thành một vòm khi không có chiều thứ 2 mạnh trong dữ liệu sao cho phiên bản gấp của trục thứ nhất, đáp ứng yêu cầu trực giao của các trục CA, giải thích nhiều "quán tính" hơn so với hướng khác trong dữ liệu. Điều này có thể nghiêm trọng hơn vì đây là cấu trúc được tạo thành trong đó với PCA, vòm chỉ là một cách để thể hiện sự phong phú của các loài tại các vị trí dọc theo một độ dốc trội.
Tôi chưa bao giờ hiểu tại sao mọi người lo lắng rất nhiều về việc đặt hàng sai trên PC1 với vành móng ngựa mạnh mẽ. Tôi sẽ phản bác rằng bạn không nên dùng PC1 trong những trường hợp như vậy, và rồi vấn đề sẽ biến mất; các cặp tọa độ trên PC1 và PC2 thoát khỏi sự đảo ngược trên bất kỳ một trong hai trục đó.
Quý 3
Nếu tôi nhìn thấy vành móng ngựa trong bộ ba PCA, tôi sẽ hiểu dữ liệu là có một độ dốc chi phối hoặc hướng thay đổi.
Nếu tôi nhìn thấy vòm, tôi có thể sẽ kết luận tương tự, nhưng tôi sẽ rất cảnh giác khi cố gắng giải thích trục CA 2.
Tôi sẽ không áp dụng DCA - nó chỉ xoắn vòm (trong trường hợp tốt nhất) sao cho bạn không nhìn thấy sự kỳ lạ trong các ô 2 chiều, nhưng trong nhiều trường hợp, nó tạo ra các cấu trúc giả khác như kim cương hoặc hình kèn cho sắp xếp các mẫu trong không gian DCA. Ví dụ:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
Chúng tôi thấy một fanning điển hình trong số các điểm mẫu ở bên trái của cốt truyện.
Quý 4
Tôi muốn đề nghị rằng câu trả lời cho câu hỏi này phụ thuộc vào mục tiêu phân tích của bạn. Nếu vòm / móng ngựa là do một gradient chiếm ưu thế duy nhất, sau đó hơn là phải đại diện này như trục PCA, nó sẽ có lợi nếu chúng ta có thể ước tính một biến duy nhất đại diện cho vị trí của trang web / mẫu dọc theo gradient.m
Điều này sẽ gợi ý tìm hướng phi tuyến trong không gian chiều cao của dữ liệu. Một phương pháp như vậy là đường cong chính của Hastie & Stuezel, nhưng các phương pháp đa tạp phi tuyến tính khác có sẵn có thể đủ.
Ví dụ, đối với một số dữ liệu bệnh lý
Chúng tôi thấy một vành móng ngựa mạnh mẽ. Đường cong chính cố gắng khôi phục độ dốc cơ bản này hoặc sắp xếp / sắp xếp các mẫu thông qua một đường cong trơn tru trong các kích thước m của dữ liệu. Hình dưới đây cho thấy thuật toán lặp hội tụ trên một cái gì đó xấp xỉ độ dốc cơ bản. (Tôi nghĩ rằng nó di chuyển ra khỏi dữ liệu ở đầu lô để gần với dữ liệu hơn ở các chiều cao hơn và một phần do tiêu chí tự thống nhất cho một đường cong được khai báo là đường cong chính.)
Tôi có nhiều chi tiết hơn bao gồm mã trên bài đăng trên blog của tôi từ đó tôi đã chụp những hình ảnh đó. Nhưng điểm chính ở đây là các đường cong chính dễ dàng phục hồi thứ tự các mẫu đã biết trong khi PC1 hoặc PC2 thì không.
Trong trường hợp PCA, người ta thường áp dụng các biến đổi trong sinh thái học. Các phép biến đổi phổ biến là các phép biến đổi có thể được nghĩ là trả về một số khoảng cách không phải là Euclide khi khoảng cách Euclide được tính trên dữ liệu được chuyển đổi. Ví dụ: khoảng cách Hellinger là
DH e l l i n g e r( X 1 , x 2 ) = Σj = 1p[ y1 jy1 +----√- y2 jy2 +----√]2------------------⎷
Trong đó là sự phong phú của loài thứ trong mẫu , là tổng số lượng của tất cả các loài trong mẫu thứ . Nếu chúng ta chuyển đổi dữ liệu thành tỷ lệ và áp dụng chuyển đổi căn bậc hai, thì PCA bảo toàn khoảng cách Euclide sẽ biểu thị khoảng cách Hellinger trong dữ liệu gốc. j i y i + iytôi jjtôiytôi +tôi
Móng ngựa đã được biết đến và nghiên cứu trong một thời gian dài trong sinh thái học; một số tài liệu ban đầu (cộng với một cái nhìn hiện đại hơn) là
Các tham chiếu đường cong chính là
Với trước đây là một trình bày rất sinh thái.