Hiệu ứng hình móng ngựa của người Hồi giáo là gì và / hoặc hiệu ứng vòm của người khác trong phân tích PCA / tương ứng là gì?


20

Có nhiều kỹ thuật trong thống kê sinh thái để phân tích dữ liệu thăm dò dữ liệu đa chiều. Chúng được gọi là kỹ thuật 'phong chức'. Nhiều người giống nhau hoặc liên quan chặt chẽ đến các kỹ thuật phổ biến ở những nơi khác trong thống kê. Có lẽ ví dụ nguyên mẫu sẽ là phân tích thành phần chính (PCA). Các nhà sinh thái học có thể sử dụng PCA và các kỹ thuật liên quan để khám phá 'độ dốc' (Tôi không hoàn toàn rõ ràng độ dốc là gì, nhưng tôi đã đọc một chút về nó.)

Trên trang này , mục cuối cùng trong Phân tích thành phần chính (PCA) có nội dung:

  • PCA có một vấn đề nghiêm trọng đối với dữ liệu thực vật: hiệu ứng móng ngựa. Điều này được gây ra bởi độ cong của sự phân bố loài dọc theo độ dốc. Vì các đường cong phản ứng của loài thường không đồng nhất (nghĩa là đường cong rất mạnh), nên hiệu ứng móng ngựa là phổ biến.

Tiếp tục xuống trang, trong Phân tích tương ứng hoặc Trung bình đối ứng (RA) , nó đề cập đến "hiệu ứng vòm":

  • RA có một vấn đề: hiệu ứng vòm. Nó cũng được gây ra bởi sự phi tuyến của các phân phối dọc theo độ dốc.
  • Vòm không nghiêm trọng như hiệu ứng móng ngựa của PCA, vì các đầu của gradient không bị chập chững.

Ai đó có thể giải thích điều này? Gần đây tôi đã thấy hiện tượng này trong các lô biểu diễn lại dữ liệu trong một không gian chiều thấp hơn (viz., Phân tích tương ứng và phân tích nhân tố).

  1. "Độ dốc" tương ứng với cái gì chung hơn (nghĩa là trong bối cảnh phi sinh thái)?
  2. Nếu điều này xảy ra với dữ liệu của bạn, thì đó có phải là "sự cố" ("sự cố nghiêm trọng") không? Để làm gì?
  3. Làm thế nào một người nên giải thích đầu ra nơi móng ngựa / vòm xuất hiện?
  4. Có một biện pháp khắc phục cần phải được áp dụng? Gì? Biến đổi của dữ liệu gốc sẽ giúp đỡ? Điều gì nếu dữ liệu được xếp hạng thứ tự?

Các câu trả lời có thể tồn tại trong các trang khác trên trang web đó (ví dụ: cho PCA , CADCA ). Tôi đã cố gắng để làm việc thông qua những người. Nhưng các cuộc thảo luận được trình bày theo các thuật ngữ sinh thái đủ lạ lẫm và các ví dụ rằng khó hiểu vấn đề hơn.


1
(+1) Tôi đã tìm thấy một câu trả lời hợp lý rõ ràng tại xuất gia.okstate.edu / PCA.htm . Giải thích "độ cong" trong trích dẫn của bạn là hoàn toàn sai - đó là điều làm cho nó rất khó hiểu.
whuber

2
Xem thêm Diaconis, et al. (2008), Móng ngựa trong phương pháp nhân rộng đa chiều và phương pháp nhân cục bộ , Ann. Táo. Thống kê , tập 2, không 3, 777-807.
Đức hồng y

Tôi đã cố gắng trả lời các câu hỏi của bạn nhưng tôi không chắc mình đã đạt được như thế nào khi thấy tôi là một nhà sinh thái học và độ dốc là cách tôi nghĩ về những điều này.
Phục hồi Monica - G. Simpson

@whuber: Lời giải thích "curvilinearity" được trích dẫn có thể gây nhầm lẫn và không rõ ràng lắm, nhưng tôi không nghĩ nó "hoàn toàn sai". Nếu sự phong phú của loài như là một chức năng của vị trí dọc theo "độ dốc" thực sự (sử dụng một ví dụ từ liên kết của bạn) là tất cả tuyến tính (có thể bị hỏng bởi một số nhiễu), thì đám mây điểm sẽ là (xấp xỉ) 1 chiều và PCA sẽ tìm thấy nó. Đám mây điểm trở nên cong / cong vì các hàm không tuyến tính. Một trường hợp đặc biệt của người Gaussian bị dịch chuyển dẫn đến vành móng ngựa.
amip nói phục hồi Monica

@Amoeba Tuy nhiên, hiệu ứng móng ngựa không xuất phát từ độ cong của độ dốc loài: nó phát sinh từ sự phi tuyến tính trong tỷ lệ phân phối . Các trích dẫn, trong việc quy kết hiệu ứng cho các hình dạng của độ dốc, không xác định chính xác nguyên nhân của hiện tượng.
whuber

Câu trả lời:


19

Q1

Các nhà sinh thái học nói về độ dốc mọi lúc. Có rất nhiều loại độ dốc, nhưng tốt nhất nên nghĩ về chúng như một sự kết hợp của bất kỳ biến nào bạn muốn hoặc quan trọng cho phản hồi. Vì vậy, một gradient có thể là thời gian, hoặc không gian, hoặc độ chua của đất, hoặc chất dinh dưỡng, hoặc thứ gì đó phức tạp hơn, chẳng hạn như sự kết hợp tuyến tính của một loạt các biến được yêu cầu theo cách nào đó.

Chúng ta nói về độ dốc bởi vì chúng ta quan sát các loài trong không gian hoặc thời gian và một loạt các thứ khác nhau với không gian hoặc thời gian đó.

Quý 2

Tôi đã đi đến kết luận rằng trong nhiều trường hợp, móng ngựa trong PCA không phải là vấn đề nghiêm trọng nếu bạn hiểu nó phát sinh như thế nào và đừng làm những điều ngớ ngẩn như lấy PC1 khi "độ dốc" thực sự được đại diện bởi PC1 và PC2 (cũng vậy cũng được chia thành các PC cao hơn, nhưng hy vọng đại diện 2 chiều là ổn).

Trong CA tôi đoán tôi cũng nghĩ như vậy (bây giờ đã bị buộc phải suy nghĩ một chút về nó). Giải pháp có thể tạo thành một vòm khi không có chiều thứ 2 mạnh trong dữ liệu sao cho phiên bản gấp của trục thứ nhất, đáp ứng yêu cầu trực giao của các trục CA, giải thích nhiều "quán tính" hơn so với hướng khác trong dữ liệu. Điều này có thể nghiêm trọng hơn vì đây là cấu trúc được tạo thành trong đó với PCA, vòm chỉ là một cách để thể hiện sự phong phú của các loài tại các vị trí dọc theo một độ dốc trội.

Tôi chưa bao giờ hiểu tại sao mọi người lo lắng rất nhiều về việc đặt hàng sai trên PC1 với vành móng ngựa mạnh mẽ. Tôi sẽ phản bác rằng bạn không nên dùng PC1 trong những trường hợp như vậy, và rồi vấn đề sẽ biến mất; các cặp tọa độ trên PC1 và PC2 thoát khỏi sự đảo ngược trên bất kỳ một trong hai trục đó.

Quý 3

Nếu tôi nhìn thấy vành móng ngựa trong bộ ba PCA, tôi sẽ hiểu dữ liệu là có một độ dốc chi phối hoặc hướng thay đổi.

Nếu tôi nhìn thấy vòm, tôi có thể sẽ kết luận tương tự, nhưng tôi sẽ rất cảnh giác khi cố gắng giải thích trục CA 2.

Tôi sẽ không áp dụng DCA - nó chỉ xoắn vòm (trong trường hợp tốt nhất) sao cho bạn không nhìn thấy sự kỳ lạ trong các ô 2 chiều, nhưng trong nhiều trường hợp, nó tạo ra các cấu trúc giả khác như kim cương hoặc hình kèn cho sắp xếp các mẫu trong không gian DCA. Ví dụ:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

nhập mô tả hình ảnh ở đây

Chúng tôi thấy một fanning điển hình trong số các điểm mẫu ở bên trái của cốt truyện.

Quý 4

Tôi muốn đề nghị rằng câu trả lời cho câu hỏi này phụ thuộc vào mục tiêu phân tích của bạn. Nếu vòm / móng ngựa là do một gradient chiếm ưu thế duy nhất, sau đó hơn là phải đại diện này như trục PCA, nó sẽ có lợi nếu chúng ta có thể ước tính một biến duy nhất đại diện cho vị trí của trang web / mẫu dọc theo gradient.m

Điều này sẽ gợi ý tìm hướng phi tuyến trong không gian chiều cao của dữ liệu. Một phương pháp như vậy là đường cong chính của Hastie & Stuezel, nhưng các phương pháp đa tạp phi tuyến tính khác có sẵn có thể đủ.

Ví dụ, đối với một số dữ liệu bệnh lý

nhập mô tả hình ảnh ở đây

Chúng tôi thấy một vành móng ngựa mạnh mẽ. Đường cong chính cố gắng khôi phục độ dốc cơ bản này hoặc sắp xếp / sắp xếp các mẫu thông qua một đường cong trơn tru trong các kích thước m của dữ liệu. Hình dưới đây cho thấy thuật toán lặp hội tụ trên một cái gì đó xấp xỉ độ dốc cơ bản. (Tôi nghĩ rằng nó di chuyển ra khỏi dữ liệu ở đầu lô để gần với dữ liệu hơn ở các chiều cao hơn và một phần do tiêu chí tự thống nhất cho một đường cong được khai báo là đường cong chính.)

nhập mô tả hình ảnh ở đây

Tôi có nhiều chi tiết hơn bao gồm mã trên bài đăng trên blog của tôi từ đó tôi đã chụp những hình ảnh đó. Nhưng điểm chính ở đây là các đường cong chính dễ dàng phục hồi thứ tự các mẫu đã biết trong khi PC1 hoặc PC2 thì không.

Trong trường hợp PCA, người ta thường áp dụng các biến đổi trong sinh thái học. Các phép biến đổi phổ biến là các phép biến đổi có thể được nghĩ là trả về một số khoảng cách không phải là Euclide khi khoảng cách Euclide được tính trên dữ liệu được chuyển đổi. Ví dụ: khoảng cách Hellinger là

DHetôitôitôinger(x1,x2)= =Σj= =1p[y1jy1+-y2jy2+]2

Trong đó là sự phong phú của loài thứ trong mẫu , là tổng số lượng của tất cả các loài trong mẫu thứ . Nếu chúng ta chuyển đổi dữ liệu thành tỷ lệ và áp dụng chuyển đổi căn bậc hai, thì PCA bảo toàn khoảng cách Euclide sẽ biểu thị khoảng cách Hellinger trong dữ liệu gốc. j i y i + iytôijjtôiytôi+tôi

Móng ngựa đã được biết đến và nghiên cứu trong một thời gian dài trong sinh thái học; một số tài liệu ban đầu (cộng với một cái nhìn hiện đại hơn) là

Các tham chiếu đường cong chính là

Với trước đây là một trình bày rất sinh thái.


Cảm ơn, anh. Xem xét xếp hạng thứ tự 1: 5 từ bộ dữ liệu với các câu hỏi như: "Tôi thích bác sĩ của tôi", & "Tôi cảm thấy như bác sĩ của tôi quan tâm đến tôi như một người". Chúng không được phân phối một cách có ý nghĩa trên cả không gian và thời gian. Điều gì sẽ là 'độ dốc' ở đây?
gung - Phục hồi Monica

W / một bảng 5x5 và N cao, một cách để trực quan hóa dữ liệu là w / CA. Dữ liệu là thứ tự, nhưng CA không nhận ra điều đó; vì vậy chúng ta có thể kiểm tra xem các hàng / cột liền kề có gần nhau hơn các hàng cách xa nhau không. Cả hai tập hợp các điểm rơi dọc theo một đường rõ ràng theo thứ tự thích hợp, nhưng các đường cong sao cho các điểm cực gần nhau hơn so với điểm giữa trong không gian 2D. Làm thế nào mà nên được giải thích?
gung - Phục hồi Monica

CA tìm thấy một thứ tự cho cả hàng (mẫu) và biến (cols) tối đa hóa sự phân tán của "điểm số" mẫu. Nó tìm thấy một biến tiềm ẩn (một tổ hợp tuyến tính của các biến) tối đa hóa sự phân tán đó. Chúng tôi gọi biến tiềm ẩn đó là một gradient.
Phục hồi Monica - G. Simpson

Nén lại, bạn có nghĩa là gần nhau hơn trên trục CA 1 hoặc gần nhau hơn về khoảng cách Euclide trong thang đo của biplot? Dù bằng cách nào, đây thực sự là một vấn đề trong việc chiếu dữ liệu lên một không gian chiều thấp. DCA cố gắng hoàn tác hiệu ứng này bằng cách kéo các mẫu ra ở cuối trục DCA 1 bị tách rời và nén các mẫu gần gốc. Vì vậy, có, đó là một vấn đề, nhưng đó là do tính không linh hoạt của phương pháp để nắm bắt độ dốc bên dưới một cách thích hợp. Chúng ta có thể sống với nó hoặc sử dụng một cách tiếp cận linh hoạt hơn (ít nhất là trong sinh thái học).
Phục hồi Monica - G. Simpson

1
Nếu bạn nhìn vào điều này trong nhiều chiều hơn, vấn đề sẽ biến mất. Tôi nghĩ rằng đây chỉ là một giới hạn của phương pháp; Nó không ổn trong nhiều trường hợp nhưng thất bại ở những người khác.
Phục hồi Monica - G. Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.