Sử dụng phân tích thành phần chính so với phân tích tương ứng


9

Tôi đang phân tích một bộ dữ liệu liên quan đến các cộng đồng liên triều. Các dữ liệu là phần trăm bao gồm (của rong biển, xà cừ, trai, v.v.) trong tứ giác. Tôi đã từng nghĩ về phân tích tương ứng (CA) về mặt số lượng loài và phân tích thành phần nguyên tắc (PCA) như một cái gì đó hữu ích hơn cho xu hướng môi trường tuyến tính (không phải loài). Tôi thực sự không có bất kỳ may mắn nào để tìm hiểu xem PCA hay CA sẽ phù hợp hơn với tỷ lệ phần trăm (không thể tìm thấy bất kỳ giấy tờ nào) và tôi thậm chí không chắc chắn làm thế nào một cái gì đó được giới hạn tới 100% sẽ được phân phối ?

Tôi quen thuộc với hướng dẫn sơ bộ rằng nếu độ dài của trục phân tích tương ứng tách rời đầu tiên (DCA) lớn hơn 2, thì bạn có thể giả định rằng nên sử dụng CA một cách an toàn. Độ dài của trục DCA 1 là 2,17, mà tôi không thấy hữu ích.


3
Cả PCA và CA đều có liên quan và cả hai đều có thể dựa trên thuật toán SVD. Sự khác biệt chính thức cơ bản (không được đề cập trong câu trả lời sâu sắc của @ Gavin) là PCA chỉ phân tách quan hệ giữa các cột (ví dụ: bằng cách phân tách ma trận hiệp phương sai của chúng), coi các hàng là "trường hợp"; trong khi CA phân tách các cột và hàng đồng thời, xử lý chúng một cách đối xứng, như các "danh mục" bảng chéo. Do đó, biplot còn lại bởi CA và quipl-biplot (tải + điểm) có thể được vẽ sau khi PCA cung cấp thông tin khá khác nhau về mặt khái niệm.
ttnphns

Câu trả lời:


9

PCA hoạt động trên các giá trị trong đó CA hoạt động trên các giá trị tương đối. Cả hai đều tốt cho dữ liệu phong phú tương đối của loại bạn đề cập (với một cảnh báo chính, xem sau). Với% dữ liệu bạn đã có một thước đo tương đối, nhưng vẫn sẽ có sự khác biệt. Tự hỏi mình đi

  • Bạn có muốn nhấn mạnh mô hình trong các loài / loài phong phú (tức là những loài có tỷ lệ che phủ lớn), hoặc
  • Bạn có muốn tập trung vào các mẫu của thành phần tương đối?

Nếu trước đây, sử dụng PCA. Nếu sau này sử dụng CA. Ý tôi là hai câu hỏi là bạn muốn

A = {50, 20, 10}
B = { 5,  2,  1}

được coi là khác nhau hay giống nhau? ABlà hai mẫu và các giá trị là% bao gồm ba đơn vị phân loại được hiển thị. (Ví dụ này hóa ra kém, giả sử có mặt đất trống! ;-) PCA sẽ xem xét những điều này rất khác nhau vì khoảng cách Euclide được sử dụng, nhưng CA sẽ coi hai mẫu này là rất giống nhau vì có cùng cấu hình tương đối.

Sự cảnh báo lớn ở đây là tính chất cấu thành khép kín của dữ liệu. Nếu bạn có một vài nhóm (Sand, Silt, Clay chẳng hạn) có tổng bằng 1 (100%) thì không có cách tiếp cận nào là đúng và bạn có thể chuyển sang phân tích phù hợp hơn thông qua PCA tỷ lệ log của Aitchison được thiết kế cho thành phần đóng dữ liệu. (IIRC để thực hiện việc này, bạn cần căn giữa các hàng cột và ghi nhật ký chuyển đổi dữ liệu.) Cũng có các cách tiếp cận khác. Nếu bạn sử dụng R, sau đó một cuốn sách mà sẽ có ích được phân tích thành phần dữ liệu với R .


Như mọi khi, một câu trả lời thực sự xuất sắc. Cảm ơn bạn! Điều đó làm rõ mọi thứ rất nhiều và sau đó tôi sẽ sử dụng PCA. Cho rằng cộng đồng liên triều là 3 chiều, phần trăm phần trăm thực sự đã đi 100% trong một số trường hợp khi các sinh vật phát triển lẫn nhau. Đây không phải là hình thức sáng tác khép kín mà bạn đang nói đến, phải không?
HFBrown

Không, đó không phải là những gì anh ấy đang nói. Khi đóng cửa, tôi tin rằng anh ta có nghĩa là một hệ thống trong đó có ba loài A, B, C, bạn có% C = 100% -% B -% A
Pertinax

và DCA thì sao?
Darwin PC

DCA là phiên bản lộn xộn của CA nên các nguyên tắc chung tương tự áp dụng cho nó. DCA đang thực hiện một số tra tấn dữ liệu kỳ lạ và tôi không nghĩ rằng chúng ta cần phải bận tâm với nó như là một phương pháp trong hộp công cụ của chúng ta ngày hôm nay, nhưng ý kiến ​​của những người khác sẽ thay đổi về điều đó.
Gavin Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.