Có một thử nghiệm / kỹ thuật / phương pháp để so sánh sự phân hủy thành phần chính giữa các mẫu không?


8

Có cách nào để so sánh phương hướng, cường độ, vv của kết quả PCA đối với các mẫu khác nhau được rút ra từ cùng một quần thể không?

Tôi cố tình bỏ qua bản chất của bài kiểm tra vì tôi muốn nghe tất cả các khả năng khác nhau ... ví dụ: có thể có (và tôi đang suy đoán ở đây) một bài kiểm tra so sánh kích thước của các thành phần chính đầu tiên, hoặc một kiểm tra so sánh hướng của các thành phần chính, hoặc có một số loại đo khoảng cách giữa các kết quả PCA và thống kê kiểm tra cho sự bình đẳng của chúng.

Theo như một trường hợp sử dụng, tôi không có ý định. Chỉ vì tò mò, có thể là một kỹ thuật khám phá.


Bạn có đang tưởng tượng hai bộ mẫu có cùng một không gian (nghĩa là có cùng tính năng) không? Về cơ bản, hai đám mây điểm khác nhau, điều đó có đúng không? Bạn có cho rằng các đám mây có cùng số điểm, hoặc không nhất thiết?
amip

Vâng, xin lỗi, đây là hai mẫu của cùng một dân số. Nếu đó là câu trả lời khác nhau cho các mẫu có kích thước không bằng nhau, tôi muốn biết về nó.
Shadowtalker

Googling với thuật ngữ "phân tích nhân tố đa nhóm" đưa ra rất nhiều liên kết, đó là một khu vực thảo luận rộng (và tôi nghĩ tốt). Nếu tôi nhớ lại chính xác, thậm chí còn có một số phần mềm chuyên dụng
Gottfried Helms

Câu trả lời:


6

Vì vậy, như xa như tôi hiểu, bạn hãy tưởng tượng rằng bạn có hai đám mây mỗi điểm, trong một không gian ba chiều; bạn làm PCA riêng trên từng đám mây và sau đó muốn so sánh kết quả PCA giữa các đám mây và để kiểm tra sự khác biệt đáng kể trong một số tính năng PCA quan trọng hơn.nd

Tôi không nghĩ có bất kỳ bài kiểm tra tiêu chuẩn nào cho mục đích này. Đối với bất kỳ câu hỏi cụ thể nào, người ta có thể đưa ra một số phương pháp hoặc bài kiểm tra, nhưng câu hỏi của bạn hơi quá rộng để cố gắng đưa ra bất kỳ bài kiểm tra nào có thể.

Tuy nhiên, một cách tiếp cận chung mà bạn nghĩ đến là sử dụng các bài kiểm tra hoán vị. Giả sử, bạn muốn kiểm tra xem PC1 trong cả hai bộ mẫu ("đám mây") có khác nhau không. Bạn có thể tính góc giữa chúng. Sau đó, bạn gộp tất cả điểm lại với nhau trong một đám mây lớn, chia ngẫu nhiên nó thành hai đám mây có kích thước (thường được gọi là "xáo trộn các nhãn"), chạy hai PCA và tính toán giữa hai PC1. Việc phân chia ngẫu nhiên có thể được thực hiện nhiều lần (giả sử lần), dẫn đến phân phối mong đợi theo giả thuyết không có sự khác biệt giữa các đám mây. Sau đó, bạn chỉ cần so sánh thực tế của mình với bản phân phối này và nhận đượcθ2nnθ10000θθp-giá trị.

Cách tiếp cận tương tự có thể được sử dụng để so sánh ví dụ giá trị bản địa lớn nhất. Hoặc giá trị riêng nhỏ nhất. Hoặc thực sự gần như bất cứ điều gì bạn muốn so sánh.

Ngoài ra, nếu bạn muốn có một thống kê kiểm tra về "sự bình đẳng của kết quả PCA", thì có lẽ bạn chỉ nên sử dụng một bài kiểm tra so sánh hai ma trận hiệp phương sai (không thực hiện bất kỳ PCA nào). Ví dụ: Thử nghiệm M của Box (là một khái quát đa biến của thử nghiệm Bartlett cho sự bình đẳng của phương sai).


+1 rằng có thể có ý nghĩa hơn khi so sánh trực tiếp các ma trận hiệp phương sai
Andrew M

1
Đọc lại câu trả lời của bạn, tôi nhận ra rằng góc trung bình giữa các trục chính của correpsondjng có lẽ giống như những gì tôi đã làm sau đó.
Shadowtalker

1

giả sử bạn có mẫu set2 1 và 2 và bạn đã tìm thấy các thành phần nguyên tắc 1 đến thứ n của chúng có thể vạch ra 90% thông tin (n có thể khác nhau cho cả hai và 90 là tùy ý).

Bạn có thể tính toán lượng thông tin trong set1 có thể được giữ lại sau khi ánh xạ tới không gian thành phần chính của chúng và ngược lại. Đặt ngưỡng cho số lượng thông tin bạn sẵn sàng mất trước khi tuyên bố bộ mới đủ khác biệt để xứng đáng với các thành phần nguyên tắc của chính nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.